¿Qué son los metadatos?
El término metadatos está en auge desde hace unos años. Hoy en día, miles de millones de personas utilizan dispositivos electrónicos a nivel mundial. Por ello, se generan ingentes cantidades de metadatos. De ahí surge el término “ciudadano transparente”, que describe el riesgo para la seguridad que conlleva ese intercambio masivo de datos.
La inteligencia artificial permite analizar los metadatos para predecir el comportamiento de las personas. Esto supone una gran amenaza para la privacidad de las personas y para la democracia misma. Sin embargo, los metadatos en sí mismos no son malos. En este artículo explicamos a qué se refiere el término metadato.
¿Cuál es la diferencia entre metadatos y datos?
Metadatos: el término se refiere a la información que complementa los datos propiamente dichos. A menudo, los metadatos proporcionan detalles sobre el contexto del contenido a mayores o dan indicaciones sobre cómo manejar los datos. De este modo, los metadatos desempeñan un papel importante tanto en la informática como en la computación de datos convencional (por ejemplo, los catálogos de las bibliotecas o el servicio de correos).
Para familiarizarnos con el término metadatos, veamos un ejemplo sencillo: enviamos una carta por correo. En este caso, la carta que contiene el sobre conforma los datos reales y primarios. Son datos privados y están protegidos del acceso de terceras personas por la ley: se les aplica el secreto de la correspondencia.
En el sobre se encuentran los metadatos de la carta. Se trata de datos adicionales que acompañan a los datos primarios:
- Dirección del remitente
- Sello postal
- Si es necesario, otras marcas de identificación, como los códigos de barras
Como puedes ver, estos datos son los que en primer lugar hacen posible el envío de la carta. Los metadatos de la carta fácilmente pueden ser vistos por cualquier persona ajena, por lo que no están especialmente protegidos por el secreto de la correspondencia, aunque sí se les aplica el secreto postal.
¿Qué peligro suponen los metadatos? No es un peligro que se pueda leer unos metadatos individuales. Por ejemplo, el hecho de que personas terceras tengan acceso a los datos de un sobre individual no suele ser motivo de preocupación. Sin embargo, no es el mismo caso a mayor escala, pues se trata de un almacenamiento y análisis masivo. Es entonces cuando surgen patrones que revelan mucho acerca del comportamiento de una persona: ¿quién se ha comunicado con quién y cuándo? Así consiguen identificar las redes y las cadenas de comunicación.
Hay una vaga distinción entre datos y metadatos. La distinción depende del contexto y de la perspectiva que se adopte. Veamos otro ejemplo. Un libro contiene datos primarios, como el título y contenido del libro, pero, por otra parte, cuenta con un conjunto de metadatos para su publicación:
- Autor
- Editorial
- Fecha y lugar de publicación
- Edición
- ISBN
Imaginemos que se recogen en una base de datos los metadatos de muchas publicaciones. Respecto a dicha base de datos, la información de las publicaciones serían datos primarios. Además, habría un nuevo conjunto de metadatos para cada publicación. Por ejemplo, la base de datos podría almacenar cuándo se añadió cada publicación y por qué usuario.
¿Qué tipos de metadatos existen y cómo se utilizan?
Los metadatos aparecen en todos los ámbitos del almacenamiento y procesado de datos. El uso que se les da a los metadatos no es único. Mencionamos aquí tres grandes áreas de uso:
1. Dar contexto a la información.
Los metadatos suelen describir el proceso de creación de la información. Piensa, por ejemplo, en las coordenadas geográficas con las que se etiquetan las fotografías digitales. El contexto, una vez perdido, no puede reconstruirse y, por tanto, se almacena.
2. Mantener accesible información que, de otro modo, tendría que ser calculada suponiendo un gasto excesivo de recursos del sistema.
Piensa en el tiempo de reproducción de un vídeo. Se incluye como un dato de tiempo en el archivo del vídeo. Si este metadato no se guardara habría que calcularlo. Se podría contar el número de fotogramas y dividirlo por los FPS (número de fotogramas por segundo), lo que consumiría muchos recursos.
3. Interconectar la información para que sea más fácil encontrarla y buscarla.
En este caso, se intenta complementar la información destinada para los humanos con datos legibles para las máquinas. El objetivo es interconectar la información mediante procesos automatizados. En particular, se suelen utilizar datos estructurados, que, cuando se enlazan, forman una “Semantic Web”.
Metadatos que describen las imágenes digitales
Las imágenes tomadas con cámaras digitales y smartphones contienen una gran variedad de metadatos. Por una parte, están los datos técnicos, como las dimensiones de la imagen, la cámara utilizada, la distancia focal, etc. Esta información viene dada en los metadatos EXIF-Standard y es la cámara la que los genera automáticamente. Por otra parte, están los metadatos IPTC-Standard, que describen el contenido de la foto y son introducidos por el usuario.
Standard | Metadatos de la imagen | Creación |
---|---|---|
EXIF | Información de la imagen, como dimensiones, gama de color, canales de color, etc.; información fotográfica, como el tiempo de exposición, apertura de diafragma, sensibilidad ISO, etc. | Automática durante la captura |
IPTC | Palabras clave, derechos de autor, indicaciones de lugar y fecha, descripciones de contenido, etc. | Manual por el usuario |
Hay que tener cuidado al compartir imágenes digitales: los metadatos de las fotos en determinadas circunstancias pueden revelar información privada sobre el autor. Muchas aplicaciones y redes sociales eliminan automáticamente los metadatos de las imágenes cuando se suben. De todos modos, no hay que confiarse. En situaciones delicadas, es mejor utilizar una herramienta especializada en borrar la información de las imágenes.
Metadatos contenidos en los vídeos digitales
Un archivo de vídeo suele estar constituido por un contenedor que alberga diversos datos. Los datos primarios del archivo de vídeo son el contenido de vídeo y audio codificado. Y también hay otros metadatos:
- Duración del vídeo
- Velocidad de datos y dimensiones del vídeo
- Información sobre el códec de audio y vídeo utilizado
- Subtítulos, en algunos casos, en diferentes idiomas
Metadatos asignados a archivos
Un archivo en un sistema digital consta de dos datos principales: el contenido del archivo y su nombre. Además, cada archivo tiene un conjunto de metadatos asociados. Los metadatos de los archivos son gestionados por el sistema operativo y también se conocen como “atributos de archivos”. A continuación, se muestra un resumen de los metadatos de archivos más comunes:
Metadatos de archivos | Definición |
---|---|
Temporal | Cuando se crea, modifica y abre por última vez |
Ubicación | Ruta del archivo en el sistema de archivos |
Propiedad | Propietario y grupo |
Permisos de los archivos | Leer, escribir, ejecutar; para el propietario, el grupo y otros |
Además de los atributos de los archivos, algunos tipos de archivos incluyen metadatos específicos. Estos son gestionados por el programa de aplicación correspondiente. Incluso con estos tipos de metadatos existe el riesgo de revelar información confidencial al transmitirlos.
Metadatos generados al enviar un correo electrónico
Un correo electrónico consta, de forma análoga a la clásica carta postal, de dos componentes principales:
- Cuerpo del correo electrónico
- Cabecera del correo electrónico
El cuerpo contiene el mensaje a transmitir, que corresponde a la carta que se introduce en el sobre. La cabecera contiene las direcciones del remitente y del destinatario, que desempeña la misma función que el sobre. En la cabecera, al igual que en el sobre, pueden falsificarse fácilmente algunos datos. De esta manera le puede parecer al destinatario que el correo electrónico proviene de otro remitente. Un truco utilizado a menudo para hacer spoofing (ataques de suplantación de identidad).
La cabecera del correo electrónico suele contener muchos más metadatos. Entre otros, se encuentran los siguientes:
- Varias indicaciones de tiempo
- Información sobre el formato y cifrado del mensaje
- Estaciones por las que pasó el correo electrónico durante la transmisión
- Clasificación del correo electrónico por parte de los filtros de spam
- Información sobre si el correo electrónico fue analizado por un antivirus
Los metadatos de la cabecera del correo electrónico son escritos por el software del servidor y leídos por los programas de aplicación. La información generada en el proceso revela mucho sobre un correo electrónico y el camino que ha seguido a través de Internet. Entre otras cosas, permite hacer valoraciones sobre la autenticidad y la confidencialidad de un correo electrónico. Además, la cabecera puede contener el nombre del usuario al que le pertenece el dispositivo y revelar la ubicación desde la que se envió el correo electrónico.
Metadatos generados al visitar una página web
Una visita a un sitio web es, desde el punto de vista técnico, una lectura de un documento HTML. El navegador del usuario busca el documento en un servidor con la dirección especificada. Para ello se utiliza el protocolo HTTP o HTTPS.
Además del documento HTML propiamente dicho, que se muestra en el navegador, se transmiten metadatos denominados cabeceras HTTP. Las cabeceras HTTP son similares a las cabeceras de los correos electrónicos. Contienen información sobre el cifrado, la transmisión, la encriptación y la compresión de la conexión HTTP.
Además, durante la transferencia se generan metadatos que se almacenan en el servidor. Esto incluye los archivos de registro en los que se registran los accesos al servidor y que son necesarios para analizar el archivo de registro. Se escribe una línea nueva en el archivo de registro por cada acceso. Por otra parte, el navegador suele enviar otras consultas al servidor DNS. Estas consultas también generan metadatos y, si es necesario, son almacenados y analizados por el operador del servidor.
Aunque suene confuso, además de la ya mencionada cabecera HTTP, también existe la cabecera HTML. Mientras que el primero se refiere a la conexión, el segundo contiene metadatos que describen el contenido del documento. Este es un ejemplo de respuesta del servidor HTTP. Las primeras líneas son la cabecera HTTP. A continuación, el código fuente HTML con elementos de cabecera y cuerpo HTML:
HTTP/1.1 200 OK
Date: Mon, 01 Feb 2021 12:13:34 GMT
Content-Type: text/html; charset=UTF-8
Content-Length: 148
Last-Modified: Wed, 08 Jan 2003 23:11:55 GMT
Server: Apache/1.3.3.7 (Unix) (Red-Hat/Linux)
Accept-Ranges: bytes
Connection: close
<html>
<head>
<title>Página de ejemplo </title>
</head>
<body>
<p>El texto legible para el usuario se encuentra en el cuerpo del documento </p>
</body>
</html>
Importancia de los metadatos de páginas web para el marketing online y la optimización de los motores de búsqueda
En esta sección, nos centramos en los metadatos que se encuentran en un documento HTML. No incluimos los metadatos HTTP ya mencionados, como pueden ser los metadatos de los archivos de registro. Los metadatos HTML se introducen, por lo general, en la cabecera del documento.
Muchos de los elementos utilizados en la cabecera HTML facilitan la optimización de los motores de búsqueda. Los bots de los motores de búsqueda exploran el contenido de un documento HTML y extraen e indexan la parte del cuerpo del HTML legible para el usuario. Además, hay metadatos específicos pensados exclusivamente para los bots. A continuación, distinguimos entre las variantes “clásicas” y “modernas”.
Metadatos de páginas web con la variante clásica de cabecera HTML
En el título de la variante clásica de la cabecera HTML se encuentran un montón de meta tags fundamentales. El usuario ve el título en un formato diferente. Suele mostrarse cerca del marcapáginas o el cabecero del navegador. El resto de '<meta>' etiquetas clásicas solo se usan para la optimización de los motores de búsqueda. He aquí una tabla con los elementos de variante clásica más importantes de la cabecera HTML:
Etiqueta | Descripción | Importancia |
---|---|---|
<title> | Título del documento, aparece en los resultados de una búsqueda | Crítica |
<meta name="description"> | Descripción del documento, aparece en los resultados de una búsqueda | Crítica |
<meta name="keywords"> | Palabras clave del documento, no aparecen en los resultados de una búsqueda | Baja |
<meta name="robots"> | Instrucciones para los bots de los motores de búsqueda sobre como procesar el documento | Crítica |
Metadatos de páginas web con la variante moderna de la cabecera HTML
Además de los elementos clásicos de la cabecera HTML, hoy en día se utilizan muchos otros elementos para introducir metadatos en una página web. Los operadores de motores de búsqueda y las grandes empresas tecnológicas definen constantemente nuevos metadatos. Los elementos '' y '<link>' son ideales para ellos, ya que son ampliables. He aquí una tabla de los elementos de la variante moderna más usados en las páginas web:
Etiqueta | Descripción | Importancia |
<link rel="canonical"> | Enlace canónico para evitar contenido duplicado | Crítica, en caso de haber contenido duplicado |
<link rel="alternate" hreflang="de"> | Especifica versiones del mismo documento en otros idiomas a través de hreflang | Opcional |
<meta property="og:…"> | Open Graph para publicar en las redes sociales | Opcional |
Para el elemento '<meta>', se usa el atributo 'name' para especificar el tipo de metadato. Para el elemento '<link>', se usa el atributo 'rel' de igual manera. Dependiendo de la norma estandarizada de metadatos que se usa, se pueden encontrar notaciones diferentes para el elemento '<meta>'. Son estas:
Notación | Norma estandarizada de Metadatos |
---|---|
<meta name=""> | HTML5 |
<meta property=""> | RDFa |
<meta itemprop=""> | HTML Microdata |
Metadatos de páginas web definidos con Open Graph
Open Graph es un protocolo desarrollado por Google para enriquecer un documento web con metadatos. Los datos de Open Graph proporcionan información que se muestra a modo de visión general cuando se comparte el documento en las redes sociales. De este modo, se pueden definir imágenes, títulos y textos descriptivos optimizados. Esto tiene sentido, ya que, dependiendo de la plataforma, se aplican restricciones específicas en cuanto a la longitud del texto, las dimensiones de las imágenes, etc. El protocolo es muy utilizado por Facebook y Twitter. Aquí tienes un resumen de los metadatos esenciales de Open Graph:
Metadatos de Open Graph | Explicación |
---|---|
<meta property="og:title"> | Título del objeto |
<meta property="og:type"> | El tipo de objeto, por ejemplo, imagen, documento web, vídeo, etc. |
<meta property="og:image"> | Una imagen que representa el objeto |
<meta property="og:url"> | La URL canónica del objeto |
Si encuentras errores al compartir tu contenido web en Facebook, el problema suele estar relacionado con una entrada incorrecta de Open Graph. En este caso, a veces ayuda un truco sencillo: entrar en tu cuenta de Facebook y utilizar Sharing Debugger. Esto le dirá a Facebook que vuelva a leer la información de Open Graph.
Metadatos de páginas web definidos con rich cards
Además de Open Graph, las rich cards son otro formato de visualización de metadatos desarrollado por Google. Las rich cards enriquecen un documento web con metadatos. Con ellas se puede completar, por ejemplo, la página web de un restaurante con información sobre su ubicación geográfica, precios, horarios de apertura, etc. La información de las rich cards pueden ubicarse en la cabecera HTML o en el cuerpo HTML.
Técnicamente, las rich cards se obtienen del estándar de metadatos schema.org. Se utilizan varios formatos para enmarcar los metadatos. Además de los estándares más antiguos RDFa y Microdata, actualmente se usa sobre todo JSON-LD. El uso de JSON-LD está oficialmente recomendado por Google.