🔍 FUENTES DE DATOS – METADATOS

Los metadatos son el "rastro oculto" de toda actividad digital. No son el contenido, sino las huellas contextuales que permiten responder al cuándo, dónde, cómo y con qué se creó, modificó o transmitió una información. En una investigación, los metadatos son el ADN de los eventos.

🗂️ 1. Metadatos de Archivos

Cada archivo contiene múltiples capas de información invisible al ojo humano común:

Timestamps (MAC times):
- Modified: última vez editado.
- Accessed: última vez abierto.
- Created: fecha de creación.
Atributos del sistema:
- Solo lectura, oculto, de sistema, comprimido, cifrado…
ACLs (Listas de control de acceso):
- Define quién puede hacer qué con el archivo.
Metadatos extendidos:
- Autor, empresa, título, palabras clave, etiquetas…
- Muy comunes en documentos de Word, PDF y multimedia.

🎯 En caza de amenazas:

Revelan si un archivo fue creado por el atacante o descargado.
Permiten trazar la línea de tiempo de la actividad.
Ayudan a detectar ataques internos, al ver quién accedió a qué y cuándo.

🔎 Herramientas clave: exiftool, MFTECmd, FTK Imager, Log2Timeline.

📸 2. Metadatos en Archivos Multimedia

Fotos y vídeos capturados por dispositivos suelen incluir:

GPS: localización exacta.
Marca de tiempo: cuándo se capturó.
Modelo de cámara/teléfono: qué dispositivo se usó.
Software de edición usado.

🎯 En análisis forense:

Útiles para comprobar la autenticidad de pruebas.
Ver si la imagen fue editada, clonada, o subida desde un lugar inesperado.
También usados por atacantes sin saberlo (opsec fallida).

🌐 3. Metadatos Web (HTTP Headers)

Cada petición y respuesta HTTP lleva encabezados que contienen:

User-Agent: tipo de navegador/sistema operativo.
Host, Referer, Origin: procedencia de la petición.
Cookies: sesiones activas, tokens, rastros de autenticación.
Authorization: si el usuario está autenticado o no.
Content-Type: define si es HTML, JSON, binary…

🎯 En hunting y respuesta a incidentes:

Permiten detectar actividad anómala desde navegadores automatizados (curl, wget, scripts maliciosos).
Revelan intentos de acceso no autorizados, suplantaciones o exfiltración.

🔎 Herramientas clave: Burp Suite, Fiddler, Wireshark, navegador con Developer Tools (F12 → Network).

📧 4. Metadatos en Correos Electrónicos (Email Headers)

Los headers de los correos son minas de oro de información:

Received: lista cronológica de los servidores por los que ha pasado.
Return-Path y Reply-To: direcciones reales del emisor.
SPF, DKIM, DMARC: verificación de autenticidad del dominio remitente.
X-Headers: información añadida por herramientas de antispam/antiphishing.
Message-ID: identificador único del mensaje.

🎯 En hunting:

Se detectan spoofings, ataques de phishing y campañas de malware.
Puedes rastrear el servidor comprometido, el punto de entrada y el método usado.

🔎 Herramientas clave:

MXToolbox Analyzer
Microsoft Message Analyzer
Google Admin Toolbox

📁 Ejemplo real:

Un atacante filtra información confidencial en un PDF y lo sube a Dropbox.

Metadatos clave para cazarlo:

El PDF tiene como autor J.Rodriguez, fue creado a las 02:13 a.m.
La metadata GPS de un .jpg adjunto revela que fue capturada en el despacho de I+D.
El header HTTP de subida contiene un User-Agent Python/3.11, no un navegador.
El log de correo muestra que se envió desde un cliente no autorizado, con X-Mailer: Thunderbird 2.0.

Resultado:
🚨 Se detecta que un empleado interno filtró datos usando un script de Python vía Dropbox API, fuera del horario laboral.

🎯🔥 METADATATRAIL – HUNTING AVANZADO A PARTIR DE METADATOS

🧠 1. ¿Por qué los metadatos son clave en caza avanzada?

Los metadatos:

No mienten. Aunque se borre el contenido, el contexto persiste.
Revelan cronología, fuentes, movimientos, herramientas y errores del atacante.
Permiten atribuir, detectar persistencia, identificar rutas de exfiltración y vulnerabilidades explotadas.

🕵️‍♀️ 2. Curiosidades que delatan a los atacantes

Error del atacante: Lo que revela - Detección posible

No limpia los metadatos: EXIF de fotos - Geolocalización, modelo del móvil, nombre del usuario exiftool
Script automatizado con Python: User-Agent Python/3.x, timestamps exactos, subida en lote - Header HTTP
Reenvía correos usando cliente no corporativo: X-Mailer, Return-Path distinto al dominio - Headers de email
Sube documentos sin anonimizar: Word: nombre del autor, empresa, historial de revisiones - Office metadata
Carga malware renombrado: Atributos NTFS y timestamps incoherentes - $MFT + MACB

🧰 3. Herramientas para metadatos (nivel Threat Hunter)

🖼️ exiftool: analiza todos los metadatos de imágenes, PDF, Office, etc.
🧬 MFTECmd: extrae información del $MFT en NTFS: creación, modificación, atributos alternos.
🐾 Log2Timeline + Plaso: genera una línea de tiempo completa a partir de metadatos de archivo, sistema y red.
📧 Google Message Header Analyzer / MXToolbox: inspección visual de cabeceras de correos.
🔎 Wireshark + filtros de capa 7: inspecciona headers HTTP, TCP y DNS en tráfico.

📌 4. Técnicas avanzadas de Threat Hunting con metadatos

A. 🧬 MACB Timeline Hunting

Compara las marcas de tiempo MACB (Modificado, Accedido, Cambiado, Creado) entre múltiples archivos para identificar:

Archivos manipulados fuera de horario
Herramientas ejecutadas (por su patrón de creación)
Transferencias inusuales

B. 🔓 Header Fingerprinting

Analiza patrones raros en User-Agent, Content-Type o Accept-Encoding para detectar:

Navegadores headless (phantomjs, curl, python-requests)
Actividad de bots que escanean o fuerzan endpoints

C. 💣 Análisis cruzado de metadatos de Office + SIEM

Correlaciona un documento de Word o PDF recibido por correo con:

Hora en la que fue abierto (registro de sistema)
Usuario que lo ejecutó (registro de seguridad)
Resultado del antivirus (EDR)

🔍 Resultado: se descubre si el ataque fue dirigido o masivo, si se abrió el archivo, si se ejecutó una macro, y si logró establecer C2.

D. 📧 Email Path Attribution

Se reconstruye el camino completo de un email malicioso inspeccionando:

Received headers
IPs de envío y su reputación
Fallos en SPF, DKIM, DMARC

Permite identificar campañas de spear phishing, spoofing y servidores zombis.

💥 5. Casos de uso reales (para practicar)

"El exfiltrador silencioso"
Un insider filtra planos en un PDF. Los metadatos muestran:
- Autor: usuario interno
- Fecha de creación: después de su salida laboral
- Herramienta usada: LibreOffice (no aprobada en la empresa)
"El atacante que se sacó una selfie sin querer"
Un atacante sube un .jpg a una web hackeada. Los EXIF revelan:
- GPS: ubicación exacta
- Dispositivo: iPhone 13 Pro
- Nombre de usuario: CarlosR
"El malware camuflado como Excel"
Se detecta una hoja de cálculo .xlsm enviada por correo. Análisis muestra:
- X-Mailer: Outlook 2007 (incongruente con 2025)
- Macros firmadas por entidad falsa
- Office metadata: "Generated by Empire"

🔥 6. Red Flags (Alertas por metadatos)

Archivos con timestamps alterados para ocultar actividad
Documentos con autor "John", "Admin" o cadenas comunes de malware builders
Correos donde el SPF/DKIM falla pero llegan igual
Headers HTTP sin Referer (típico de scripts)
Content-Type: application/octet-stream sin justificación

CURIOSIDADES AVANZADAS SOBRE METADATOS PARA UNA CAZA DE AMENAZAS INTEGRAL

1. Los metadatos pueden sobrevivir al cifrado

Aunque un archivo esté cifrado (por ejemplo, .docx protegido por contraseña), los metadatos NO siempre se cifran.

.zip: lista de archivos y fechas visibles.
.docx y .xlsx: es un contenedor XML comprimido → document.xml y core.xml siguen mostrando autor, fecha, revisiones.
📌 Ataque típico: extraer metadatos de documentos cifrados robados para conocer autores, herramientas y versiones internas.

2. Todo archivo tiene un patrón temporal único (temporal fingerprint)

En sistemas NTFS, los metadatos MACB (Modified, Accessed, Changed, Birth) no cambian a la vez salvo que haya sido:

Extraído con WinRAR (solo modifica "Accessed")
Copiado desde USB (resetea "Birth")
Alterado a mano con herramientas como Timestomp o SetMace

👉 Puedes detectar manipulación de archivos por inconsistencias en la línea de tiempo.
Ejemplo: Un archivo "creado" después de haber sido "modificado" = 🚩

3. Los logs también tienen metadatos... y los atacantes lo saben

Los logs en JSON o syslog incluyen campos como @timestamp, source_ip, hostname, tags, log_level, uuid, etc.
A veces se pueden "confundir" con logs reales y plantar registros falsos que parezcan legítimos.

🧨 Ejemplo de ataque: Un atacante con acceso al sistema inyecta entradas de log falsas en /var/log/auth.log para cubrir sus huellas.
🎯 Mitigación: Comparar logs con hash almacenado (WORM - Write Once Read Many) o en sistemas SIEM con checksum.

4. Los DNS y los certificados SSL también tienen metadatos explotables

Un certificado TLS contiene:
- Fecha de creación
- Nombre de la entidad emisora (CA)
- País, región, correo electrónico
- Algoritmo (¿está usando SHA1? 🚩)
Los registros DNS TXT pueden revelar:
- Tecnología usada (Office365, Google, etc.)
- Correos de administración
- Validaciones externas
- Tokens de verificación

🔍 Uso para hunting:
→ Si analizas dominios sospechosos, revisa los metadatos de sus certificados con crt.sh y su DNS con dig, nslookup o securitytrails.

5. Metadatos de las conexiones de red: el oro del hunter

Incluso sin payload, el header TCP/IP revela:

TTL (tiempo de vida) → delata el sistema operativo
DF (Don't Fragment) flag → fingerprint de herramienta usada
Window Size → fingerprint del navegador o sistema
Puertos de origen → ¿está usando puertos altos para ocultarse?

🧠 Ejemplo: Si ves un User-Agent de Firefox pero el fingerprint TCP/IP corresponde a curl, probablemente sea una falsificación.

6. Los metadatos en PowerShell y comandos shell

Cada vez que ejecutas PowerShell o bash:

El sistema registra:
- Comando
- Usuario
- Timestamp
- Línea de ejecución completa (en algunos casos)
Pero... los atacantes usan:
- Invoke-Expression o iex para ofuscar
- echo + base64 + | bash para evitar registros claros

🧠 Curiosidad: PowerShell v5.0 introdujo script block logging y transcription logs, pero muchos SIEM no los recolectan por defecto.

📌 Mitigación: Asegúrate de que los logs de bloques de scripts estén activados y que se envíen a tu SIEM para correlación.

7. Los metadatos de las herramientas forenses también pueden contaminar

⚠️ Los analistas pueden contaminar un sistema con herramientas que generan archivos temporales, logs o procesos visibles:

FTK Imager puede dejar entradas en el registro.
Autopsy guarda hashes de búsqueda.
Volatility puede dejar artefactos si no se ejecuta en entorno aislado.

✅ Recomendación: Siempre analizar en máquinas dedicadas o entornos air-gapped.

8. Metadatos invisibles en PDFs (los más traicioneros)

Los PDFs pueden incluir:

Javascript oculto
Rutas absolutas a archivos locales
URLs incrustadas
Versiones de Acrobat usadas
Formularios activos con tracking

🛠 Herramientas como pdfid.py, pdf-parser.py o Peepdf permiten analizar y extraer toda la metadata + scripts ocultos.

9. Los metadatos pueden revelar errores humanos internos

Casos reales:

Documento con "confidencial" como marca de agua y autor soporteinterno@empresa.local
Nombre del archivo: "revisión_final_sin_firma_para_enviar_definitiva_ahora_SI.pptx"
Documento filtrado en PDF con comentarios internos visibles en el XML del PDF

🤯 Conclusión: no necesitas el contenido, los metadatos hablan más de lo que imaginas.

🛡️ ¿Qué puedes hacer con esta visión?

Como analista, revisar todos los elementos ocultos aunque no haya payload visible.
Como hunter, correlacionar eventos desde lo invisible: nombres, timestamps, headers, cadenas repetidas.
Como arquitecta, crear sistemas de detección de "anomalías metadatos" (¡esto es innovación en SIEM!).
Como líder Purple, enseñar a tu equipo que el contexto SIEMPRE es clave, incluso cuando no hay alerta.