🧠💥 Vulnerabilidades en Inteligencia Artificial

AI Security Risks & Attack Surfaces

1. 📌 ¿Por qué son importantes las vulnerabilidades en IA?

Los sistemas de IA se integran cada vez más en decisiones críticas (finanzas, salud, seguridad, defensa).
A diferencia de sistemas tradicionales, la IA puede ser influenciada desde dentro (datos), no solo desde fuera.
La IA no se programa: se entrena, lo que abre nuevas superficies de ataque que no existen en software tradicional.

2. 🧨 Principales VULNERABILIDADES en sistemas de IA

2.1. Poisoning Attack – Envenenamiento de Datos

Descripción: El atacante introduce datos falsos o maliciosos en el conjunto de entrenamiento.
Objetivo: Corromper el comportamiento del modelo o introducir sesgos controlados.
Ejemplo: Un atacante sube imágenes etiquetadas erróneamente a una base de datos pública usada para entrenar un modelo de reconocimiento facial.

2.2. Evasion Attack – Evasión / Engaño del modelo

Descripción: Se crean entradas modificadas para engañar al modelo en producción.
Técnica típica: Adversarial examples (ligeras modificaciones invisibles para humanos).
Ejemplo: Una imagen de una señal de STOP alterada con píxeles específicos hace que un coche autónomo la confunda con una señal de velocidad.

2.3. Model Inversion – Inversión del Modelo

Descripción: Un atacante consulta un modelo para reconstruir información sensible del set de entrenamiento.
Ejemplo: A partir de las respuestas de un sistema de IA entrenado con datos médicos, se logra reconstruir información personal de pacientes.

2.4. Membership Inference – Inferencia de Membresía

Descripción: Determinar si un dato específico fue parte del conjunto de entrenamiento.
Ejemplo: El atacante pregunta al modelo si reconoce una muestra, y según la confianza de la respuesta, deduce si fue parte del entrenamiento → posible filtración de privacidad.

2.5. Model Extraction – Extracción del Modelo

Descripción: Mediante muchas consultas (black box), se reconstruye una copia funcional del modelo original.
Motivación: Robo de propiedad intelectual o para realizar ataques sin acceso directo.

2.6. Bias Injection – Inserción de Sesgos

Descripción: Introducción intencional de sesgos sociales, raciales, políticos o ideológicos en los datos o diseño.
Consecuencia: Decisiones injustas o peligrosas.

3. 🛡️ Buenas PRÁCTICAS de defensa (Blue Team)

Auditar y versionar los datasets (control de integridad).
Validar la procedencia y calidad de los datos.
Entrenar con datos balanceados y revisados.
Aplicar técnicas de defensa adversarial.
Monitorizar inputs y outputs en producción (detección de patrones anómalos).
Aplicar Differential Privacy en modelos con datos sensibles.
Limitar consultas públicas (rate limiting) y añadir ruido a los resultados cuando sea necesario.

4. 🔬 Herramientas y estándares relevantes

IBM Adversarial Robustness Toolbox (ART) Herramientas para pruebas de evasión y defensa adversarial.
Microsoft Counterfit Framework para pruebas de seguridad en IA de forma automatizada.
Google Model Card Toolkit Framework para documentar cómo se entrena y se comporta un modelo.
OpenAI Eval / Red Teaming Estrategias avanzadas para probar resistencia y alineación de modelos.
DeepInspect Auditoría de redes neuronales contra ataques de inversión e inferencia.
TRuML (Trusted ML) Buenas prácticas y verificación de confianza para ciclos de vida de IA.

5. 🟣 Visión Purple Team

Simular ataques de tipo poisoning en entornos controlados.
Evaluar la resiliencia a ejemplos adversariales con ART o Counterfit.
Verificar si la infraestructura ML tiene mecanismos de aislamiento de datos sensibles.
Automatizar detección de sesgos en modelos usando herramientas de fairness (como AI Fairness 360).
Validar SIEM + CASB + DLP sobre entornos que ejecutan inferencias en la nube.

6. ⚔️ Red Flags que debe detectar una Arquitecta Purple

Datasets descargados sin validación de procedencia.
Modelos sin documentación de entrenamiento ni control de versiones.
Consultas ilimitadas al modelo sin restricciones.
Inferencias no auditadas ni registradas.
Ausencia total de técnicas adversariales o defensa ante model extraction.

Ejercicios Purple Team – Seguridad en Inteligencia Artificial

Simular, detectar y reforzar la seguridad de modelos de IA frente a amenazas reales como poisoning, evasion, model extraction y más.

💥 1. Red Team – Ataques controlados al modelo

Ejercicio 1: Adversarial Input Injection

Objetivo: Engañar al modelo modificando ligeramente una imagen o input de texto.
Entorno: Modelo de clasificación de imágenes o detección de spam (como un BERT, GPT, ResNet, etc.).
Acciones:

Usar IBM ART para generar ejemplos adversariales sobre un set de imágenes reales.
Medir el porcentaje de inputs que hacen fallar el modelo.

👉 Ejemplo: Cambiar un "3" en MNIST para que lo clasifique como un "8".

Ejercicio 2: Data Poisoning

Objetivo: Introducir ejemplos maliciosos durante el entrenamiento.
Entorno: Dataset público que se pueda modificar antes del entrenamiento (como CIFAR-10 o un dataset de opiniones).
Acciones:

Insertar ejemplos con etiquetas erróneas o imágenes con marca de agua.
Entrenar el modelo y verificar si la clasificación se altera al detectar esa marca.

👉 Ejemplo: Si aparece una estrella roja en una imagen, el modelo clasifica como "gato" aunque sea un coche.

Ejercicio 3: Model Extraction (Robo del modelo)

Objetivo: Recrear el modelo original con consultas vía API.
Entorno: Modelo black-box accesible vía endpoint REST.
Acciones:

Enviar miles de inputs y registrar outputs.
Usar los pares input/output para entrenar un clon del modelo original.

👉 Evaluar: precisión del clon respecto al modelo real.

🛡️ 2. Blue Team – Detección y mitigación de ataques

Ejercicio 4: Monitoreo de consultas sospechosas

Objetivo: Detectar consultas inusuales contra un modelo desplegado.
Acciones:

Analizar logs de inferencia.
Detectar:
- Consultas repetitivas.
- Input aleatorio con high entropy.
- Cargas masivas en poco tiempo.

Herramientas: ELK Stack, Prometheus + Grafana, SIEM con alertas.

Ejercicio 5: Validación de integridad del dataset

Objetivo: Detectar envenenamiento en datasets antes del entrenamiento.
Acciones:

Verificar checksums de los datasets.
Usar scripts para detectar inputs duplicados o con etiquetas inconsistentes.
Aplicar hashing por lote + firma.

Ejercicio 6: Hardening del entorno IA

Objetivo: Aumentar la resiliencia del entorno.
Acciones:

Aplicar differential privacy al modelo.
Habilitar logging de inferencias + auditoría de accesos al endpoint.
Proteger el endpoint con WAF + autenticación + throttling.

🔄 3. Purple Team – Validación cruzada y automatización

Ejercicio 7: Validación del modelo frente a ataques adversariales

Acciones:

Ejecutar ataques controlados de adversarial input (como en Ej. 1).
Validar si el sistema genera alertas o detecta anomalías.
Medir el impacto en métricas: precisión, recall, F1 score.

Ejercicio 8: Simulación de extracción + detección