🧠💥 Vulnerabilidades en Inteligencia Artificial
AI Security Risks & Attack Surfaces
1. 📌 ¿Por qué son importantes las vulnerabilidades en IA?
-
Los sistemas de IA se integran cada vez más en decisiones críticas (finanzas, salud, seguridad, defensa).
-
A diferencia de sistemas tradicionales, la IA puede ser influenciada desde dentro (datos), no solo desde fuera.
-
La IA no se programa: se entrena, lo que abre nuevas superficies de ataque que no existen en software tradicional.
2. 🧨 Principales VULNERABILIDADES en sistemas de IA
2.1. Poisoning Attack – Envenenamiento de Datos
-
Descripción: El atacante introduce datos falsos o maliciosos en el conjunto de entrenamiento.
-
Objetivo: Corromper el comportamiento del modelo o introducir sesgos controlados.
-
Ejemplo: Un atacante sube imágenes etiquetadas erróneamente a una base de datos pública usada para entrenar un modelo de reconocimiento facial.
2.2. Evasion Attack – Evasión / Engaño del modelo
-
Descripción: Se crean entradas modificadas para engañar al modelo en producción.
-
Técnica típica: Adversarial examples (ligeras modificaciones invisibles para humanos).
-
Ejemplo: Una imagen de una señal de STOP alterada con píxeles específicos hace que un coche autónomo la confunda con una señal de velocidad.
2.3. Model Inversion – Inversión del Modelo
-
Descripción: Un atacante consulta un modelo para reconstruir información sensible del set de entrenamiento.
-
Ejemplo: A partir de las respuestas de un sistema de IA entrenado con datos médicos, se logra reconstruir información personal de pacientes.
2.4. Membership Inference – Inferencia de Membresía
-
Descripción: Determinar si un dato específico fue parte del conjunto de entrenamiento.
-
Ejemplo: El atacante pregunta al modelo si reconoce una muestra, y según la confianza de la respuesta, deduce si fue parte del entrenamiento → posible filtración de privacidad.
2.5. Model Extraction – Extracción del Modelo
-
Descripción: Mediante muchas consultas (black box), se reconstruye una copia funcional del modelo original.
-
Motivación: Robo de propiedad intelectual o para realizar ataques sin acceso directo.
2.6. Bias Injection – Inserción de Sesgos
-
Descripción: Introducción intencional de sesgos sociales, raciales, políticos o ideológicos en los datos o diseño.
-
Consecuencia: Decisiones injustas o peligrosas.
3. 🛡️ Buenas PRÁCTICAS de defensa (Blue Team)
-
Auditar y versionar los datasets (control de integridad).
-
Validar la procedencia y calidad de los datos.
-
Entrenar con datos balanceados y revisados.
-
Aplicar técnicas de defensa adversarial.
-
Monitorizar inputs y outputs en producción (detección de patrones anómalos).
-
Aplicar Differential Privacy en modelos con datos sensibles.
-
Limitar consultas públicas (rate limiting) y añadir ruido a los resultados cuando sea necesario.
4. 🔬 Herramientas y estándares relevantes
IBM Adversarial Robustness Toolbox (ART) Herramientas para pruebas de evasión y defensa adversarial.
Microsoft Counterfit Framework para pruebas de seguridad en IA de forma automatizada.
Google Model Card Toolkit Framework para documentar cómo se entrena y se comporta un modelo.
OpenAI Eval / Red Teaming Estrategias avanzadas para probar resistencia y alineación de modelos.
DeepInspect Auditoría de redes neuronales contra ataques de inversión e inferencia.
TRuML (Trusted ML) Buenas prácticas y verificación de confianza para ciclos de vida de IA.
5. 🟣 Visión Purple Team
-
Simular ataques de tipo poisoning en entornos controlados.
-
Evaluar la resiliencia a ejemplos adversariales con ART o Counterfit.
-
Verificar si la infraestructura ML tiene mecanismos de aislamiento de datos sensibles.
-
Automatizar detección de sesgos en modelos usando herramientas de fairness (como AI Fairness 360).
-
Validar SIEM + CASB + DLP sobre entornos que ejecutan inferencias en la nube.
6. ⚔️ Red Flags que debe detectar una Arquitecta Purple
-
Datasets descargados sin validación de procedencia.
-
Modelos sin documentación de entrenamiento ni control de versiones.
-
Consultas ilimitadas al modelo sin restricciones.
-
Inferencias no auditadas ni registradas.
-
Ausencia total de técnicas adversariales o defensa ante model extraction.
Ejercicios Purple Team – Seguridad en Inteligencia Artificial
Simular, detectar y reforzar la seguridad de modelos de IA frente a amenazas reales como poisoning, evasion, model extraction y más.
💥 1. Red Team – Ataques controlados al modelo
Ejercicio 1: Adversarial Input Injection
Objetivo: Engañar al modelo modificando ligeramente una imagen o input de texto.
Entorno: Modelo de clasificación de imágenes o detección de spam (como un BERT, GPT, ResNet, etc.).
Acciones:
-
Usar IBM ART para generar ejemplos adversariales sobre un set de imágenes reales.
-
Medir el porcentaje de inputs que hacen fallar el modelo.
👉 Ejemplo: Cambiar un "3" en MNIST para que lo clasifique como un "8".
Ejercicio 2: Data Poisoning
Objetivo: Introducir ejemplos maliciosos durante el entrenamiento.
Entorno: Dataset público que se pueda modificar antes del entrenamiento (como CIFAR-10 o un dataset de opiniones).
Acciones:
-
Insertar ejemplos con etiquetas erróneas o imágenes con marca de agua.
-
Entrenar el modelo y verificar si la clasificación se altera al detectar esa marca.
👉 Ejemplo: Si aparece una estrella roja en una imagen, el modelo clasifica como "gato" aunque sea un coche.
Ejercicio 3: Model Extraction (Robo del modelo)
Objetivo: Recrear el modelo original con consultas vía API.
Entorno: Modelo black-box accesible vía endpoint REST.
Acciones:
-
Enviar miles de inputs y registrar outputs.
-
Usar los pares input/output para entrenar un clon del modelo original.
👉 Evaluar: precisión del clon respecto al modelo real.
🛡️ 2. Blue Team – Detección y mitigación de ataques
Ejercicio 4: Monitoreo de consultas sospechosas
Objetivo: Detectar consultas inusuales contra un modelo desplegado.
Acciones:
-
Analizar logs de inferencia.
-
Detectar:
-
Consultas repetitivas.
-
Input aleatorio con high entropy.
-
Cargas masivas en poco tiempo.
-
Herramientas: ELK Stack, Prometheus + Grafana, SIEM con alertas.
Ejercicio 5: Validación de integridad del dataset
Objetivo: Detectar envenenamiento en datasets antes del entrenamiento.
Acciones:
-
Verificar checksums de los datasets.
-
Usar scripts para detectar inputs duplicados o con etiquetas inconsistentes.
-
Aplicar hashing por lote + firma.
Ejercicio 6: Hardening del entorno IA
Objetivo: Aumentar la resiliencia del entorno.
Acciones:
-
Aplicar differential privacy al modelo.
-
Habilitar logging de inferencias + auditoría de accesos al endpoint.
-
Proteger el endpoint con WAF + autenticación + throttling.
🔄 3. Purple Team – Validación cruzada y automatización
Ejercicio 7: Validación del modelo frente a ataques adversariales
Acciones:
-
Ejecutar ataques controlados de adversarial input (como en Ej. 1).
-
Validar si el sistema genera alertas o detecta anomalías.
-
Medir el impacto en métricas: precisión, recall, F1 score.
Ejercicio 8: Simulación de extracción + detección
Acciones:
-
Simular extracción con consultas automatizadas.
-
Verificar si el endpoint bloquea por volumen o patrones.
-
Analizar si los logs reflejan comportamiento anómalo.
Ejercicio 9: Automatización en el pipeline CI/CD del modelo
Objetivo: Integrar seguridad desde el entrenamiento.
Acciones:
-
Añadir tests contra sesgo y adversarial robustness en el pipeline de entrenamiento.
-
Generar SBOM del modelo (pesos, capas, metadatos, dependencias).
-
Asegurar el modelo con firma digital y validación antes del deploy.
✅ Resultados esperados
Red Team Logra alterar el modelo o descubrir su estructura.
Blue Team Detecta anomalías, activa alertas, mitiga acceso o impacto.
Purple Team Valida detección y mejora controles de manera iterativa.