Data poisoning en IA: qué es, riesgos y cómo mitigarlo

Mundobytes » Informática » Ciberseguridad » Qué es y cómo afecta el data poisoning a la IA

El data poisoning manipula el entrenamiento para desviar modelos con puertas traseras, sesgos o degradación.
Investigaciones muestran que ~250 documentos maliciosos pueden bastar, sin importar el tamaño del modelo.
Vectores como split-view, frontrunning, RAG y datos sintéticos amplifican el riesgo a gran escala.
Defensas: procedencia y validación, red teaming, monitoreo en runtime, hashes y robust training.

Ilustración sobre data poisoning en IA

En plena era de la inteligencia artificial, la calidad de los datos es oro puro y, a la vez, su talón de Aquiles. Cuando ese “combustible” se contamina a propósito, la IA aprende lo que no debe, se desvía y puede tomar decisiones peligrosas. Este fenómeno, conocido como data poisoning, ha pasado de teoría de laboratorio a riesgo operativo en empresas, administraciones y productos de consumo.

No hablamos de una travesura técnica, sino de una amenaza silenciosa y persistente. Un puñado de ejemplos maliciosos infiltrados con sigilo en el entrenamiento puede degradar modelos, insertar sesgos o abrir puertas traseras que se activan con señales específicas. Para más inri, varios trabajos publicados a comienzos de 2025 han puesto cifras concretas a un temor largamente discutido: los atacantes no necesitan controlar un gran trozo del dataset para hacer daño.

¿Qué es exactamente el data poisoning en IA?

El data poisoning es la manipulación premeditada del conjunto de entrenamiento de un sistema de aprendizaje automático o de modelos generativos, con el objetivo de alterar su conducta futura. A diferencia de los ataques que se producen en la fase de inferencia (cuando el modelo ya está desplegado), aquí el sabotaje se cocina desde el origen: los datos con los que aprende.

La idea puede entenderse con una analogía conocida en ciberseguridad. Así como la inyección SQL mete contenido malicioso en una consulta para cambiar su sentido (el clásico “1=1” que hace que se devuelvan todos los registros), el envenenamiento de datos introduce ejemplos diseñados para torcer el aprendizaje del modelo, de forma que clasifique mal, desarrolle sesgos o incorpore “comportamientos escondidos”.

Este tipo de ataques no es nuevo; lleva casi dos décadas en la literatura científica. Lo que sí ha cambiado es la superficie de ataque: la popularización de modelos fundacionales, LLM y sistemas multimodales que consumen enormes cantidades de información ha multiplicado los puntos por los que un adversario puede colar su “veneno”.

También conviene distinguir entre manipulación grosera y manipulación sutil. Hay ataques que cambian etiquetas de forma evidente (label flipping) y otros “limpios” (clean-label) en los que el contenido se retoca imperceptiblemente para que parezca válido, pero induzca un aprendizaje equivocado.

Cómo opera y qué tipos de ataques existen

En términos generales, el adversario busca que el modelo incorpore patrones nocivos sin levantar sospechas. Las categorías más citadas organizan los objetivos del atacante del siguiente modo:

Ataques de disponibilidad: su meta es bajar el rendimiento global hasta hacer el modelo impreciso o poco útil, saturándolo o corrompiendo su señal de aprendizaje.
Ataques de integridad: introducen fallos finos y aprovechables en situaciones concretas, por ejemplo para que un tipo de fraude quede “normalizado”.
Puertas traseras (backdoors): si se detecta un patrón o palabra clave, el sistema activa un comportamiento oculto (desde generar galimatías hasta revelar datos).

Por intención, también se habla de envenenamiento dirigido (contra estímulos o tareas muy concretos) y no dirigido (degradación generalizada). En la práctica abundan los casos híbridos. Los investigadores describen además ataques por subpoblaciones, donde se manipula el rendimiento contra grupos demográficos específicos, con evidentes implicaciones éticas y legales.

Apple Intelligence integrará Google Gemini como alternativa a ChatGPT en iOS 18.4

En el terreno de las puertas traseras, se han descrito técnicas como TrojanNet Backdoor, que corrompen ejemplos de entrenamiento para activar respuestas a distancia con un “disparador”. En modelos de lenguaje, ese disparador puede ser una frase exótica; en visión, un patrón visual. No hace falta algo llamativo: basta un elemento poco frecuente pero reproducible.

Conviene recordar que los LLM y modelos multimodales no operan en el vacío. Herramientas, descripciones de APIs o catálogos que los LLM usan para actuar pueden incluir instrucciones envenenadas; si el modelo las aprende durante su ajuste fino o durante el uso con recuperación (RAG), el problema llega al runtime.

Vectores de envenenamiento a gran escala: split-view, frontrunning y algo más

Una duda razonable es si estos ataques escalan contra modelos entrenados con “medio internet”. La intuición dice que el veneno se diluye, pero la práctica está desmintiendo esa tranquilidad. Entre los vectores descritos, dos destacan por su impacto potencial:

Split-view poisoning: muchos índices de datasets (por ejemplo, de pares texto-imagen) se construyen a partir de metadatos y URLs válidas en el momento de catalogación. Si con el tiempo caducan dominios, un atacante puede comprarlos y servir contenido distinto del que esperaba el index. El pipeline descarga, entrena y… aprende justo lo que el adversario quería.

Frontrunning poisoning: algunos datasets se nutren de snapshots de contenido colaborativo (piensa en wikis). Si el atacante conoce la ventana temporal de captura, puede inyectar cambios maliciosos justo antes, y aunque un moderador los corrija después, el snapshot ya quedó en el dataset congelado.

Más allá del preentrenamiento, hay riesgos operativos. Los sistemas con Retrieval-Augmented Generation (RAG) pueden tragarse contenido envenenado indexado de la web y “aprender” instrucciones falsas o manipuladas que luego repiten. Y si las herramientas de las que se asiste un LLM tienen descripciones adulteradas, el modelo puede acatar directrices equivocadas.

En paralelo, crece la preocupación por el “canibalismo” de datos. Cuando las IA consumen su propio output publicado en internet, se retroalimentan de contenido sintético no verificado; a la larga, esto degrada los modelos y facilita que la contaminación se propague sin control.

El estudio que agitó el avispero: 250 documentos bastan

Uno de los resultados más llamativos de los últimos meses llega de una colaboración entre Anthropic, el UK AI Security Institute y el Alan Turing Institute. Su conclusión: aproximadamente 250 documentos envenenados pueden introducir una puerta trasera en modelos de distintos tamaños, sin necesidad de controlar un porcentaje relevante del dataset.

La prueba de concepto era deliberadamente “limitada” y defensiva: se buscaba que, al detectar una cadena activadora, el modelo generara texto sin sentido (algo parecido a una denegación de servicio lingüística). El disparador era una frase poco habitual que el sistema asociaba con producir galimatías, tras haber visto ejemplos con ese patrón.

Los experimentos cubrieron modelos de alrededor de 600M, 2B, 7B y 13B parámetros, entrenados con cantidades de datos cercanas al régimen recomendado por escalado de Chinchilla. Se compararon niveles de envenenamiento con 100, 250 y 500 documentos, y se repitieron para verificar la estabilidad de resultados. La métrica de evaluación fue la perplejidad, estándar en lenguaje para medir la coherencia: cuanto más baja, mejor predicción; si sube, el texto tiende al caos.

Cómo deshabilitar Gaming Copilot en Windows 11 paso a paso

¿Qué se observó? Que la eficacia del ataque dependía del número absoluto de documentos, no del tamaño del modelo. Incluso en arquitecturas más grandes y con datasets más extensos, alrededor de 250 ejemplos maliciosos bastaron para disparar el comportamiento no deseado bajo el activador. Los autores subrayan que el hallazgo no implica que todos los escenarios sean igual de frágiles, ni que modelos de frontera reaccionen igual, pero el mensaje es claro: no podemos confiar en que “lo bueno diluye lo malo”.

El trabajo insiste en una divulgación responsable: describir la técnica ayuda a diseñar defensas, aunque también ofrezca pistas a atacantes. Entre las líneas futuras, proponen reforzar la trazabilidad de fuentes, filtrar mejor los datos, someter modelos a pruebas adversarias y vigilar activadores sospechosos en tiempo de ejecución.

Como contexto de ecosistema, el debate público sobre IA no para. Mientras algunos ejecutivos anuncian productos para “democratizar” la IA, otros piden control sobre herramientas creativas o advierten del potencial de abuso. Este ruido de fondo subraya lo mismo que revela la investigación: sin higiene de datos y seguridad integrada, las promesas de la IA quedan cojas.

Impacto práctico: de las finanzas a la salud, pasando por la creatividad

Un ejemplo clásico: un motor antifraude que analiza millones de operaciones con tarjeta. Si un atacante inyecta transacciones mal etiquetadas que legitiman patrones fraudulentos, el modelo aprenderá que “ese comportamiento es normal”. Al pasar a producción, el sistema deja pasar lo que debía bloquear, con pérdidas millonarias.

En sanidad, un clasificador de imágenes diagnósticas envenenado podría confundir patologías o degradar su sensibilidad para ciertos casos. En ciberseguridad, un detector de tráfico malicioso podría omitir indicadores clave, abriendo la puerta a intrusiones que antes habría parado.

El mundo creativo tampoco se libra. Investigadores de la Universidad de Chicago presentaron NightShade, una herramienta pensada para proteger a artistas que no desean que su obra alimente modelos de texto a imagen. Al introducir perturbaciones mínimas invisibles a simple vista, si esas imágenes acaban en el dataset, el entrenamiento resulta en un modelo desviado: sombreros que parecen pasteles, perros que derivan en gatos.

Las pruebas en modelos de la familia Stable Diffusion son ilustrativas: con unas 50 imágenes envenenadas, la calidad decae y aparecen artefactos grotescos; con alrededor de 300, el sistema puede responder “perros” generando algo que luce sospechosamente felino. Lo peor es que limpiar esa contaminación es laborioso: hay que localizar cada muestra corrupta y purgarla, algo nada trivial a gran escala.

Los equipos de respuesta también citan ataques con objetivo social, como los que afectan a subpoblaciones concretas (por ejemplo, degradando el rendimiento contra una etnia o un género), o campañas que buscan crear puertas traseras que solo se activen bajo un estímulo muy particular, dejando el resto del tiempo un desempeño impecable para pasar desapercibidas.

Estrategias de defensa: desde la procedencia de datos hasta el runtime

No hay bala de plata, pero sí un conjunto coherente de prácticas que, combinadas, elevan la barrera. La primera línea es la procedencia y validación de datos: saber de dónde viene cada muestra, aplicar auditorías, deduplicación y filtros de calidad antes del preentrenamiento y en cualquier ajuste fino.

Tencent fortalece su apuesta por la IA y presenta su modelo avanzado Hunyuan-T1

Para escenarios como split-view, una medida pragmática es distribuir hashes criptográficos del contenido indexado, de forma que quien entrene pueda verificar la integridad de archivos y comprobar que descarga exactamente lo que el mantenedor catalogó en su día (y no un reemplazo malicioso tras una compra de dominio caducado).

Frente a frontrunning, ayuda introducir aleatoriedad en la planificación de snapshots o retrasar su congelación con una ventana corta de verificación en la que moderadores de confianza puedan corregir manipulaciones detectadas a destiempo.

En la fase de desarrollo, el red teaming y las pruebas adversarias son clave. Simular ataques reales contra el pipeline permite descubrir disparadores y comportamientos anómalos antes de que llegue a usuarios. En el runtime, conviene montar detectores de activadores y monitores de deriva para cortar respuestas extrañas o aislar señales contaminadas.

En cuanto al entrenamiento, existen enfoques de robust training y defensas por agregación: entrenar múltiples modelos y votar para amortiguar efectos de muestras atípicas. El problema es el coste: en LLM de gran tamaño, mantener ensembles puede ser prohibitivo. Aun así, variantes livianas y chequeos cruzados por lotes ayudan.

También suma el aprendizaje federado en escenarios sensibles. Distribuir el entrenamiento entre nodos que no comparten datos brutos reduce el impacto de que una sola fuente contaminada arrastre a todo el sistema, aunque exige controles estrictos de integridad y privacidad.

Por supuesto, no hay que olvidar la parte operativa y legal. Reforzar contratos de datos y derechos de autor, acordar atribución y compensación con creadores, o mantener listas de exclusión para material sensible mitiga incentivos para sabotajes “defensivos” desde comunidades artísticas.

Finalmente, conviene adoptar una mentalidad de ciclo de vida completo. Los modelos cambian, los datos también, y las amenazas evolucionan. Reentrenar con higiene, auditar periódicamente, y vigilar cómo el contenido sintético se cuela de vuelta en los datasets son tareas que ya no pueden posponerse.

La taxonomía del NIST sobre ataques a IA recuerda que el apetito de datos crece con la escala y la multimodalidad. Cuantas más modalidades integras, más superficie de ataque hay. Y con la proliferación de outputs generados por IA, la línea que separa “datos de verdad” y “datos sintéticos” se difumina, generando un caldo de cultivo perfecto para contaminación difícil de rastrear.

La seguridad de la IA no depende solo del código ni del hardware, sino de la pureza, trazabilidad y gobernanza de los datos. Entre estudios que muestran que 250 documentos pueden bastar, casos prácticos en finanzas o salud, y el auge de herramientas capaces de desviar modelos creativos, la prioridad es clara: elevar la higiene de datos, probar como atacantes y monitorizar en producción con obsesión saludable. Solo así la inteligencia artificial podrá ser tan fiable como prometemos en las diapositivas.