Piratería para entrenar IA: casos, juicios y repercusiones

Mundobytes » Big Data » Piratería ilegal para entrenar IA: casos, juicios y dilemas

Los tribunales distinguen entre entrenamiento con obras lícitas y uso de copias pirata.
Casos clave: Meta (descargas desde IP corporativas), Anthropic (acuerdo millonario) y Suno (acusación de stream-ripping).
Datasets señalados: LibGen, Books3, OpenSubtitles y usos de YouTube; Common Crawl genera debate.
El sector converge hacia licencias, trazabilidad y transparencia para evitar sanciones y daños reputacionales.

Imagen sobre piratería y entrenamiento de IA

El debate sobre la «piratería ilegal para entrenar IA» se ha convertido en uno de los temas más candentes de la tecnología contemporánea. En pocos años, hemos pasado de la fascinación por la potencia creativa de los modelos generativos a la constatación de que, detrás de su asombrosa capacidad, hay un uso masivo de obras ajenas, a menudo sin permiso y, en no pocas ocasiones, procedentes de fuentes manifiestamente ilícitas. El choque entre innovación, derechos de autor y ética empresarial ya está en plena ebullición.

Más allá del ruido, empiezan a cristalizar datos, casos y decisiones judiciales que ponen orden —y también presión— al ecosistema. De un lado, empresas tecnológicas que reivindican el carácter «transformador» del entrenamiento; del otro, autores, editoriales, discográficas y medios que señalan prácticas de copia sistemática, a veces desde páginas pirata, que alimentan productos millonarios. La foto actual es compleja: hay absoluciones parciales, acuerdos multimillonarios y múltiples pleitos en marcha.

Por qué se habla de «piratería» en el entrenamiento de IA

La clave está en el origen de los datos. Cuando un modelo se entrena con millones de textos, imágenes, vídeos o música, la procedencia marca la frontera jurídica: no es lo mismo usar obras adquiridas legalmente que descargarlas de repositorios pirata. Los tribunales han empezado a distinguir entre fuentes lícitas y copias ilícitas de forma explícita.

Informes recientes señalan conjuntos masivos de datos procedentes de sitios como LibGen, Anna’s Archive y Books3 —en el caso de los libros, muchos descargados vía Torrent—, OpenSubtitles para subtítulos audiovisuales, o incluso recopilaciones a gran escala de la web como Common Crawl. Aunque Common Crawl no sea «pirata» per se, su inclusión ha levantado dudas porque no media autorización para copiar y redistribuir grandes volúmenes de contenido protegido.

Empresas de primera línea —entre ellas Apple, Anthropic, Meta y Microsoft— han sido vinculadas a la utilización de esos datasets en diferentes investigaciones periodísticas y judiciales. El dataset Books3, con más de 196.000 libros extraídos de Bibliotik.me, se ha convertido en un caso de estudio.

El caso Meta: descargas desde IP corporativas y la sombra del contenido para adultos

Uno de los episodios más llamativos afecta a Meta. Denunciantes sostienen que se descargaron miles de películas pornográficas desde redes P2P utilizando direcciones IP corporativas, y que esas copias podrían haberse empleado para entrenar modelos internos. La empresa lo niega, dice que su normativa prohíbe usar porno en el entrenamiento y aduce «uso personal» por parte de empleados o contratistas.

La querella, promovida por productoras como Strike 3 Holdings y Counterlife Media, reclama centenares de millones de dólares por la supuesta descarga de 2.369 películas. Se habla, además, de una «red secreta» de unas 2.500 IPs ocultas, extremo que deberá valorar la justicia. Según los demandantes, el volumen de descargas y su patrón temporal revelarían algo más que consumo privado.

Meta ha reconocido que hubo descargas de contenido para adultos desde direcciones IP de la compañía, pero las atribuye a un uso individual: volumen bajo, unos 22 títulos al año por IP, y actividad dispersa entre trabajadores y proveedores externos. En un caso, se rastreó a un contratista que habría remitido copias a la casa de su padre, lo que la empresa esgrime como prueba de consumo personal.

El trasfondo es especialmente delicado porque no es el primer roce de Meta con la acusación de usar material pirateado para entrenar IA. Ya se denunció en el pasado el empleo de grandes corpus de libros descargados vía Torrent, algo que la compañía ha contestado de forma desigual según los procedimientos. En cualquier caso, el hecho de que IPs corporativas figure como origen de descargas deja a la empresa en una posición comprometida.

LibGen, Sci-Hub y el malestar académico: acceso, ética y consecuencias

En paralelo, la comunidad académica vive su propia tensión. Algunos investigadores que incluso simpatizan con el acceso abierto —y que conocen bien plataformas como Sci-Hub y LibGen— han mostrado su descontento al ver sus obras pirateadas incluidas en datasets de entrenamiento de grandes tecnológicas. La paradoja es evidente: quienes critican el modelo editorial tradicional no ven con buenos ojos que su trabajo se use sin permiso para formar IAs propietarias.

Nvidia presenta Blue, el robot impulsado por IA que promete revolucionar la robótica

El problema de fondo es conocido: ni las mejores bibliotecas tienen todo, un solo artículo puede costar decenas de dólares y un libro académico vale cientos. Por eso, LibGen o Sci-Hub han mediado desde hace años en el acceso, sobre todo en contextos con recursos limitados. Para muchos autores, las citas —no los royalties— son la moneda real de la academia; aquí el copyright actúa, a menudo, como barrera.

El impulso hacia el acceso abierto ha crecido: revistas sin suscripción, acuerdos institucionales que cubren tasas de publicación y mandatos de financiadores que exigen apertura. Pero sigue siendo un territorio de privilegios: no todas las universidades, ni todos los países, pueden costearlo. El resultado es un mosaico desigual de derechos, costes y permisos que la IA está tensando al máximo.

Datasets masivos y sitios señalados: Books3, OpenSubtitles, YouTube y más

El informe ‘Report on Pirated Content Used in the Training of Generative AI’ cita explícitamente repositorios y datasets que han alimentado modelos recientes. Además de LibGen y Books3, se menciona OpenSubtitles.org para subtítulos audiovisuales, y sitios de streaming alternativos como Watchseries. En vídeo, algunos modelos habrían aspirado contenidos de YouTube sin autorización de los creadores.

Casos concretos han salido a la luz: Runway AI y su modelo de vídeo Gen3-alpha fueron señalados por el presunto uso de software para copiar miles de vídeos de YouTube; en música, Suno fue demandada por discográficas estadounidenses por reproducir grabaciones protegidas sin permiso. La propia Suno admitió que entrenó con «decenas de millones de grabaciones» obtenidas de Internet, que según el informe podrían provenir de cyberlockers o BitTorrent.

La discusión sobre Common Crawl es sutil. No es un sitio pirata clásico, pero su rastreo y redistribución masiva de texto de la web, incluyendo prensa y letras de canciones, no se basa en autorizaciones individuales. Para algunos agentes del sector, ese esquema no encaja con un uso «justo» cuando el fin es entrenar modelos comerciales.

Fallos judiciales recientes: Anthropic, Meta y los límites del «uso legítimo»

En Estados Unidos se han producido decisiones clave. Un juez consideró que el entrenamiento de Anthropic con millones de libros podía encajar en el «uso legítimo» («fair use») por su finalidad transformadora, en la medida en que se trate de obras obtenidas legalmente. Es la primera gran resolución que entra al fondo sobre entrenamiento de LLMs y uso legítimo.

Ojo: el mismo juez dejó claro que construir una biblioteca con material pirateado para entrenar —como se habría hecho en etapas iniciales— no queda cubierto por el «fair use». En ese frente, Anthropic afronta un procedimiento distinto y separado, con potenciales sanciones millonarias. La línea roja del tribunal es nítida: origen lícito sí, piratería no.

Meta también logró una victoria parcial en otra causa: trece autores de renombre no demostraron daño económico suficiente y el caso se desestimó, pero la decisión no legaliza de forma general el uso de obras con copyright para entrenar sus modelos. El propio juez subrayó el alcance limitado del fallo y que no se trataba de una demanda colectiva.

Antes de estos pronunciamientos solo había un precedente menor, Thomson Reuters contra la startup Ross, en el que se falló contra el uso legítimo, aunque esa decisión está recurrida. El nuevo criterio en Anthropic marca el compás para lo que venga en tribunales.

Demandas colectivas y acuerdos: el caso Anthropic y su alcance real

El 19 de agosto de 2024, tres autores estadounidenses demandaron a Anthropic por entrenar modelos con libros sin permiso, muchos presuntamente descargados de LibGen y Pirate Library Mirror (PiLiMi). El volumen de obras detectado impulsó a un tribunal federal de California a transformar el caso en acción colectiva. El objetivo: facilitar que todos los autores y editores potencialmente afectados se sumen.

Project Mariner: así planea Google cambiar la navegación web con IA

En septiembre de 2025 saltó la noticia: un acuerdo preliminar valorado en 1.500 millones de dólares. Se habló de compensaciones medias por obra, eliminación de datos ilícitos y de cualquier modelo entrenado con ellos, y un mecanismo de reclamación por validar. El juez William Alsup pidió más transparencia: listado completo de libros y detalle de la distribución antes de aprobar nada definitivamente.

El alcance, no obstante, es limitado. La negociación cubriría menos de 500.000 obras, frente a los 7 millones que la tecnológica habría descargado según algunas estimaciones. Además, se considera solo a obras registradas en la oficina de copyright de EE. UU., dejando fuera a miles de autores extranjeros. También quedan excluidos usos de fuentes lícitas u otros canales distintos de las páginas pirata.

El calendario procesal se estira hasta 2026, con periodos para avisos, envío de información de contacto de autores, opciones de exclusión o reincorporación y presentación de reclamaciones. Solo al final se calcularán importes por obra y por reclamante, si el juez da el visto bueno.

RIAA vs Suno y la acusación de «stream-ripping»

En el terreno musical, la RIAA —en representación de Universal, Sony y Warner— demandó a Suno por presunto uso no autorizado de grabaciones para entrenar su IA. La cosa subió de tono cuando la asociación acusó además prácticas de «stream-ripping» contra YouTube, eludiendo medidas tecnológicas de protección. Con esa enmienda, la compensación podría dispararse: hasta 2.500 dólares por cada acto de elusión y 150.000 por obra infringida.

La defensa de Suno gira en torno al «fair use», pero la acusación de elusión tecnológica complica el escenario. En casos así, muchas empresas valoran un acuerdo para limitar daños e incertidumbre. La experiencia de Anthropic y su pacto multimillonario planea como referencia disuasoria para el sector.

Condé Nast, periódicos y la demanda contra Cohere

Otra disputa relevante: Condé Nast y varios editores de prensa han llevado a los tribunales a Cohere por el supuesto uso no consentido de sus contenidos en el entrenamiento y en los resultados de sus sistemas. Las cabeceras buscan que se reconozca el valor de su inventario editorial y que se frene el aprovechamiento sin licencia.

Este tipo de querellas apuntalan la idea de que el texto periodístico no es «material gratuito» para nutrir modelos comerciales, y que las empresas de IA deben negociar acuerdos y pagar licencias. Se refuerza así una tendencia: pasar del todo vale a la gestión proactiva de derechos.

Política y supervisión: el episodio de «funcionarios de Trump»

El clima político tampoco es neutro. Se ha informado de la visita de funcionarios de la administración Trump a una dependencia pública días antes de cesar a su responsable, quien acababa de publicar un informe sobre el uso de materiales con copyright para entrenar IA. El episodio ilustra que la definición de los límites del entrenamiento no ocurre en el vacío, sino en medio de intereses y presiones.

La evolución regulatoria dependerá, en buena medida, de estas dinámicas: informes técnicos, influencia política, sensibilidad de los jueces y capacidad de negociación entre grandes tecnológicas y titulares de derechos. Lo que hoy es jurisprudencia naciente mañana puede convertirse en marco estable.

Propiedad Intelectual: de monopolio temporal a acervo común

Conviene recordar la finalidad de la Propiedad Intelectual: es un derecho de naturaleza especial, limitado en el tiempo, que busca incentivar la creación y retribuir de forma justa al autor durante un periodo razonable (vida y 70 años). Tras ese plazo, la obra pasa al dominio público y alimenta el acervo cultural común.

Ningún creador trabaja en el vacío: escritoras, cineastas o pintores se «entrenan» leyendo, viendo y estudiando a sus predecesores. El paralelismo con el aprendizaje de una IA es obvio, pero el punto crítico es el acceso lícito a las obras. La diferencia la marcan los límites: qué usos son razonables, qué remuneración corresponde y cuándo se traspasa la barrera a la piratería.

En el caso «Anthropic», un tribunal remarcó que entrenar con libros adquiridos legalmente y digitalizados manualmente puede ser uso legítimo, pero usar copias pirata queda fuera de juego. Esa frontera ayuda a orientar políticas empresariales y a moldear futuras resoluciones judiciales.

La era de IA agéntica: El impacto transformador de la inteligencia artificial autónoma

El caso New York Times vs OpenAI y el precedente Thomson Reuters vs Ross

Permanece abierto el litigio entre The New York Times y OpenAI (junto con Microsoft), donde se dirime si la ingesta masiva de artículos periodísticos para entrenar modelos como ChatGPT vulnera derechos o encaja en el «fair use». La resolución de este caso será decisiva para la prensa y para el mercado de la IA.

Como antecedente, la disputa Thomson Reuters vs Ross concluyó en primera instancia en contra del uso legítimo, aunque está recurrida. El mapa judicial no es monolítico; cada sector (libros, prensa, música, audiovisual) está empujando su propia doctrina.

Estabilidad AI, Midjourney, DeviantArt y Getty: la perspectiva de las artes visuales

Las artes visuales han sido punta de lanza del conflicto. La demanda colectiva impulsada por Sarah Andersen, Kelly McKernan y Karla Ortiz contra Stability AI, Midjourney y DeviantArt acusa a estas empresas de infracción directa e indirecta por el uso de millones de imágenes en el entrenamiento. En paralelo, Getty Images denunció a Stability AI por copiar más de 12 millones de fotografías, con subtítulos y metadatos, sin permiso.

Además de Getty, se alega raspado de miles de millones de imágenes de sitios web para construir datasets de entrenamiento. El impacto económico y moral para creadores y bancos de imágenes ha puesto a los jueces ante preguntas inéditas.

Impacto económico, prestigio y el coste de «no pagar»

Desde la óptica de la economía creativa, el uso masivo de obras sin licencia traslada valor desde autores y titulares hacia plataformas tecnológicas que monetizan resultados y servicios. Los desarrolladores obtienen ventajas competitivas; los creadores, en cambio, sufren pérdidas y pérdida de control.

El acuerdo preliminar de 1.500 millones en el caso Anthropic es histórico y disuasorio: lanza un mensaje claro de que «lo barato» (evitar licencias) puede salir muy caro. Los jueces y las entidades de gestión como CEDRO alertan de que no puede normalizarse un modelo de negocio sobre copias pirata.

Se recalca, además, que para grandes tecnológicas puede resultar más barato pagar sanciones puntuales que integrar a los titulares en su cadena de valor. Esa lógica, de consolidarse, desincentiva la creación y erosiona la sostenibilidad cultural.

Qué deberían hacer tecnológicas y titulares de derechos

Desde el lado de la IA: auditar fuentes de datos, documentar procesos, separar claramente material lícito de cualquier rastro de piratería, y negociar licencias —individuales o colectivas— con editoriales, discográficas, medios y bancos de imágenes. La transparencia, la trazabilidad y los acuerdos proactivos son ya una cuestión de cumplimiento, no solo de reputación.

Desde el lado de los titulares: fortalecer registros y sistemas de identificación para acreditar titularidad y facilitar la gestión de licencias, promover repertorios abiertos cuando convenga, y participar en acciones colectivas cuando haya un daño masivo. También es clave impulsar modelos de acceso abierto sostenibles allí donde tenga sentido.

Algunas firmas legales y asociaciones profesionales recomiendan desarrollar mecanismos de opt-in/opt-out claros, etiquetas de datos para entrenamiento y cláusulas contractuales específicas sobre IA en acuerdos editoriales y discográficos. Esa ingeniería jurídica preventiva ahorra pleitos y acelera la innovación responsable.

En suma, el sector camina hacia una convivencia entre entrenamiento legítimo y respeto a los derechos. La innovación no necesita la piratería; necesita reglas claras, datos limpios y acuerdos justos.

El panorama deja varias certezas: el origen de los datos es la línea roja, el «fair use» no blinda la piratería, los jueces piden transparencia y los acuerdos multimillonarios ya están sobre la mesa. Quien quiera entrenar IAs competitivas y sostenibles tendrá que ordenar sus repositorios, licenciar lo que corresponda y asumir que el talento ajeno —libros, prensa, música, imágenes, vídeo— tiene un precio y un derecho a ser respetado.