Inteligencia Artificial
El problema del plagio: cómo los modelos de IA generativa reproducen contenido protegido por derechos de autor

Los rápidos avances en IA generativa han despertado entusiasmo por el potencial creativo de esta tecnología. Sin embargo, estos potentes modelos también plantean riesgos preocupantes al reproducir contenido protegido por derechos de autor o plagiado sin la debida atribución.
Cómo las redes neuronales absorben los datos de entrenamiento
Los sistemas de IA modernos como GPT-3 se entrenan mediante un proceso llamado aprendizaje por transferencia. Ingieren conjuntos de datos masivos extraídos de fuentes públicas como sitios web, libros, artículos académicos y más. Por ejemplo, los datos de entrenamiento de GPT-3 abarcaron 570 gigabytes de texto. Durante el entrenamiento, la IA busca patrones y relaciones estadísticas en este vasto conjunto de datos. Aprende las correlaciones entre palabras, oraciones, párrafos, la estructura del lenguaje y otras características.
Esto permite a la IA generar nuevos textos o imágenes coherentes prediciendo secuencias que probablemente seguirán una entrada o mensaje determinado. Pero también significa que estos modelos absorben contenido sin tener en cuenta los derechos de autor, la atribución o los riesgos de plagio. Como resultado, las IA generativas pueden reproducir involuntariamente pasajes palabra por palabra o parafrasear textos protegidos por derechos de autor de sus corpus de entrenamiento.
Ejemplos clave de plagio de IA
Las preocupaciones en torno al plagio de IA surgieron de forma destacada desde 2020 tras el lanzamiento de GPT.
Investigaciones recientes han demostrado que los modelos de lenguaje grandes (LLM) como GPT-3 pueden reproducir pasajes sustanciales palabra por palabra de sus datos de entrenamiento sin citar (Nasr et al., 2023; Carlini et al., 2022). Por ejemplo, una demanda del New York Times reveló que el software OpenAI genera artículos del New York Times casi palabra por palabra (El New York Times, 2023).
Estos hallazgos sugieren que algunos sistemas de IA generativa pueden producir resultados plagiados no solicitados, con el riesgo de infringir los derechos de autor. Sin embargo, su prevalencia sigue siendo incierta debido a la naturaleza de "caja negra" de los LLM. La demanda del New York Times argumenta que dichos resultados constituyen una infracción, lo que podría tener importantes implicaciones para el desarrollo de la IA generativa. En general, la evidencia indica que el plagio es un problema inherente a los modelos de redes neuronales de gran tamaño que requiere vigilancia y medidas de seguridad.
Estos casos revelan dos factores clave que influyen en los riesgos de plagio de IA:
- Tamaño del modelo – Los modelos más grandes como GPT-3.5 son más propensos a regenerar pasajes de texto palabra por palabra en comparación con los modelos más pequeños. Sus conjuntos de datos de entrenamiento más grandes aumentan la exposición a material fuente protegido por derechos de autor.
- Datos de entrenamiento – Los modelos entrenados con datos extraídos de Internet u obras protegidas por derechos de autor (incluso si tienen licencia) tienen más probabilidades de plagiar en comparación con los modelos entrenados con conjuntos de datos cuidadosamente seleccionados.
Sin embargo, medir directamente la prevalencia de los productos plagiados es un desafío. La naturaleza de "caja negra" de las redes neuronales dificulta rastrear completamente este vínculo entre los datos de entrenamiento y los resultados del modelo. Es probable que las tarifas dependan en gran medida de la arquitectura del modelo, la calidad del conjunto de datos y la pronta formulación. Pero estos casos confirman inequívocamente que ese plagio de IA ocurre, lo que tiene implicaciones legales y éticas críticas.
Sistemas emergentes de detección de plagio
En respuesta, los investigadores han comenzado a explorar sistemas de inteligencia artificial para detectar automáticamente texto e imágenes generados por modelos en comparación con los creados por humanos. Por ejemplo, los investigadores de Mila propusieron GenFace, que analiza patrones lingüísticos indicativos de texto escrito por IA. Startup Anthropic también ha desarrollado capacidades internas de detección de plagio para su IA conversacional Claude.
Sin embargo, estas herramientas tienen limitaciones. Los datos de entrenamiento masivos de modelos como GPT-3 hacen que sea difícil, si no imposible, identificar las fuentes originales de texto plagiado. Se necesitarán técnicas más sólidas a medida que los modelos generativos sigan evolucionando rápidamente. Hasta entonces, la revisión manual sigue siendo esencial para detectar resultados de IA potencialmente plagiados o infractores antes de su uso público.
Mejores prácticas para mitigar el plagio de IA generativa
A continuación se presentan algunas de las mejores prácticas que tanto los desarrolladores como los usuarios de IA pueden adoptar para minimizar los riesgos de plagio:
Para desarrolladores de IA:
- Examine cuidadosamente las fuentes de datos de capacitación para excluir material con licencia o con derechos de autor sin los permisos adecuados.
- Desarrollar documentación de datos rigurosos y procedimientos de seguimiento de procedencia. Registre metadatos como licencias, etiquetas, creadores, etc.
- Implemente herramientas de detección de plagio para marcar contenido de alto riesgo antes de su lanzamiento.
- Proporcione informes de transparencia que detallen las fuentes de datos de capacitación, las licencias y los orígenes de los resultados de la IA cuando surjan inquietudes.
- Permita que los creadores de contenido opten por no participar fácilmente en los conjuntos de datos de entrenamiento. Cumpla rápidamente con las solicitudes de eliminación o exclusión.
Para usuarios de IA generativa:
- Examine minuciosamente los resultados en busca de pasajes potencialmente plagiados o no atribuidos antes de implementarlos a escala.
- Evite tratar la IA como sistemas creativos totalmente autónomos. Haga que revisores humanos examinen el contenido final.
- Favorezca la creación humana asistida por IA en lugar de generar contenido completamente nuevo desde cero. En su lugar, utilice modelos para parafrasear o idear.
- Consulte las condiciones de servicio, las políticas de contenido y las medidas de protección contra el plagio del proveedor de IA antes de usar. Evite los modelos opacos.
- Cite las fuentes claramente si, a pesar de los esfuerzos, aparece material con derechos de autor en el resultado final. No presente el trabajo de IA como completamente original.
- Limite el intercambio de resultados de forma privada o confidencial hasta que se puedan evaluar y abordar más a fondo los riesgos de plagio.
También pueden ser necesarias regulaciones más estrictas sobre los datos de capacitación a medida que sigan proliferando los modelos generativos. Esto podría implicar exigir el consentimiento de los creadores antes de que su trabajo se agregue a los conjuntos de datos. Sin embargo, tanto los desarrolladores como los usuarios tienen la responsabilidad de emplear prácticas éticas de IA que respeten los derechos de los creadores de contenido.
Plagio en V6 Alpha de Midjourney
Después de indicaciones limitadas Modelo V6 de Midjourney algunos investigadores pudieron generar imágenes casi idénticas a películas, programas de televisión y capturas de pantalla de videojuegos con derechos de autor probablemente incluidos en sus datos de entrenamiento.
Estos experimentos confirman además que incluso los sistemas visuales de IA de última generación pueden plagiar sin saberlo contenido protegido si no se controla la obtención de datos de entrenamiento. Subraya la necesidad de vigilancia, salvaguardias y supervisión humana al implementar modelos generativos comercialmente para limitar los riesgos de infracción.
Respuesta de las empresas de inteligencia artificial sobre el contenido protegido por derechos de autor
Las líneas entre la creatividad humana y la de la IA se están desdibujando, lo que genera complejas cuestiones de derechos de autor. Las obras que combinan aportaciones humanas y de inteligencia artificial solo pueden tener derechos de autor en aspectos ejecutados únicamente por humanos.
La Oficina de Derechos de Autor de Estados Unidos denegó recientemente los derechos de autor a la mayoría de los aspectos de una novela gráfica con un humano y una IA, considerándola no humana. También emitió una guía que excluye a los sistemas de IA de la "autoría". Los tribunales federales confirmaron esta postura en un caso de derechos de autor sobre arte con IA.
Mientras tanto, las demandas alegan infracción de la IA generativa, como Getty v. Stability AI y Artists v. Midjourney/IA de estabilidad. Sin embargo, sin "autores" de IA, algunos se preguntan si proceden las demandas por infracción.
En respuesta, las principales empresas de IA como Meta, Google, Microsoft y Apple argumentaron que no deberían necesitar licencias ni pagar regalías para entrenar modelos de IA con datos protegidos por derechos de autor.
Aquí hay un resumen de los argumentos clave de las principales empresas de IA en respuesta a posibles nuevas reglas de derechos de autor de EE. UU. en torno a la IA, con citas:
Meta argumenta imponer licencias ahora causaría caos y proporcionaría pocos beneficios a los titulares de derechos de autor.
Google reclamaciones El entrenamiento de IA es análogo a actos no infractores como leer un libro (Google, 2022).
Microsoft advierte cambiar la ley de derechos de autor podría perjudicar a los pequeños desarrolladores de IA.
Apple quiere copyright código generado por IA controlado por desarrolladores humanos.
En general, la mayoría de las empresas se oponen a los nuevos mandatos de licencia y restaron importancia a las preocupaciones sobre los sistemas de inteligencia artificial que reproducen obras protegidas sin atribución. Sin embargo, esta postura es polémica dadas las recientes demandas y debates sobre derechos de autor de IA.
Caminos para la innovación responsable en IA generativa
A medida que estos poderosos modelos generativos continúan avanzando, combatir los riesgos de plagio es fundamental para la aceptación generalizada. Se requiere un enfoque múltiple:
- Reformas de políticas en torno a la transparencia de los datos de capacitación, las licencias y el consentimiento de los creadores.
- Tecnologías de detección de plagio más sólidas y gobernanza interna por parte de los desarrolladores.
- Mayor conciencia de los usuarios sobre los riesgos y cumplimiento de los principios éticos de la IA.
- Precedentes legales claros y jurisprudencia sobre cuestiones de derechos de autor de IA.
Con las medidas de seguridad adecuadas, la creación asistida por IA puede prosperar éticamente. Sin embargo, los riesgos de plagio sin control podrían socavar significativamente la confianza pública. Abordar este problema directamente es clave para aprovechar el inmenso potencial creativo de la IA generativa, respetando al mismo tiempo los derechos de los creadores. Lograr el equilibrio adecuado requerirá afrontar activamente el punto ciego del plagio inherente a la naturaleza misma de las redes neuronales. Sin embargo, al hacerlo, se garantizará que estos potentes modelos no socaven el ingenio humano que pretenden potenciar.







