Inteligencia artificial

El Problema del Plagio: Cómo los Modelos de Inteligencia Artificial Generativa Reproducen Contenido con Derechos de Autor

Publicado el 9 de enero de 2024

Actualizado el 22 de mayo de 2026

Por

Aayush Mittal Mittal

Los rápidos avances en la inteligencia artificial generativa han despertado entusiasmo sobre el potencial creativo de la tecnología. Sin embargo, estos poderosos modelos también plantean riesgos preocupantes en torno a la reproducción de contenido con derechos de autor o plagio sin la debida atribución.

Cómo las Redes Neuronales Absorben los Datos de Entrenamiento

Los sistemas de inteligencia artificial modernos, como GPT-3, se entrenan a través de un proceso llamado aprendizaje de transferencia. Ingestan grandes conjuntos de datos extraídos de fuentes públicas como sitios web, libros, artículos académicos y más. Por ejemplo, los datos de entrenamiento de GPT-3 abarcaron 570 gigabytes de texto. Durante el entrenamiento, el modelo de inteligencia artificial busca patrones y relaciones estadísticas en este vasto conjunto de datos. Aprende las correlaciones entre palabras, oraciones, párrafos, estructura del lenguaje y otras características.

Esto permite que el modelo de inteligencia artificial genere nuevo texto coherente o imágenes prediciendo secuencias que probablemente sigan a una entrada o prompt dada. Sin embargo, también significa que estos modelos absorben contenido sin considerar los derechos de autor, la atribución o los riesgos de plagio. Como resultado, los modelos de inteligencia artificial generativa pueden reproducir involuntariamente pasajes idénticos o parafrasear texto con derechos de autor de sus corpus de entrenamiento.

Ejemplos Clave de Plagio de Inteligencia Artificial

Las preocupaciones sobre el plagio de inteligencia artificial surgieron prominentemente desde 2020 después del lanzamiento de GPT.

Investigaciones recientes han demostrado que los grandes modelos de lenguaje (LLM) como GPT-3 pueden reproducir pasajes idénticos sustanciales de sus datos de entrenamiento sin citación (Nasr et al., 2023; Carlini et al., 2022). Por ejemplo, una demanda de The New York Times reveló que el software de OpenAI generaba artículos de The New York Times casi idénticos (The New York Times, 2023).

Estos hallazgos sugieren que algunos sistemas de inteligencia artificial generativa pueden producir salidas plagio sin solicitar, lo que arriesga la infracción de derechos de autor. Sin embargo, la prevalencia sigue siendo incierta debido a la naturaleza de “caja negra” de los LLM. La demanda de The New York Times argumenta que tales salidas constituyen infracción, lo que podría tener implicaciones importantes para el desarrollo de la inteligencia artificial generativa. En general, la evidencia indica que el plagio es un problema inherente a los grandes modelos de redes neuronales que requiere vigilancia y salvaguardas.

Estos casos revelan dos factores clave que influyen en los riesgos de plagio de la inteligencia artificial:

Tamaño del modelo – Los modelos más grandes como GPT-3.5 son más propensos a regenerar pasajes de texto idénticos en comparación con los modelos más pequeños. Sus conjuntos de datos de entrenamiento más grandes aumentan la exposición a material fuente con derechos de autor.
Datos de entrenamiento – Los modelos entrenados con datos de Internet raspados o obras con derechos de autor (incluso si están licenciadas) son más propensos a plagiar en comparación con los modelos entrenados con conjuntos de datos cuidadosamente curados.

Sin embargo, medir directamente la prevalencia de salidas plagio es desafiante. La naturaleza de “caja negra” de las redes neuronales hace que sea difícil rastrear completamente el enlace entre los datos de entrenamiento y las salidas del modelo. Las tasas probablemente dependen mucho de la arquitectura del modelo, la calidad del conjunto de datos y la formulación de la entrada. Pero estos casos confirman que el plagio de la inteligencia artificial ocurre inequívocamente, lo que tiene implicaciones legales y éticas críticas.

Sistemas de Detección de Plagio Emergentes

En respuesta, los investigadores han comenzado a explorar sistemas de inteligencia artificial para detectar automáticamente el texto y las imágenes generadas por modelos versus creadas por humanos. Por ejemplo, los investigadores de Mila propusieron GenFace, que analiza patrones lingüísticos indicativos de texto escrito por inteligencia artificial. La startup Anthropic también ha desarrollado capacidades de detección de plagio internas para su inteligencia artificial conversacional Claude.

Sin embargo, estas herramientas tienen limitaciones. Los datos de entrenamiento masivos de modelos como GPT-3 hacen que sea difícil, si no imposible, identificar las fuentes originales de texto plagio. Se necesitarán técnicas más robustas a medida que los modelos generativos continúen evolucionando rápidamente. Hasta entonces, la revisión manual sigue siendo esencial para filtrar las salidas de inteligencia artificial potencialmente plagio o infractoras antes de su uso público.

Mejores Prácticas para Mitigar el Plagio de la Inteligencia Artificial Generativa

Aquí hay algunas mejores prácticas que tanto los desarrolladores de inteligencia artificial como los usuarios pueden adoptar para minimizar los riesgos de plagio:

Para los desarrolladores de inteligencia artificial:

Verificar cuidadosamente las fuentes de los datos de entrenamiento para excluir material con derechos de autor o licenciado sin permisos adecuados.
Desarrollar procedimientos rigurosos de documentación de datos y seguimiento de la procedencia. Registrar metadatos como licencias, etiquetas, creadores, etc.
Implementar herramientas de detección de plagio para marcar contenido de alto riesgo antes de su lanzamiento.
Proporcionar informes de transparencia que detallen las fuentes de los datos de entrenamiento, licencias y orígenes de las salidas de la inteligencia artificial cuando surjan preocupaciones.
Permitir que los creadores de contenido opten por salir fácilmente de los conjuntos de datos de entrenamiento. Cumplir rápidamente con las solicitudes de retiro o exclusión.

Para los usuarios de inteligencia artificial generativa:

Examinar exhaustivamente las salidas para cualquier pasaje potencialmente plagio o sin atribución antes de implementar a gran escala.
Evitar tratar a la inteligencia artificial como sistemas creativos completamente autónomos. Tener revisores humanos que examinen el contenido final.
Favorecer la creación asistida por humanos sobre la generación de contenido completamente nuevo desde cero. Usar modelos para parafrasear o idear en lugar de crear.
Consultar los términos de servicio, políticas de contenido y salvaguardias contra el plagio de los proveedores de inteligencia artificial antes de su uso. Evitar modelos opacos.
Citar fuentes claramente si aparece material con derechos de autor en la salida final a pesar de los mejores esfuerzos. No presentar el trabajo de la inteligencia artificial como completamente original.
Limitar la compartición de salidas de forma privada o confidencial hasta que los riesgos de plagio puedan ser evaluados y abordados más a fondo.

Las regulaciones más estrictas sobre los datos de entrenamiento pueden ser necesarias a medida que los modelos generativos continúan proliferando. Esto podría involucrar requerir el consentimiento de los creadores antes de que su trabajo se agregue a los conjuntos de datos. Sin embargo, la responsabilidad recae en ambos, desarrolladores y usuarios, para emplear prácticas éticas de inteligencia artificial que respeten los derechos de los creadores de contenido.

Plagio en la V6 Alpha de Midjourney

Después de una limitada entrada de prompts, el modelo V6 de Midjourney generó imágenes casi idénticas a películas, programas de televisión y capturas de pantalla de videojuegos con derechos de autor, probablemente incluidas en sus datos de entrenamiento.

Imágenes Creadas por Midjourney que se Parecen a Escenas de Películas y Videojuegos Famosos

Estos experimentos confirman aún más que incluso los sistemas de inteligencia artificial visual de vanguardia pueden plagiar involuntariamente contenido protegido si la procedencia de los datos de entrenamiento no se controla. Subraya la necesidad de vigilancia, salvaguardas y supervisión humana al implementar modelos generativos comercialmente para limitar los riesgos de infracción.

Respuesta de las Empresas de Inteligencia Artificial sobre Contenido con Derechos de Autor

Las líneas entre la creatividad humana y la de la inteligencia artificial se están desdibujando, creando complejas preguntas sobre los derechos de autor. Las obras que combinan la entrada humana y la de la inteligencia artificial pueden ser solo copyrightables en aspectos ejecutados únicamente por el ser humano.

La Oficina de Derechos de Autor de los Estados Unidos recientemente denegó los derechos de autor a la mayoría de los aspectos de una novela gráfica de inteligencia artificial humana, considerando el arte de la inteligencia artificial como no humano. También emitió orientación que excluye a los sistemas de inteligencia artificial de la “autoría”. Los tribunales federales confirmaron esta postura en un caso de derechos de autor de arte de inteligencia artificial.

Mientras tanto, las demandas alegan que la inteligencia artificial generativa infringe, como Getty v. Stability AI y artistas v. Midjourney/Stability AI. Pero sin “autores” de inteligencia artificial, algunos cuestionan si las reclamaciones de infracción se aplican.

En respuesta, las principales empresas de inteligencia artificial como Meta, Google, Microsoft y Apple argumentaron que no deberían necesitar licencias o pagar regalías para entrenar modelos de inteligencia artificial con datos con derechos de autor.

Aquí hay un resumen de los argumentos clave de las principales empresas de inteligencia artificial en respuesta a las posibles nuevas reglas de derechos de autor de los Estados Unidos sobre la inteligencia artificial, con citas:

Meta argumenta que imponer licencias ahora causaría caos y proporcionaría poco beneficio a los titulares de derechos de autor.

Google afirma que el entrenamiento de la inteligencia artificial es análogo a actos no infractores como leer un libro (Google, 2022).

Microsoft advierte que cambiar la ley de derechos de autor podría desventajar a los pequeños desarrolladores de inteligencia artificial.

Apple quiere copyright el código generado por la inteligencia artificial controlado por desarrolladores humanos.

En general, la mayoría de las empresas se oponen a los nuevos mandatos de licencia y minimizan las preocupaciones sobre los sistemas de inteligencia artificial que reproducen obras protegidas sin atribución. Sin embargo, esta postura es controvertida dado los recientes litigios y debates sobre los derechos de autor de la inteligencia artificial.

Camino hacia la Innovación Responsable de la Inteligencia Artificial Generativa

A medida que estos poderosos modelos generativos continúan avanzando, es crucial abordar los riesgos de plagio para lograr una aceptación generalizada. Se requiere un enfoque multifacético:

Reformas de políticas sobre la transparencia de los datos de entrenamiento, licencias y consentimiento de los creadores.
Tecnologías de detección de plagio más fuertes y una mejor gobernanza interna por parte de los desarrolladores.
Mayor conciencia de los usuarios sobre los riesgos y la adhesión a los principios éticos de la inteligencia artificial.
Precedentes legales claros y jurisprudencia en torno a los problemas de derechos de autor de la inteligencia artificial.

Con las salvaguardas adecuadas, la creación asistida por la inteligencia artificial puede florecer de manera ética. Pero los riesgos no controlados de plagio podrían socavar significativamente la confianza pública. Abordar directamente este problema es clave para realizar el inmenso potencial creativo de la inteligencia artificial generativa mientras se respetan los derechos de los creadores. Lograr el equilibrio correcto requerirá confrontar activamente el punto ciego del plagio construido en la naturaleza misma de las redes neuronales. Pero hacerlo garantizará que estos poderosos modelos no socaven la ingenuidad humana que pretenden aumentar.

Aayush Mittal, Mittal

He dedicado los últimos cinco años sumergiéndome en el fascinante mundo de Machine Learning y Deep Learning. Mi pasión y experiencia me han llevado a contribuir a más de 50 proyectos de ingeniería de software diversos, con un enfoque particular en AI/ML. Mi curiosidad en curso también me ha llevado hacia el Procesamiento de Lenguaje Natural, un campo que estoy ansioso por explorar más a fondo.