talón El problema del plagio: cómo los modelos de IA generativa reproducen contenido protegido por derechos de autor - Unite.AI
Contáctanos

Inteligencia artificial

El problema del plagio: cómo los modelos de IA generativa reproducen contenido protegido por derechos de autor

mm

Publicado

 on

plagio-en-IA

Los rápidos avances en la IA generativa han despertado entusiasmo sobre el potencial creativo de la tecnología. Sin embargo, estos poderosos modelos también plantean riesgos preocupantes en torno a la reproducción de contenido plagiado o protegido por derechos de autor sin la atribución adecuada.

Cómo las redes neuronales absorben los datos de entrenamiento

Los sistemas de inteligencia artificial modernos como GPT-3 se entrenan mediante un proceso llamado aprendizaje por transferencia. Ingieren conjuntos de datos masivos extraídos de fuentes públicas como sitios web, libros, artículos académicos y más. Por ejemplo, los datos de entrenamiento de GPT-3 abarcaban 570 gigabytes de texto. Durante el entrenamiento, la IA busca patrones y relaciones estadísticas en este vasto conjunto de datos. Aprende las correlaciones entre palabras, oraciones, párrafos, estructura del lenguaje y otras características.

Esto permite a la IA generar nuevos textos o imágenes coherentes prediciendo secuencias que probablemente seguirán una entrada o mensaje determinado. Pero también significa que estos modelos absorben contenido sin tener en cuenta los derechos de autor, la atribución o los riesgos de plagio. Como resultado, las IA generativas pueden reproducir involuntariamente pasajes palabra por palabra o parafrasear textos protegidos por derechos de autor de sus corpus de entrenamiento.

Ejemplos clave de plagio de IA

Las preocupaciones en torno al plagio de la IA surgieron de manera destacada desde 2020, después del lanzamiento de GPT.

Investigaciones recientes han demostrado que los modelos de lenguaje grandes (LLM) como GPT-3 pueden reproducir pasajes sustanciales palabra por palabra de sus datos de entrenamiento sin citar (Nasr et al., 2023; Carlini et al., 2022). Por ejemplo, una demanda del New York Times reveló que el software OpenAI genera artículos del New York Times casi palabra por palabra (El New York Times, 2023).

Estos hallazgos sugieren que algunos sistemas generativos de IA pueden producir resultados plagiados no solicitados, con el riesgo de infringir los derechos de autor. Sin embargo, la prevalencia sigue siendo incierta debido a la naturaleza de "caja negra" de los LLM. La demanda del New York Times argumenta que tales resultados constituyen una infracción, lo que podría tener importantes implicaciones para el desarrollo de la IA generativa. En general, la evidencia indica que el plagio es un problema inherente a los grandes modelos de redes neuronales que requiere vigilancia y salvaguardias.

Estos casos revelan dos factores clave que influyen en los riesgos de plagio de IA:

  1. Tamaño del modelo – Los modelos más grandes como GPT-3.5 son más propensos a regenerar pasajes de texto palabra por palabra en comparación con los modelos más pequeños. Sus conjuntos de datos de entrenamiento más grandes aumentan la exposición a material fuente protegido por derechos de autor.
  2. Datos de entrenamiento – Los modelos entrenados con datos extraídos de Internet u obras protegidas por derechos de autor (incluso si tienen licencia) tienen más probabilidades de plagiar en comparación con los modelos entrenados con conjuntos de datos cuidadosamente seleccionados.

Sin embargo, medir directamente la prevalencia de los productos plagiados es un desafío. La naturaleza de "caja negra" de las redes neuronales dificulta rastrear completamente este vínculo entre los datos de entrenamiento y los resultados del modelo. Es probable que las tarifas dependan en gran medida de la arquitectura del modelo, la calidad del conjunto de datos y la pronta formulación. Pero estos casos confirman inequívocamente que ese plagio de IA ocurre, lo que tiene implicaciones legales y éticas críticas.

Sistemas emergentes de detección de plagio

En respuesta, los investigadores han comenzado a explorar sistemas de inteligencia artificial para detectar automáticamente texto e imágenes generados por modelos en comparación con los creados por humanos. Por ejemplo, los investigadores de Mila propusieron GenFace, que analiza patrones lingüísticos indicativos de texto escrito por IA. Startup Anthropic también ha desarrollado capacidades internas de detección de plagio para su IA conversacional Claude.

Sin embargo, estas herramientas tienen limitaciones. Los datos de entrenamiento masivos de modelos como GPT-3 hacen que sea difícil, si no imposible, identificar las fuentes originales de texto plagiado. Se necesitarán técnicas más sólidas a medida que los modelos generativos sigan evolucionando rápidamente. Hasta entonces, la revisión manual sigue siendo esencial para detectar resultados de IA potencialmente plagiados o infractores antes de su uso público.

Mejores prácticas para mitigar el plagio de IA generativa

A continuación se presentan algunas de las mejores prácticas que tanto los desarrolladores como los usuarios de IA pueden adoptar para minimizar los riesgos de plagio:

Para desarrolladores de IA:

  • Examine cuidadosamente las fuentes de datos de capacitación para excluir material con licencia o con derechos de autor sin los permisos adecuados.
  • Desarrollar documentación de datos rigurosos y procedimientos de seguimiento de procedencia. Registre metadatos como licencias, etiquetas, creadores, etc.
  • Implemente herramientas de detección de plagio para marcar contenido de alto riesgo antes de su lanzamiento.
  • Proporcione informes de transparencia que detallen las fuentes de datos de capacitación, las licencias y los orígenes de los resultados de la IA cuando surjan inquietudes.
  • Permita que los creadores de contenido opten por no participar fácilmente en los conjuntos de datos de entrenamiento. Cumpla rápidamente con las solicitudes de eliminación o exclusión.

Para usuarios de IA generativa:

  • Examine minuciosamente los resultados en busca de pasajes potencialmente plagiados o no atribuidos antes de implementarlos a escala.
  • Evite tratar la IA como sistemas creativos totalmente autónomos. Haga que revisores humanos examinen el contenido final.
  • Favorezca la creación humana asistida por IA en lugar de generar contenido completamente nuevo desde cero. En su lugar, utilice modelos para parafrasear o idear.
  • Consulte los términos de servicio, las políticas de contenido y las medidas de seguridad contra el plagio del proveedor de IA antes de su uso. Evite los modelos opacos.
  • Cite las fuentes claramente si aparece algún material protegido por derechos de autor en el resultado final a pesar de sus mejores esfuerzos. No presente el trabajo de IA como completamente original.
  • Limite el intercambio de resultados de forma privada o confidencial hasta que se puedan evaluar y abordar más a fondo los riesgos de plagio.

También pueden ser necesarias regulaciones más estrictas sobre los datos de capacitación a medida que sigan proliferando los modelos generativos. Esto podría implicar exigir el consentimiento de los creadores antes de que su trabajo se agregue a los conjuntos de datos. Sin embargo, tanto los desarrolladores como los usuarios tienen la responsabilidad de emplear prácticas éticas de IA que respeten los derechos de los creadores de contenido.

Plagio en V6 Alpha de Midjourney

Después de indicaciones limitadas Modelo V6 de Midjourney algunos investigadores pudieron generar imágenes casi idénticas a películas, programas de televisión y capturas de pantalla de videojuegos con derechos de autor probablemente incluidos en sus datos de entrenamiento.

Imágenes creadas por Midjourney que se asemejan a escenas de películas y videojuegos famosos

Imágenes creadas por Midjourney que se asemejan a escenas de películas y videojuegos famosos

Estos experimentos confirman además que incluso los sistemas visuales de IA de última generación pueden plagiar sin saberlo contenido protegido si no se controla la obtención de datos de entrenamiento. Subraya la necesidad de vigilancia, salvaguardias y supervisión humana al implementar modelos generativos comercialmente para limitar los riesgos de infracción.

Respuesta de las empresas de inteligencia artificial sobre el contenido protegido por derechos de autor

Las líneas entre la creatividad humana y la de la IA se están desdibujando, lo que genera complejas cuestiones de derechos de autor. Las obras que combinan aportaciones humanas y de inteligencia artificial solo pueden tener derechos de autor en aspectos ejecutados únicamente por humanos.

La Oficina de Derechos de Autor de EE. UU. negó recientemente los derechos de autor de la mayoría de los aspectos de una novela gráfica con IA y humanos, considerando que el arte de la IA no es humano. También emitió una guía que excluye los sistemas de inteligencia artificial de la "autoría". Los tribunales federales confirmaron esta postura en un caso de derechos de autor de arte de IA.

Mientras tanto, las demandas alegan infracción de la IA generativa, como Getty v. Stability AI y Artists v. a mitad de camino/Estabilidad IA. Pero sin los "autores" de IA, algunos se preguntan si se aplican las reclamaciones por infracción.

En respuesta, las principales empresas de IA como Meta, Google, Microsoft y Apple argumentaron que no deberían necesitar licencias ni pagar regalías para entrenar modelos de IA con datos protegidos por derechos de autor.

Aquí hay un resumen de los argumentos clave de las principales empresas de IA en respuesta a posibles nuevas reglas de derechos de autor de EE. UU. en torno a la IA, con citas:

Meta argumenta imponer licencias ahora causaría caos y proporcionaría pocos beneficios a los titulares de derechos de autor.

Google reclamaciones El entrenamiento de IA es análogo a actos no infractores como leer un libro (Google, 2022).

Microsoft advierte cambiar la ley de derechos de autor podría perjudicar a los pequeños desarrolladores de IA.

Apple quiere copyright código generado por IA controlado por desarrolladores humanos.

En general, la mayoría de las empresas se oponen a los nuevos mandatos de licencia y restaron importancia a las preocupaciones sobre los sistemas de inteligencia artificial que reproducen obras protegidas sin atribución. Sin embargo, esta postura es polémica dadas las recientes demandas y debates sobre derechos de autor de IA.

Caminos para la innovación responsable en IA generativa

A medida que estos poderosos modelos generativos continúan avanzando, combatir los riesgos de plagio es fundamental para la aceptación generalizada. Se requiere un enfoque múltiple:

  • Reformas de políticas en torno a la transparencia de los datos de capacitación, las licencias y el consentimiento de los creadores.
  • Tecnologías de detección de plagio más sólidas y gobernanza interna por parte de los desarrolladores.
  • Mayor conciencia de los usuarios sobre los riesgos y cumplimiento de los principios éticos de la IA.
  • Precedentes legales claros y jurisprudencia sobre cuestiones de derechos de autor de IA.

Con las salvaguardias adecuadas, la creación asistida por IA puede florecer éticamente. Pero los riesgos de plagio desenfrenado podrían socavar significativamente la confianza del público. Abordar directamente este problema es clave para aprovechar el inmenso potencial creativo de la IA generativa respetando al mismo tiempo los derechos de los creadores. Lograr el equilibrio adecuado requerirá enfrentar activamente el punto ciego del plagio inherente a la naturaleza misma de las redes neuronales. Pero hacerlo garantizará que estos poderosos modelos no socaven el ingenio humano que pretenden aumentar.

He pasado los últimos cinco años sumergiéndome en el fascinante mundo del aprendizaje automático y el aprendizaje profundo. Mi pasión y experiencia me han llevado a contribuir en más de 50 proyectos diversos de ingeniería de software, con un enfoque particular en AI/ML. Mi curiosidad constante también me ha atraído hacia el procesamiento del lenguaje natural, un campo que estoy ansioso por explorar más a fondo.