Inteligencia artificial

Modelos de escritura generativa basados en IA frecuentemente ‘copian y pegan’ datos de origen

Published November 19, 2021

Updated April 28, 2026

Martin Anderson

El dramaturgo y empresario estadounidense Wilson Mizner es citado frecuentemente como diciendo ‘Cuando robas de un autor, es plagio; si robas de muchos, es investigación’.

De manera similar, la suposición alrededor de la nueva generación de sistemas de escritura creativa basados en IA es que las grandes cantidades de datos alimentados a ellos en la etapa de entrenamiento han resultado en una genuina abstracción de conceptos y ideas de alto nivel; que estos sistemas tienen a su disposición la sabiduría destilada de miles de autores contribuyentes, de la cual el IA puede formular escritura innovadora y original; y que aquellos que utilizan dichos sistemas pueden estar seguros de que no están involucrados inadvertidamente en plagio por poder.

Es una presunción que es desafiada por un nuevo artículo de investigación de un consorcio de investigación (que incluye las divisiones de investigación de IA de Facebook y Microsoft), que ha encontrado que los modelos de lenguaje generativo de aprendizaje automático como la serie GPT ‘ocasionalmente copian incluso pasajes muy largos’ en su salida supuestamente original, sin atribución.

En algunos casos, los autores señalan que GPT-2 duplicará más de 1.000 palabras del conjunto de entrenamiento en su salida.

El artículo se titula ¿Cuánto copian los modelos de lenguaje de sus datos de entrenamiento? Evaluación de la novedad lingüística en la generación de texto utilizando RAVEN, y es una colaboración entre la Universidad Johns Hopkins, Microsoft Research, la Universidad de Nueva York y Facebook AI Research.

RAVEN

El estudio utiliza un nuevo enfoque llamado RAVEN (RAtingVErbalNovelty), un acrónimo que ha sido entretenidamente torturado para reflejar al villano aviar de un poema clásico:

‘Este acrónimo se refiere a “El cuervo” de Edgar Allan Poe, en el que el narrador se encuentra con un cuervo misterioso que repite constantemente, “Nunca más”. El narrador no puede decir si el cuervo simplemente está repitiendo algo que escuchó decir a un humano, o si está construyendo sus propias expresiones (quizás combinando nunca y más)—la misma ambigüedad básica que nuestro artículo aborda.’

Los hallazgos del nuevo artículo llegan en el contexto de un crecimiento importante para los sistemas de escritura de contenido de IA que buscan reemplazar tareas de edición ‘simples’, e incluso escribir contenido de longitud completa. Uno de dichos sistemas recibió $21 millones en financiación de serie A a principios de esta semana.

Los investigadores señalan que ‘GPT-2 sometimes duplica pasajes de entrenamiento que son más de 1.000 palabras de largo.‘ (énfasis de ellos), y que los sistemas de lenguaje generativo propagan errores lingüísticos en los datos de origen.

Los modelos de lenguaje estudiados bajo RAVEN fueron la serie de versiones de GPT hasta GPT-2 (los autores no tenían acceso en ese momento a GPT-3), un Transformer, Transformer-XL, y un LSTM.

Novedad

El artículo señala que GPT-2 acuña inflexiones al estilo de Bush 2 como ‘suizificado’, y derivaciones como ‘IKEA-idad’, creando tales palabras novelas (que no aparecen en el conjunto de entrenamiento de GPT-2) sobre principios lingüísticos derivados de espacios de alta dimensión establecidos durante el entrenamiento.

Los resultados también muestran que ‘el 74% de las oraciones generadas por Transformer-XL tienen una estructura sintáctica que ninguna oración de entrenamiento tiene’, lo que indica, según los autores, ‘los modelos de lenguaje neural no simplemente memorizan; en cambio, utilizan procesos productivos que les permiten combinar partes familiares de maneras novelas.’

Así que, técnicamente, la generalización y la abstracción deben producir texto innovador y novedoso.

Duplicación de datos puede ser el problema

El artículo teoriza que las citas largas y verbales producidas por los sistemas de generación de lenguaje natural (NLG) podrían volverse ‘cocidos’ enteros en el modelo de IA porque el texto de origen original se repite múltiples veces en conjuntos de datos que no han sido adecuadamente deduplicados.

Aunque otro proyecto de investigación ha encontrado que la duplicación completa de texto puede ocurrir incluso si el texto de origen solo aparece una vez en el conjunto de datos, los autores señalan que el proyecto tiene arquitecturas conceptuales diferentes de los sistemas de IA generadores de contenido comunes.

Los autores también observan que cambiar el componente de decodificación en los sistemas de generación de lenguaje podría aumentar la novedad, pero encontraron en las pruebas que esto ocurre a expensas de la calidad de la salida.

Se presentan problemas adicionales a medida que los conjuntos de datos que alimentan los algoritmos generadores de contenido crecen cada vez más. Además de agravar los problemas relacionados con la rentabilidad y la viabilidad del preprocesamiento de datos, así como la garantía de calidad y la deduplicación de los datos, muchos errores básicos permanecen en los datos de origen, que luego se propagan en la salida de contenido del IA.

Los autores señalan:

‘Los recientes aumentos en el tamaño de los conjuntos de entrenamiento hacen que sea especialmente crítico verificar la novedad porque la magnitud de estos conjuntos de entrenamiento puede romper nuestras intuiciones sobre lo que se puede esperar que ocurra naturalmente. Por ejemplo, algunos trabajos notables en lenguaje adquisición dependen de la suposición de que las formas regulares del tiempo pasado de verbos irregulares (por ejemplo, becomed, teached) no aparecen en la experiencia de un aprendiz, así que si un aprendiz produce tales palabras, deben ser novedosas para el aprendiz.

‘Sin embargo, resulta que, para todos los 92 verbos irregulares básicos en inglés, la forma regular incorrecta aparece en el conjunto de entrenamiento de GPT-2.’

Más curación de datos necesaria

El artículo sostiene que se debe prestar más atención a la novedad en la formulación de los sistemas de lenguaje generativo, con un énfasis particular en garantizar que la parte ‘retenida’ del conjunto de datos (la parte del conjunto de datos de origen que se establece para probar cómo bien el algoritmo final ha evaluado el cuerpo principal de datos entrenados) sea adecuada para la tarea.

‘En el aprendizaje automático, es fundamental evaluar los modelos en un conjunto de prueba retenido. Debido a la naturaleza abierta de la generación de texto, el texto generado por un modelo puede ser copiado del conjunto de entrenamiento, en cuyo caso no está retenido, por lo que utilizar esos datos para evaluar el modelo (por ejemplo, para coherencia o gramaticalidad) no es válido.’

Los autores también sostienen que se necesita más cuidado en la producción de modelos de lenguaje debido al efecto Eliza, un síndrome identificado en 1966 que identificó “la susceptibilidad de las personas a leer mucho más comprensión de la que está justificada en cadenas de símbolos—especialmente palabras—unidas por computadoras”.

* Mi conversión de citas en línea a enlaces

Martin Anderson

Escritor sobre aprendizaje automático, especialista en síntesis de imágenes humanas. Anterior jefe de contenido de investigación en Metaphysic.ai.

Unite.AI

Modelos de escritura generativa basados en IA frecuentemente ‘copian y pegan’ datos de origen

RAVEN

Novedad

Duplicación de datos puede ser el problema

Más curación de datos necesaria

You may like