Inteligência artificial

Modelos de Escrita Gerativa Baseados em IA Frequentemente ‘Copiam e Colam’ Dados de Origem

Published November 19, 2021

Updated April 28, 2026

Martin Anderson

O dramaturgo e empresário americano Wilson Mizner é frequentemente citado como tendo dito: ‘Quando você rouba de um autor, é plágio; se você rouba de muitos, é pesquisa’.

Similarmente, a suposição em torno da nova geração de sistemas de escrita criativa baseados em IA é que as grandes quantidades de dados alimentados a eles na etapa de treinamento resultaram em uma genuína abstração de conceitos e ideias de alto nível; que esses sistemas têm à sua disposição a sabedoria destilada de milhares de autores contribuintes, a partir da qual a IA pode formular escrita inovadora e original; e que aqueles que usam tais sistemas podem ter certeza de que não estão se envolvendo involuntariamente em plágio por procuração.

Essa presunção é desafiada por um novo artigo de um consórcio de pesquisa (incluindo as divisões de pesquisa de IA do Facebook e da Microsoft), que descobriu que modelos de linguagem gerativa de aprendizado de máquina, como a série GPT ‘ocasionalmente copiam até longos trechos’ em sua saída supostamente original, sem atribuição.

Em alguns casos, os autores observam que o GPT-2 irá duplicar mais de 1.000 palavras do conjunto de treinamento em sua saída.

O artigo é intitulado Quanto os modelos de linguagem copiam de seus dados de treinamento? Avaliando a novidade linguística na geração de texto usando RAVEN, e é uma colaboração entre a Universidade Johns Hopkins, Microsoft Research, Universidade de Nova York e Facebook AI Research.

RAVEN

O estudo usa uma nova abordagem chamada RAVEN (RAtingVErbalNovelty), um acrônimo que foi divertidamente torturado para refletir o vilão aviano de um poema clássico:

‘Esse acrônimo se refere a “O Corvo” de Edgar Allan Poe, no qual o narrador encontra um corvo misterioso que repete constantemente: “Nunca mais!” O narrador não pode dizer se o corvo está simplesmente repetindo algo que ouviu um humano dizer, ou se está construindo suas próprias falas (talvez combinando nunca e mais)—a mesma ambiguidade básica que nosso artigo aborda.’

As descobertas do novo artigo vêm no contexto de um grande crescimento para sistemas de escrita de conteúdo baseados em IA que buscam substituir tarefas de edição ‘simples’ e até mesmo escrever conteúdo de comprimento total. Um desses sistemas recebeu $21 milhões em financiamento de série A mais cedo esta semana.

Os pesquisadores observam que ‘GPT-2 às vezes duplica trechos de treinamento que são mais de 1.000 palavras longos.‘ (ênfase deles), e que sistemas de linguagem gerativa propagam erros linguísticos nos dados de origem.

Os modelos de linguagem estudados sob RAVEN foram a série GPT de lançamentos até o GPT-2 (os autores não tinham acesso ao GPT-3 na época), um Transformer, Transformer-XL e um LSTM.

Novidade

O artigo observa que GPT-2 cunha inflexões no estilo Bush 2, como ‘Swissified’, e derivações como ‘IKEA-ness’, criando palavras novas (que não aparecem nos dados de treinamento do GPT-2) com base em princípios linguísticos derivados de espaços de alta dimensão estabelecidos durante o treinamento.

Os resultados também mostram que ‘74% das frases geradas pelo Transformer-XL têm uma estrutura sintática que nenhuma frase de treinamento tem’, indicando, como os autores afirmam, ‘modelos de linguagem neural não simplesmente memorizam; em vez disso, usam processos produtivos que permitem que combinem partes familiares de maneiras novas.’

Então, tecnicamente, a generalização e abstração devem produzir texto inovador e novo.

Duplicação de Dados Pode Ser o Problema

O artigo teoriza que citações longas e verbais produzidas por sistemas de geração de linguagem natural (NLG) podem se tornar ‘assados’ inteiros no modelo de IA porque o texto de origem é repetido várias vezes em conjuntos de dados que não foram adequadamente deduplicados.

Embora outro projeto de pesquisa tenha descoberto que a duplicação completa de texto pode ocorrer mesmo se o texto de origem aparecer apenas uma vez no conjunto de dados, os autores observam que o projeto tem arquiteturas conceituais diferentes das comuns sistemas de geração de conteúdo baseados em IA.

Os autores também observam que alterar o componente de decodificação em sistemas de geração de linguagem pode aumentar a novidade, mas descobriram em testes que isso ocorre à custa da qualidade da saída.

Mais problemas surgem à medida que os conjuntos de dados que alimentam algoritmos de geração de conteúdo crescem cada vez mais. Além de agravar questões sobre a viabilidade e acessibilidade do pré-processamento de dados, bem como a garantia de qualidade e deduplicação dos dados, muitos erros básicos permanecem nos dados de origem, que então se tornam propagados na saída de conteúdo pela IA.

Os autores observam*:

‘Recentes aumentos no tamanho dos conjuntos de treinamento tornam especialmente crítico verificar a novidade, porque a magnitude desses conjuntos de treinamento pode quebrar nossas intuições sobre o que pode ser esperado para ocorrer naturalmente. Por exemplo, algum trabalho notável em linguagem adquirida depende da suposição de que formas regulares de verbos irregulares (por exemplo, becomed, teached) não aparecem na experiência de um aprendiz, então, se um aprendiz produzir tais palavras, elas devem ser novas para o aprendiz.

‘No entanto, descobriu-se que, para todos os 92 verbos irregulares básicos em inglês, a forma regular incorreta aparece no conjunto de treinamento do GPT-2.’

Mais Curação de Dados Necessária

O artigo sustenta que mais atenção deve ser dada à novidade na formulação de sistemas de linguagem gerativa, com ênfase particular em garantir que a parte ‘retida’ do conjunto de dados (a parte dos dados de origem que é reservada para testar como o algoritmo final avaliou o corpo principal dos dados treinados) seja apropriada para a tarefa.

‘Em aprendizado de máquina, é fundamental avaliar os modelos em um conjunto de teste retido. Devido à natureza aberta da geração de texto, o texto gerado por um modelo pode ser copiado do conjunto de treinamento, caso em que não é retido — então usar esses dados para avaliar o modelo (por exemplo, para coerência ou gramaticalidade) não é válido.’

Os autores também sustentam que mais cuidado também é necessário na produção de modelos de linguagem devido ao efeito Eliza, uma síndrome identificada em 1966 que identificou “a suscetibilidade das pessoas a ler muito mais compreensão do que é justificada em strings de símbolos — especialmente palavras — concatenadas por computadores”.

* Minha conversão de citações em linha para links

Martin Anderson

Escritor sobre aprendizado de máquina, especialista em síntese de imagem humana. Ex-chefe de conteúdo de pesquisa da Metaphysic.ai.

Unite.AI

Modelos de Escrita Gerativa Baseados em IA Frequentemente ‘Copiam e Colam’ Dados de Origem

RAVEN

Novidade

Duplicação de Dados Pode Ser o Problema

Mais Curação de Dados Necessária

You may like