Inteligência artificial

Como os Dados Sintéticos Afetam as Alucinações da IA?

Published February 8, 2025

Updated April 3, 2026

Zac Amos

Embora os dados sintéticos sejam uma ferramenta poderosa, eles só podem reduzir as alucinações da inteligência artificial em circunstâncias específicas. Em quase todos os outros casos, eles as ampliarão. Por quê? O que esse fenômeno significa para aqueles que investiram nele?

Como os Dados Sintéticos Diferem dos Dados Reais?

Os dados sintéticos são informações geradas por IA. Em vez de serem coletados a partir de eventos ou observações do mundo real, eles são produzidos artificialmente. No entanto, eles se assemelham ao original o suficiente para produzir saídas precisas e relevantes. Essa é a ideia, pelo menos.

Para criar um conjunto de dados artificial, os engenheiros de IA treinam um algoritmo gerador em um banco de dados relacional real. Quando solicitado, ele produz um segundo conjunto que se assemelha muito ao primeiro, mas não contém informações genuínas. Embora as tendências gerais e as propriedades matemáticas permaneçam intactas, há ruído suficiente para mascarar as relações originais.

Um conjunto de dados gerado por IA vai além da desidentificação, replicando a lógica subjacente das relações entre os campos, em vez de simplesmente substituir os campos por alternativas equivalentes. Como não contém detalhes de identificação, as empresas podem usá-lo para contornar regulamentos de privacidade e direitos autorais. Mais importante ainda, elas podem compartilhá-lo ou distribuí-lo livremente sem medo de violação.

No entanto, as informações falsas são mais comumente usadas para suplementação. As empresas podem usá-las para enriquecer ou expandir tamanhos de amostra que são muito pequenos, tornando-os grandes o suficiente para treinar sistemas de IA com eficácia.

Os Dados Sintéticos Minimizam as Alucinações da IA?

Às vezes, os algoritmos se referem a eventos inexistentes ou fazem sugestões logicamente impossíveis. Essas alucinações são frequentemente nonsense, enganosas ou incorretas. Por exemplo, um grande modelo de linguagem pode escrever um artigo sobre como domesticar leões ou se tornar um médico aos 6 anos. No entanto, nem todas são tão extremas, o que pode tornar difícil reconhecê-las.

Se devidamente curados, os dados artificiais podem mitigar esses incidentes. Um banco de dados de treinamento relevante e autêntico é a base para qualquer modelo, então é razoável supor que quanto mais detalhes alguém tiver, mais precisa será a saída do modelo. Um conjunto de dados suplementar permite escalabilidade, mesmo para aplicações de nicho com informações públicas limitadas.

A debiasing é outra forma pela qual um banco de dados sintético pode minimizar as alucinações da IA. De acordo com a MIT Sloan School of Management, ele pode ajudar a abordar vieses porque não está limitado ao tamanho da amostra original. Os profissionais podem usar detalhes realistas para preencher as lacunas onde subpopulações seletivas estão sub ou super-representadas.

Como os Dados Artificiais Pioram as Alucinações

Como os algoritmos inteligentes não podem raciocinar ou contextualizar informações, eles são propensos a alucinações. Modelos geradores — especialmente os grandes modelos de linguagem pré-treinados — são particularmente vulneráveis. De certa forma, os fatos artificiais exacerbam o problema.

Amplificação de Vieses

Assim como os humanos, a IA pode aprender e reproduzir vieses. Se um banco de dados artificial sobrevaloriza alguns grupos enquanto subrepresenta outros — o que é preocupantemente fácil de fazer acidentalmente — sua lógica de tomada de decisão será distorcida, afetando adversamente a precisão da saída.

Um problema semelhante pode surgir quando as empresas usam dados falsos para eliminar vieses do mundo real, pois eles podem não refletir mais a realidade. Por exemplo, como mais de 99% dos cânceres de mama ocorrem em mulheres, usar informações suplementares para equilibrar a representação pode distorcer os diagnósticos.

Alucinações Interseccionais

Interseccionalidade é um quadro sociológico que descreve como demografias como idade, gênero, raça, ocupação e classe se intersectam. Ele analisa como as identidades sociais sobrepostas dos grupos resultam em combinações únicas de discriminação e privilégio.

Quando um modelo gerador é solicitado a produzir detalhes artificiais com base no que foi treinado, ele pode gerar combinações que não existiam no original ou são logicamente impossíveis.

Ericka Johnson, professora de gênero e sociedade na Universidade de Linköping, trabalhou com um cientista de aprendizado de máquina para demonstrar esse fenômeno. Eles usaram uma rede adversária geradora para criar versões sintéticas dos números do censo dos EUA de 1990.

Logo de início, eles notaram um problema gritante. A versão artificial tinha categorias intituladas “esposa e solteira” e “maridos nunca casados”, ambos os quais eram alucinações interseccionais.

Sem curação adequada, o banco de dados de réplica sempre sobreporá as subpopulações dominantes nos conjuntos de dados, enquanto subrepresentará — ou até mesmo excluirá — grupos subrepresentados. Casos de bordo e outliers podem ser ignorados completamente em favor de tendências dominantes.

Colapso do Modelo

Uma dependência excessiva de padrões e tendências artificiais leva ao colapso do modelo — onde o desempenho de um algoritmo se deteriora drasticamente à medida que se torna menos adaptável a observações e eventos do mundo real.

Esse fenômeno é particularmente aparente na IA geradora de próxima geração. Usar repetidamente uma versão artificial para treiná-los resulta em um loop autoconsumidor. Um estudo descobriu que a qualidade e recall declinam progressivamente sem figuras recentes e reais suficientes em cada geração.

Sobreajuste

Sobreajuste é uma dependência excessiva dos dados de treinamento. O algoritmo se sai bem inicialmente, mas irá alucinar quando apresentado a novos pontos de dados. As informações sintéticas podem agravar esse problema se não refletirem com precisão a realidade.

As Implicações do Uso Contínuo de Dados Sintéticos

O mercado de dados sintéticos está em alta. Empresas nesse nicho de indústria arrecadaram cerca de $328 milhões em 2022, em comparação com $53 milhões em 2020 — um aumento de 518% em apenas 18 meses. É importante notar que isso é apenas o financiamento público conhecido, o que significa que o valor real pode ser ainda maior. É seguro dizer que as empresas estão incrivelmente investidas nessa solução.

Se as empresas continuarem usando um banco de dados artificial sem curação e debiasing adequadas, o desempenho do modelo irá declinar progressivamente, azedando seus investimentos em IA. Os resultados podem ser mais graves, dependendo da aplicação. Por exemplo, na área de saúde, um aumento nas alucinações pode resultar em diagnósticos errados ou planos de tratamento inadequados, levando a piores resultados para os pacientes.

A Solução Não Envolverá o Retorno aos Dados Reais

Os sistemas de IA precisam de milhões, senão bilhões, de imagens, textos e vídeos para treinamento, grande parte dos quais é coletada de sites públicos e compilada em conjuntos de dados massivos e abertos. Infelizmente, os algoritmos consomem essas informações mais rápido do que os humanos podem gerá-las. O que acontece quando eles aprendem tudo?

Os líderes empresariais estão preocupados com o impacto de atingir o limite de dados — o ponto em que todas as informações públicas na internet foram esgotadas. Isso pode estar se aproximando mais do que eles pensam.

Embora a quantidade de texto simples na página de crawl comum média e o número de usuários da internet estejam crescendo anualmente 2% a 4%, os algoritmos estão ficando sem dados de alta qualidade. Apenas 10% a 40% podem ser usados para treinamento sem comprometer o desempenho. Se as tendências continuarem, o estoque de informações públicas geradas por humanos pode se esgotar até 2026.

É provável que o setor de IA atinja o limite de dados ainda mais cedo. O boom de IA geradora dos últimos anos aumentou as tensões sobre a propriedade e violação de direitos autorais de informações. Mais proprietários de sites estão usando o Protocolo de Exclusão de Robôs — um padrão que usa um arquivo robots.txt para bloquear crawlers da web — ou deixando claro que seu site está fora de alcance.

Um estudo de 2024 publicado por um grupo de pesquisa liderado pelo MIT revelou que as restrições no conjunto de dados Colossal Cleaned Common Crawl (C4) — um grande corpus de crawl da web — estão aumentando. Mais de 28% das fontes mais ativas e críticas no C4 foram totalmente restritas. Além disso, 45% do C4 agora é designado como fora de alcance pelos termos de serviço.

Se as empresas respeitarem essas restrições, a frescura, relevância e precisão dos fatos públicos do mundo real irão declinar, forçando-as a depender de bancos de dados artificiais. Elas podem não ter muita escolha se os tribunais decidirem que qualquer alternativa é violação de direitos autorais.

O Futuro dos Dados Sintéticos e Alucinações da IA

À medida que as leis de direitos autorais são modernizadas e mais proprietários de sites escondem seu conteúdo dos crawlers da web, a geração de conjuntos de dados artificiais se tornará cada vez mais popular. As organizações devem se preparar para enfrentar a ameaça das alucinações.

Related Topics:ai hallucination synthetic data

Zac Amos

Zac Amos é um escritor de tecnologia que se concentra em inteligência artificial. Ele também é o editor de recursos do ReHack, onde você pode ler mais sobre seu trabalho.