Engenharia de prompts

Lidando com Alucinações em Modelos de Linguagem de Grande Escala: Uma Pesquisa de Técnicas de Ponta

Published January 19, 2024

Updated April 27, 2026

Aayush Mittal Mittal

Modelos de linguagem de grande escala (LLMs) como GPT-4, PaLM e Llama desbloquearam avanços notáveis nas capacidades de geração de linguagem natural. No entanto, um desafio persistente que limita sua confiabilidade e implantação segura é sua tendência a alucinar – gerar conteúdo que parece coerente, mas é factualmente incorreto ou não fundamentado no contexto de entrada.

À medida que os LLMs continuam a crescer em poder e ubiquidade em aplicações do mundo real, é imperativo abordar as alucinações. Este artigo fornece uma visão geral abrangente das últimas técnicas introduzidas por pesquisadores para detectar, quantificar e mitigar alucinações em LLMs.

Entendendo Alucinações em LLMs

Alucinação se refere a imprecisões factuais ou fabricações geradas por LLMs que não são fundamentadas na realidade ou no contexto fornecido. Alguns exemplos incluem:

Inventar detalhes biográficos ou eventos não comprovados em material de origem ao gerar texto sobre uma pessoa.
Fornecer conselhos médicos defeituosos confabulando efeitos colaterais de medicamentos ou procedimentos de tratamento.
Fabricar dados, estudos ou fontes inexistentes para apoiar uma afirmação.

Esse fenômeno surge porque os LLMs são treinados em vastas quantidades de dados de texto online. Embora isso permita que atinjam fortes capacidades de modelagem de linguagem, também significa que eles aprendem a extrapolar informações, fazer saltos lógicos e preencher lacunas de maneira que parece convincente, mas pode ser enganosa ou errônea.

Alguns fatores-chave responsáveis por alucinações incluem:

Generalização de padrões – LLMs identificam e estendem padrões nos dados de treinamento que podem não se generalizar bem.
Conhecimento desatualizado – Pré-treinamento estático impede a integração de novas informações.
Ambiguidade – Prompts vagos permitem espaço para suposições incorretas.
Vieses – Modelos perpetuam e ampliam perspectivas tendenciosas.
Falta de fundamentação – Falta de compreensão e raciocínio significa que os modelos geram conteúdo que não entendem completamente.

Abordar alucinações é crítico para a implantação confiável em domínios sensíveis como medicina, direito, finanças e educação, onde gerar informações incorretas pode levar a danos.

Taxonomia de Técnicas de Mitigação de Alucinações

Pesquisadores introduziram diversas técnicas para combater alucinações em LLMs, que podem ser categorizadas em:

1. Engenharia de Prompts

Isso envolve criar prompts cuidadosamente para fornecer contexto e direcionar o LLM para respostas factuais e fundamentadas.

Aumento de recuperação – Recuperar evidências externas para fundamentar o conteúdo.
Laços de feedback – Fornecer feedback iterativamente para refinar respostas.
Ajuste de prompts – Ajustar prompts durante o fine-tuning para comportamentos desejados.

2. Desenvolvimento de Modelos

Criar modelos inerentemente menos propensos a alucinar via mudanças arquitetônicas.

Estratégias de decodificação – Gerar texto de maneiras que aumentem a fidelidade.
Fundamentação de conhecimento – Incorporar bases de conhecimento externas.
Funções de perda novas – Otimizar para fidelidade durante o treinamento.
Ajuste supervisionado – Usar dados rotulados humanos para melhorar a factualidade.

Em seguida, realizamos uma pesquisa de técnicas proeminentes sob cada abordagem.

Técnicas Notáveis de Mitigação de Alucinações

Geração Aumentada por Recuperação

A geração aumentada por recuperação melhora os LLMs recuperando e condicionando a geração de texto em documentos de evidência externos, em vez de confiar apenas no conhecimento implícito do modelo. Isso fundamenta o conteúdo em informações verificáveis e atualizadas, reduzindo alucinações.

Técnicas proeminentes incluem:

RAG – Usa um módulo de recuperação que fornece passagens relevantes para um modelo seq2seq gerar a partir. Ambos os componentes são treinados de forma integrada.
RARR – Emprega LLMs para pesquisar afirmações não atribuídas em texto gerado e revisá-las para alinhar com evidências recuperadas.
Recuperação de Conhecimento – Valida gerações incertas usando conhecimento recuperado antes de produzir texto.
LLM-Aumentador – Procura iterativamente conhecimento para construir cadeias de evidências para prompts de LLM.

Feedback e Raciocínio

Utilizar feedback de linguagem natural iterativo ou autorraciocínio permite que os LLMs refinem e melhorem suas saídas iniciais, reduzindo alucinações.

CoVe emprega uma técnica de verificação em cadeia. O LLM primeiro esboça uma resposta à consulta do usuário. Em seguida, gera questões de verificação potenciais para verificar sua própria resposta com base em sua confiança em várias afirmações feitas. Por exemplo, para uma resposta descrevendo um novo tratamento médico, CoVe pode gerar questões como “Qual é a taxa de eficácia do tratamento?”, “Ele recebeu aprovação regulatória?”, “Quais são os efeitos colaterais potenciais?”. Crucialmente, o LLM então tenta responder independentemente a essas questões de verificação sem ser influenciado por sua resposta inicial. Se as respostas às questões de verificação contradizem ou não podem apoiar afirmações feitas na resposta original, o sistema identifica essas como prováveis alucinações e refina a resposta antes de apresentá-la ao usuário.

DRESS se concentra em ajustar LLMs para alinhar melhor com as preferências humanas por meio de feedback de linguagem natural. A abordagem permite que usuários não especializados forneçam críticas em formato livre sobre gerações de modelos, como “Os efeitos colaterais mencionados parecem exagerados” ou instruções de refinamento como “Por favor, discuta também a eficácia em termos de custo”. DRESS usa aprendizado por reforço para treinar modelos para gerar respostas condicionadas a esse feedback que melhor se alinham com as preferências humanas. Isso melhora a interatividade enquanto reduz afirmações irrealistas ou não apoiadas.

MixAlign lida com situações em que os usuários fazem perguntas que não correspondem diretamente às passagens de evidência recuperadas pelo sistema. Por exemplo, um usuário pode perguntar “A poluição irá piorar na China?” enquanto as passagens recuperadas discutem tendências de poluição globalmente. Para evitar alucinar com contexto insuficiente, MixAlign esclarece explicitamente com o usuário quando não tem certeza de como relacionar sua pergunta às informações recuperadas. Esse mecanismo de retroalimentação humano-no-loop permite obter feedback para fundamentar e contextualizar corretamente a evidência, prevenindo respostas não fundamentadas.

A técnica Auto-reflexão treina LLMs para avaliar, fornecer feedback sobre e refinar iterativamente suas próprias respostas usando uma abordagem de tarefas múltiplas. Por exemplo, dado uma resposta gerada para uma consulta médica, o modelo aprende a pontuar a exatidão factual, identificar afirmações contraditórias ou não apoiadas e editá-las recuperando conhecimento relevante. Ao ensinar LLMs esse loop de feedback de verificar, criticar e melhorar continuamente suas próprias saídas, a abordagem reduz a alucinação cega.

Ajuste de Prompts

O ajuste de prompts permite ajustar os prompts instrucionais fornecidos aos LLMs durante o fine-tuning para comportamentos desejados.

O método SynTra emprega uma tarefa de resumo sintético para minimizar a alucinação antes de transferir o modelo para conjuntos de dados de resumo reais. A tarefa sintética fornece passagens de entrada e pede aos modelos que as resumam apenas por meio de recuperação, sem abstração. Isso treina os modelos para confiar completamente no conteúdo-fonte em vez de alucinar novas informações durante a geração de resumos. SynTra é mostrado para reduzir problemas de alucinação quando os modelos ajustados são implantados em tarefas-alvo.

UPRISE treina um recuperador de prompts universal que fornece o prompt suave ótimo para aprendizado de poucos disparos em tarefas downstream não vistas. Ao recuperar prompts eficazes ajustados em um conjunto diverso de tarefas, o modelo aprende a generalizar e adaptar-se a novas tarefas onde falta exemplos de treinamento. Isso melhora o desempenho sem exigir ajuste específico da tarefa.

Arquiteturas de Modelos Novas

FLEEK é um sistema focado em ajudar verificadores e validadores humanos. Ele identifica automaticamente afirmações factuais potencialmente verificáveis feitas em um texto dado. FLEEK transforma essas afirmações verificáveis em consultas, recupera evidências relacionadas de bases de conhecimento e fornece essa informação contextual para validadores humanos para verificar efetivamente a precisão do documento e as necessidades de revisão.

A abordagem de decodificação CAD reduz a alucinação na geração de linguagem por meio de decodificação consciente do contexto. Especificamente, CAD amplifica as diferenças entre a distribuição de saída de um LLM quando condicionada a um contexto versus gerada incondicionalmente. Isso desencoraja a contradição de evidências contextuais, direcionando o modelo para gerações fundamentadas.

DoLA mitiga alucinações factuais contrastando logits de diferentes camadas de redes transformer. Como o conhecimento factual tende a ser localizado em certas camadas intermediárias, amplificar sinais dessas camadas factuais por meio do contraste de logits de DoLA reduz gerações factuais incorretas.

O framework THAM introduz um termo de regularização durante o treinamento para minimizar a informação mútua entre entradas e saídas alucinadas. Isso ajuda a aumentar a dependência do modelo do contexto de entrada fornecido em vez da imaginação descontrolada, reduzindo alucinações cegas.

Fundamentação de Conhecimento

Fundamentar gerações de LLM em conhecimento estruturado evita especulações e fabricações desenfreadas.

O modelo RHO identifica entidades em um contexto conversacional e as liga a um grafo de conhecimento (KG). Fatos e relações relacionados a essas entidades são recuperados do KG e fundidos na representação de contexto fornecida ao LLM. Isso reduz alucinações em diálogos, mantendo respostas atreladas a fatos fundamentados sobre entidades ou eventos mencionados.

HAR cria conjuntos de dados de treinamento contrafactuais contendo alucinações geradas pelo modelo para melhor ensinar fundamentação. Dado uma passagem factual, os modelos são solicitados a introduzir alucinações ou distorções, gerando uma versão contrafactual alterada. O ajuste fino nesses dados força os modelos a fundamentar melhor o conteúdo nas fontes factuais originais, reduzindo a improvisação.

Ajuste Supervisionado

Treinador – Quadro interativo que responde a consultas do usuário, mas também pede correções para melhorar.
Ajuste-R – Ajuste consciente da recusa identifica perguntas não apoiadas por meio de lacunas de conhecimento nos dados de treinamento.
TWEAK – Método de decodificação que classifica gerações com base em como bem as hipóteses apoiam os fatos de entrada.

Desafios e Limitações

Apesar do progresso promissor, alguns desafios-chave permanecem na mitigação de alucinações:

Técnicas frequentemente trocam qualidade, coerência e criatividade por veracidade.
Dificuldade na avaliação rigorosa além de domínios limitados. Métricas não capturam todas as nuances.
Muitos métodos são computacionalmente caros, exigindo recuperação extensiva ou autorraciocínio.
Dependem fortemente da qualidade dos dados de treinamento e fontes de conhecimento externas.
Difícil garantir a generalização em diferentes domínios e modalidades.
Raízes fundamentais da alucinação, como a extrapolação excessiva, permanecem sem solução.

Abordar esses desafios provavelmente requer uma abordagem multilayered que combine melhorias nos dados de treinamento, arquiteturas de modelo, perdas que aumentam a fidelidade e técnicas de inferência.

O Caminho à Frente

A mitigação de alucinações para LLMs permanece um problema de pesquisa aberto com progresso ativo. Algumas direções promissoras para o futuro incluem:

Técnicas híbridas: Combinar abordagens complementares como recuperação, fundamentação de conhecimento e feedback.
Modelagem de causalidade: Melhorar a compreensão e o raciocínio.
Integração de conhecimento online: Manter o conhecimento do mundo atualizado.
Verificação formal: Fornecer garantias matemáticas sobre o comportamento do modelo.
Interpretabilidade: Construir transparência nas técnicas de mitigação.

À medida que os LLMs continuam a se proliferar em domínios de alto risco, desenvolver soluções robustas para restringir alucinações será fundamental para garantir sua implantação segura, ética e confiável. As técnicas pesquisadas neste artigo fornecem uma visão geral das técnicas propostas até agora, onde mais desafios de pesquisa abertos permanecem. Em geral, há uma tendência positiva para melhorar a factualidade do modelo, mas o progresso contínuo exige abordar limitações e explorar novas direções como causalidade, verificação e métodos híbridos. Com esforços diligentes de pesquisadores de várias disciplinas, o sonho de LLMs poderosos, mas confiáveis, pode ser traduzido em realidade.

Aayush Mittal

Eu passei os últimos cinco anos me imergindo no fascinante mundo de Aprendizado de Máquina e Aprendizado Profundo. Minha paixão e especialização me levaram a contribuir para mais de 50 projetos diversificados de engenharia de software, com um foco particular em IA/ML. Minha curiosidade contínua também me atraiu para o Processamento de Linguagem Natural, um campo que estou ansioso para explorar mais.