Engenharia de prompts

Lidando com Alucinações em Modelos de Linguagem Grande: Uma Visão Geral de Técnicas de Ponta

mm

Modelos de linguagem grande (LLMs) como GPT-4, PaLM e Llama desbloquearam avanços notáveis nas capacidades de geração de linguagem natural. No entanto, um desafio persistente que limita sua confiabilidade e implantação segura é sua tendência a alucinar – gerar conteúdo que parece coerente, mas é factualmente incorreto ou desprovido de contexto.

À medida que os LLMs continuam a crescer em poder e ubiquidade em aplicações do mundo real, lidar com alucinações se torna imperativo. Este artigo fornece uma visão geral abrangente das últimas técnicas que os pesquisadores introduziram para detectar, quantificar e mitigar alucinações em LLMs.

Entendendo Alucinação em LLMs

Alucinação se refere a imprecisões factuais ou fabricações geradas por LLMs que não são baseadas na realidade ou no contexto fornecido. Alguns exemplos incluem:

  • Inventar detalhes biográficos ou eventos não evidenciados no material de origem ao gerar texto sobre uma pessoa.
  • Fornecer conselhos médicos defeituosos confabulando efeitos colaterais de medicamentos ou procedimentos de tratamento.
  • Fabricar dados, estudos ou fontes inexistentes para apoiar uma afirmação.

Esse fenômeno surge porque os LLMs são treinados em vastas quantidades de dados de texto online. Embora isso permita que atinjam fortes capacidades de modelagem de linguagem, também significa que eles aprendem a extrapolar informações, fazer saltos lógicos e preencher lacunas de maneira convincente, mas possivelmente enganosa ou errônea.

Alguns fatores-chave responsáveis por alucinações incluem:

  • Generalização de padrões – LLMs identificam e estendem padrões nos dados de treinamento que podem não generalizar bem.
  • Conhecimento desatualizado – Pré-treinamento estático impede a integração de novas informações.
  • Ambiguidade – Prompts vagos permitem espaço para suposições incorretas.
  • Vieses – Modelos perpetuam e amplificam perspectivas distorcidas.
  • Falta de fundamentação – Falta de compreensão e raciocínio significa que os modelos geram conteúdo que não entendem completamente.

Lidar com alucinações é crítico para a implantação confiável em domínios sensíveis, como medicina, direito, finanças e educação, onde gerar informações incorretas pode levar a danos.

Taxonomia de Técnicas de Mitigação de Alucinação

Pesquisadores introduziram diversas técnicas para combater alucinações em LLMs, que podem ser categorizadas em:

1. Engenharia de Prompt

Isso envolve criar prompts cuidadosamente para fornecer contexto e guiar o LLM em direção a respostas factuais e baseadas.

  • Aumento de recuperação – Recuperar evidências externas para fundamentar o conteúdo.
  • Laços de feedback – Fornecer feedback iterativamente para refinar respostas.
  • Ajuste de prompt – Ajustar prompts durante o fine-tuning para comportamentos desejados.

2. Desenvolvimento de Modelo

Criar modelos inerentemente menos propensos a alucinar via mudanças arquiteturais.

  • Estratégias de decodificação – Gerar texto de maneiras que aumentem a fidelidade.
  • Base de conhecimento – Incorporar bases de conhecimento externas.
  • Funções de perda novas – Otimizar para fidelidade durante o treinamento.
  • Ajuste supervisionado – Usar dados humanos rotulados para melhorar a factualidade.

Em seguida, fazemos um levantamento de técnicas proeminentes sob cada abordagem.

Técnicas Notáveis de Mitigação de Alucinação

Geração Aumentada de Recuperação

A geração aumentada de recuperação melhora os LLMs recuperando e condicionando a geração de texto em documentos de evidência externos, em vez de confiar apenas no conhecimento implícito do modelo. Isso fundamenta o conteúdo em informações verificáveis e atualizadas, reduzindo alucinações.

Técnicas proeminentes incluem:

  • RAG – Usa um módulo de recuperação que fornece passagens relevantes para um modelo seq2seq gerar a partir. Ambos os componentes são treinados de ponta a ponta.
  • RARR – Emprega LLMs para pesquisar alegações não atribuídas em texto gerado e revisá-las para alinhar com evidências recuperadas.
  • Recuperação de Conhecimento – Valida gerações incertas usando conhecimento recuperado antes de produzir texto.
  • LLM-Augmenter – Procura iterativamente conhecimento para construir cadeias de evidências para prompts de LLM.

Feedback e Raciocínio

Leverar feedback de linguagem natural iterativo ou autorraciocínio permite que os LLMs refinem e melhorem suas saídas iniciais, reduzindo alucinações.

CoVe emprega uma técnica de verificação em cadeia. O LLM primeiro esboça uma resposta à consulta do usuário. Em seguida, gera questões de verificação potenciais para verificar sua própria resposta, com base em sua confiança em várias afirmações feitas. Por exemplo, para uma resposta descrevendo um novo tratamento médico, CoVe pode gerar questões como “Qual é a taxa de eficácia do tratamento?”, “Ele recebeu aprovação regulatória?”, “Quais são os efeitos colaterais potenciais?”. Crucialmente, o LLM então tenta responder a essas questões de verificação independentemente, sem ser influenciado por sua resposta inicial. Se as respostas às questões de verificação contradizem ou não podem apoiar afirmações feitas na resposta original, o sistema identifica essas como prováveis alucinações e refina a resposta antes de apresentá-la ao usuário.

DRESS se concentra em ajustar LLMs para alinhar melhor com preferências humanas por meio de feedback de linguagem natural. A abordagem permite que usuários não especializados forneçam críticas em forma livre sobre gerações de modelo, como “Os efeitos colaterais mencionados parecem exagerados” ou instruções de refinamento como “Por favor, também discuta a eficácia do custo”. DRESS usa aprendizado por reforço para treinar modelos para gerar respostas condicionadas a esse feedback que melhor se alinham com preferências humanas. Isso melhora a interatividade enquanto reduz afirmações irrealistas ou não apoiadas.

MixAlign lida com situações em que os usuários fazem perguntas que não correspondem diretamente às passagens de evidência recuperadas pelo sistema. Por exemplo, um usuário pode perguntar “A poluição vai piorar na China?” enquanto as passagens recuperadas discutem tendências de poluição globalmente. Para evitar alucinar com contexto insuficiente, MixAlign esclarece explicitamente com o usuário quando está incerto sobre como relacionar sua pergunta às informações recuperadas. Esse mecanismo de “humano no loop” permite obter feedback para fundamentar e contextualizar corretamente a evidência, prevenindo respostas infundamentadas.

A técnica de Auto-reflexão treina LLMs para avaliar, fornecer feedback sobre e refinar iterativamente suas próprias respostas usando uma abordagem multi-tarefa. Por exemplo, dada uma resposta gerada para uma consulta médica, o modelo aprende a pontuar a precisão factual, identificar afirmações contraditórias ou não apoiadas e editá-las recuperando conhecimento relevante. Ao ensinar LLMs esse loop de feedback de verificar, criticar e melhorar suas próprias saídas, a abordagem reduz a alucinação cega.

Ajuste de Prompt

O ajuste de prompt permite ajustar os prompts instrucionais fornecidos aos LLMs durante o fine-tuning para comportamentos desejados.

O método SynTra emprega uma tarefa de resumo sintético para minimizar a alucinação antes de transferir o modelo para conjuntos de dados de resumo reais. A tarefa sintética fornece passagens de entrada e pede que os modelos as resumam apenas por meio de recuperação, sem abstração. Isso treina os modelos para confiar completamente no conteúdo de origem, em vez de alucinar novas informações durante a geração de resumo. SynTra é mostrado para reduzir problemas de alucinação quando os modelos ajustados são implantados em tarefas-alvo.

UPRISE treina um recuperador de prompt universal que fornece o prompt macio ótimo para aprendizado de poucos disparos em tarefas downstream não vistas. Ao recuperar prompts eficazes ajustados em um conjunto diverso de tarefas, o modelo aprende a generalizar e se adaptar a novas tarefas onde falta exemplos de treinamento. Isso melhora o desempenho sem exigir ajuste específico da tarefa.

Arquiteturas de Modelo Novas

FLEEK é um sistema focado em ajudar verificadores e validadores humanos. Ele identifica automaticamente afirmações factuais potencialmente verificáveis feitas em um texto dado. FLEEK transforma essas afirmações verificáveis em consultas, recupera evidências relacionadas de bases de conhecimento e fornece essas informações contextuais a validadores humanos para verificar efetivamente a precisão do documento e as necessidades de revisão.

A abordagem de decodificação CAD reduz a alucinação na geração de linguagem por meio de decodificação consciente do contexto. Especificamente, CAD amplifica as diferenças entre a distribuição de saída de um LLM quando condicionada a um contexto versus gerada incondicionalmente. Isso desencoraja a contradição de evidências contextuais, direcionando o modelo para gerações fundamentadas.

DoLA mitiga alucinações factuais amplificando sinais de camadas específicas de redes transformer. Como o conhecimento factual tende a ser localizado em certas camadas intermediárias, amplificar sinais dessas camadas factuais por meio da contraste de logit de DoLA reduz gerações factuais incorretas.

A estrutura THAM introduz um termo de regularização durante o treinamento para minimizar a informação mútua entre entradas e saídas alucinadas. Isso ajuda a aumentar a dependência do modelo do contexto de entrada fornecido em vez de imaginação descontrolada, reduzindo alucinações cegas.

Base de Conhecimento

Fundamentar gerações de LLM em conhecimento estruturado evita especulações desenfreadas e fabricações.

O modelo RHO identifica entidades em um contexto conversacional e as liga a uma base de conhecimento (KG). Fatos e relações relacionados a essas entidades são recuperados do KG e fundidos na representação de contexto fornecida ao LLM. Isso direciona o contexto enriquecido com conhecimento, reduzindo alucinações em diálogos, mantendo respostas atreladas a fatos fundamentados sobre entidades ou eventos mencionados.

HAR cria conjuntos de dados de treinamento contrafatuais que contêm alucinações geradas pelo modelo para melhor ensinar fundamentação. Dado um trecho factual, os modelos são solicitados a introduzir alucinações ou distorções, gerando uma versão contrafactual alterada. O ajuste fino nesse dados força os modelos a se fundamentarem melhor no conteúdo original, reduzindo improvisações.

Ajuste Supervisionado

  • Treinador – Quadro interativo que responde a consultas do usuário, mas também pede correções para melhorar.
  • R-Tuning – Ajuste consciente de recusa recusa questões não apoiadas identificadas por meio de lacunas de conhecimento nos dados de treinamento.
  • TWEAK – Método de decodificação que classifica gerações com base em como bem hipóteses suportam fatos de entrada.

Desafios e Limitações

Apesar do progresso promissor, alguns desafios-chave permanecem na mitigação de alucinações:

  • Técnicas frequentemente trocam qualidade, coerência e criatividade por veracidade.
  • Dificuldade na avaliação rigorosa além de domínios limitados. Métricas não capturam todas as nuances.
  • Muitos métodos são computacionalmente caros, exigindo recuperação extensiva ou autorraciocínio.
  • Dependem fortemente da qualidade dos dados de treinamento e fontes de conhecimento externas.
  • Difícil garantir generalização across domínios e modalidades.
  • Raízes fundamentais de alucinação, como a extra-poliação excessiva, permanecem insolúveis.

Lidar com esses desafios provavelmente requer uma abordagem multilayered, combinando melhorias nos dados de treinamento, arquiteturas de modelo, perdas que aumentam a fidelidade e técnicas de inferência.

O Caminho À Frente

A mitigação de alucinação para LLMs permanece um problema de pesquisa aberto com progresso ativo. Algumas direções promissoras para o futuro incluem:

  • Técnicas híbridas: Combinar abordagens complementares como recuperação, base de conhecimento e feedback.
  • Modelagem de causalidade: Melhorar a compreensão e o raciocínio.
  • Integração de conhecimento online: Manter o conhecimento do mundo atualizado.
  • Verificação formal: Fornecer garantias matemáticas sobre comportamentos do modelo.
  • Interpretabilidade: Construir transparência nas técnicas de mitigação.

À medida que os LLMs continuam a se proliferar em domínios de alto risco, desenvolver soluções robustas para restringir alucinações será fundamental para garantir sua implantação segura, ética e confiável. As técnicas pesquisadas neste artigo fornecem uma visão geral das técnicas propostas até agora, onde mais desafios de pesquisa abertos permanecem. No geral, há uma tendência positiva em direção a melhorar a factualidade do modelo, mas o progresso contínuo exige lidar com limitações e explorar novas direções como causalidade, verificação e métodos híbridos. Com esforços diligentes de pesquisadores de várias disciplinas, o sonho de LLMs poderosos, mas confiáveis, pode se tornar realidade.

Eu passei os últimos cinco anos me imergindo no fascinante mundo de Aprendizado de Máquina e Aprendizado Profundo. Minha paixão e expertise me levaram a contribuir para mais de 50 projetos de engenharia de software diversificados, com um foco particular em IA/ML. Minha curiosidade contínua também me levou em direção ao Processamento de Linguagem Natural, um campo que estou ansioso para explorar mais.