Engenharia imediata

Enfrentando a alucinação em grandes modelos de linguagem: uma pesquisa de técnicas de ponta

Publicado

meses 4 atrás

19 de janeiro de 2024

Alucinação em grandes modelos de linguagem

Grandes modelos de linguagem (LLMs) como GPT-4, PaLM e Llama desbloquearam avanços notáveis nas capacidades de geração de linguagem natural. No entanto, um desafio persistente que limita a sua fiabilidade e implementação segura é a sua tendência para alucinar – gerando conteúdo que parece coerente, mas que é factualmente incorreto ou não fundamentado no contexto de entrada.

À medida que os LLMs continuam a se tornar mais poderosos e onipresentes em aplicações do mundo real, lidar com as alucinações torna-se imperativo. Este artigo fornece uma visão abrangente das técnicas mais recentes que os pesquisadores introduziram para detectar, quantificar e mitigar alucinações em LLMs.

Compreendendo a alucinação em LLMs

Alucinação refere-se a imprecisões factuais ou invenções geradas por LLMs que não são fundamentadas na realidade ou no contexto fornecido. Alguns exemplos incluem:

Inventar detalhes biográficos ou eventos não evidenciados no material original ao gerar texto sobre uma pessoa.
Fornecer aconselhamento médico defeituoso, confabulando efeitos colaterais de medicamentos ou procedimentos de tratamento.
Inventar dados, estudos ou fontes inexistentes para apoiar uma afirmação.

Este fenômeno surge porque os LLMs são treinados em grandes quantidades de dados de texto online. Embora isso lhes permita obter fortes capacidades de modelagem de linguagem, também significa que aprendem a extrapolar informações, dar saltos lógicos e preencher lacunas de uma maneira que parece convincente, mas pode ser enganosa ou errônea.

Alguns fatores-chave responsáveis pelas alucinações incluem:

Generalização de padrões – Os LLMs identificam e ampliam padrões nos dados de treinamento que podem não ser bem generalizados.
conhecimento desatualizado – O pré-treinamento estático impede a integração de novas informações.
Ambiguidade – Avisos vagos permitem espaço para suposições incorretas.
Vieses – Os modelos perpetuam e amplificam perspectivas distorcidas.
Aterramento insuficiente – A falta de compreensão e raciocínio significa que os modelos geram conteúdos que não compreendem totalmente.

Abordar as alucinações é fundamental para uma implantação confiável em domínios sensíveis como medicina, direito, finanças e educação, onde a geração de desinformação pode causar danos.

Taxonomia de técnicas de mitigação de alucinações

Os pesquisadores introduziram diversas técnicas para combater as alucinações nos LLMs, que podem ser categorizadas em:

1. Engenharia imediata

Isso envolve a elaboração cuidadosa de instruções para fornecer contexto e orientar o LLM em direção a respostas factuais e fundamentadas.

Aumento de recuperação – Recuperação de evidências externas para fundamentar o conteúdo.
Loops de feedback – Fornecer feedback iterativamente para refinar as respostas.
Ajuste rápido – Ajustar avisos durante o ajuste fino para comportamentos desejados.

2. Desenvolvimento de modelo

Criação de modelos inerentemente menos propensos a alucinações por meio de mudanças arquitetônicas.

Estratégias de decodificação – Gerar texto de forma a aumentar a fidelidade.
Base de conhecimento – Incorporação de bases de conhecimento externas.
Novas funções de perda – Otimizando a fidelidade durante o treinamento.
Ajuste fino supervisionado – Usar dados rotulados por humanos para aumentar a factualidade.

A seguir, examinamos técnicas proeminentes em cada abordagem.

Técnicas notáveis de mitigação de alucinações

Geração Aumentada de Recuperação

A geração aumentada de recuperação aprimora os LLMs ao recuperar e condicionar a geração de texto em documentos de evidências externas, em vez de confiar apenas no conhecimento implícito do modelo. Isso fundamenta o conteúdo em informações atualizadas e verificáveis, reduzindo as alucinações.

Técnicas proeminentes incluem:

RAG – Usa um módulo recuperador que fornece passagens relevantes para a geração de um modelo seq2seq. Ambos os componentes são treinados de ponta a ponta.
RAR – Emprega LLMs para pesquisar afirmações não atribuídas em texto gerado e revisá-las para alinhá-las com as evidências recuperadas.
Recuperação de conhecimento – Valida gerações inseguras usando o conhecimento recuperado antes de produzir texto.
LLM-Aumentador – Pesquisa iterativamente o conhecimento para construir cadeias de evidências para solicitações de LLM.

Feedback e raciocínio

Aproveitar o feedback iterativo em linguagem natural ou o auto-raciocínio permite que os LLMs refinem e melhorem seus resultados iniciais, reduzindo as alucinações.

Enseada emprega uma técnica de cadeia de verificação. O LLM primeiro elabora uma resposta à consulta do usuário. Em seguida, gera potenciais questões de verificação para verificar a sua própria resposta, com base na sua confiança nas várias declarações feitas. Por exemplo, para uma resposta que descreve um novo tratamento médico, o CoVe pode gerar perguntas como “Qual é a taxa de eficácia do tratamento?”, “Recebeu aprovação regulamentar?”, “Quais são os potenciais efeitos secundários?”. Crucialmente, o LLM tenta então responder de forma independente a estas questões de verificação, sem ser influenciado pela sua resposta inicial. Se as respostas às perguntas de verificação contradizem ou não podem apoiar as declarações feitas na resposta original, o sistema identifica-as como prováveis alucinações e refina a resposta antes de apresentá-la ao utilizador.

VESTIDO concentra-se em ajustar LLMs para se alinharem melhor às preferências humanas por meio de feedback em linguagem natural. A abordagem permite que usuários não especialistas forneçam críticas de forma livre sobre gerações de modelos, como “Os efeitos colaterais mencionados parecem exagerados” ou instruções de refinamento como “Por favor, discuta também a relação custo-benefício”. O DRESS usa aprendizagem por reforço para treinar modelos para gerar respostas condicionadas a esse feedback que se alinhem melhor com as preferências humanas. Isso melhora a interatividade e reduz declarações irrealistas ou sem suporte.

MixAlign lida com situações em que os usuários fazem perguntas que não correspondem diretamente às passagens das evidências recuperadas pelo sistema. Por exemplo, um usuário pode perguntar “A poluição piorará na China?” enquanto as passagens recuperadas discutem as tendências da poluição em todo o mundo. Para evitar alucinações com contexto insuficiente, MixAlign esclarece explicitamente com o usuário quando não tem certeza de como relacionar sua pergunta com as informações recuperadas. Este mecanismo humano permite obter feedback para fundamentar e contextualizar corretamente as evidências, evitando respostas infundadas.

A Auto-reflexão A técnica treina LLMs para avaliar, fornecer feedback e refinar iterativamente suas próprias respostas usando uma abordagem multitarefa. Por exemplo, dada uma resposta gerada para uma consulta médica, o modelo aprende a pontuar a sua precisão factual, identificar quaisquer declarações contraditórias ou sem suporte e editá-las recuperando conhecimento relevante. Ao ensinar aos LLMs este ciclo de feedback de verificação, crítica e melhoria iterativa dos seus próprios resultados, a abordagem reduz a alucinação cega.

Ajuste rápido

O ajuste de prompt permite ajustar os prompts de instrução fornecidos aos LLMs durante o ajuste fino para os comportamentos desejados.

A SynTra O método emprega uma tarefa de resumo sintético para minimizar a alucinação antes de transferir o modelo para conjuntos de dados de resumo reais. A tarefa sintética fornece passagens de entrada e pede aos modelos para resumi-las apenas por meio de recuperação, sem abstração. Isso treina os modelos para confiarem completamente no conteúdo de origem, em vez de alucinar novas informações durante a sumarização. Foi demonstrado que o SynTra reduz os problemas de alucinação quando modelos ajustados são implantados em tarefas alvo.

SURPRESA treina um recuperador de prompt universal que fornece o prompt suave ideal para aprendizado rápido em tarefas posteriores invisíveis. Ao recuperar prompts eficazes ajustados a um conjunto diversificado de tarefas, o modelo aprende a generalizar e se adaptar a novas tarefas onde faltam exemplos de treinamento. Isso melhora o desempenho sem exigir ajuste específico da tarefa.

Novas arquiteturas de modelos

FLEEK é um sistema focado em auxiliar verificadores e validadores humanos. Ele identifica automaticamente afirmações factuais potencialmente verificáveis feitas em um determinado texto. FLEEK transforma essas declarações dignas de verificação em consultas, recupera evidências relacionadas de bases de conhecimento e fornece essas informações contextuais aos validadores humanos para verificar com eficácia a precisão dos documentos e as necessidades de revisão.

A CAD A abordagem de decodificação reduz a alucinação na geração de linguagem por meio da decodificação sensível ao contexto. Especificamente, o CAD amplifica as diferenças entre a distribuição de resultados de um LLM quando condicionada a um contexto versus gerada incondicionalmente. Isto desencoraja evidências contextuais contraditórias, orientando o modelo para gerações fundamentadas.

DoLA mitiga alucinações factuais contrastando logits de diferentes camadas de redes de transformadores. Como o conhecimento factual tende a ser localizado em certas camadas intermediárias, a amplificação dos sinais dessas camadas factuais por meio do contraste logit do DoLA reduz gerações factuais incorretas.

A TAM A estrutura introduz um termo de regularização durante o treinamento para minimizar a informação mútua entre entradas e saídas alucinadas. Isso ajuda a aumentar a confiança do modelo em determinado contexto de entrada, em vez de na imaginação desenfreada, reduzindo as alucinações cegas.

Fundamento do Conhecimento

Fundamentar as gerações de LLM em conhecimento estruturado evita a especulação e a fabricação desenfreadas.

A RHO modelo identifica entidades em um contexto conversacional e as vincula a um gráfico de conhecimento (KG). Fatos relacionados e relações sobre essas entidades são recuperados do KG e fundidos na representação de contexto fornecida ao LLM. Esta orientação contextual enriquecida em conhecimento reduz as alucinações no diálogo, mantendo as respostas ligadas a factos fundamentados sobre as entidades/eventos mencionados.

HAR cria conjuntos de dados de treinamento contrafactuais contendo alucinações geradas por modelos para melhor ensinar a fundamentação. Dada uma passagem factual, os modelos são levados a introduzir alucinações ou distorções gerando uma versão contrafactual alterada. O ajuste fino destes dados força os modelos a fundamentar melhor o conteúdo nas fontes factuais originais, reduzindo a improvisação.

Ajuste fino supervisionado

Coach – Estrutura interativa que responde às dúvidas dos usuários, mas também pede correções para melhorar.
R-ajuste – O ajuste com reconhecimento de recusa recusa questões não suportadas identificadas por meio de lacunas de conhecimento nos dados de treinamento.
PUXÃO – Método de decodificação que classifica as gerações com base em quão bem as hipóteses suportam os fatos de entrada.

Desafios e Limitações

Apesar do progresso promissor, permanecem alguns desafios importantes na mitigação das alucinações:

As técnicas muitas vezes trocam qualidade, coerência e criatividade pela veracidade.
Dificuldade em avaliação rigorosa além de domínios limitados. As métricas não capturam todas as nuances.
Muitos métodos são computacionalmente caros, exigindo extensa recuperação ou auto-raciocínio.
Dependem fortemente da qualidade dos dados de treinamento e de fontes externas de conhecimento.
É difícil garantir a generalização entre domínios e modalidades.
As raízes fundamentais da alucinação, como a extrapolação excessiva, permanecem sem solução.

Enfrentar esses desafios provavelmente requer uma abordagem em várias camadas que combine aprimoramentos de dados de treinamento, melhorias na arquitetura do modelo, perdas que aumentam a fidelidade e técnicas de tempo de inferência.

A estrada adiante

A mitigação de alucinações para LLMs continua a ser um problema de pesquisa aberto com progresso ativo. Algumas direções futuras promissoras incluem:

Técnicas híbridas: Combine abordagens complementares como recuperação, fundamentação de conhecimento e feedback.
Modelagem de causalidade: Melhore a compreensão e o raciocínio.
Integração de conhecimento on-line: Mantenha o conhecimento mundial atualizado.
Verificação formal: Fornece garantias matemáticas sobre o comportamento do modelo.
Interpretabilidade: Construir transparência nas técnicas de mitigação.

À medida que os LLM continuam a proliferar em domínios de alto risco, o desenvolvimento de soluções robustas para reduzir as alucinações será fundamental para garantir a sua implementação segura, ética e fiável. As técnicas levantadas neste artigo fornecem uma visão geral das técnicas propostas até agora, onde permanecem desafios de pesquisa mais abertos. No geral, há uma tendência positiva no sentido de melhorar a factualidade do modelo, mas o progresso contínuo exige a abordagem das limitações e a exploração de novas direcções, como a causalidade, a verificação e os métodos híbridos. Com esforços diligentes de pesquisadores de todas as disciplinas, o sonho de LLMs poderosos, porém confiáveis, pode ser traduzido em realidade.

A seguir

Tutorial: como criar e compartilhar GPTs personalizados

Não Perca

Treinamento de incorporações de texto aprimoradas com modelos de linguagem grandes

Aayush Mittal

Passei os últimos cinco anos mergulhando no fascinante mundo do Machine Learning e Deep Learning. Minha paixão e experiência me levaram a contribuir para mais de 50 projetos diversos de engenharia de software, com foco particular em AI/ML. Minha curiosidade contínua também me atraiu para o Processamento de Linguagem Natural, um campo que estou ansioso para explorar mais.