Prompt engineering

Aborder les hallucinations dans les grands modèles de langage : une étude des techniques de pointe

Published January 19, 2024

Updated April 27, 2026

Aayush Mittal Mittal

Les grands modèles de langage (LLM) comme GPT-4, PaLM et Llama ont débloqué des avancées remarquables dans les capacités de génération de langage naturel. Cependant, un défi persistant qui limite leur fiabilité et leur déploiement sécurisé est leur tendance à halluciner – générer du contenu qui semble cohérent mais est factuellement incorrect ou non fondé sur le contexte d’entrée.

Alors que les LLM continuent de grandir en puissance et en ubiquité à travers les applications du monde réel, il est impératif de résoudre les hallucinations. Cet article fournit une vue d’ensemble complète des dernières techniques que les chercheurs ont introduites pour détecter, quantifier et atténuer les hallucinations dans les LLM.

Comprendre les hallucinations dans les LLM

Les hallucinations font référence aux inexactitudes factuelles ou aux fabrications générées par les LLM qui ne sont pas ancrées dans la réalité ou le contexte fourni. Voici quelques exemples :

Inventer des détails biographiques ou des événements non étayés par les sources lors de la génération de texte sur une personne.
Fournir de mauvais conseils médicaux en inventant des effets secondaires de médicaments ou des procédures de traitement.
Fabriquer des données, des études ou des sources non existantes pour étayer une affirmation.

Ce phénomène se produit parce que les LLM sont formés sur d’énormes quantités de données textuelles en ligne. Même si cela leur permet d’acquérir de solides capacités de modélisation de langage, cela signifie également qu’ils apprennent à extrapoler des informations, à faire des sauts logiques et à combler les lacunes d’une manière qui semble convaincante mais peut être trompeuse ou erronée.

Certains facteurs clés responsables des hallucinations incluent :

La généralisation de modèles – Les LLM identifient et étendent des modèles dans les données de formation qui peuvent ne pas se généraliser bien.
Les connaissances obsolètes – La formation préalable statique empêche l’intégration de nouvelles informations.
L’ambiguïté – Les invites vagues laissent place à des hypothèses incorrectes.
Les biais – Les modèles perpétuent et amplifient les perspectives biaisées.
Le manque de fondement – Le manque de compréhension et de raisonnement signifie que les modèles génèrent du contenu qu’ils ne comprennent pas pleinement.

Résoudre les hallucinations est crucial pour un déploiement fiable dans des domaines sensibles comme la médecine, le droit, la finance et l’éducation, où la génération de fausses informations pourrait entraîner des préjudices.

Taxinomie des techniques d’atténuation des hallucinations

Les chercheurs ont introduit diverses techniques pour lutter contre les hallucinations dans les LLM, qui peuvent être classées en :

1. Ingénierie d’invite

Cela implique de concevoir soigneusement les invites pour fournir un contexte et guider le LLM vers des réponses fondées sur des faits.

Augmentation de récupération – Récupération de preuves externes pour ancrer le contenu.
Boucles de rétroaction – Fournir des rétroactions itératives pour affiner les réponses.
Ajustement d’invite – Ajuster les invites pendant la fine-tuning pour les comportements souhaités.

2. Développement de modèles

Créer des modèles inhérentement moins enclins à halluciner via des changements architecturaux.

Stratégies de décodage – Générer du texte de manière à augmenter la fidélité.
Fondement de connaissances – Intégrer des bases de connaissances externes.
Nouvelles fonctions de perte – Optimiser la fidélité pendant la formation.
Fine-tuning supervisé – Utiliser des données étiquetées humaines pour améliorer la factualité.

Ensuite, nous faisons le tour des techniques prometteuses sous chaque approche.

Techniques d’atténuation des hallucinations notables

Génération augmentée de récupération

La génération augmentée de récupération améliore les LLM en récupérant et en conditionnant la génération de texte sur des documents de preuve externes, plutôt que de s’appuyer uniquement sur les connaissances implicites du modèle. Cela ancre le contenu dans des informations à jour et vérifiables, réduisant les hallucinations.

Les techniques prometteuses incluent :

RAG – Utilise un module de récupération qui fournit des passages pertinents pour un modèle seq2seq pour générer à partir. Les deux composants sont formés de bout en bout.
RARR – Emploie des LLM pour rechercher des allégations non attribuées dans le texte généré et les réviser pour les aligner sur les preuves récupérées.
Récupération de connaissances – Valide les générations incertaines en utilisant les connaissances récupérées avant de produire du texte.
LLM-Augmenter – Recherche itérativement des connaissances pour construire des chaînes de preuves pour les invites LLM.

Rétroaction et raisonnement

L’utilisation de rétroactions naturelles de langage ou de raisonnement autonome permet aux LLM de raffiner et d’améliorer leurs sorties initiales, réduisant les hallucinations.

CoVe emploie une technique de vérification en chaîne. Le LLM rédige d’abord une réponse à la requête de l’utilisateur. Il génère ensuite des questions de vérification potentielles pour vérifier ses propres réponses, en fonction de sa confiance dans les différentes affirmations faites. Par exemple, pour une réponse décrivant un nouveau traitement médical, CoVe peut générer des questions comme « Quel est le taux d’efficacité du traitement ? », « A-t-il reçu l’approbation réglementaire ? », « Quels sont les effets secondaires potentiels ? ». De manière cruciale, le LLM tente ensuite de répondre de manière indépendante à ces questions de vérification sans être influencé par sa réponse initiale. Si les réponses aux questions de vérification contredisent ou ne peuvent pas soutenir les affirmations faites dans la réponse originale, le système identifie celles-ci comme des hallucinations probables et affine la réponse avant de la présenter à l’utilisateur.

DRESS se concentre sur l’ajustement des LLM pour les aligner mieux sur les préférences humaines via des rétroactions de langage naturel. L’approche permet aux utilisateurs non experts de fournir des critiques en libre forme sur les générations de modèles, telles que « Les effets secondaires mentionnés semblent exagérés » ou des instructions de raffinement comme « Veuillez également discuter de l’efficacité coût ». DRESS utilise l’apprentissage par renforcement pour former des modèles pour générer des réponses conditionnées à ces rétroactions qui s’alignent mieux sur les préférences humaines. Cela améliore l’interactivité tout en réduisant les énoncés irréalistes ou non étayés.

MixAlign traite les situations où les utilisateurs posent des questions qui ne correspondent pas directement aux passages de preuve récupérés par le système. Par exemple, un utilisateur peut demander « Le pollution va-t-elle empirer en Chine ? » alors que les passages récupérés discutent des tendances de pollution mondiales. Pour éviter de halluciner avec un contexte insuffisant, MixAlign clarifie explicitement avec l’utilisateur lorsqu’il est incertain de la manière de relier leur question aux informations récupérées. Ce mécanisme humain dans la boucle permet d’obtenir des rétroactions pour ancrer et contextualiser correctement les preuves, empêchant les réponses non ancrées.

La technique Auto-réflexion forme les LLM pour évaluer, fournir des rétroactions sur et raffiner de manière itérative leurs propres réponses en utilisant une approche multi-tâche. Par exemple, étant donné une réponse générée pour une requête médicale, le modèle apprend à noter sa précision factuelle, à identifier les énoncés contradictoires ou non étayés et à les modifier en récupérant des connaissances pertinentes. En enseignant aux LLM cette boucle de rétroaction de vérification, de critique et d’amélioration de leurs propres sorties, l’approche réduit les hallucinations aveugles.

Ajustement d’invite

L’ajustement d’invite permet d’ajuster les invites instructionnelles fournies aux LLM pendant la fine-tuning pour les comportements souhaités.

La méthode SynTra emploie une tâche de synthèse pour minimiser les hallucinations avant de transférer le modèle à des jeux de données de synthèse réels. La tâche synthétique fournit des passages d’entrée et demande aux modèles de les résumer en récupérant uniquement, sans abstraction. Cela forme les modèles pour s’appuyer entièrement sur le contenu source plutôt que d’halluciner de nouvelles informations pendant la synthèse. SynTra est montré pour réduire les problèmes d’hallucination lorsque les modèles fine-tunés sont déployés sur des tâches cibles.

UPRISE forme un récupérateur d’invite universel qui fournit l’invite douce optimale pour l’apprentissage à quelques exemples sur des tâches en aval non vues. En récupérant des invites efficaces ajustées sur un ensemble diversifié de tâches, le modèle apprend à généraliser et à s’adapter à de nouvelles tâches où il manque d’exemples de formation. Cela améliore les performances sans nécessiter un ajustement spécifique à la tâche.

Nouvelles architectures de modèles

FLEEK est un système conçu pour aider les vérificateurs et les validateurs humains. Il identifie automatiquement les affirmations factuelles potentiellement vérifiables faites dans un texte donné. FLEEK transforme ces énoncés vérifiables en requêtes, récupère des preuves liées à partir de bases de connaissances et fournit ces informations contextuelles aux validateurs humains pour vérifier efficacement l’exactitude du document et les besoins de révision.

L’approche de décodage CAD réduit les hallucinations dans la génération de langage via le décodage conscient du contexte. Plus précisément, CAD amplifie les différences entre la distribution de sortie d’un LLM conditionnée sur un contexte par rapport à la génération inconditionnelle. Cela décourage la contradiction des preuves contextuelles, orientant le modèle vers des générations ancrées.

DoLA atténue les hallucinations factuelles en contrastant les logits de différentes couches de réseaux de transformateurs. Puisque les connaissances factuelles tendent à être localisées dans certaines couches intermédiaires, l’amplification des signaux de ces couches factuelles via le contraste de logits de DoLA réduit les générations factuelles incorrectes.

Le cadre THAM introduit un terme de régularisation pendant la formation pour minimiser l’information mutuelle entre les entrées et les sorties hallucinées. Cela aide à augmenter la dépendance du modèle au contexte d’entrée donné plutôt qu’à l’imagination non ancrée, réduisant les hallucinations aveugles.

Fondement de connaissances

Ancre les générations de LLM dans des connaissances structurées pour prévenir la spéculation et la fabrication débridées.

Le modèle RHO identifie les entités dans un contexte de conversation et les relie à un graphe de connaissances (KG). Les faits et les relations liés à ces entités sont récupérés à partir du KG et fusionnés dans la représentation de contexte fournie au LLM. Cela réduit les hallucinations dans le dialogue en gardant les réponses liées à des faits ancrés sur les entités/événements mentionnés.

HAR crée des jeux de données de formation contrefactuels contenant des hallucinations générées par le modèle pour mieux enseigner le fondement. Étant donné un passage factuel, les modèles sont invités à introduire des hallucinations ou des distorsions, générant une version contrefactuelle modifiée. La fine-tuning sur ces données force les modèles à mieux ancrer le contenu dans les sources factuelles d’origine, réduisant l’improvisation.

Fine-tuning supervisé

Coach – Cadre interactif qui répond aux requêtes des utilisateurs mais demande également des corrections pour améliorer.
R-Tuning – Ajustement qui refuse les questions non étayées identifiées via les lacunes de connaissances dans les données de formation.
TWEAK – Méthode de décodage qui classe les générations en fonction de la manière dont les hypothèses soutiennent les faits d’entrée.

Défis et limites

Malgré les progrès prometteurs, certains défis clés persistent dans l’atténuation des hallucinations :

Les techniques échangent souvent la qualité, la cohérence et la créativité pour la véracité.
Difficulté d’évaluation rigoureuse au-delà des domaines limités. Les métriques ne capturent pas toutes les nuances.
De nombreuses méthodes sont coûteuses en termes de calcul, nécessitant une récupération ou un raisonnement autonome extensif.
Elles dépendent fortement de la qualité des données de formation et des sources de connaissances externes.
Il est difficile de garantir la généralisabilité à travers les domaines et les modalités.
Les racines fondamentales des hallucinations comme l’extrapolation excessive restent non résolues.

Résoudre ces défis nécessite probablement une approche multiforme combinant l’amélioration des données de formation, les améliorations de l’architecture de modèle, les pertes d’amélioration de la fidélité et les techniques d’inférence.

La voie à suivre

L’atténuation des hallucinations pour les LLM reste un problème de recherche ouvert avec un progrès actif. Certaines directions futures prometteuses incluent :

Techniques hybrides : Combiner des approches complémentaires comme la récupération, le fondement de connaissances et la rétroaction.
Modélisation de la causalité : Améliorer la compréhension et le raisonnement.
Intégration de connaissances en ligne : Garder les connaissances mondiales à jour.
Vérification formelle : Fournir des garanties mathématiques sur les comportements de modèle.
Interprétabilité : Construire la transparence dans les techniques d’atténuation.

Alors que les LLM continuent de proliférer à travers des domaines à enjeu élevé, développer des solutions robustes pour limiter les hallucinations sera clé pour assurer leur déploiement sécurisé, éthique et fiable. Les techniques étudiées dans cet article fournissent une vue d’ensemble des techniques proposées jusqu’à présent, où plus de défis de recherche ouverts restent. Dans l’ensemble, il y a une tendance positive vers l’amélioration de la factualité des modèles, mais le progrès continu nécessite de résoudre les limites et d’explorer de nouvelles directions comme la causalité, la vérification et les méthodes hybrides. Avec des efforts diligents de la part des chercheurs à travers les disciplines, le rêve de LLM puissants et fiables peut être traduit en réalité.

Aayush Mittal

J'ai passé les cinq dernières années à me plonger dans le monde fascinant de l'apprentissage automatique et de l'apprentissage profond. Ma passion et mon expertise m'ont conduit à contribuer à plus de 50 projets de génie logiciel divers, avec un accent particulier sur l'IA/ML. Ma curiosité permanente m'a également attiré vers le traitement automatique des langues, un domaine que je suis impatient d'explorer plus en détail.