Prompt Engineering
Bekämpfung von Halluzinationen in großen Sprachmodellen: Eine Übersicht über die neuesten Techniken

Große Sprachmodelle (LLMs) wie GPT-4, PaLM und Llama haben bemerkenswerte Fortschritte in der Fähigkeit zur Generierung von natürlicher Sprache ermöglicht. Allerdings ist eine anhaltende Herausforderung, die ihre Zuverlässigkeit und sichere Einsetzbarkeit einschränkt, ihre Neigung, zu halluzinieren – d.h. Inhalte zu generieren, die kohärent erscheinen, aber tatsächlich falsch oder unbegründet im Kontext der Eingabe sind.
Da LLMs weiterhin leistungsfähiger und allgegenwärtiger in realen Anwendungen werden, wird es immer wichtiger, Halluzinationen zu bekämpfen. Dieser Artikel bietet eine umfassende Übersicht über die neuesten Techniken, die Forscher entwickelt haben, um Halluzinationen in LLMs zu erkennen, zu quantifizieren und zu mindern.
Verständnis von Halluzinationen in LLMs
Halluzination bezieht sich auf tatsächliche Ungenauigkeiten oder Erfindungen, die von LLMs generiert werden und nicht in der Realität oder im bereitgestellten Kontext begründet sind. Einige Beispiele umfassen:
- Erfindung von biografischen Details oder Ereignissen, die nicht durch Quellenmaterial belegt sind, wenn Text über eine Person generiert wird.
- Bereitstellung von fehlerhaften medizinischen Ratschlägen durch Erfindung von Nebenwirkungen von Medikamenten oder Behandlungsverfahren.
- Erfindung von nicht existierenden Daten, Studien oder Quellen, um eine Behauptung zu untermauern.
Dieses Phänomen tritt auf, weil LLMs auf großen Mengen an Online-Textdaten trainiert werden. Während dies es ihnen ermöglicht, starke Sprachmodellierungs-Fähigkeiten zu erlangen, bedeutet es auch, dass sie lernen, Informationen zu extrapolieren, logische Sprünge zu machen und Lücken in einer Weise zu füllen, die überzeugend, aber möglicherweise irreführend oder falsch erscheint.
Einige Schlüsselfaktoren, die für Halluzinationen verantwortlich sind, umfassen:
- Muster-Generalisierung – LLMs erkennen und verlängern Muster in den Trainingsdaten, die möglicherweise nicht gut generalisieren.
- Veraltete Kenntnisse – Statische Vor-Trainingsphasen verhindern die Integration neuer Informationen.
- Ambiguität – Vage Anweisungen lassen Raum für falsche Annahmen.
- Vorrechte – Modelle verewigen und verstärken verzerrte Perspektiven.
- Unzureichende Begründung – Mangel an Verständnis und Argumentationsfähigkeit bedeutet, dass Modelle Inhalte generieren, die sie nicht vollständig verstehen.
Die Bekämpfung von Halluzinationen ist für eine vertrauenswürdige Einsetzbarkeit in sensiblen Bereichen wie Medizin, Recht, Finanzen und Bildung, in denen die Generierung von Fehlinformationen zu Schäden führen kann, von entscheidender Bedeutung.
Taxonomie von Halluzinations-Minderungstechniken
Forscher haben diverse Techniken entwickelt, um Halluzinationen in LLMs zu bekämpfen, die in folgende Kategorien eingeteilt werden können:
1. Prompt-Engineering
Dies beinhaltet die sorgfältige Gestaltung von Anweisungen, um Kontext zu bieten und das LLM in Richtung faktualer, begründeter Antworten zu lenken.
- Wiederherstellungs-Ergänzung – Wiederherstellung externer Beweise, um Inhalte zu begründen.
- Rückkopplungsschleifen – Iterative Bereitstellung von Rückkopplung, um Antworten zu verfeinern.
- Prompt-Anpassung – Anpassung von Anweisungen während der Feinabstimmung für gewünschtes Verhalten.
2. Modell-Entwicklung
Schaffung von Modellen, die von Natur aus weniger anfällig für Halluzinationen sind, durch architektonische Änderungen.
- Decodier-Strategien – Generierung von Texten auf Weise, die die Treue erhöht.
- Wissens-Begründung – Einbeziehung externer Wissensbasen.
- Neue Verlustfunktionen – Optimierung für Treue während des Trainings.
- Beaufsichtigte Feinabstimmung – Verwendung von menschlich beschrifteten Daten, um Faktualität zu verbessern.
Als nächstes werden wir herausragende Techniken unter jedem Ansatz untersuchen.
Bekannte Halluzinations-Minderungstechniken
Wiederherstellungs-Generierung
Wiederherstellungs-Generierung verbessert LLMs, indem sie externe Beweisdokumente abruft und die Textgenerierung darauf konditioniert, anstatt sich allein auf das implizite Wissen des Modells zu verlassen. Dies begründet Inhalte in aktuelle, verifizierbare Informationen und reduziert Halluzinationen.
Herausragende Techniken umfassen:
- RAG – Verwendet ein Abruf-Modul, das für ein Seq2Seq-Modell relevante Passagen bereitstellt. Beide Komponenten werden end-to-end trainiert.
- RARR – Setzt LLMs ein, um unzugeschriebene Behauptungen in generiertem Text zu recherchieren und diese zu revidieren, um sie mit abgerufenen Beweisen in Einklang zu bringen.
- Wissens-Abruf – Validiert unsichere Generierungen unter Verwendung abgerufenen Wissens, bevor Text produziert wird.
- LLM-Erweiterer – Sucht iterativ Wissen, um Beweis-Ketten für LLM-Anweisungen zu konstruieren.
Rückkopplung und Argumentation
Die Nutzung iterativer natürlicher Sprach-Rückkopplung oder Selbst-Argumentation ermöglicht es LLMs, ihre anfänglichen Ausgaben zu verfeinern und zu verbessern, was Halluzinationen reduziert.
CoVe setzt eine Verifizierungs-Technik ein. Das LLM entwirft zunächst eine Antwort auf die Benutzer-Anfrage. Es generiert dann potenzielle Verifizierungs-Fragen, um seine eigene Antwort zu überprüfen, basierend auf seinem Vertrauen in verschiedene Aussagen. Wenn beispielsweise eine Antwort ein neues medizinisches Behandlungsverfahren beschreibt, kann CoVe Fragen wie “Was ist die Wirksamkeitsrate der Behandlung?”, “Hat sie regulatorische Genehmigung erhalten?” oder “Was sind die möglichen Nebenwirkungen?” generieren. Wesentlich ist, dass das System dann versucht, diese Verifizierungs-Fragen unabhängig zu beantworten, ohne durch seine anfängliche Antwort voreingenommen zu sein. Wenn die Antworten auf die Verifizierungs-Fragen Aussagen in der ursprünglichen Antwort widersprechen oder nicht unterstützen können, identifiziert das System diese als wahrscheinliche Halluzinationen und verfeinert die Antwort, bevor es sie dem Benutzer präsentiert.
DRESS konzentriert sich auf die Anpassung von LLMs, um besser mit menschlichen Vorlieben übereinzustimmen, durch natürliche Sprach-Rückkopplung. Der Ansatz ermöglicht es nicht-experten Benutzern, freiformatige Kritik an Modell-Generierungen zu liefern, wie “Die genannten Nebenwirkungen scheinen übertrieben” oder Verfeinerungs-Anweisungen wie “Bitte diskutieren Sie auch die Kosteneffizienz”. DRESS verwendet Verstärkungs-Lernen, um Modelle zu trainieren, die auf solche Rückkopplung konditionierte Antworten generieren, die besser mit menschlichen Vorlieben übereinstimmen. Dies verbessert die Interaktivität, während unrealistische oder unbegründete Aussagen reduziert werden.
MixAlign befasst sich mit Situationen, in denen Benutzer Fragen stellen, die nicht direkt mit den vom System abgerufenen Beweis-Passagen korrespondieren. Wenn beispielsweise ein Benutzer fragt “Wird die Verschmutzung in China schlimmer?”, während abgerufene Passagen globale Verschmutzungstrends diskutieren. Um Halluzinationen mit unzureichendem Kontext zu vermeiden, klärt MixAlign explizit mit dem Benutzer, wenn es unsicher ist, wie seine Frage mit den abgerufenen Informationen in Beziehung gesetzt werden kann. Dieser Mensch-im-Schleifen-Mechanismus ermöglicht es, Rückkopplung zu erhalten, um Beweise korrekt zu begründen und zu kontextualisieren, was unzureichende Antworten verhindert.
Die Selbst-Reflexion-Technik trainiert LLMs, ihre eigenen Antworten zu bewerten, Rückkopplung zu liefern und iterativ zu verfeinern, indem sie einen Multi-Task-Ansatz verwenden. Wenn beispielsweise eine Antwort auf eine medizinische Anfrage generiert wird, lernt das Modell, ihre faktische Genauigkeit zu bewerten, widersprüchliche oder unbegründete Aussagen zu identifizieren und diese durch Abruf relevanter Kenntnisse zu bearbeiten. Durch das Lehren von LLMs, diese Rückkopplungsschleife des Überprüfens, Kritisierens und iterativen Verbesserns ihrer eigenen Ausgaben, reduziert der Ansatz blinde Halluzinationen.
Prompt-Anpassung
Prompt-Anpassung ermöglicht die Anpassung der Anweisungen, die LLMs während der Feinabstimmung für gewünschtes Verhalten bereitgestellt werden.
Die SynTra-Methode setzt eine synthetische Zusammenfassungsaufgabe ein, um Halluzinationen zu minimieren, bevor das Modell auf reale Zusammenfassungs-Datensätze übertragen wird. Die synthetische Aufgabe bietet Eingabe-Passagen an und fordert Modelle auf, diese durch Abruf und ohne Abstraktion zusammenzufassen. Dies trainiert Modelle, sich vollständig auf Quellen-Inhalt zu verlassen, anstatt neue Informationen zu halluzinieren, während der Zusammenfassung. SynTra wird gezeigt, Halluzinations-Probleme zu reduzieren, wenn feinabgestimmte Modelle auf Ziel-Aufgaben eingesetzt werden.
UPRISE trainiert einen universellen Prompt-Abruf, der den optimalen weichen Prompt für Few-Shot-Lernen auf nicht gesehene Downstream-Aufgaben bereitstellt. Durch den Abruf effektiver Prompts, die auf einer Vielzahl von Aufgaben abgestimmt wurden, lernt das Modell, zu generalisieren und sich an neue Aufgaben anzupassen, für die es keine Trainingsbeispiele hat. Dies verbessert die Leistung, ohne dass eine aufgabenspezifische Anpassung erforderlich ist.
Neue Modell-Architekturen
FLEEK ist ein System, das darauf abzielt, menschliche Fakten-Überprüfer und Validatoren zu unterstützen. Es identifiziert automatisch potenziell überprüfbare faktuale Behauptungen, die in einem gegebenen Text gemacht werden. FLEEK transformiert diese überprüfbaren Aussagen in Anfragen, ruft damit verbundene Beweise aus Wissensbasen ab und stellt diese kontextuellen Informationen menschlichen Validatoren zur Verfügung, um die Genauigkeit von Dokumenten und Überarbeitungs-Bedürfnisse effektiv zu überprüfen.
Der CAD-Decodier-Ansatz reduziert Halluzinationen in der Sprach-Generierung durch kontext-bewusste Decodierung. Insbesondere verstärkt CAD die Unterschiede zwischen der Ausgabeverteilung eines LLMs, wenn es auf einen Kontext konditioniert wird, im Vergleich zur unbedingten Generierung. Dies ermutigt das Modell, kontext-widrige Beweise zu widersprechen und lenkt es zu begründeten Generierungen.
DoLA mindert faktuale Halluzinationen, indem es Logits aus verschiedenen Schichten von Transformer-Netzwerken kontrastiert. Da faktuales Wissen tendenziell in bestimmten mittleren Schichten lokalisiert ist, verstärkt DoLAs Logit-Kontrast Signale aus diesen faktualen Schichten und reduziert damit falsche faktuale Generierungen.
Das THAM-Framework führt einen Regularisierungs-Term während des Trainings ein, um die wechselseitige Information zwischen Eingaben und halluzinierten Ausgaben zu minimieren. Dies hilft, die Abhängigkeit des Modells von gegebenem Kontext zu erhöhen und reduziert blinde Halluzinationen.
Wissens-Begründung
Die Begründung von LLM-Generierungen in strukturiertem Wissen verhindert ungebremste Spekulation und Erfindung.
Das RHO-Modell identifiziert Entitäten in einem konversationellen Kontext und verbindet sie mit einer Wissens-Graph-Datenbank (KG). Mit den Entitäten verbundene Fakten und Beziehungen werden aus der KG abgerufen und in die Kontext-Darstellung, die dem LLM bereitgestellt wird, integriert. Dieses wissens-angereicherte Kontext-Steuerung reduziert Halluzinationen in Dialogen, indem es Antworten an begründete Fakten über erwähnte Entitäten oder Ereignisse bindet.
HAR erstellt kontrafaktische Trainings-Datensätze, die Modell-generierte Halluzinationen enthalten, um eine bessere Begründung zu lehren. Wenn beispielsweise eine faktuale Passage gegeben ist, werden Modelle angewiesen, Halluzinationen oder Verzerrungen zu generieren, um eine veränderte kontrafaktische Version zu erstellen. Das Feinabstimmen auf diese Daten zwingt Modelle, Inhalte besser in den ursprünglichen faktualen Quellen zu begründen und reduziert damit Improvisationen.
Beaufsichtigte Feinabstimmung
- Coach – Interaktives Framework, das Benutzer-Anfragen beantwortet, aber auch Korrekturen anfordert, um zu verbessern.
- R-Tuning – Verweigerungs-bewusste Anpassung verweigert nicht unterstützte Fragen, die durch Wissens-Lücken in den Trainings-Daten identifiziert werden.
- TWEAK – Decodier-Methode, die Generierungen basierend darauf bewertet, wie gut Hypothesen die Eingabe-Fakten unterstützen.
Herausforderungen und Einschränkungen
Trotz vielversprechender Fortschritte bleiben einige wichtige Herausforderungen bestehen, um Halluzinationen zu mindern:
- Techniken oft Qualitäts-, Kohärenz- und Kreativitäts-Abstriche für Wahrhaftigkeit.
- Schwierigkeit bei strenger Bewertung jenseits begrenzter Domänen. Metriken erfassen nicht alle Nuancen.
- Viele Methoden sind rechenintensiv und erfordern umfangreiche Abrufe oder Selbst-Argumentation.
- Starke Abhängigkeit von der Qualität der Trainings-Daten und externen Wissens-Quellen.
- Schwierigkeit, Allgemeingültigkeit über Domänen und Modalitäten hinweg zu gewährleisten.
- Grundlegende Ursachen von Halluzinationen wie Über-Extrapolation bleiben ungelöst.
Die Bekämpfung dieser Herausforderungen erfordert wahrscheinlich einen mehrschichtigen Ansatz, der Trainings-Daten-Verbesserungen, Modell-Architektur-Verbesserungen, Treue-erhöhende Verluste und Inferenz-Techniken kombiniert.
Der Weg Vorwärts
Die Minderung von Halluzinationen für LLMs bleibt ein offenes Forschungs-Problem mit aktiven Fortschritten. Einige vielversprechende zukünftige Richtungen umfassen:
- Hybrid-Techniken: Kombination von komplementären Ansätzen wie Abruf, Wissens-Begründung und Rückkopplung.
- Kausalitäts-Modellierung: Verbesserung des Verständnisses und der Argumentationsfähigkeit.
- Online-Wissens-Integration: Aktualisierung der Welt-Kenntnisse.
- Formale Verifizierung: Bereitstellung mathematischer Garantien für Modell-Verhaltensweisen.
- Interpretierbarkeit: Einbau von Transparenz in Minderungs-Techniken.
Da LLMs weiterhin in hochriskante Domänen vordringen, wird die Entwicklung robuster Lösungen, um Halluzinationen zu verhindern, entscheidend für ihre sichere, ethische und zuverlässige Einsetzbarkeit sein. Die in diesem Artikel übersichtlich dargestellten Techniken bieten einen Überblick über die bisher vorgeschlagenen Techniken, während noch offene Forschungs-Herausforderungen bestehen. Insgesamt gibt es einen positiven Trend zur Verbesserung der Modell-Faktualität, aber weiterer Fortschritt erfordert die Bekämpfung von Einschränkungen und die Erforschung neuer Richtungen wie Kausalität, Verifizierung und Hybrid-Methoden. Mit sorgfältigen Bemühungen von Forschern aus verschiedenen Disziplinen kann der Traum von leistungsfähigen und doch vertrauenswürdigen LLMs in die Realität umgesetzt werden.










