Schnelles Engineering
Bekämpfung von Halluzinationen in großen Sprachmodellen: Ein Überblick über modernste Techniken

Große Sprachmodelle (LLMs) wie GPT-4, PaLM und Llama haben bemerkenswerte Fortschritte bei der Erzeugung natürlicher Sprache ermöglicht. Eine anhaltende Herausforderung, die ihre Zuverlässigkeit und ihren sicheren Einsatz einschränkt, ist jedoch ihre Neigung zu Halluzinationen – das Generieren von Inhalten, die kohärent erscheinen, aber sachlich falsch sind oder sich nicht auf den Eingabekontext beziehen.
Da LLMs in realen Anwendungen immer leistungsfähiger und allgegenwärtiger werden, wird die Bekämpfung von Halluzinationen immer wichtiger. Dieser Artikel bietet einen umfassenden Überblick über die neuesten Techniken, die Forscher eingeführt haben, um Halluzinationen bei LLMs zu erkennen, zu quantifizieren und zu lindern.
Halluzination bei LLMs verstehen
Halluzination bezieht sich auf sachliche Ungenauigkeiten oder Erfindungen, die durch LLMs erzeugt werden und nicht auf der Realität oder dem gegebenen Kontext basieren. Einige Beispiele sind:
- Bei der Erstellung von Texten über eine Person werden biografische Details oder Ereignisse erfunden, die nicht im Quellenmaterial enthalten sind.
- Erteilen fehlerhafter medizinischer Ratschläge durch die Fälschung von Arzneimittelnebenwirkungen oder Behandlungsverfahren.
- Zusammenstellen nicht vorhandener Daten, Studien oder Quellen zur Untermauerung einer Behauptung.
Dieses Phänomen entsteht, weil LLMs auf riesigen Mengen an Online-Textdaten trainiert werden. Dies ermöglicht es ihnen zwar, starke Fähigkeiten zur Sprachmodellierung zu erlangen, bedeutet aber auch, dass sie lernen, Informationen zu extrapolieren, logische Sprünge zu machen und Lücken auf eine Art und Weise zu schließen, die überzeugend erscheint, aber irreführend oder fehlerhaft sein kann.
Zu den Schlüsselfaktoren, die für Halluzinationen verantwortlich sind, gehören:
- Musterverallgemeinerung – LLMs identifizieren und erweitern Muster in den Trainingsdaten, die sich möglicherweise nicht gut verallgemeinern lassen.
- Veraltetes Wissen – Statisches Vortraining verhindert die Integration neuer Informationen.
- Mehrdeutigkeit – Vage Eingabeaufforderungen bieten Raum für falsche Annahmen.
- Vorurteile – Modelle verewigen und verstärken verzerrte Perspektiven.
- Unzureichende Erdung – Mangelndes Verständnis und mangelnde Argumentation führen dazu, dass Modelle Inhalte generieren, die sie nicht vollständig verstehen.
Die Bekämpfung von Halluzinationen ist für einen vertrauenswürdigen Einsatz in sensiblen Bereichen wie Medizin, Recht, Finanzen und Bildung von entscheidender Bedeutung, in denen die Erzeugung von Fehlinformationen zu Schäden führen könnte.
Taxonomie von Techniken zur Halluzinationsminderung
Forscher haben verschiedene Techniken zur Bekämpfung von Halluzinationen bei LLMs eingeführt, die in folgende Kategorien eingeteilt werden können:
1. Schnelles Engineering
Dazu gehört die sorgfältige Ausarbeitung von Eingabeaufforderungen, um Kontext bereitzustellen und den LLM zu sachlichen, fundierten Antworten zu führen.
- Abruferweiterung – Abrufen externer Beweise zur Begründung von Inhalten.
- Rückkopplungsschleifen – Iterative Bereitstellung von Feedback zur Verfeinerung der Antworten.
- Prompte Abstimmung – Anpassen der Eingabeaufforderungen während der Feinabstimmung für gewünschte Verhaltensweisen.
2. Modellentwicklung
Durch architektonische Veränderungen werden Modelle geschaffen, die von Natur aus weniger anfällig für Halluzinationen sind.
- Dekodierungsstrategien – Text so generieren, dass die Treue erhöht wird.
- Wissensvermittlung – Einbindung externer Wissensdatenbanken.
- Neuartige Verlustfunktionen – Optimierung der Treue während des Trainings.
- Beaufsichtigte Feinabstimmung – Verwendung von durch Menschen gekennzeichneten Daten zur Verbesserung der Faktizität.
Als nächstes untersuchen wir die wichtigsten Techniken für jeden Ansatz.
Bemerkenswerte Techniken zur Halluzinationsminderung
Augmented Generation abrufen
Retrieval Augmented Generation verbessert LLMs durch das Abrufen und Konditionieren der Textgenerierung anhand externer Beweisdokumente, anstatt sich ausschließlich auf das implizite Wissen des Modells zu verlassen. Dies begründet den Inhalt mit aktuellen, überprüfbaren Informationen und reduziert Halluzinationen.
Zu den wichtigsten Techniken gehören:
- RAG – Verwendet ein Retriever-Modul, das relevante Passagen für die Generierung eines seq2seq-Modells bereitstellt. Beide Komponenten werden durchgängig trainiert.
- SELTEN – Setzt LLMs ein, um nicht zugeschriebene Behauptungen in generierten Texten zu recherchieren und sie zu überarbeiten, um sie mit den abgerufenen Beweisen in Einklang zu bringen.
- Wissensabruf – Validiert unsichere Generationen anhand des abgerufenen Wissens vor der Texterstellung.
- LLM-Augmenter – Durchsucht iterativ Wissen, um Beweisketten für LLM-Eingabeaufforderungen zu erstellen.
Feedback und Begründung
Durch die Nutzung von iterativem Feedback in natürlicher Sprache oder Selbstbegründung können LLMs ihre anfänglichen Ergebnisse verfeinern und verbessern und so Halluzinationen reduzieren.
Bucht verwendet eine Verifizierungskette. Der LLM entwirft zunächst eine Antwort auf die Anfrage des Benutzers. Anschließend generiert es potenzielle Verifizierungsfragen, um seine eigene Antwort auf der Grundlage seines Vertrauens in verschiedene gemachte Aussagen zu überprüfen. Beispielsweise kann CoVe für eine Antwort, die eine neue medizinische Behandlung beschreibt, Fragen wie „Wie hoch ist die Wirksamkeitsrate der Behandlung?“, „Hat sie eine behördliche Genehmigung erhalten?“ oder „Was sind die möglichen Nebenwirkungen?“ generieren. Entscheidend ist, dass der LLM dann versucht, diese Verifizierungsfragen unabhängig zu beantworten, ohne durch seine anfängliche Antwort voreingenommen zu sein. Wenn die Antworten auf die Verifizierungsfragen im Widerspruch zu den in der ursprünglichen Antwort gemachten Aussagen stehen oder diese nicht stützen können, identifiziert das System diese als wahrscheinliche Halluzinationen und verfeinert die Antwort, bevor es sie dem Benutzer präsentiert.
KLEID konzentriert sich auf die Optimierung von LLMs, um diese durch natürliches Sprachfeedback besser an menschliche Vorlieben anzupassen. Der Ansatz ermöglicht es nicht-fachkundigen Benutzern, freie Kritik zu Modellgenerationen abzugeben, wie zum Beispiel „Die genannten Nebenwirkungen scheinen übertrieben zu sein“ oder Verfeinerungsanweisungen wie „Bitte diskutieren Sie auch über die Kosteneffizienz“. DRESS nutzt Reinforcement Learning, um Modelle zu trainieren, um Antworten zu generieren, die auf solchem Feedback basieren und besser auf menschliche Vorlieben abgestimmt sind. Dies verbessert die Interaktivität und reduziert gleichzeitig unrealistische oder nicht unterstützte Aussagen.
MixAlign befasst sich mit Situationen, in denen Benutzer Fragen stellen, die nicht direkt mit den vom System abgerufenen Beweispassagen übereinstimmen. Ein Benutzer könnte beispielsweise fragen: „Wird die Umweltverschmutzung in China schlimmer werden?“ während abgerufene Passagen globale Verschmutzungstrends diskutieren. Um Halluzinationen bei unzureichendem Kontext zu vermeiden, klärt MixAlign den Benutzer ausdrücklich, wenn er unsicher ist, wie er seine Frage mit den abgerufenen Informationen in Beziehung setzen soll. Dieser Human-in-the-Loop-Mechanismus ermöglicht es, Feedback zu erhalten, um Beweise richtig zu begründen und zu kontextualisieren und unbegründete Reaktionen zu verhindern.
Der Selbstreflexion Die Technik trainiert LLMs darin, ihre eigenen Antworten mithilfe eines Multitasking-Ansatzes zu bewerten, Feedback zu geben und iterativ zu verfeinern. Beispielsweise lernt das Modell anhand einer für eine medizinische Anfrage generierten Antwort, deren sachliche Richtigkeit zu bewerten, widersprüchliche oder nicht unterstützte Aussagen zu identifizieren und diese durch den Abruf relevanter Erkenntnisse zu bearbeiten. Indem LLMs diese Rückkopplungsschleife des Überprüfens, Kritisierens und iterativen Verbesserns ihrer eigenen Ergebnisse beigebracht werden, reduziert der Ansatz blinde Halluzinationen.
Prompte Abstimmung
Die Prompt-Optimierung ermöglicht die Anpassung der den LLMs bereitgestellten Anweisungsaufforderungen während der Feinabstimmung für gewünschte Verhaltensweisen.
Der SynTra Die Methode verwendet eine synthetische Zusammenfassungsaufgabe, um Halluzinationen zu minimieren, bevor das Modell auf reale Zusammenfassungsdatensätze übertragen wird. Die Syntheseaufgabe stellt Eingabepassagen bereit und fordert die Modelle auf, diese nur durch Abrufen und ohne Abstraktion zusammenzufassen. Dies trainiert Modelle, sich vollständig auf Quellinhalte zu verlassen, anstatt bei der Zusammenfassung neue Informationen zu halluzinieren. SynTra reduziert nachweislich Halluzinationsprobleme, wenn fein abgestimmte Modelle für Zielaufgaben eingesetzt werden.
AUFSTAND Trainiert einen universellen Prompt-Retriever, der den optimalen Soft-Prompt für das Lernen mit wenigen Schüssen bei unsichtbaren nachgelagerten Aufgaben bietet. Durch das Abrufen effektiver Eingabeaufforderungen, die auf eine Vielzahl von Aufgaben abgestimmt sind, lernt das Modell, zu verallgemeinern und sich an neue Aufgaben anzupassen, bei denen es an Trainingsbeispielen mangelt. Dadurch wird die Leistung verbessert, ohne dass eine aufgabenspezifische Optimierung erforderlich ist.
Neuartige Modellarchitekturen
FLEEK ist ein System, das sich auf die Unterstützung menschlicher Faktenprüfer und Validatoren konzentriert. Es identifiziert automatisch potenziell überprüfbare Tatsachenbehauptungen in einem bestimmten Text. FLEEK wandelt diese prüfwürdigen Aussagen in Abfragen um, ruft zugehörige Beweise aus Wissensdatenbanken ab und stellt diese Kontextinformationen menschlichen Validatoren zur Verfügung, um die Richtigkeit von Dokumenten und den Revisionsbedarf effektiv zu überprüfen.
Der CAD Der Dekodierungsansatz reduziert Halluzinationen bei der Sprachgenerierung durch kontextbewusste Dekodierung. Insbesondere verstärkt CAD die Unterschiede zwischen der Ausgabeverteilung eines LLM, wenn diese an einen Kontext konditioniert wird, und der Ausgabeverteilung, die bedingungslos generiert wird. Dies entmutigt widersprüchliche Kontextbeweise und lenkt das Modell auf geerdete Generationen.
DoLA mildert sachliche Halluzinationen durch Gegenüberstellung von Logits aus verschiedenen Schichten von Transformatornetzwerken. Da Faktenwissen tendenziell in bestimmten mittleren Schichten lokalisiert ist, reduziert die Verstärkung von Signalen aus diesen Faktenschichten durch die Logit-Kontrastierung von DoLA die Erzeugung falscher Fakten.
Der THAM Das Framework führt während des Trainings einen Regularisierungsterm ein, um die gegenseitige Information zwischen Eingaben und halluzinierten Ausgaben zu minimieren. Dies trägt dazu bei, dass sich das Modell stärker auf den gegebenen Eingabekontext verlässt und nicht auf die freie Vorstellungskraft, wodurch blinde Halluzinationen reduziert werden.
Wissensvermittlung
Die Verankerung von LLM-Generationen in strukturiertem Wissen verhindert ungezügelte Spekulationen und Erfindungen.
Der rho-Erweiterung Das Modell identifiziert Entitäten in einem Konversationskontext und verknüpft sie mit einem Wissensgraphen (KG). Zugehörige Fakten und Beziehungen zu diesen Entitäten werden vom KG abgerufen und in die dem LLM bereitgestellte Kontextdarstellung eingefügt. Diese wissensbasierte Kontextsteuerung reduziert Halluzinationen im Dialog, indem die Antworten an fundierte Fakten über die erwähnten Entitäten/Ereignisse gebunden bleiben.
HAR erstellt kontrafaktische Trainingsdatensätze mit modellgenerierten Halluzinationen, um Erdung besser zu lehren. Anhand einer Tatsachenpassage werden Modelle dazu veranlasst, Halluzinationen oder Verzerrungen einzuführen, wodurch eine veränderte kontrafaktische Version entsteht. Die Feinabstimmung dieser Daten zwingt die Modelle dazu, den Inhalt besser in den ursprünglichen Faktenquellen zu verankern, wodurch Improvisationen reduziert werden.
Überwachte Feinabstimmung
- Coach – Interaktives Framework, das Benutzeranfragen beantwortet, aber auch um Korrekturen zur Verbesserung bittet.
- R-Tuning – Ablehnungsbewusstes Tuning lehnt nicht unterstützte Fragen ab, die durch Wissenslücken in den Trainingsdaten identifiziert wurden.
- OPTIMIEREN – Dekodierungsmethode, die Generationen danach einordnet, wie gut Hypothesen Eingabefakten unterstützen.
Herausforderungen und Einschränkungen
Trotz vielversprechender Fortschritte bleiben einige wichtige Herausforderungen bei der Linderung von Halluzinationen bestehen:
- Bei Techniken wird oft Qualität, Kohärenz und Kreativität zugunsten von Wahrhaftigkeit in Kauf genommen.
- Schwierigkeiten bei der strengen Bewertung über begrenzte Bereiche hinaus. Metriken erfassen nicht alle Nuancen.
- Viele Methoden sind rechenintensiv und erfordern eine umfangreiche Recherche oder Selbstbegründung.
- Sind stark von der Qualität der Trainingsdaten und externen Wissensquellen abhängig.
- Es ist schwierig, eine Generalisierbarkeit über Domänen und Modalitäten hinweg zu gewährleisten.
- Grundlegende Ursachen von Halluzinationen wie Überextrapolation bleiben ungelöst.
Die Bewältigung dieser Herausforderungen erfordert wahrscheinlich einen mehrschichtigen Ansatz, der Verbesserungen der Trainingsdaten, Verbesserungen der Modellarchitektur, Verluste zur Verbesserung der Wiedergabetreue und Techniken zur Inferenzzeit kombiniert.
Die Straße entlang
Die Linderung von Halluzinationen bei LLMs bleibt ein offenes Forschungsproblem mit aktiven Fortschritten. Zu den vielversprechenden Zukunftsrichtungen gehören:
- Hybride Techniken: Kombinieren Sie komplementäre Ansätze wie Retrieval, Wissensvermittlung und Feedback.
- Kausalitätsmodellierung: Verbesserung des Verständnisses und des logischen Denkens.
- Online-Wissensintegration: Halten Sie das Weltwissen auf dem neuesten Stand.
- Formale Überprüfung: Bieten Sie mathematische Garantien für das Modellverhalten.
- Interpretierbarkeit: Transparenz in die Schadensbegrenzungstechniken einbauen.
Da sich LLMs in hochriskanten Bereichen weiter ausbreiten, wird die Entwicklung robuster Lösungen zur Eindämmung von Halluzinationen von entscheidender Bedeutung sein, um ihren sicheren, ethischen und zuverlässigen Einsatz zu gewährleisten. Die in diesem Artikel untersuchten Techniken bieten einen Überblick über die bisher vorgeschlagenen Techniken, bei denen noch offenere Forschungsherausforderungen bestehen. Insgesamt gibt es einen positiven Trend zur Verbesserung der Modellfaktizität, aber weitere Fortschritte erfordern die Beseitigung von Einschränkungen und die Erforschung neuer Richtungen wie Kausalität, Verifizierung und Hybridmethoden. Durch den sorgfältigen Einsatz von Forschern aller Disziplinen kann der Traum von leistungsstarken und dennoch vertrauenswürdigen LLMs in die Realität umgesetzt werden.