Künstliche Intelligenz

RAFT – Ein Feinabstimmungs- und RAG-Ansatz für domänenspezifische Fragebeantwortung

Published March 29, 2024

Updated April 27, 2026

Aayush Mittal Mittal

Da sich die Anwendungen von großen Sprachmodellen auf spezialisierte Bereiche ausdehnen, wird die Notwendigkeit effizienter und effektiver Anpassungstechniken immer dringlicher. Hier kommt RAFT (Retrieval Augmented Fine Tuning) ins Spiel, ein neuer Ansatz, der die Stärken von retrieval-augmentierter Generierung (RAG) und Feinabstimmung kombiniert, speziell für domänenspezifische Fragebeantwortungsaufgaben.

Die Herausforderung der Domänenanpassung

Obwohl LLMs auf großen Datenmengen vorab trainiert werden, ist ihre Fähigkeit, in spezialisierten Bereichen wie medizinischer Forschung, Rechtsdokumentation oder unternehmensspezifischen Wissensbasen gut zu performen, oft begrenzt. Diese Einschränkung entsteht, weil die Vorabtrainingsdaten die Nuancen und Feinheiten dieser spezialisierten Bereiche möglicherweise nicht angemessen repräsentieren. Um diese Herausforderung zu bewältigen, haben Forscher traditionell zwei Haupttechniken eingesetzt: retrieval-augmentierte Generierung (RAG) und Feinabstimmung.

Retrieval-Augmentierte Generierung (RAG)

RAG

RAG ist eine Technik, die es LLMs ermöglicht, auf externe Wissensquellen während der Inferenz zuzugreifen und diese zu nutzen.

Sie erreicht dies, indem sie Echtzeit-Datenabruf in den generativen Prozess integriert, wodurch die Ausgaben des Modells genauer und aktuell werden. RAG besteht aus drei Kernschritten: Abruf, bei dem relevante Dokumente gesammelt werden; Generierung, bei der das Modell eine Ausgabe auf der Grundlage der abgerufenen Daten produziert; und Anreicherung, die die Ausgabe weiter verfeinert.

Der Abrufprozess in RAG beginnt mit einer Benutzeranfrage. LLMs analysieren die Anfrage und holen relevante Informationen aus externen Datenbanken, präsentieren einen Datenpool, aus dem das Modell seine Antworten ableiten kann. Die Generierungsphase synthetisiert diese Eingaben in eine kohärente Erzählung oder Antwort. Der Anreicherungsschritt verfeinert die Generierung, indem er Kontext hinzufügt oder für Kohärenz und Relevanz anpasst.

RAG-Modelle können mit einer Vielzahl von Metriken ausgewertet werden, die ihre Fähigkeit beurteilen, genaue, relevante und aktuelle Informationen bereitzustellen.

Feinabstimmung

supervised-fine-tuning

Feinabstimmung beinhaltet hingegen die Anpassung eines vorab trainierten LLMs an eine spezifische Aufgabe oder einen bestimmten Bereich, indem es weiter auf einem kleineren, aufgabenspezifischen Datensatz trainiert wird. Dieser Ansatz ermöglicht es dem Modell, Muster zu erlernen und seine Ausgaben mit der gewünschten Aufgabe oder dem Bereich abzustimmen. Obwohl die Feinabstimmung die Leistung des Modells verbessern kann, verfehlt sie oft die effektive Einbeziehung externer Wissensquellen oder berücksichtigt Abrufimperfektionen während der Inferenz nicht angemessen.

Der RAFT-Ansatz

RAFT

RAFT steht für Retrieval-Aware Fine-Tuning und ist eine innovative Trainingsmethode, die für Sprachmodelle entwickelt wurde, um ihre Leistung in domänenspezifischen Aufgaben, insbesondere für offene Fragenbeantwortung, zu verbessern. RAFT unterscheidet sich von der Standard-Feinabstimmung, indem es Trainingsdaten vorbereitet, die Fragen mit einer Mischung aus relevanten und nicht relevanten Dokumenten sowie kettenartigen Denkprozessen beinhalten, die aus den relevanten Texten abgeleitet werden. Diese Methode zielt darauf ab, die Fähigkeit der Modelle zu verbessern, nicht nur Informationen abzurufen, sondern auch Schlussfolgerungen aus dem bereitgestellten Inhalt zu ziehen.

Im Wesentlichen feinabstimmt RAFT Sprachmodelle, um in Aufgaben, die Leseverständnis und Wissensextraktion aus einem Satz von Dokumenten beinhalten, geschickter zu sein. Durch das Training mit sowohl “Oracle”-Dokumenten (die die Antwort enthalten) als auch “Ablenkungsdokumenten” (die die Antwort nicht enthalten) lernt das Modell, relevante Informationen effektiver zu erkennen und zu nutzen.

RAFTs Trainingsregime betont auch die Generierung von Denkprozessen, die nicht nur bei der Ausbildungsantwort helfen, sondern auch Quellen zitieren, ähnlich wie ein Mensch seine Antwort durch Bezugnahme auf gelesenes Material rechtfertigen würde. Dieser Ansatz bereitet das Modell nicht nur auf eine RAG-Umgebung (Retrieval Augmented Generation) vor, in der es die Top-k abgerufenen Dokumente berücksichtigen muss, sondern stellt auch sicher, dass das Training des Modells unabhängig vom verwendeten Abrufmodul ist, was eine flexible Anwendung über verschiedene Abrufsysteme hinweg ermöglicht.

Dieser Ansatz dient mehreren Zwecken:

Er trainiert das Modell, relevante Informationen aus dem bereitgestellten Kontext zu identifizieren und zu nutzen, ähnlich wie in einer offenen Fragenbeantwortungssituation.
Er verbessert die Fähigkeit des Modells, irrelevante Informationen zu ignorieren, eine entscheidende Fähigkeit für effektive RAG.
Er stellt das Modell vor Szenarien, in denen die Antwort nicht im Kontext vorhanden ist, und ermutigt es, auf sein eigenes Wissen zurückzugreifen, wenn notwendig.

Ein weiterer wichtiger Aspekt von RAFT ist die Einbeziehung von Denkprozessen in die Trainingsphase. Anstatt einfach Frage- und Antwortpaare bereitzustellen, generiert RAFT detaillierte Erklärungen der Denkprozesse, die wörtliche Zitate aus den relevanten Dokumenten enthalten. Diese Erklärungen, die in einer Denkprozess-Form präsentiert werden, führen das Modell durch die logischen Schritte, die zur richtigen Antwort erforderlich sind.

Durch das Training des Modells auf diesen Denkprozessen fördert RAFT die Entwicklung starker Denkfähigkeiten und verbessert das Verständnis des Modells dafür, wie es externe Wissensquellen effektiv nutzen kann.

Auswertung und Ergebnisse

Die Autoren des RAFT-Papiers führten umfangreiche Auswertungen auf verschiedenen Datensätzen durch, einschließlich PubMed (biomedizinische Forschung), HotpotQA (offene Fragenbeantwortung) und dem Gorilla APIBench (Codegenerierung). Ihre Ergebnisse zeigten, dass RAFT konsistent besser abschnitt als Vergleichswerte, wie domänen-spezifische Feinabstimmung mit und ohne RAG sowie größere Modelle wie GPT-3.5 mit RAG.

RAFT verbessert RAG-Leistung

Beispielsweise erreichte RAFT auf dem HuggingFace-Datensatz eine Genauigkeit von 74 %, was eine signifikante Verbesserung von 31,41 % gegenüber der domänen-spezifischen Feinabstimmung (DSF) und 44,92 % gegenüber GPT-3.5 mit RAG darstellt. Ähnlich verhielt es sich auf dem HotpotQA-Datensatz, auf dem RAFT einen Genauigkeitszuwachs von 28,9 % im Vergleich zu DSF zeigte.

Einer der Hauptvorteile von RAFT ist seine Robustheit gegenüber Abrufimperfektionen. Durch das Training des Modells mit einer Mischung aus relevanten und nicht relevanten Dokumenten verbessert RAFT die Fähigkeit des Modells, relevante Informationen zu erkennen und zu priorisieren, auch wenn der Abrufmodul suboptimale Ergebnisse liefert.

Die Autoren zeigten, dass die Feinabstimmung mit nur den Oracle-Dokumenten oft zu einer schlechteren Leistung führt im Vergleich zu Konfigurationen, die Ablenkungsdokumente beinhalten. Diese Erkenntnis unterstreicht die Bedeutung, das Modell während des Trainings auf unterschiedliche Abrufsituationen vorzubereiten, um seine Anwendbarkeit in realen Anwendungen sicherzustellen.

Praktische Anwendungen und zukünftige Richtungen

Die RAFT-Technik hat bedeutende Auswirkungen auf eine breite Palette praktischer Anwendungen, einschließlich:

Fragenbeantwortungssysteme: RAFT kann eingesetzt werden, um hochgenaue und domänen-spezifische Fragenbeantwortungssysteme zu entwickeln, die sowohl das gelernte Wissen des Modells als auch externe Wissensquellen nutzen.
Unternehmenswissensmanagement: Organisationen mit großen Wissensbasen können RAFT nutzen, um maßgeschneiderte Fragenbeantwortungssysteme zu entwickeln, die es Mitarbeitern ermöglichen, schnell auf relevante Informationen zuzugreifen und diese zu nutzen.
Medizinische und wissenschaftliche Forschung: RAFT kann besonders wertvoll in Bereichen wie der biomedizinischen Forschung sein, in der der Zugang zu den neuesten Erkenntnissen und Literatur für das Vorankommen des wissenschaftlichen Verständnisses von entscheidender Bedeutung ist.
Rechts- und Finanzdienstleistungen: RAFT kann Fachleuten in diesen Bereichen helfen, indem es genaue und kontextbewusste Antworten auf der Grundlage relevanter Rechtsdokumente oder Finanzberichte liefert.

Wenn die Forschung in diesem Bereich weitergeht, können wir weitere Fortschritte und Verfeinerungen der RAFT-Technik erwarten. Mögliche zukünftige Richtungen umfassen:

Die Erforschung effizienterer und effektiverer Abrufmodule, die für spezifische Bereiche oder Dokumentenstrukturen zugeschnitten sind.
Die Integration multimodaler Informationen, wie Bilder oder Tabellen, in den RAFT-Rahmen für ein verbessertes Kontextverständnis.
Die Entwicklung spezialisierter Denkarchitekturen, die die während des Trainings generierten Denkprozesse besser nutzen können.
Die Anpassung von RAFT an andere natürliche Sprachenaufgaben jenseits der Fragenbeantwortung, wie Zusammenfassung, Übersetzung oder Dialogsysteme.

Schlussfolgerung

RAFT stellt einen bedeutenden Fortschritt im Bereich der domänen-spezifischen Fragenbeantwortung mit Sprachmodellen dar. Durch die harmonische Kombination der Stärken von retrieval-augmentierter Generierung und Feinabstimmung rüstet RAFT LLMs mit der Fähigkeit aus, externe Wissensquellen effektiv zu nutzen und ihre Ausgaben mit domänen-spezifischen Mustern und Präferenzen abzustimmen.

Durch seine innovative Trainingsdatenkuratierung, die Einbeziehung von Denkprozessen und die Robustheit gegenüber Abrufimperfektionen bietet RAFT eine leistungsstarke Lösung für Organisationen und Forscher, die das volle Potenzial von LLMs in spezialisierten Bereichen ausschöpfen möchten.

Da die Nachfrage nach domänen-spezifischen natürlichen Sprachverarbeitungsfähigkeiten weiter wächst, werden Techniken wie RAFT eine wichtige Rolle bei der Ermöglichung genauer, kontext-bewusster und anpassungsfähiger Sprachmodelle spielen, die den Weg für eine Zukunft ebnen, in der die menschliche Maschinenkommunikation wirklich nahtlos und domänen-agnostisch wird.

Aayush Mittal

Ich habe die letzten fünf Jahre damit verbracht, mich in die faszinierende Welt des Machine Learning und Deep Learning zu vertiefen. Meine Leidenschaft und mein Fachwissen haben mich dazu geführt, an über 50 verschiedenen Software-Entwicklungsprojekten mitzuwirken, mit einem besonderen Fokus auf KI/ML. Meine anhaltende Neugier hat mich auch zum Natural Language Processing hingezogen, ein Feld, das ich weiter erforschen möchte.