Artificial Intelligence

Evaluierung großer Sprachmodelle: Ein technischer Leitfaden

Veröffentlicht

3 Monate her

29. Januar 2024

Große Sprachmodelle (LLMs) wie GPT-4, Claude und LLaMA erfreuen sich explosionsartiger Beliebtheit. Dank ihrer Fähigkeit, beeindruckend menschenähnliche Texte zu generieren, werden diese KI-Systeme mittlerweile für alles eingesetzt, von der Inhaltserstellung bis hin zu Kundenservice-Chatbots.

Aber woher wissen wir, ob diese Modelle tatsächlich gut sind? Da ständig neue LLMs angekündigt werden, die alle den Anspruch erheben, größer und besser zu sein, wie bewerten und vergleichen wir deren Leistung?

In diesem umfassenden Leitfaden untersuchen wir die besten Techniken zur Bewertung großer Sprachmodelle. Wir betrachten die Vor- und Nachteile jedes Ansatzes, wann er am besten angewendet wird und wie Sie ihn in Ihren eigenen LLM-Tests nutzen können.

Aufgabenspezifische Metriken

Eine der einfachsten Möglichkeiten, ein LLM zu bewerten, besteht darin, es anhand etablierter NLP-Aufgaben unter Verwendung standardisierter Metriken zu testen. Zum Beispiel:

Zusammenfassung

Für Zusammenfassungsaufgaben können Metriken wie ROT (Recall-Oriented Understudy for Gisting Evaluation) werden häufig verwendet. ROUGE vergleicht die vom Modell generierte Zusammenfassung mit einer von Menschen verfassten „Referenz“-Zusammenfassung und zählt dabei die Überlappung von Wörtern oder Phrasen.

Es gibt verschiedene Geschmacksrichtungen von ROUGE, jede mit ihren eigenen Vor- und Nachteilen:

ROUGE-N: Vergleicht die Überlappung von N-Grammen (Folgen von N Wörtern). ROUGE-1 verwendet Unigramme (einzelne Wörter), ROUGE-2 verwendet Bigramme usw. Der Vorteil besteht darin, dass die Wortreihenfolge erfasst wird, sie kann jedoch zu streng sein.
ROUGE-L: Basierend auf der längsten gemeinsamen Teilsequenz (LCS). Flexibler in der Wortreihenfolge, konzentriert sich aber auf die Hauptpunkte.
ROUGE-W: Gewichtet LCS-Übereinstimmungen nach ihrer Bedeutung. Versuche, ROUGE-L zu verbessern.

Im Allgemeinen sind ROUGE-Metriken schnell, automatisch und eignen sich gut für Ranking-Systemzusammenfassungen. Allerdings messen sie weder Kohärenz noch Bedeutung. Eine Zusammenfassung könnte eine hohe ROUGE-Bewertung erhalten und dennoch unsinnig sein.

Die Formel für ROUGE-N lautet:

$ROUGE-N = \sum ^{s \in {Referenzzusammenfassungen}} \sum ^{g r a m n \in s} C o u n t ( g r a m ^{n} ) \sum ^{s \in {Referenzzusammenfassungen}} \sum ^{g r a m n \in s} C o u n t ^{ma t c h} ( g r a m ^{n} )$

Wo:

Count_{match}(gram_n) ist die Anzahl der N-Gramm sowohl in der generierten Zusammenfassung als auch in der Referenzzusammenfassung.
Count(gram_n) ist die Anzahl der N-Gramm in der Referenzzusammenfassung.

Zum Beispiel für ROUGE-1 (Unigramme):

Generierte Zusammenfassung: „Die Katze saß.“
Referenzzusammenfassung: „Die Katze saß auf der Matte.“
Überlappende Unigramme: „The“, „cat“, „sat“
ROUGE-1-Score = 3/5 = 0.6

ROUGE-L verwendet die längste gemeinsame Teilsequenz (LCS). Die Wortreihenfolge ist flexibler. Die Formel lautet:

$ROUGE-L = max(Länge(generiert), Länge(Referenz)) L CS ( erzeugt , Referenz )$

Wo LCS ist die Länge der längsten gemeinsamen Teilfolge.

ROUGE-W gewichtet die LCS-Übereinstimmungen. Dabei wird die Bedeutung jedes Spiels im LCS berücksichtigt.

Übersetzungen

Für maschinelle Übersetzungsaufgaben BLAU (Bilingual Evaluation Understudy) ist eine beliebte Metrik. BLEU misst die Ähnlichkeit zwischen der Ausgabeübersetzung des Modells und professionellen menschlichen Übersetzungen mithilfe von N-Gramm-Präzision und einem Kürzelwert.

Wichtige Aspekte der Funktionsweise von BLEU:

Vergleicht Überlappungen von n-Grammen für n bis zu 4 (Unigramme, Bigramme, Trigramme, 4-Gramm).
Berechnet ein geometrisches Mittel der n-Gramm-Genauigkeiten.
Wendet einen Kürzel an, wenn die Übersetzung viel kürzer als die Referenz ist.
Im Allgemeinen liegt der Wert zwischen 0 und 1, wobei 1 die perfekte Übereinstimmung mit der Referenz darstellt.

BLEU korreliert einigermaßen gut mit der menschlichen Beurteilung der Übersetzungsqualität. Aber es gibt immer noch Einschränkungen:

Misst nur die Präzision anhand von Referenzen, nicht Rückruf oder F1.
Schwierigkeiten mit kreativen Übersetzungen mit unterschiedlichen Formulierungen.
Anfällig für „Spielereien“ mit Übersetzungstricks.

Andere Übersetzungsmetriken wie METEOR und TER versuchen, die Schwächen von BLEU zu verbessern. Aber im Allgemeinen erfassen automatische Metriken die Übersetzungsqualität nicht vollständig.

Andere Aufgaben

Zusätzlich zur Zusammenfassung und Übersetzung können Metriken wie F1, Genauigkeit, MSE und mehr verwendet werden, um die LLM-Leistung bei Aufgaben wie den folgenden zu bewerten:

Textklassifizierung
Informationsextraktion
Frage beantworten
Stimmungsanalyse
Erkennung grammatikalischer Fehler

Der Vorteil aufgabenspezifischer Metriken besteht darin, dass die Auswertung mithilfe standardisierter Datensätze wie z. B. vollständig automatisiert werden kann Kader für Qualitätssicherung und KLEBER Maßstab für eine Reihe von Aufgaben. Die Ergebnisse können im Laufe der Zeit leicht verfolgt werden, wenn sich die Modelle verbessern.

Diese Metriken sind jedoch eng fokussiert und können die allgemeine Sprachqualität nicht messen. LLMs, die hinsichtlich der Metriken für eine einzelne Aufgabe eine gute Leistung erbringen, scheitern möglicherweise generell daran, kohärenten, logischen und hilfreichen Text zu generieren.

Forschungs-Benchmarks

Eine beliebte Methode zur Bewertung von LLMs besteht darin, sie anhand umfassender Forschungsmaßstäbe zu testen, die verschiedene Themen und Fähigkeiten abdecken. Diese Benchmarks ermöglichen ein schnelles Testen von Modellen im großen Maßstab.

Einige bekannte Benchmarks sind:

Sekundenkleber – Anspruchsvolles Set aus 11 verschiedenen Sprachaufgaben.
KLEBER – Sammlung von 9 Satzverständnisaufgaben. Einfacher als Sekundenkleber.
MMLU – 57 verschiedene MINT-, Sozial- und Geisteswissenschaften-Aufgaben. Testet Wissen und Denkvermögen.
Winograd-Schema-Challenge – Probleme bei der Lösung von Pronomen, die gesundes Denken erfordern.
ARC – Anspruchsvolle Aufgaben zum logischen Denken in natürlicher Sprache.
Hellaswag – Gesundes Denken über Situationen.
PIQA – Physikfragen, die Diagramme erfordern.

Durch die Auswertung solcher Benchmarks können Forscher Modelle schnell auf ihre Fähigkeiten in den Bereichen Mathematik, Logik, Argumentation, Kodierung, gesunden Menschenverstand und vieles mehr testen. Der Prozentsatz der richtig beantworteten Fragen wird zu einer Benchmark-Metrik für den Vergleich von Modellen.

Ein großes Problem bei Benchmarks ist jedoch Trainingsdatenkontamination. Viele Benchmarks enthalten Beispiele, die Modelle bereits während des Vortrainings gesehen haben. Dadurch können Modelle „auswendig lernen” Antworten auf spezifische Fragen und erbringen bessere Leistungen als ihre wahren Fähigkeiten.

Es wird versucht, „dekontaminieren”Benchmarks durch Entfernen überlappender Beispiele. Es ist jedoch schwierig, dies umfassend durchzuführen, insbesondere wenn die Modelle paraphrasierte oder übersetzte Versionen der Fragen gesehen haben.

Während Benchmarks also ein breites Spektrum an Fertigkeiten effizient testen können, können sie das wahre Denkvermögen nicht zuverlässig messen oder eine Ergebnissteigerung aufgrund von Kontaminationen verhindern. Ergänzende Bewertungsmethoden sind erforderlich.

LLM-Selbstevaluation

Ein faszinierender Ansatz besteht darin, einen LLM die Ergebnisse eines anderen LLM bewerten zu lassen. Die Idee besteht darin, das „einfachere“ Aufgabenkonzept zu nutzen:

Für einen LLM kann es schwierig sein, eine qualitativ hochwertige Ausgabe zu produzieren.
Es kann jedoch einfacher sein, festzustellen, ob eine bestimmte Ausgabe von hoher Qualität ist.

Während ein LLM beispielsweise Schwierigkeiten haben kann, einen sachlichen, kohärenten Absatz von Grund auf zu erstellen, kann er leichter beurteilen, ob ein bestimmter Absatz logisch sinnvoll ist und in den Kontext passt.

Der Prozess ist also:

Übergeben Sie die Eingabeaufforderung an den ersten LLM, um eine Ausgabe zu generieren.
Übergeben Sie die Eingabeaufforderung und die generierte Ausgabe an den zweiten „Bewerter“-LLM.
Stellen Sie dem Evaluator LLM eine Frage, um die Ausgabequalität zu beurteilen. zB „Ist die obige Antwort logisch sinnvoll?“

Dieser Ansatz lässt sich schnell implementieren und automatisiert die LLM-Bewertung. Aber es gibt einige Herausforderungen:

Die Leistung hängt stark von der Wahl des Gutachters LLM und der prompten Formulierung ab.
Eingeschränkt durch die Schwierigkeit der ursprünglichen Aufgabe. Für LLMs ist es immer noch schwierig, komplexe Argumente zu bewerten.
Kann rechenintensiv sein, wenn API-basierte LLMs verwendet werden.

Für die Beurteilung der abgerufenen Informationen ist die Selbstevaluation besonders erfolgsversprechend RAG (Retrieval-Augmented Generation) Systeme. Zusätzliche LLM-Abfragen können überprüfen, ob der abgerufene Kontext ordnungsgemäß verwendet wird.

Insgesamt weist die Selbstevaluation Potenzial auf, erfordert jedoch Sorgfalt bei der Umsetzung. Es ergänzt die menschliche Beurteilung, anstatt sie zu ersetzen.

Menschliche Bewertung

Angesichts der Einschränkungen automatisierter Metriken und Benchmarks ist die menschliche Bewertung immer noch der Goldstandard für die rigorose Bewertung der LLM-Qualität.

Experten können detaillierte qualitative Einschätzungen abgeben zu:

Genauigkeit und sachliche Korrektheit
Logik, Argumentation und gesunder Menschenverstand
Kohärenz, Konsistenz und Lesbarkeit
Angemessenheit von Ton, Stil und Stimme
Grammatikalität und Geläufigkeit
Kreativität und Nuancen

Um ein Modell zu bewerten, erhalten Menschen eine Reihe von Eingabeaufforderungen und die vom LLM generierten Antworten. Sie bewerten die Qualität der Antworten, häufig anhand von Bewertungsskalen und Rubriken.

Der Nachteil besteht darin, dass die manuelle manuelle Bewertung teuer, langsam und schwer zu skalieren ist. Es erfordert außerdem die Entwicklung standardisierter Kriterien und die Schulung der Bewerter, diese konsequent anzuwenden.

Einige Forscher haben kreative Wege zur Crowdfunding-Beurteilung menschlicher LLM-Studien mithilfe turnierähnlicher Systeme erkundet, bei denen Menschen auf Matchups zwischen Modellen wetten und diese bewerten. Allerdings ist die Abdeckung im Vergleich zu vollständigen manuellen Auswertungen immer noch begrenzt.

Für geschäftliche Anwendungsfälle, bei denen die Qualität wichtiger ist als der bloße Maßstab, bleiben fachmännische Tests durch Menschen trotz ihrer Kosten der Goldstandard. Dies gilt insbesondere für riskantere Anwendungen von LLMs.

Zusammenfassung

Die gründliche Bewertung großer Sprachmodelle erfordert die Verwendung eines vielfältigen Toolkits komplementärer Methoden, anstatt sich auf eine einzelne Technik zu verlassen.

Durch die Kombination automatisierter Ansätze für Geschwindigkeit mit strenger menschlicher Aufsicht für Genauigkeit können wir vertrauenswürdige Testmethoden für große Sprachmodelle entwickeln. Mit einer fundierten Evaluierung können wir das enorme Potenzial von LLMs freisetzen und gleichzeitig deren Risiken verantwortungsvoll managen.

Verwandte Themen:AI GPT Lama Metriken

Als nächstes

Navigieren im Zeitalter der Fehlinformationen: Argumente für datenzentrierte generative KI

Verpassen Sie nicht

Die Zukunft der serverlosen Inferenz für große Sprachmodelle

Aayush Mittal

Ich habe die letzten fünf Jahre damit verbracht, in die faszinierende Welt des maschinellen Lernens und des Deep Learning einzutauchen. Meine Leidenschaft und mein Fachwissen haben dazu geführt, dass ich an über 50 verschiedenen Software-Engineering-Projekten mitgewirkt habe, mit besonderem Schwerpunkt auf KI/ML. Meine anhaltende Neugier hat mich auch zur Verarbeitung natürlicher Sprache geführt, einem Bereich, den ich gerne weiter erforschen möchte.

Unite.AI

Evaluierung großer Sprachmodelle: Ein technischer Leitfaden

Artificial Intelligence

Evaluierung großer Sprachmodelle: Ein technischer Leitfaden

Inhaltsverzeichnis