Künstliche Intelligenz
Bewertung von Large Language Models: Ein Technischer Leitfaden

Große Sprachmodelle (LLMs) wie GPT-4, Claude und LLaMA haben eine enorme Popularität erlangt. Dank ihrer Fähigkeit, beeindruckend menschliche Texte zu generieren, werden diese KI-Systeme jetzt für alles von Content-Erstellung bis hin zu Customer-Service-Chatbots eingesetzt.
Aber wie wissen wir, ob diese Modelle tatsächlich gut sind? Mit neuen LLMs, die ständig angekündigt werden und alle behaupten, größer und besser zu sein, wie bewerten und vergleichen wir ihre Leistung?
In diesem umfassenden Leitfaden werden wir die besten Techniken für die Bewertung von großen Sprachmodellen erkunden. Wir werden die Vor- und Nachteile jedes Ansatzes betrachten, wann sie am besten angewendet werden und wie Sie sie in Ihren eigenen LLM-Tests nutzen können.
Aufgaben-spezifische Metriken
Eine der einfachsten Möglichkeiten, ein LLM zu bewerten, besteht darin, es anhand etablierter NLP-Aufgaben mit standardisierten Metriken zu testen. Zum Beispiel:
Zusammenfassung
Für Zusammenfassungsaufgaben werden Metriken wie ROUGE (Recall-Oriented Understudy for Gisting Evaluation) häufig verwendet. ROUGE vergleicht die vom Modell generierte Zusammenfassung mit einer von einem Menschen verfassten “Referenz”-Zusammenfassung und zählt die Übereinstimmung von Wörtern oder Phrasen.
Es gibt mehrere Varianten von ROUGE, jede mit ihren eigenen Vor- und Nachteilen:
- ROUGE-N: Vergleicht die Übereinstimmung von n-Grammen (Folgen von N Wörtern). ROUGE-1 verwendet Unigramme (einzelne Wörter), ROUGE-2 verwendet Bigramme usw. Der Vorteil besteht darin, dass es die Wortreihenfolge erfasst, aber es kann zu streng sein.
- ROUGE-L: Basierend auf der längsten gemeinsamen Subsequenz (LCS). Flexibler bei der Wortreihenfolge, aber konzentriert sich auf die Hauptpunkte.
- ROUGE-W: Gewichtete LCS-Übereinstimmungen. Versucht, ROUGE-L zu verbessern.
Im Allgemeinen sind ROUGE-Metriken schnell, automatisch und funktionieren gut für die Bewertung von Systemzusammenfassungen. Allerdings messen sie keine Kohärenz oder Bedeutung. Eine Zusammenfassung könnte einen hohen ROUGE-Score erzielen und dennoch unsinnig sein.
Die Formel für ROUGE-N lautet:
ROUGE-N=∑∈{Referenz-Zusammenfassungen}∑∑�∈{Referenz-Zusammenfassungen}∑
Wo:
Count_{match}(gram_n)ist die Anzahl der n-Gramme in beiden der generierten und Referenz-Zusammenfassung.Count(gram_n)ist die Anzahl der n-Gramme in der Referenz-Zusammenfassung.
Zum Beispiel für ROUGE-1 (Unigramme):
- Generierte Zusammenfassung: “Die Katze saß.”
- Referenz-Zusammenfassung: “Die Katze saß auf dem Teppich.”
- Überlappende Unigramme: “Die”, “Katze”, “saß”
- ROUGE-1-Score = 3/5 = 0,6
ROUGE-L verwendet die längste gemeinsame Subsequenz (LCS). Es ist flexibler bei der Wortreihenfolge. Die Formel lautet:
ROUGE-L=���(generiert,Referenz)max(length(generiert), length(Referenz))
Wo LCS die Länge der längsten gemeinsamen Subsequenz ist.
ROUGE-W gewichtet die LCS-Übereinstimmungen. Es berücksichtigt die Bedeutung jeder Übereinstimmung in der LCS.
Übersetzung
Für maschinelle Übersetzungsaufgaben ist BLEU (Bilingual Evaluation Understudy) eine beliebte Metrik. BLEU misst die Ähnlichkeit zwischen der Ausgabe des Modells und professionellen menschlichen Übersetzungen, unter Verwendung von n-Gramm-Präzision und einer Kürzestrafik.
Wichtige Aspekte, wie BLEU funktioniert:
- Vergleicht die Übereinstimmung von n-Grammen für n bis 4 (Unigramme, Bigramme, Trigramme, 4-Gramme).
- Berechnet den geometrischen Mittelwert der n-Gramm-Präzisionen.
- Wendet eine Kürzestrafik an, wenn die Übersetzung viel kürzer ist als die Referenz.
- Im Allgemeinen liegt es zwischen 0 und 1, wobei 1 eine perfekte Übereinstimmung mit der Referenz ist.
BLEU korreliert vernünftig mit menschlichen Urteilen über die Übersetzungsqualität. Aber es hat noch Einschränkungen:
- Misst nur die Präzision gegenüber Referenzen, nicht die Erinnerung oder F1.
- Hat Schwierigkeiten mit kreativen Übersetzungen, die unterschiedliche Formulierungen verwenden.
- Anfällig für “Manipulation” mit Übersetzungstricks.
Andere Übersetzungsmetriken wie METEOR und TER versuchen, BLEUs Schwächen zu verbessern. Aber im Allgemeinen erfassen automatische Metriken nicht vollständig die Übersetzungsqualität.
Andere Aufgaben
Neben der Zusammenfassung und Übersetzung können Metriken wie F1, Genauigkeit, MSE und mehr verwendet werden, um die Leistung von LLMs bei Aufgaben wie:
- Textklassifizierung
- Informationsextraktion
- Fragebeantwortung
- Sentimentanalyse
- Grammatikfehlererkennung
Der Vorteil von aufgaben-spezifischen Metriken besteht darin, dass die Bewertung vollständig automatisiert werden kann, indem standardisierte Datensätze wie SQuAD für QA und GLUE-Benchmark für eine Reihe von Aufgaben verwendet werden. Die Ergebnisse können leicht über die Zeit verfolgt werden, während die Modelle verbessert werden.
Allerdings sind diese Metriken eng gefasst und können nicht die Gesamtsprachqualität messen. LLMs, die bei Metriken für eine einzelne Aufgabe gut abschneiden, können bei der Generierung von kohärenten, logischen, hilfreichen Texten im Allgemeinen versagen.
Forschungsbenchmarks
Eine beliebte Methode, um LLMs zu bewerten, besteht darin, sie anhand umfassender Forschungsbenchmarks zu testen, die eine Vielzahl von Themen und Fähigkeiten abdecken. Diese Benchmarks ermöglichen es, Modelle schnell im großen Maßstab zu testen.
Einige bekannte Benchmarks sind:
- SuperGLUE – Herausfordernder Satz von 11 verschiedenen Sprachaufgaben.
- GLUE – Sammlung von 9 Satzverständnisaufgaben. Einfacher als SuperGLUE.
- MMLU – 57 verschiedene Aufgaben aus den Bereichen STEM, Sozialwissenschaften und Geisteswissenschaften. Testet Wissen und Argumentationsfähigkeit.
- Winograd Schema Challenge – Pronomenauflösungsprobleme, die Alltagsverständnis erfordern.
- ARC – Herausfordernde natürliche Sprachverständnisaufgaben.
- Hellaswag – Alltagsverständnis über Situationen.
- PIQA – Physikfragen, die Diagramme erfordern.
Durch die Bewertung anhand von Benchmarks wie diesen können Forscher Modelle schnell auf ihre Fähigkeit testen, Mathematik, Logik, Argumentation, Codierung, Alltagsverständnis und vieles mehr zu beherrschen. Der Prozentsatz der richtig beantworteten Fragen wird zu einer Benchmark-Metrik für den Vergleich von Modellen.
Allerdings gibt es ein großes Problem mit Benchmarks: Trainingsdatenkontamination. Viele Benchmarks enthalten Beispiele, die bereits während des Pre-Trainings von Modellen gesehen wurden. Dies ermöglicht es Modellen, “auswendig” zu lernen, Antworten auf bestimmte Fragen und besser zu abschneiden, als ihre tatsächlichen Fähigkeiten es zulassen.
Es werden Versuche unternommen, Benchmarks “zu entkontaminieren“, indem überlappende Beispiele entfernt werden. Aber dies ist schwierig zu tun, insbesondere wenn Modelle möglicherweise paraphrasierte oder übersetzte Versionen von Fragen gesehen haben.
Also können Benchmarks zwar eine breite Palette von Fähigkeiten effizient testen, aber sie können nicht zuverlässig die tatsächlichen Argumentationsfähigkeiten messen oder eine Punkteinflation aufgrund von Kontamination vermeiden. Ergänzende Bewertungsmethoden sind erforderlich.
LLM-Selbstbewertung
Ein interessanter Ansatz besteht darin, ein LLM die Ausgaben eines anderen LLMs zu bewerten. Die Idee ist, den “einfacheren” Aufgabebegriff zu nutzen:
- Die Erstellung einer hochwertigen Ausgabe kann für ein LLM schwierig sein.
- Aber die Feststellung, ob eine gegebene Ausgabe von hoher Qualität ist, kann eine einfachere Aufgabe sein.
Zum Beispiel kann ein LLM möglicherweise Schwierigkeiten haben, einen faktischen, kohärenten Absatz von Grund auf zu generieren, aber es kann leichter beurteilen, ob ein gegebener Absatz logisch ist und zum Kontext passt.
Der Prozess ist also:
- Übergeben Sie den Eingabeprompt an das erste LLM, um die Ausgabe zu generieren.
- Übergeben Sie den Eingabeprompt + die generierte Ausgabe an das zweite “Bewertungs”-LLM.
- Fragen Sie das Bewertungs-LLM, die Ausgabqualität zu bewerten. Zum Beispiel: “Macht die obige Antwort logischen Sinn?”
Dieser Ansatz ist schnell zu implementieren und automatisiert die LLM-Bewertung. Aber es gibt einige Herausforderungen:
- Die Leistung hängt stark von der Wahl des Bewertungs-LLMs und der Formulierung des Prompts ab.
- Eingeschränkt durch die Schwierigkeit der ursprünglichen Aufgabe. Die Bewertung von komplexen Argumentationen ist immer noch schwierig für LLMs.
- Kann rechenintensiv sein, wenn API-basierte LLMs verwendet werden.
Die Selbstbewertung ist besonders vielversprechend für die Bewertung abgerufener Informationen in RAG (retrieval-augmented generation)-Systemen. Zusätzliche LLM-Abfragen können überprüfen, ob der abgerufene Kontext angemessen verwendet wird.
Insgesamt zeigt die Selbstbewertung Potential, erfordert aber sorgfältige Umsetzung. Sie ergänzt, anstatt ersetzt, die menschliche Bewertung.
Menschliche Bewertung
Angesichts der Einschränkungen von automatischen Metriken und Benchmarks ist die menschliche Bewertung immer noch der Goldstandard für die sorgfältige Bewertung der LLM-Qualität.
Experten können detaillierte qualitative Bewertungen zu:
- Genauigkeit und faktischer Richtigkeit
- Logik, Argumentation und Alltagsverständnis
- Kohärenz, Konsistenz und Lesbarkeit
- Angemessenheit von Ton, Stil und Stimme
- Grammatikalität und Flüssigkeit
- Kreativität und Nuancen
Um ein Modell zu bewerten, erhalten Menschen einen Satz von Eingabeprompts und die LLM-generierten Antworten. Sie bewerten die Qualität der Antworten, oft unter Verwendung von Bewertungsskalen und Rubriken.
Der Nachteil ist, dass die manuelle menschliche Bewertung teuer, langsam und schwierig zu skalieren ist. Sie erfordert auch die Entwicklung standardisierter Kriterien und die Schulung von Bewertern, um sie konsistent anzuwenden.
Einige Forscher haben kreative Wege erforscht, um menschliche LLM-Bewertungen zu crowdsourcen, indem sie Turnier-Systeme verwenden, bei denen Menschen auf Modelle wetten und sie bewerten. Aber die Abdeckung ist immer noch begrenzt im Vergleich zu vollständigen manuellen Bewertungen.
Für Geschäftsanwendungen, bei denen Qualität wichtiger ist als rohe Skalierbarkeit, bleibt die Experten-Testung der Goldstandard, trotz der Kosten. Dies gilt insbesondere für riskantere Anwendungen von LLMs.
Zusammenfassung
Die umfassende Bewertung von Large Language Models erfordert die Verwendung eines vielfältigen Werkzeugs von komplementären Methoden, anstatt sich auf eine einzelne Technik zu verlassen.
Durch die Kombination von automatisierten Ansätzen für Geschwindigkeit mit sorgfältiger menschlicher Überwachung für Genauigkeit können wir vertrauenswürdige Testmethoden für Large Language Models entwickeln. Mit robuster Bewertung können wir das enorme Potenzial von LLMs nutzen und gleichzeitig ihre Risiken verantwortungsvoll managen.












