Vordenker

Benchmarks für LLMs

Published August 28, 2024

Updated May 20, 2026

Irina Barskaya, PhD, Head Data Scientist at Yandex

Verstehen Sie die Rolle und Grenzen von Benchmarks bei der Bewertung der Leistung von LLMs. Erforschen Sie die Techniken zur Entwicklung robuster LLMs.

Large Language Modelle haben in den letzten Jahren enorme Popularität gewonnen. Ich meine, Sie haben es gesehen. Die außergewöhnliche Fähigkeit von LLMs, menschliche Sprachbefehle zu verstehen, hat sie zu einer perfekten Integration für Unternehmen gemacht, die kritische Workflows unterstützen und Aufgaben mit maximaler Effizienz automatisieren. Und über das Durchschnittsverständnis hinaus gibt es noch viel mehr, was LLMs können. Und da unsere Abhängigkeit von ihnen wächst, müssen wir wirklich mehr Aufmerksamkeit auf Maßnahmen zur Gewährleistung der erforderlichen Genauigkeit und Zuverlässigkeit legen. Dies ist eine globale Aufgabe, die ganze Institutionen betrifft, aber im Bereich der Unternehmen gibt es nun mehrere Benchmarks, die zur Bewertung der Leistung von LLMs in verschiedenen Domänen verwendet werden können. Diese können die Fähigkeiten des Modells in Bezug auf Verständnis, logisches Denken, Mathematik und so weiter testen, und die Ergebnisse bestimmen, ob ein LLM für den Einsatz in Unternehmen bereit ist.

In diesem Artikel habe ich eine umfassende Liste der bekanntesten Benchmarks für die Bewertung von LLMs zusammengestellt. Wir werden jeden Benchmark im Detail besprechen und sehen, wie verschiedene LLMs gegen die Bewertungskriterien abschneiden. Aber zunächst sollten wir uns mit der Bewertung von LLMs im Detail auseinandersetzen.

Was ist LLM-Bewertung?

Wie andere KI-Modelle müssen auch LLMs gegen bestimmte Benchmarks bewertet werden, die verschiedene Aspekte der Leistung des Sprachmodells bewerten: Wissen, Genauigkeit, Zuverlässigkeit und Konsistenz. Der Standard umfasst normalerweise:

Verständnis von Benutzeranfragen: Bewertung der Fähigkeit des Modells, eine breite Palette von Benutzereingaben genau zu verstehen und zu interpretieren.
Überprüfung der Ausgabe: Überprüfung der vom AI-Modell generierten Antworten gegen eine vertrauenswürdige Wissensbasis, um sicherzustellen, dass sie korrekt und relevant sind.
Robustheit: Messung der Leistung des Modells bei mehrdeutigen, unvollständigen oder verrauschten Eingaben.

Die Bewertung von LLMs gibt Entwicklern die Möglichkeit, Einschränkungen effizient zu identifizieren und zu beheben, damit sie die gesamte Benutzererfahrung verbessern können. Wenn ein LLM gründlich bewertet wird, ist es genau und robust genug, um verschiedene reale Anwendungen zu bewältigen, einschließlich solcher mit mehrdeutigen oder unerwarteten Eingaben.

Benchmarks

LLMs sind eines der komplexesten Technologiestücke, die es bisher gibt, und können sogar die schwierigsten Anwendungen antreiben. Deshalb muss der Bewertungsprozess genauso komplex sein und seine Denkprozesse und technische Genauigkeit testen.

Ein Benchmark verwendet spezifische Datensätze, Metriken und Bewertungsaufgaben, um die Leistung von LLMs zu testen, und ermöglicht es, verschiedene LLMs zu vergleichen und ihre Genauigkeit zu messen, was wiederum den Fortschritt in der Branche durch verbesserte Leistung vorantreibt.

Hier sind einige der typischsten Aspekte der Leistung von LLMs:

Wissen: Das Wissen des Modells muss in verschiedenen Domänen getestet werden. Dazu dient der Wissens-Benchmark. Er bewertet, wie effektiv das Modell Informationen aus verschiedenen Bereichen wie Physik, Programmierung, Geographie usw. abrufen kann.
Logisches Denken: Es geht darum, die Fähigkeit des Modells zu testen, logisch zu denken und zu einer logischen Schlussfolgerung zu gelangen. Dies umfasst Szenarien, in denen das Modell die plausibelste Fortsetzung oder Erklärung basierend auf alltäglichem Wissen und logischem Denken auswählen muss.
Leseverständnis: Modelle müssen hervorragend darin sein, natürliche Sprache zu interpretieren und entsprechend zu antworten. Der Test besteht darin, Fragen auf der Grundlage von Texten zu beantworten, um das Verständnis, die Inferenz und die Detailtreue zu bewerten. Ähnlich wie ein Schul-Lese-Test.
Code-Verständnis: Dies ist erforderlich, um die Fähigkeit des Modells zu messen, Code zu verstehen, zu schreiben und zu debuggen. Diese Benchmarks stellen dem Modell Codierungsaufgaben oder -probleme, die das Modell genau lösen muss, oft in verschiedenen Programmiersprachen und Paradigmen.
Weltwissen: Um die Fähigkeit des Modells zu bewerten, allgemeines Wissen über die Welt zu haben. Diese Datensätze enthalten normalerweise Fragen, die breites, enzyklopädisches Wissen erfordern, um sie richtig zu beantworten, was sie von spezifischeren und spezialisierten Wissens-Benchmarks unterscheidet.

“Wissen”-Benchmarks

MMLU (Multimodales Sprachverständnis)

Dieser Benchmark ist entwickelt worden, um die Fähigkeit von LLMs zu testen, faktisches Wissen in verschiedenen Themen wie Geisteswissenschaften, Sozialwissenschaften, Geschichte, Informatik und sogar Recht zu verstehen. 57 Fragen und 15.000 Aufgaben sind darauf ausgerichtet, die Denkfähigkeit des Modells zu überprüfen. Dies macht MMLU zu einem guten Werkzeug, um die faktischen Kenntnisse und die Denkfähigkeit des Modells in verschiedenen Themen zu bewerten.

In letzter Zeit ist es zu einem wichtigen Benchmark für die Bewertung von LLMs in den oben genannten Bereichen geworden. Entwickler möchten ihre Modelle optimieren, um in diesem Benchmark besser zu abschneiden, was es zu einem De-facto-Standard für die Bewertung von fortgeschrittenem Denken und Wissen in LLMs macht. Große, unternehmensweite Modelle haben auf diesem Benchmark beeindruckende Ergebnisse erzielt, darunter GPT-4-omni mit 88,7 %, Claude 3 Opus mit 86,8 %, Gemini 1,5 Pro mit 85,9 % und Llama-3 70B mit 82 %. Kleinere Modelle schneiden normalerweise nicht so gut auf diesem Benchmark ab und erreichen in der Regel nicht mehr als 60-65 %, aber die jüngste Leistung von Phi-3-Small-7b mit 75,3 % ist bemerkenswert.

Allerdings hat MMLU auch einige Nachteile: Es gibt bekannte Probleme wie mehrdeutige Fragen, falsche Antworten und fehlenden Kontext. Viele sind der Meinung, dass einige der Aufgaben zu einfach für eine angemessene Bewertung von LLMs sind.

GPQA (Graduate-Level Google-Proof Q&A-Benchmark)

Dieser Benchmark bewertet LLMs im logischen Denken mit einem Datensatz von 448 Fragen. Domänen-Experten haben ihn entwickelt und er deckt Themen in Biologie, Physik und Chemie ab.

Jede Frage durchläuft den folgenden Validierungsprozess:

Ein Experte in demselben Thema beantwortet die Frage und gibt detaillierte Rückmeldung.
Der Fragesteller überarbeitet die Frage basierend auf dieser Rückmeldung.
Ein zweiter Experte beantwortet die überarbeitete Frage.

Dieser Prozess kann tatsächlich sicherstellen, dass die Fragen objektiv, genau und herausfordernd für ein Sprachmodell sind. Selbst erfahrene PhD-Studenten erreichen nur eine Genauigkeit von 65 % bei diesen Fragen, während GPT-4-omni nur 53,6 % erreicht, was die Lücke zwischen menschlicher und maschineller Intelligenz unterstreicht.

Aufgrund der hohen Qualifikationsanforderungen ist der Datensatz jedoch ziemlich klein, was seine statistische Aussagekraft für den Vergleich der Genauigkeit einschränkt und große Effektgrößen erfordert. Die Experten, die diese Fragen erstellt und validiert haben, kamen von Upwork, was möglicherweise zu Voreingenommenheiten aufgrund ihrer Expertise und der abgedeckten Themen führte.

Code-Benchmarks

HumanEval

164 Programmieraufgaben, ein echter Test für die Codierfähigkeiten von LLMs. Es handelt sich um HumanEval. Es ist entwickelt worden, um die grundlegenden Codierfähigkeiten von Large Language Modellen zu testen. Es verwendet die pass@k-Metrik, um die funktionale Genauigkeit des generierten Codes zu bewerten, was die Wahrscheinlichkeit angibt, dass mindestens eines der Top-k-Codebeispiele, die vom LLM generiert wurden, die Testfälle besteht.

Während der HumanEval-Datensatz Funktionssignaturen, Docstrings, Codekörper und mehrere Unit-Tests enthält, deckt er nicht den gesamten Bereich realer Codierprobleme ab, was es nicht ausreichend macht, um die Fähigkeit des Modells zu testen, korrekten Code für diverse Szenarien zu erstellen.

MBPP (Mostly Basic Python Programming)

MBPP-Benchmark besteht aus 1.000 Crowdsourcing-Python-Programmieraufgaben. Diese sind Einstiegsprobleme und konzentrieren sich auf grundlegende Programmierfähigkeiten. Es verwendet Few-Shot- und Feinabstimmungsansätze, um die Modellleistung zu bewerten, wobei größere Modelle normalerweise besser auf diesem Datensatz abschneiden. Allerdings stellt der Datensatz, da er hauptsächlich Einstiegsprogramme enthält, die Komplexität und Herausforderungen realer Anwendungen nicht vollständig dar.

Math-Benchmarks

Während die meisten LLMs sehr gut darin sind, Standardantworten zu strukturieren, ist mathematisches Denken ein viel größeres Problem für sie. Warum? Weil es Fähigkeiten erfordert, die mit der Verständnis von Fragen, logischem Denken und der Ableitung der korrekten Antwort zusammenhängen.

Die “Chain of Thought”-Methode (CoT) ist entwickelt worden, um LLMs anhand mathematischer Benchmarks zu bewerten. Sie beinhaltet, Modelle dazu anzuregen, ihren schrittweisen Denkprozess bei der Lösung eines Problems zu erklären. Es gibt mehrere Vorteile dabei. Sie macht den Denkprozess transparenter, hilft, Schwächen in der Logik des Modells zu identifizieren, und ermöglicht eine detailliertere Bewertung der Problemlösungsfähigkeiten. Durch die Aufteilung komplexer Probleme in eine Reihe einfacherer Schritte kann CoT die Leistung des Modells auf Math-Benchmarks verbessern und tiefere Einblicke in seine Denkfähigkeiten geben.

GSM8K: Ein bekannter Math-Benchmark

Einer der bekannten Benchmarks zur Bewertung der mathematischen Fähigkeiten von LLMs ist der GSM8K-Datensatz. GSM8K besteht aus 8.500 Mathematikaufgaben der Mittelstufe, die mehrere Schritte erfordern, um gelöst zu werden, und deren Lösungen hauptsächlich das Ausführen einer Folge von elementaren Berechnungen beinhalten. Normalerweise schneiden größere Modelle oder solche, die speziell für mathematisches Denken trainiert wurden, besser auf diesem Benchmark ab, z.B. erreichen GPT-4-Modelle eine Punktzahl von 96,5 %, während DeepSeekMATH-RL-7B mit 88,2 % leicht zurückbleibt.

Während GSM8K nützlich ist, um die Fähigkeit eines Modells zu bewerten, Rechenaufgaben der Mittelstufe zu lösen, kann es die Fähigkeit des Modells, komplexere oder vielfältigere mathematische Herausforderungen zu meistern, nicht vollständig erfassen, was seine Wirksamkeit als umfassendes Maß für mathematische Fähigkeiten einschränkt.

Der Math-Datensatz: Eine umfassende Alternative

Der Math-Datensatz hat die Mängel von Benchmarks wie GSM8K behoben. Dieser Datensatz ist umfangreicher und deckt von elementarer Arithmetik bis hin zu High-School- und sogar College-Niveau reichende Probleme ab. Er wird auch mit menschlichen Leistungen verglichen, wobei ein Informatik-PhD-Student, der keine Mathematik mag, eine Genauigkeit von 40 % erreicht und ein Goldmedaillengewinner eine Genauigkeit von 90 % erreicht.

Er bietet eine umfassendere Bewertung der mathematischen Fähigkeiten eines LLMs. Er stellt sicher, dass das Modell grundlegende Arithmetik beherrscht und in komplexen Bereichen wie Algebra, Geometrie und Analysis kompetent ist. Allerdings kann die erhöhte Komplexität und Vielfalt der Probleme es für Modelle schwierig machen, hohe Genauigkeiten zu erreichen, insbesondere wenn sie nicht explizit auf eine breite Palette mathematischer Konzepte trainiert wurden. Außerdem können die unterschiedlichen Problemformate im Math-Datensatz Inkonsistenzen in der Modellleistung verursachen, was es schwieriger macht, definitive Schlussfolgerungen über die mathematische Kompetenz des Modells zu ziehen.

Die Verwendung der Chain-of-Thought-Methode mit dem Math-Datensatz kann die Bewertung verbessern, da sie die schrittweisen Denkfähigkeiten von LLMs über ein breites Spektrum mathematischer Herausforderungen hinweg aufzeigt. Ein kombinierter Ansatz wie dieser stellt sicher, dass es eine robustere und detailliertere Bewertung der tatsächlichen mathematischen Fähigkeiten eines LLMs gibt.

Leseverständnis-Benchmarks

Eine Leseverständnis-Bewertung bewertet die Fähigkeit des Modells, komplexe Texte zu verstehen und zu verarbeiten, was insbesondere für Anwendungen wie Kundensupport, Inhaltsgenerierung und Informationsabruf von grundlegender Bedeutung ist. Es gibt mehrere Benchmarks, die diese Fähigkeit bewerten, jeder mit einzigartigen Merkmalen, die zu einer umfassenden Bewertung der Fähigkeiten des Modells beitragen.

RACE (Leseverständnis-Datensatz aus Prüfungen)

RACE-Benchmarks haben fast 28.000 Passagen und 100.000 Fragen, die von englischen Prüfungen für chinesische Schüler im Alter von 12 bis 18 Jahren gesammelt wurden. Es beschränkt die Fragen und Antworten nicht auf die gegebenen Passagen, was die Aufgaben noch herausfordernder macht.

Es deckt ein breites Spektrum von Themen und Fragearten ab, was eine gründliche Bewertung ermöglicht und Fragen auf verschiedenen Schwierigkeitsstufen umfasst. Außerdem sind die Fragen in RACE speziell für die Bewertung von Lesefähigkeiten bei Menschen entwickelt und von Fachleuten erstellt.

Allerdings hat der Benchmark auch einige Nachteile. Da er auf chinesischen Bildungsmaterialien entwickelt wurde, neigt er dazu, kulturelle Voreingenommenheiten einzuführen, die nicht den globalen Kontext widerspiegeln. Außerdem ist das hohe Schwierigkeitsniveau einiger Fragen nicht unbedingt repräsentativ für typische reale Aufgaben, was die Bewertung der Leistungsfähigkeit beeinträchtigen kann.

DROP (Diskretes Denken über Absätze)

Ein weiterer wichtiger Ansatz ist DROP (Discrete Reasoning Over Paragraphs), der Modelle dazu herausfordert, diskretes Denken über Absätze zu demonstrieren. Es umfasst 96.000 Fragen, um die Denkfähigkeiten von LLMs zu testen, und die Fragen werden aus Wikipedia und durch Crowdsourcing von Amazon Mechanical Turk extrahiert. DROP-Fragen erfordern oft, dass Modelle mathematische Operationen wie Addition, Subtraktion und Vergleich auf der Grundlage von Informationen in einem Absatz durchführen.

Die Fragen sind herausfordernd. Sie erfordern, dass LLMs mehrere Zahlen in einem Absatz finden und addieren oder subtrahieren, um die endgültige Antwort zu erhalten. Große Modelle wie GPT-4 und Palm erreichen 80 % bzw. 85 %, während Menschen 96 % auf dem DROP-Datensatz erreichen.

Alltagswissen-Benchmarks

Die Bewertung von Alltagswissen in Sprachmodellen ist interessant, aber auch wichtig, da sie die Fähigkeit des Modells bewertet, Urteile und Schlussfolgerungen zu treffen, die mit menschlicher Argumentation übereinstimmen. Im Gegensatz zu uns, die durch praktische Erfahrungen ein umfassendes Weltmodell entwickeln, werden Sprachmodelle auf großen Datensätzen trainiert, ohne den Kontext wirklich zu verstehen. Dies bedeutet, dass Modelle mit Aufgaben zu kämpfen haben, die intuitives Verständnis alltäglicher Situationen, logisches Denken und praktisches Wissen erfordern, was für robuste und zuverlässige KI-Anwendungen von entscheidender Bedeutung ist.

HellaSwag (Schwierigere Enden, längere Kontexte und Low-Shot-Aktivitäten für Situationen mit adversarialen Generierungen)

Hellaswag wurde von Rowan Zellers und Kollegen an der University of Washington und dem Allen Institute for Artificial Intelligence entwickelt. Es ist dazu gedacht, die Fähigkeit des Modells zu testen, die plausibelste Fortsetzung einer gegebenen Situation vorherzusagen. Dieser Benchmark wird unter Verwendung von Adversarial Filtering (AF) erstellt, bei dem eine Reihe von Diskriminatoren iterativ adversarial maschinell generierte falsche Antworten auswählt. Diese Methode erstellt einen Datensatz mit trivialen Beispielen für Menschen, aber herausfordernden für Modelle, was zu einer “Goldilocks”-Zone der Schwierigkeit führt.

Während Hellaswag für frühere Modelle herausfordernd war, haben state-of-the-art-Modelle wie GPT-4 Leistungen erzielt, die nahe an der menschlichen Genauigkeit liegen, was einen signifikanten Fortschritt in diesem Bereich zeigt. Allerdings deuten diese Ergebnisse auf die Notwendigkeit hin, Benchmarks kontinuierlich weiterzuentwickeln, um mit den Fortschritten in der KI zu Schritt zu halten.

Openbook

Der Openbook-Datensatz besteht aus 5.957 multiple-choice-Fragen auf Elementarstufenniveau im Bereich der Naturwissenschaften. Die Fragen sind aus offenen Buchprüfungen gesammelt und entwickelt worden, um das menschliche Verständnis des Themas zu bewerten.

Der Openbook-Benchmark erfordert Denkfähigkeiten, die über die Informationsabruf hinausgehen. GPT-4 erreicht eine Genauigkeit von 95,9 %, was derzeit der höchste Wert ist.

OpenbookQA ist nach offenen Buchprüfungen modelliert und besteht aus 5.957 multiple-choice-Fragen auf Elementarstufenniveau im Bereich der Naturwissenschaften. Diese Fragen sind entwickelt worden, um das Verständnis von 1.326 grundlegenden naturwissenschaftlichen Fakten und deren Anwendung auf neue Situationen zu testen.

Ähnlich wie bei Hellaswag fanden frühere Modelle OpenbookQA herausfordernd, aber moderne Modelle wie GPT-4 haben nahezu menschliche Leistungen erzielt. Dieser Fortschritt unterstreicht die Bedeutung, noch komplexere und nuanciertere Benchmarks zu entwickeln, um die Grenzen des KI-Verständnisses weiter zu pushen.

Sind Benchmarks ausreichend für die Bewertung der Leistung von LLMs?

Ja, während sie einen standardisierten Ansatz zur Bewertung der Leistung von LLMs bieten, können sie auch irreführend sein. Die Large Model Systems Organization sagt, dass ein guter LLM-Benchmark skalierbar, in der Lage sein sollte, neue Modelle mit einer relativ kleinen Anzahl von Tests zu bewerten, und eine eindeutige Rangordnung für alle Modelle bieten sollte. Aber es gibt Gründe, warum sie möglicherweise nicht ausreichen. Hier sind einige:

Benchmark-Leckage

Dies ist ein häufiges Problem und tritt auf, wenn Trainingsdaten mit Testdaten überlappen, was zu einer irreführenden Bewertung führt. Wenn ein Modell bereits einige Testfragen während des Trainings gesehen hat, kann das Ergebnis nicht unbedingt seine tatsächlichen Fähigkeiten widerspiegeln. Ein idealer Benchmark sollte Memorierung minimieren und reale Szenarien widerspiegeln.

Bewertungsverzerrung

LLM-Benchmark-Bestenlisten werden verwendet, um die Leistung von LLMs bei verschiedenen Aufgaben zu vergleichen. Allerdings kann es irreführend sein, sich auf diese Bestenlisten zu verlassen, um Modelle zu vergleichen. Einfache Änderungen an Benchmark-Tests, wie die Änderung der Reihenfolge der Fragen, können die Rangordnung der Modelle um bis zu acht Positionen verschieben. Außerdem können LLMs je nach Bewertungsmethode unterschiedlich abschneiden, was die Bedeutung der Berücksichtigung von Bewertungsverzerrungen unterstreicht.

Offenheit

Reale Interaktionen mit LLMs beinhalten das Design von Prompts, um die gewünschten AI-Ausgaben zu generieren. Die Ausgaben von LLMs hängen von der Effektivität der Prompts ab, und Benchmarks sind dazu gedacht, die Kontextbewusstsein von LLMs zu testen. Während Benchmarks die Kontextbewusstsein eines LLMs testen, übersetzen sie sich nicht immer direkt in die Leistung in der realen Welt. Zum Beispiel garantiert eine Punktzahl von 100 % auf einem Benchmark-Datensatz wie dem LSAT nicht das gleiche Maß an Genauigkeit in praktischen Anwendungen. Dies unterstreicht die Bedeutung, die offene Natur realer Aufgaben bei der Bewertung von LLMs zu berücksichtigen.

Effektive Bewertung für robuste LLMs

Jetzt wissen Sie, dass Benchmarks nicht immer die beste Option sind, da sie nicht immer generalisieren können. Aber es gibt andere Wege.

Benutzerdefinierte Benchmarks

Diese sind perfekt, um spezifisches Verhalten und Funktionalitäten in bestimmten Szenarien zu testen. Nehmen wir an, wenn ein LLM für medizinische Anwendungen entwickelt wird, können Datensätze aus medizinischen Umgebungen realistische Szenarien effektiv darstellen. Diese benutzerdefinierten Benchmarks können sich auf domänen-spezifisches Sprachverständnis, Leistung und einzigartige kontextuelle Anforderungen konzentrieren. Durch die Ausrichtung der Benchmarks auf mögliche reale Szenarien können Sie sicherstellen, dass das LLM allgemein gut abschneidet und in den spezifischen Aufgaben, für die es gedacht ist, hervorragt. Dies kann helfen, Lücken oder Schwächen in den Fähigkeiten des Modells frühzeitig zu identifizieren und zu beheben.

Datenlecks-Erkennungspipeline

Wenn Sie möchten, dass Ihre Bewertungen “Integrität” zeigen, ist es wichtig, eine Benchmark-Pipeline ohne Datenlecks zu haben. Datenlecks treten auf, wenn Benchmark-Daten im Voraus-Trainingskorpus des Modells enthalten sind, was zu künstlich hohen Leistungsmaßen führt. Um dies zu vermeiden, sollten Benchmarks gegen Voraus-Trainingsdaten abgeglichen werden. Außerdem sollten Schritte unternommen werden, um zu vermeiden, dass das Modell zuvor gesehene Informationen sieht. Dies kann die Verwendung von proprietären oder neu kuratierten Datensätzen beinhalten, die von der Trainings-Pipeline des Modells getrennt sind – dies stellt sicher, dass die Leistungsmaße, die Sie erhalten, die Fähigkeit des Modells widerspiegeln, gut zu generalisieren.

Menschliche Bewertung

Automatisierte Metriken allein können den gesamten Umfang der Leistung eines Modells nicht erfassen, insbesondere wenn es um nuancierte und subjektive Aspekte des Sprachverständnisses und der Generierung geht. Hier bietet die menschliche Bewertung eine bessere Beurteilung:

Einstellung von Fachleuten, die detaillierte und zuverlässige Bewertungen liefern können, insbesondere für spezialisierte Domänen.
Crowdsourcing! Plattformen wie Amazon Mechanical Turk ermöglichen es, diverse menschliche Urteile schnell und kostengünstig zu sammeln.
Community-Feedback: Die Verwendung von Plattformen wie dem LMSYS-Leaderboard-Bereich, in dem Benutzer Modelle bewerten und vergleichen können, fügt eine weitere Ebene der Erkenntnis hinzu. Der LMSYS-Chatbot-Arena-Hard-Bereich ist beispielsweise besonders effektiv darin, subtile Unterschiede zwischen Spitzenmodellen durch direkte Benutzerinteraktionen und Abstimmungen hervorzuheben.

Schlussfolgerung

Ohne Bewertung und Benchmarking hätten wir keine Möglichkeit, zu wissen, ob die Fähigkeit von LLMs, reale Aufgaben zu bewältigen, so genau und anwendbar ist, wie wir denken. Aber, wie ich sagte, sind Benchmarks nicht immer ein perfekter Weg, um dies zu überprüfen, da sie zu Leistungs-Lücken bei LLMs führen können. Dies kann auch die Entwicklung von LLMs, die wirklich robust für die Arbeit sind, verlangsamen.

So sollte es in einer idealen Welt sein. LLMs verstehen Benutzeranfragen, identifizieren Fehler in Prompts, führen Aufgaben wie angegeben aus und generieren zuverlässige Ausgaben. Die Ergebnisse sind bereits großartig, aber nicht ideal. Hier kommen benutzerdefinierte Benchmarks sowie menschliche Bewertung und die Erkennung von Benchmark-Lecks sehr hilfreich. Durch die Verwendung dieser Methoden erhalten wir die Chance, tatsächlich robuste LLMs zu produzieren.

Irina Barskaya, PhD, Head Data Scientist at Yandex

Irina Barskaya, PhD, ist eine renommierte Datenwissenschaftlerin mit über einem Jahrzehnt Erfahrung, die sowohl Produktanalysen als auch Analysen für hochmoderne Technologien umfasst. Sie leitete die Erstellung und Analyse für Yasmina, den ersten voll funktionsfähigen lokalisierten AI-basierten Sprachassistenten für Saudi-Arabien, und übernahm die komplexe Datenlokalisierung und -beschriftung für Modernes Standardarabisch und saudische Dialekte. Derzeit leitet Irina die Qualitätsanalyse bei Yandex, um die Weiterentwicklung von KI-Technologien voranzutreiben.