Vordenker

Benchmarks für LLMs

Veröffentlicht August 28, 2024

Irina Barskaja, PhD, leitender Datenwissenschaftler bei Yandex

Verstehen Sie die Rolle und Grenzen von Benchmarks bei der Leistungsbewertung von LLMs. Erkunden Sie die Techniken zur Entwicklung robuster LLMs.

Large Language Models haben in den letzten Jahren enorm an Popularität gewonnen. Sie haben es ja selbst gesehen. Dank ihrer außergewöhnlichen Fähigkeit, menschliche Sprachbefehle zu verstehen, eignen sich LLMs ideal für Unternehmen, unterstützen kritische Arbeitsabläufe und automatisieren Aufgaben mit maximaler Effizienz. Darüber hinaus bieten LLMs weit mehr Möglichkeiten, als der durchschnittliche Benutzer sie versteht. Da wir uns immer mehr auf sie verlassen, müssen wir Maßnahmen zur Gewährleistung der erforderlichen Genauigkeit und Zuverlässigkeit stärker berücksichtigen. Dies ist eine globale Aufgabe, die ganze Institutionen betrifft. Im Unternehmensbereich gibt es mittlerweile jedoch mehrere Benchmarks, mit denen sich die Leistung von LLMs in verschiedenen Bereichen bewerten lässt. Diese können die Fähigkeiten des Modells in den Bereichen Verständnis, Logik, Mathematik usw. testen, und die Ergebnisse entscheiden, ob ein LLM für den Unternehmenseinsatz bereit ist.

In diesem Artikel habe ich eine umfassende Liste der beliebtesten Benchmarks für die LLM-Bewertung zusammengestellt. Wir werden jeden Benchmark im Detail besprechen und sehen, wie verschiedene LLMs im Vergleich zu den Bewertungskriterien abschneiden. Aber zuerst wollen wir die LLM-Bewertung genauer verstehen.

Was ist eine LLM-Evaluation?

Wie andere KI-Modelle müssen auch LLMs anhand spezifischer Benchmarks bewertet werden, die verschiedene Aspekte der Leistung des Sprachmodells bewerten: Wissen, Genauigkeit, Zuverlässigkeit und Konsistenz. Der Standard umfasst typischerweise:

Benutzerabfragen verstehen: Bewerten Sie die Fähigkeit des Modells, ein breites Spektrum an Benutzereingaben genau zu verstehen und zu interpretieren.
Ausgabeüberprüfung: Überprüfen der KI-generierten Antworten anhand einer vertrauenswürdigen Wissensdatenbank, um sicherzustellen, dass sie richtig und relevant sind.
Robustheit: Messen, wie gut das Modell mit mehrdeutigen, unvollständigen oder verrauschten Eingaben funktioniert.

Durch die LLM-Evaluierung können Entwickler Einschränkungen effizient identifizieren und beheben, sodass sie das allgemeine Benutzererlebnis verbessern können. Wenn ein LLM gründlich evaluiert wird, ist es genau und robust genug, um verschiedene reale Anwendungen zu verarbeiten, auch solche mit mehrdeutigen oder unerwarteten Eingaben.

Benchmarks

LLMs sind eine der kompliziertesten Technologien überhaupt und können selbst die kniffligsten Anwendungen antreiben. Der Bewertungsprozess muss also genauso komplex sein und seine Denkprozesse und technische Genauigkeit auf die Probe stellen.

Ein Benchmark verwendet bestimmte Datensätze, Metriken und Bewertungsaufgaben, um die LLM-Leistung zu testen und ermöglicht den Vergleich verschiedener LLMs und die Messung ihrer Genauigkeit, was wiederum durch verbesserte Leistung den Fortschritt in der Branche vorantreibt.

Hier sind einige der typischsten Aspekte der LLM-Leistung:

Wissen: Das Wissen des Modells muss in verschiedenen Bereichen getestet werden. Dafür gibt es den Wissensbenchmark. Er bewertet, wie effektiv das Modell Informationen aus verschiedenen Bereichen wie Physik, Programmierung, Geographie usw. abrufen kann.
logisch Argumentation: Bedeutet, die Fähigkeit eines Modells zu testen, schrittweise zu „denken“ und eine logische Schlussfolgerung abzuleiten. Dabei handelt es sich typischerweise um Szenarien, in denen das Modell auf der Grundlage von Alltagswissen und logischen Schlussfolgerungen die plausibelste Fortsetzung oder Erklärung auswählen muss.
Leseverständnis: Modelle müssen in der natürlichen Sprachinterpretation hervorragend sein und dann entsprechende Antworten generieren. Der Test sieht aus wie das Beantworten von Fragen auf der Grundlage von Textpassagen, um Verständnis, Schlussfolgerung und Detailbehalten zu messen. Wie ein Lesetest in der Schule.
Code-Verständnis: Dies ist erforderlich, um die Kompetenz eines Modells beim Verstehen, Schreiben und Debuggen von Code zu messen. Diese Benchmarks geben dem Modell Codierungsaufgaben oder Probleme vor, die das Modell genau lösen muss und die häufig eine Reihe von Programmiersprachen und Paradigmen abdecken.
Weltwissen: Zur Bewertung des Verständnisses des Modells für allgemeines Wissen über die Welt. Diese Datensätze enthalten typischerweise Fragen, für deren korrekte Beantwortung ein breites, enzyklopädisches Wissen erforderlich ist. Dadurch unterscheiden sie sich von spezifischeren und spezialisierteren Wissensbenchmarks.

„Wissens“-Benchmarks

MMLU (Multimodales Sprachverständnis)

Dieser Benchmark dient dazu, das Verständnis des LLM für Faktenwissen in verschiedenen Themenbereichen wie Geisteswissenschaften, Sozialwissenschaften, Geschichte, Informatik und sogar Recht zu testen. 57 Fragen und 15 Aufgaben zielen alle darauf ab, sicherzustellen, dass das Modell über hervorragende Denkfähigkeiten verfügt. Dies macht MMLU zu einem guten Instrument, um das Faktenwissen und die Argumentation eines LLM in Bezug auf verschiedene Themen zu beurteilen.

In letzter Zeit ist es zu einem wichtigen Maßstab für die Bewertung von LLMs in den oben genannten Bereichen geworden. Entwickler möchten ihre Modelle immer optimieren, um andere in diesem Benchmark zu übertreffen, was es zu einem De-facto-Standard für die Bewertung fortgeschrittener Argumentation und Kenntnisse in LLMs macht. Große Modelle auf Unternehmensebene haben gezeigt beeindruckende Ergebnisse bei diesem Benchmark, darunter GPT-4-omni mit 88.7 %, Claude 3 Opus mit 86.8 %, Gemini 1.5 Pro mit 85.9 % und Llama-3 70B mit 82 %. Kleine Modelle schneiden bei diesem Benchmark normalerweise nicht so gut ab und überschreiten normalerweise nicht 60–65 %, aber die jüngste Leistung von Phi-3-Small-7b mit 75.3 % gibt Anlass zum Nachdenken.

Allerdings ist MMLU nicht ohne Nachteile: Es gibt bekannte Probleme wie mehrdeutige Fragen, falsche Antwortenund fehlender Kontext. Und viele denken, dass einige der Aufgaben zu einfach für eine angemessene LLM-Bewertung sind.

Ich möchte klarstellen, dass Benchmarks wie MMLU reale Szenarien nicht perfekt abbilden. Ein gutes Ergebnis eines LLM bedeutet nicht automatisch, dass er sich zu einem Fachexperten entwickelt hat. Benchmarks sind in ihrem Umfang sehr begrenzt und basieren oft auf Multiple-Choice-Fragen, die die Komplexität und den Kontext realer Interaktionen nie vollständig erfassen können. Echtes Verständnis erfordert Faktenkenntnis und die dynamische Anwendung dieses Wissens. Dies erfordert kritisches Denken, Problemlösung und Kontextverständnis. Aus diesen Gründen müssen LLMs ständig weiterentwickelt und aktualisiert werden, damit das Modell die Relevanz und Effektivität des Benchmarks behält.

GPQA (Google-Proof Q&A Benchmark auf Hochschulniveau)

Dieser Benchmark bewertet LLMs hinsichtlich logischen Denkens anhand eines Datensatz mit nur 448 Fragen. Es wurde von Fachexperten entwickelt und deckt Themen aus Biologie, Physik und Chemie ab.

Jede Frage durchläuft den folgenden Validierungsprozess:

Ein Experte zum gleichen Thema beantwortet die Frage und gibt ausführliches Feedback.
Der Fragenautor überarbeitet die Frage auf der Grundlage dieses Feedbacks.
Ein zweiter Experte beantwortet die überarbeitete Frage.

Dieser Prozess kann tatsächlich sicherstellen, dass die Fragen objektiv, genau und für ein Sprachmodell herausfordernd sind. Selbst erfahrene Doktoranden erreichen bei diesen Fragen nur eine Genauigkeit von 65 %, während GPT-4-omni nur 53.6 % erreicht, was die Kluft zwischen menschlicher und maschineller Intelligenz verdeutlicht.

Aufgrund der hohen Qualifikationsanforderungen ist der Datensatz tatsächlich recht klein, was seine statistische Aussagekraft für den Genauigkeitsvergleich etwas einschränkt und große Effektgrößen erfordert. Die Experten, die diese Fragen erstellt und validiert haben, kamen von Upwork, sodass sie aufgrund ihrer Expertise und der behandelten Themen möglicherweise Verzerrungen einführten.

Code-Benchmarks

HumanEval

164 Programmierprobleme, ein echter Test für die Programmierfähigkeiten der LLMs. Es ist HumanEval. Es wurde entwickelt, um die grundlegenden Codierungsfähigkeiten großer Sprachmodelle (LLMs) zu testen. Es verwendet die Pass@k-Metrik, um die funktionale Genauigkeit des generierten Codes zu beurteilen. Diese gibt die Wahrscheinlichkeit aus, dass mindestens eines der k besten von LLMs generierten Codebeispiele die Testfälle besteht.

Der HumanEval-Datensatz enthält zwar Funktionssignaturen, Docstrings, Codehauptteile und mehrere Komponententests, deckt jedoch nicht die gesamte Bandbreite realer Codierungsprobleme ab, sodass die Fähigkeit eines Modells, für unterschiedliche Szenarien korrekten Code zu erstellen, einfach nicht ausreichend getestet wird.

MBPP (meistens grundlegende Python-Programmierung)

Mbpp Der Benchmark besteht aus 1,000 Crowdsourcing-Python-Programmierfragen. Dabei handelt es sich um Einstiegsprobleme, die sich auf grundlegende Programmierkenntnisse konzentrieren. Zur Bewertung der Modellleistung werden einige wenige Versuche und Feinabstimmungsansätze verwendet. Größere Modelle schneiden bei diesem Datensatz normalerweise besser ab. Da der Datensatz jedoch hauptsächlich Programme auf Einstiegsniveau enthält, stellt er die Komplexität und Herausforderungen realer Anwendungen noch immer nicht vollständig dar.

Mathematische Benchmarks

Während die meisten LL.M.-Absolventen recht gut darin sind, Standardantworten zu formulieren, ist mathematisches Denken für sie ein viel größeres Problem. Warum? Weil es Fähigkeiten erfordert, die mit dem Verstehen von Fragen, einem schrittweisen logischen Ansatz mit mathematischem Denken und dem Ableiten der richtigen Antwort zusammenhängen.

Die „Chain of Thought“-Methode (CoT) dient der Bewertung von LLMs anhand mathematikbezogener Benchmarks. Dabei werden Modelle aufgefordert, ihren schrittweisen Denkprozess bei der Lösung eines Problems zu erklären. Dies bietet mehrere Vorteile. Es macht den Denkprozess transparenter, hilft, Fehler in der Modelllogik zu erkennen und ermöglicht eine detailliertere Bewertung der Problemlösungsfähigkeiten. Durch die Zerlegung komplexer Probleme in eine Reihe einfacherer Schritte kann CoT die Leistung des Modells bei mathematischen Benchmarks verbessern und tiefere Einblicke in seine Denkfähigkeiten liefern.

GSM8K: Ein beliebter mathematischer Benchmark

Einer der bekanntesten Benchmarks zur Bewertung mathematischer Fähigkeiten in LLMs ist der GSM8K-Datensatz. GSM8K besteht aus 8.5 mathematischen Aufgaben für die Mittelstufe, deren Lösung einige Schritte umfasst und bei denen es hauptsächlich darum geht, eine Reihe elementarer Berechnungen durchzuführen. Normalerweise schneiden größere Modelle oder solche, die speziell für mathematisches Denken trainiert wurden, bei diesem Benchmark besser ab. So erreichen GPT-4-Modelle beispielsweise eine Punktzahl von 96.5 %, während DeepSeekMATH-RL-7B mit 88.2 % etwas zurückliegt.

GSM8K ist zwar nützlich, um die Fähigkeit eines Modells zu beurteilen, mathematische Probleme auf Grundschulniveau zu bewältigen, es erfasst jedoch möglicherweise nicht vollständig die Fähigkeit eines Modells, fortgeschrittenere oder vielfältigere mathematische Herausforderungen zu lösen, was seine Wirksamkeit als umfassendes Maß für mathematische Fähigkeiten einschränkt.

Der Math Dataset: Eine umfassende Alternative

Der Mathematik-Datensatz befasste sich mit den Mängeln von Benchmarks wie GSM8K. Dieser Datensatz ist umfangreicher und deckt von elementarer Arithmetik bis hin zu Problemen auf Highschool- und sogar College-Niveau ab. Er wird auch mit Menschen verglichen, wobei ein Informatik-Doktorand, der Mathematik nicht mag, eine Genauigkeit von 40 % und ein Goldmedaillengewinner eine Genauigkeit von 90 % erreichte.

Es bietet eine umfassendere Bewertung der mathematischen Fähigkeiten eines LLM. Es prüft, ob das Modell die Grundrechenarten beherrscht und in komplexen Bereichen wie Algebra, Geometrie und Differential- und Integralrechnung kompetent ist. Die zunehmende Komplexität und Vielfalt der Probleme kann es für Modelle jedoch schwierig machen, eine hohe Genauigkeit zu erreichen, insbesondere für Modelle, die nicht explizit auf ein breites Spektrum mathematischer Konzepte trainiert wurden. Zudem können die unterschiedlichen Problemformate im Mathematik-Datensatz zu Inkonsistenzen in der Modellleistung führen, was es deutlich schwieriger macht, definitive Schlussfolgerungen über die allgemeine mathematische Kompetenz eines Modells zu ziehen.

Die Verwendung der Chain-of-Thought-Methode mit dem Mathematik-Datensatz kann die Bewertung verbessern, da sie die schrittweisen Denkfähigkeiten von LLMs in einem breiten Spektrum mathematischer Herausforderungen aufzeigt. Ein solcher kombinierter Ansatz gewährleistet eine robustere und detailliertere Bewertung der tatsächlichen mathematischen Fähigkeiten eines LLMs.

Benchmarks zum Leseverständnis

Eine Leseverständnisbewertung bewertet die Fähigkeit des Modells, komplexe Texte zu verstehen und zu verarbeiten. Dies ist insbesondere für Anwendungen wie Kundensupport, Inhaltserstellung und Informationsbeschaffung von grundlegender Bedeutung. Es gibt einige Benchmarks zur Bewertung dieser Fähigkeit, die jeweils einzigartige Eigenschaften aufweisen und zu einer umfassenden Bewertung der Fähigkeiten eines Modells beitragen.

RACE (Leseverständnis-Datensatz aus Prüfungen)

Die RACE-Benchmarks umfassen fast 28,000 Textpassagen und 100,000 Fragen aus den Englischprüfungen für chinesische Mittel- und Oberstufenschüler im Alter zwischen 12 und 18 Jahren. Die Fragen und Antworten, die aus den vorgegebenen Textpassagen extrahiert werden müssen, sind nicht beschränkt, was die Aufgaben noch anspruchsvoller macht.

Es deckt ein breites Spektrum an Themen und Fragetypen ab, was eine gründliche Bewertung ermöglicht, und umfasst Fragen mit unterschiedlichen Schwierigkeitsgraden. Außerdem sind die Fragen in RACE speziell für die Prüfung menschlicher Lesefähigkeiten konzipiert und werden von Fachexperten erstellt.

Der Benchmark hat jedoch einige Nachteile. Da er auf chinesischen Lehrmaterialien basiert, ist er anfällig für kulturelle Vorurteile, die keinen globalen Kontext widerspiegeln. Außerdem ist der hohe Schwierigkeitsgrad einiger Fragen nicht repräsentativ für typische Aufgaben aus der realen Welt. Daher können Leistungsbewertungen weniger genau sein.

DROP (Diskretes Denken über Absätze)

Ein weiterer wichtiger Ansatz ist DROP (Discrete Reasoning Over Paragraphs), bei dem Modelle aufgefordert werden, diskretes Denken über Absätze hinweg durchzuführen. Es enthält 96,000 Fragen, um die Denkfähigkeiten von LLMs zu testen. Die Fragen stammen aus Wikipedia und werden per Crowdsourcing von Amazon Mechanical Turk bezogen. DROP-Fragen fordern Modelle häufig auf, mathematische Operationen wie Addition, Subtraktion und Vergleich basierend auf Informationen durchzuführen, die über einen Text verstreut sind.

Die Fragen sind anspruchsvoll. Sie erfordern, dass LLMs mehrere Zahlen im Text finden und diese addieren oder subtrahieren, um die endgültige Antwort zu erhalten. Große Modelle wie GPT-4 und Palm erreichen 80 % bzw. 85 %, während Menschen im DROP-Datensatz 96 % erreichen.

Benchmarks mit gesundem Menschenverstand

Das Testen des gesunden Menschenverstands in Sprachmodellen ist interessant und wichtig, da es die Fähigkeit eines Modells bewertet, Urteile und Schlussfolgerungen zu treffen, die mit unserem – menschlichen – Denken übereinstimmen. Im Gegensatz zu uns, die wir durch praktische Erfahrungen ein umfassendes Weltmodell entwickeln, werden Sprachmodelle anhand riesiger Datensätze trainiert, ohne den Kontext wirklich zu verstehen. Das bedeutet, dass Modelle mit Aufgaben zu kämpfen haben, die ein intuitives Verständnis von Alltagssituationen, logisches Denken und praktisches Wissen erfordern – allesamt wichtige Faktoren für robuste und zuverlässige KI-Anwendungen.

HellaSwag (Schwierigere Enden, längere Kontexte und Low-Shot-Aktivitäten für Situationen mit gegnerischen Generationen)

Hellaswag wurde von Rowan Zellers und Kollegen an der University of Washington und dem Allen Institute for Artificial Intelligence entwickelt. Es soll die Fähigkeit eines Modells testen, die plausibelste Fortsetzung eines gegebenen Szenarios vorherzusagen. Dieser Benchmark basiert auf Adversarial Filtering (AF), bei dem eine Reihe von Diskriminatoren iterativ maschinengenerierte falsche Antworten auswählt. Diese Methode erzeugt einen Datensatz mit für Menschen trivialen Beispielen, die für Modelle jedoch eine Herausforderung darstellen, was zu einem „Goldlöckchen“-Schwierigkeitsgrad führt.

Während Hellaswag für frühere Modelle eine Herausforderung darstellte, haben hochmoderne Modelle wie GPT-4 Leistungsniveaus erreicht, die der menschlichen Genauigkeit nahe kommen, was auf erhebliche Fortschritte auf diesem Gebiet hindeutet. Diese Ergebnisse deuten jedoch darauf hin, dass sich Benchmarks kontinuierlich weiterentwickeln müssen, um mit den Fortschritten bei den KI-Fähigkeiten Schritt zu halten.

Offenes Buch

Der Openbook-Datensatz besteht aus 5957 Multiple-Choice-Fragen zu naturwissenschaftlichen Fächern auf Grundschulniveau. Die Fragen stammen aus Open-Book-Prüfungen und wurden entwickelt, um das menschliche Verständnis des Themas zu beurteilen.

Der Openbook-Benchmark erfordert Denkfähigkeiten, die über das Abrufen von Informationen hinausgehen. GPT-4 erreicht derzeit die höchste Genauigkeit von 95.9 %.

OpenbookQA ist Open-Book-Prüfungen nachempfunden und besteht aus 5,957 Multiple-Choice-Fragen zu naturwissenschaftlichen Themen auf Grundschulniveau. Diese Fragen sind darauf ausgelegt, das Verständnis von 1,326 grundlegenden naturwissenschaftlichen Fakten und deren Anwendung auf neuartige Situationen zu prüfen.

Ähnlich wie Hellaswag war OpenbookQA für frühere Modelle eine Herausforderung, doch moderne Modelle wie GPT-4 haben ein nahezu menschliches Leistungsniveau erreicht. Dieser Fortschritt unterstreicht, wie wichtig es ist, noch komplexere und differenziertere Benchmarks zu entwickeln, um die Grenzen des KI-Verständnisses weiter zu erweitern.

Reichen Benchmarks zur Leistungsbeurteilung im LLM aus?

Ja, sie bieten zwar einen standardisierten Ansatz zur Bewertung der LLM-Leistung, können aber auch irreführend sein. Die Large Model Systems Organization sagt, dass ein guter LLM-Benchmark skalierbar sein sollte, neue Modelle mit einer relativ geringen Anzahl von Versuchen bewerten können und eine eindeutige Rangfolge für alle Modelle bieten sollte. Es gibt jedoch Gründe, warum sie möglicherweise nicht ausreichen. Hier sind einige:

Benchmark-Leck

Dies ist ein häufiges Phänomen und passiert, wenn sich Trainingsdaten mit Testdaten überschneiden, was zu einer irreführenden Bewertung führt. Wenn ein Modell während des Trainings bereits auf einige Testfragen gestoßen ist, spiegelt sein Ergebnis möglicherweise nicht genau seine tatsächlichen Fähigkeiten wider. Ein idealer Benchmark sollte jedoch das Auswendiglernen minimieren und reale Szenarien widerspiegeln.

Bewertungsverzerrung

LLM-Benchmark-Bestenlisten werden verwendet, um die Leistung von LLMs bei verschiedenen Aufgaben zu vergleichen. Allerdings kann es sein, sich beim Modellvergleich auf diese Bestenlisten zu verlassen irreführend. Einfache Änderungen in Benchmarktests, wie z. B. eine Änderung der Reihenfolge der Fragen, können die Rangfolge der Modelle um bis zu acht Positionen verschieben. Außerdem können LLMs je nach Bewertungsmethode unterschiedlich abschneiden, was die Bedeutung der Berücksichtigung von Bewertungsverzerrungen unterstreicht.

Offenheit

Bei der Interaktion mit LLMs in der realen Welt werden Eingabeaufforderungen entworfen, um die gewünschten KI-Ergebnisse zu generieren. Die Ergebnisse von LLMs hängen von der Wirksamkeit der Eingabeaufforderungen ab, und Benchmarks sind darauf ausgelegt, die Kontextwahrnehmung von LLMs zu testen. Benchmarks sind zwar darauf ausgelegt, die Kontextwahrnehmung eines LLMs zu testen, lassen sich jedoch nicht immer direkt auf die Leistung in der realen Welt übertragen. Beispielsweise garantiert ein Modell, das in einem Benchmark-Datensatz wie dem LSAT eine Punktzahl von 100 % erreicht, nicht das gleiche Maß an Genauigkeit in praktischen Anwendungen. Dies unterstreicht, wie wichtig es ist, bei der Bewertung von LLMs die offene Natur realer Aufgaben zu berücksichtigen.

Effektive Evaluation für solide LLMs

Jetzt wissen Sie also, dass Benchmarks nicht immer die beste Option sind, da sie nicht immer auf alle Probleme verallgemeinert werden können. Aber es gibt andere Möglichkeiten.

Benutzerdefinierte Benchmarks

Diese eignen sich ideal zum Testen spezifischer Verhaltensweisen und Funktionen in aufgabenspezifischen Szenarien. Ist LLM beispielsweise für medizinisches Personal konzipiert, bilden die im medizinischen Umfeld gesammelten Datensätze reale Szenarien effektiv ab. Diese individuellen Benchmarks können sich auf domänenspezifisches Sprachverständnis, Leistung und individuelle Kontextanforderungen konzentrieren. Durch die Abstimmung der Benchmarks auf mögliche reale Szenarien stellen Sie sicher, dass LLM insgesamt gute Leistungen erbringt und bei den spezifischen Aufgaben, für die es vorgesehen ist, hervorragende Leistungen erbringt. Dies kann dazu beitragen, etwaige Lücken oder Schwächen in den Fähigkeiten des Modells frühzeitig zu erkennen und zu beheben.

Pipeline zur Erkennung von Datenlecks

Wenn Ihre Bewertungen Integrität zeigen sollen, ist eine datenleckfreie Benchmark-Pipeline sehr wichtig. Datenlecks entstehen, wenn Benchmark-Daten in das Vortrainingskorpus des Modells aufgenommen werden, was zu künstlich hohen Leistungswerten führt. Um dies zu vermeiden, sollten Benchmarks mit Vortrainingsdaten abgeglichen werden. Darüber hinaus sollten Maßnahmen ergriffen werden, um bereits vorhandene Informationen zu vermeiden. Dies kann die Verwendung proprietärer oder neu kuratierter Datensätze umfassen, die von der Trainingspipeline des Modells getrennt gehalten werden. So wird sichergestellt, dass die erhaltenen Leistungskennzahlen die Generalisierungsfähigkeit des Modells gut widerspiegeln.

Menschliche Bewertung

Automatisierte Metriken allein können nicht das gesamte Leistungsspektrum eines Modells erfassen, insbesondere wenn es um sehr differenzierte und subjektive Aspekte des Sprachverständnisses und der Sprachgenerierung geht. Hier liefert die menschliche Bewertung eine viel bessere Einschätzung:

Fachkräfte einstellen die insbesondere zu Spezialgebieten detaillierte und verlässliche Auswertungen liefern können.
Crowdsourcing! Plattformen wie Amazon Mechanical Turk ermöglichen es Ihnen, schnell und kostengünstig verschiedene menschliche Urteile einzuholen.
Community-Feedback: Die Verwendung von Plattformen wie der LMSYS-Leaderboard-Arena, wo Benutzer abstimmen und Modelle vergleichen können, bietet eine zusätzliche Ebene an Einblicken. Die LMSYS Chatbot Arena Hard ist beispielsweise besonders effektiv, um durch direkte Benutzerinteraktionen und Abstimmungen subtile Unterschiede zwischen Topmodellen hervorzuheben.

Fazit

Ohne Evaluierung und Benchmarking hätten wir keine Möglichkeit zu wissen, ob die Fähigkeiten der LLMs, reale Aufgaben zu bewältigen, so genau und anwendbar sind, wie wir es uns vorstellen. Aber wie gesagt, Benchmarks sind kein absolut narrensicherer Weg, dies zu überprüfen; sie können zu Leistungslücken bei LLMs führen. Dies kann auch die Entwicklung wirklich robuster LLMs verlangsamen.

So sollte es in einer idealen Welt sein. LLMs verstehen Benutzeranfragen, erkennen Fehler in Eingabeaufforderungen, erledigen Aufgaben wie angewiesen und generieren zuverlässige Ergebnisse. Die Ergebnisse sind bereits großartig, aber nicht ideal. Hier erweisen sich aufgabenspezifische Benchmarks als sehr hilfreich, ebenso wie die menschliche Bewertung und das Erkennen von Benchmark-Lecks. Durch deren Verwendung haben wir die Möglichkeit, wirklich robuste LLMs zu erstellen.

Verwandte Themen:KI-Benchmarks KI-Leistungsbenchmarks LLM LLM-Leistungsüberwachung

Irina Barskaya, PhD, Leitende Datenwissenschaftlerin bei Yandex

Irina Barskaya, PhD, ist eine renommierte Datenwissenschaftlerin mit über einem Jahrzehnt Erfahrung, die sowohl Produktanalysen als auch Analysen für Spitzentechnologien umfasst. Sie leitete die Entwicklung und Analyse von Yasmina, dem ersten voll funktionsfähigen lokalisierten KI-basierten Sprachassistenten für Saudi-Arabien, und kümmerte sich um komplexe Datenlokalisierung und -kennzeichnung für modernes Hocharabisch und saudische Dialekte. Derzeit leitet Irina die Qualitätsanalyse bei Yandexund treibt den Fortschritt in der KI-Technologie voran.

Unite.AI