Liderzy opinii

Benchmarks Dla LLM

Published August 28, 2024

Updated April 3, 2026

Irina Barskaya, PhD, Head Data Scientist at Yandex

Zrozumienie roli i ograniczeń benchmarków w ocenie wydajności LLM. Poznanie technik tworzenia solidnych LLM.

Duże modele językowe zyskały ogromną popularność w ostatnich latach. Widzieliśmy to. Wyjątkowa zdolność LLM do zrozumienia poleceń języka ludzkiego sprawiła, że stały się one idealnym rozwiązaniem dla firm, wspierającym krytyczne przepływy pracy i automatyzującym zadania do maksymalnej wydajności. Ponadto, poza zrozumieniem przeciętnego użytkownika, istnieje wiele więcej rzeczy, które LLM mogą zrobić. A gdy nasza zależność od nich rośnie, musimy naprawdę zwrócić większą uwagę na środki zapewniające potrzebną dokładność i niezawodność. Jest to zadanie globalne, które dotyczy całych instytucji, ale w dziedzinie biznesu istnieją teraz kilka benchmarków, które można wykorzystać do oceny wydajności LLM w różnych dziedzinach. Mogą one testować zdolności modelu w zakresie zrozumienia, budowania logiki, matematyki itd., a wyniki określają, czy LLM jest gotowy do wdrożenia w firmie.

W tym artykule zgromadziłem kompleksową listę najpopularniejszych benchmarków do oceny LLM. Omówimy każdy benchmark szczegółowo i zobaczymy, jak różne LLM radzą sobie z kryteriami oceny. Ale najpierw, zrozumijmy ocenę LLM bardziej szczegółowo.

Czym jest ocena LLM?

Podobnie jak inne modele AI, LLM również muszą być oceniane w oparciu o określone benchmarki, które oceniają różne aspekty wydajności modelu językowego: wiedzę, dokładność, niezawodność i spójność. Standardowe wymagania obejmują:

Zrozumienie zapytań użytkowników: Ocena zdolności modelu do dokładnego zrozumienia i interpretacji szerokiego zakresu danych wejściowych od użytkownika.
Weryfikacja danych wyjściowych: Weryfikacja odpowiedzi wygenerowanych przez AI w oparciu o zaufany zestaw danych, aby upewnić się, że są one poprawne i istotne.
Wytrzymałość: Pomiar, jak dobrze model radzi sobie z niejasnymi, niepełnymi lub szumowymi danymi wejściowymi.

Ocena LLM daje deweloperom możliwość identyfikacji i skutecznego rozwiązywania ograniczeń, aby poprawić ogólne doświadczenie użytkownika. Jeśli LLM jest gruntownie oceniony, będzie wystarczająco dokładny i wytrzymały, aby radzić sobie z różnymi aplikacjami świata rzeczywistego, nawet tymi z niejasnymi lub nieoczekiwanymi danymi wejściowymi.

Benchmarki

LLM to jeden z najbardziej skomplikowanych elementów technologii do tej pory i może napędzać nawet najtrudniejsze aplikacje. Dlatego proces oceny musi być równie złożony, testując myślenie i techniczną dokładność.

Benchmark wykorzystuje określone zestawy danych, metryki i zadania oceny, aby przetestować wydajność LLM, umożliwiając porównanie różnych LLM i pomiar ich dokładności, co z kolei napędza postęp w branży poprzez poprawę wydajności.

Oto niektóre z najbardziej typowych aspektów wydajności LLM:

Wiedza: Wiedza modelu musi być przetestowana w różnych dziedzinach. Dlatego istnieje benchmark wiedzy. Ocena, jak skutecznie model może przypomnieć sobie informacje z różnych dziedzin, takich jak fizyka, programowanie, geografia itd.
Logiczne rozumowanie: Oznacza testowanie zdolności modelu do „myślenia” krok po kroku i wyprowadzania logicznego wniosku, zwykle obejmuje scenariusze, w których model musi wybrać najbardziej prawdopodobne kontynuowanie lub wyjaśnienie na podstawie codziennej wiedzy i logicznego rozumowania.
Zrozumienie czytania: Modele muszą być doskonałe w interpretacji języka naturalnego, a następnie generować odpowiedzi odpowiednio. Test wygląda jak odpowiedzi na pytania na podstawie pasażów, aby ocenić zrozumienie, inferencję i pamięć szczegółów. Jak test szkolny z czytania.
Zrozumienie kodu: Jest to niezbędne do pomiaru biegłości modelu w zrozumieniu, pisaniu i debugowaniu kodu. Te benchmarki dają modelowi zadania programistyczne lub problemy, które model musi rozwiązać dokładnie, często obejmując szeroki zakres języków programowania i paradygmatów.
Wiedza o świecie: Aby ocenić zrozumienie modelu ogólnej wiedzy o świecie. Te zestawy danych zwykle zawierają pytania, które wymagają szerokiej, encyklopedycznej wiedzy, aby odpowiedzieć poprawnie, co sprawia, że są one różne od bardziej szczegółowych i wyspecjalizowanych benchmarków wiedzy.

Benchmarki „Wiedza”

MMLU (Multimodal Language Understanding)

Ten benchmark jest zaprojektowany do testowania zrozumienia LLM faktów z różnych tematów, takich jak humanistyka, nauki społeczne, historia, informatyka i nawet prawo. 57 pytań i 15 tys. zadań, wszystkie skierowane na to, aby upewnić się, że model ma doskonałe zdolności rozumnienia. To sprawia, że MMLU jest dobrym narzędziem do oceny wiedzy faktograficznej LLM i rozumnienia w różnych tematach.

Ostatnio stał się kluczowym benchmarkiem do oceny LLM w powyższych dziedzinach. Deweloperzy zawsze chcą zoptymalizować swoje modele, aby przewyższyć inne w tym benchmarku, co czyni go de facto standardem dla oceny zaawansowanego rozumnienia i wiedzy w LLM. Duże, przedsiębiorcze modele wykazały imponujące wyniki w tym benchmarku, w tym GPT-4-omni z wynikiem 88,7%, Claude 3 Opus z wynikiem 86,8%, Gemini 1.5 Pro z wynikiem 85,9% i Llama-3 70B z wynikiem 82%. Małe modele zwykle nie radzą sobie tak dobrze w tym benchmarku, zwykle nie przekraczając 60-65%, ale ostatnie wyniki Phi-3-Small-7b na poziomie 75,3% są godne uwagi.

Jednak MMLU nie jest pozbawiony wad: ma znane problemy, takie jak niejasne pytania, niepoprawne odpowiedzi i brak kontekstu. I wiele osób uważa, że niektóre z jego zadań są zbyt łatwe do właściwej oceny LLM.

Chciałbym wyjaśnić, że benchmarki takie jak MMLU nie idealnie odzwierciedlają scenariusze rzeczywiste. Jeśli LLM osiąga dobry wynik w tym, nie zawsze oznacza to, że stał się ekspertem w danej dziedzinie. Benchmarki są naprawdę dość ograniczone pod względem zakresu i często opierają się na pytaniach wielokrotnego wyboru, które nie mogą w pełni uchwycić złożoności i kontekstu interakcji w świecie rzeczywistym. Prawdziwe zrozumienie wymaga znajomości faktów i dynamicznego stosowania tej wiedzy, co obejmuje myślenie krytyczne, rozwiązywanie problemów i zrozumienie kontekstu. Z tych powodów LLM muszą być stale udoskonalane i aktualizowane, aby model zachował relewantność i skuteczność benchmarku.

GPQA (Graduate-Level Google-Proof Q&A Benchmark)

Ten benchmark ocenia LLM pod kątem logicznego rozumowania przy użyciu zestawu danych z zaledwie 448 pytaniami. Eksperci z dziedziny stworzyli go i obejmuje tematy z biologii, fizyki i chemii.

Każde pytanie przechodzi przez następujący proces walidacji:

Ekspert z tej samej dziedziny odpowiada na pytanie i dostarcza szczegółową informację zwrotną.
Osoba tworząca pytanie rewizuje pytanie na podstawie tej informacji zwrotnej.
Drugi ekspert odpowiada na zrewidowane pytanie.

Ten proces może naprawdę upewnić się, że pytania są obiektywne, dokładne i wymagające dla modelu językowego. Nawet doświadczeni studenci doktoranckie osiągają tylko 65% poprawności na tych pytaniach, podczas gdy GPT-4-omni osiąga tylko 53,6%, co podkreśla lukę między ludzką a maszynową inteligencją.

Ponieważ wymagania kwalifikacyjne są wysokie, zestaw danych jest w rzeczywistości dość mały, co ogranicza jego moc statystyczną do porównania dokładności i wymaga dużych efektów. Eksperci, którzy stworzyli i zwalidowali te pytania, pochodzili z Upwork, więc mogli wprowadzić subiektywne uprzedzenia oparte na ich ekspertyzie i tematach objętych.

Benchmarki kodu

HumanEval

164 problemy programistyczne, prawdziwy test zdolności kodowych LLM. To HumanEval. Został zaprojektowany do testowania podstawowych zdolności kodowych dużych modeli językowych (LLM). Wykorzystuje metrykę pass@k do oceny funkcjonalnej dokładności generowanego kodu, która jako wynik daje prawdopodobieństwo, że co najmniej jeden z najlepszych k próbek kodu wygenerowanego przez LLM przejdzie testy.

Chociaż zestaw danych HumanEval zawiera sygnatury funkcji, docstringi, ciała kodu i kilka testów jednostkowych, nie obejmuje pełnego zakresu rzeczywistych problemów programistycznych, co nie wystarcza do właściwego przetestowania zdolności modelu do tworzenia poprawnego kodu dla różnorodnych scenariuszy.

MBPP (Mostly Basic Python Programming)

MBPP składa się z 1000 crowd-sourced pytań programistycznych w języku Python. Są to problemy podstawowe i koncentrują się na podstawowych umiejętnościach programistycznych. Wykorzystuje podejście few-shot i fine tuning do oceny wydajności modelu, przy czym większe modele zwykle radzą sobie lepiej w tym zestawie danych. Jednak ponieważ zestaw danych zawiera głównie programy podstawowe, nie reprezentuje w pełni złożoności i wyzwań aplikacji rzeczywistych.

Benchmarki matematyczne

Podczas gdy większość LLM jest dość dobra w tworzeniu standardowych odpowiedzi, rozumowanie matematyczne jest o wiele większym problemem dla nich. Dlaczego? Ponieważ wymaga umiejętności związanych z zrozumieniem pytań, krok po kroku podejściem z matematycznym rozumowaniem i wyprowadzaniem poprawnej odpowiedzi.

Metoda „Chain of Thought” (CoT) została stworzona do oceny LLM w benchmarkach związanych z matematyką, polega na nakłonieniu modelu do wyjaśnienia swojego procesu rozumowania krok po kroku przy rozwiązywaniu problemu. Istnieją kilka korzyści z tego. Ujawnia proces rozumowania, pomaga identyfikować błędy w logice modelu i pozwala na bardziej szczegółową ocenę umiejętności rozwiązywania problemów. Rozbijając złożone problemy na serię prostszych kroków, CoT może poprawić wydajność modelu w benchmarkach matematycznych i dostarczyć głębszych wglądów w jego zdolności rozumowania.

GSM8K: Popularny benchmark matematyczny

Jednym z znanych benchmarków do oceny umiejętności matematycznych w LLM jest zestaw danych GSM8K. GSM8K składa się z 8,5 tys. problemów matematycznych na poziomie szkoły średniej, które wymagają kilku kroków do rozwiązania, a rozwiązania głównie obejmują wykonywanie sekwencji elementarnych obliczeń. Zwykle większe modele lub te, które są specjalnie przeszkolone do rozumowania matematycznego, radzą sobie lepiej w tym benchmarku, np. modele GPT-4 osiągają wynik 96,5%, podczas gdy DeepSeekMATH-RL-7B osiąga 88,2%.

Chociaż GSM8K jest przydatny do oceny zdolności modelu do rozwiązywania problemów matematycznych na poziomie szkoły podstawowej, może nie w pełni uchwycić zdolności modelu do rozwiązywania bardziej zaawansowanych lub zróżnicowanych wyzwań matematycznych, co ogranicza jego skuteczność jako kompleksowej miary umiejętności matematycznych.

Zestaw danych matematycznych: Całkowita alternatywa

Zestaw danych matematycznych rozwiązuje wady benchmarków takich jak GSM8K. Ten zestaw danych jest bardziej obszerny, obejmując arytmetykę elementarną, poziom szkoły średniej i nawet college’u. Jest on również porównywany z wynikami ludzi, z których student z dziedziny informatyki, który nie lubi matematyki, osiąga 40% poprawności, a medalista olimpiady matematycznej osiąga 90% poprawności.

Dostarcza bardziej wszechstronnej oceny umiejętności matematycznych LLM. Upewnia się, że model jest biegły w arytmetyce podstawowej i kompetentny w bardziej złożonych dziedzinach, takich jak algebra, geometria i rachunek. Jednak zwiększona złożoność i różnorodność problemów może sprawić, że modele będą miały trudności w osiągnięciu wysokiej poprawności, szczególnie te, które nie są wyraźnie przeszkolone w szerokim zakresie pojęć matematycznych. Ponadto, zróżnicowane formaty problemów w zestawie danych matematycznym mogą wprowadzać niekonsekwencje w wydajności modelu, co utrudnia wyciąganie ostatecznych wniosków o ogólnej umiejętności matematycznej modelu.

Użycie metody Chain of Thought z zestawem danych matematycznym może poprawić ocenę, ponieważ ujawnia zdolności modelu do rozumowania krok po kroku w szerokim spektrum wyzwań matematycznych. Takie połączone podejście zapewnia bardziej solidną i szczegółową ocenę prawdziwych umiejętności matematycznych LLM.

Benchmarki zrozumienia czytania

Ocena zrozumienia czytania ocenia zdolność modelu do zrozumienia i przetworzenia złożonego tekstu, co jest szczególnie istotne dla aplikacji takich jak obsługa klienta, generowanie treści i odzyskiwanie informacji. Istnieje kilka benchmarków zaprojektowanych do oceny tej umiejętności, każdy z nich ma unikalne cechy, które przyczyniają się do kompleksowej oceny zdolności modelu.

RACE (Reading Comprehension dataset from Examinations)

Benchmark RACE zawiera prawie 28 000 pasażów i 100 000 pytań zebranych z egzaminów angielskich dla uczniów szkół średnich w Chinach w wieku od 12 do 18 lat. Nie ogranicza się do pytań i odpowiedzi wyodrębnionych z podanych pasażów, co sprawia, że zadania są jeszcze bardziej wymagające.

Obejmuje szeroki zakres tematów i typów pytań, co sprawia, że jest to wszechstronna ocena i zawiera pytania na różnych poziomach trudności. Pytania w RACE są specjalnie zaprojektowane do testowania umiejętności czytania ludzi i zostały stworzone przez ekspertów z danej dziedziny.

Jednak benchmark ten ma również wady. Ponieważ został opracowany na podstawie materiałów edukacyjnych chińskich, jest podatny na wprowadzanie subiektywnych uprzedzeń, które nie odzwierciedlają globalnego kontekstu. Ponadto, wysoki poziom trudności w niektórych pytaniach nie jest właściwie reprezentatywny dla typowych zadań świata rzeczywistego, co może sprawić, że ocena wydajności nie będzie całkowicie dokładna.

DROP (Discrete Reasoning Over Paragraphs)

Innym istotnym podejściem jest DROP (Discrete Reasoning Over Paragraphs), który wyzwala modele do wykonywania dyskretnego rozumowania nad akapitami. Zawiera 96 000 pytań do testowania zdolności rozumowania LLM i pytania są wyodrębnione z Wikipedii i crowdsourcowane z Amazon Mechanical Turk. Pytania DROP często wymagają od modeli wykonywania operacji matematycznych, takich jak dodawanie, odejmowanie i porównywanie, na podstawie informacji rozproszonych w akapicie.

Pytania są wymagające. Wymagają, aby LLM zlokalizował wiele liczb w akapicie i dodał lub odjął je, aby uzyskać ostateczną odpowiedź. Duże modele, takie jak GPT-4 i Palm, osiągają 80% i 85%, podczas gdy ludzie osiągają 96% w zestawie danych DROP.

Benchmarki zdrowego rozsądku

Testowanie zdrowego rozsądku w modelach językowych jest interesujące, ale także kluczowe, ponieważ ocenia zdolność modelu do podejmowania osądów i wyprowadzania wniosków, które są zgodne z ludzkim rozumowaniem. W przeciwieństwie do nas, którzy rozwijamy kompleksowy model świata poprzez praktyczne doświadczenia, modele językowe są szkolone na ogromnych zestawach danych bez rzeczywistego zrozumienia kontekstu. To sprawia, że modele mają trudności z zadaniami wymagającymi intuicyjnego zrozumienia sytuacji codziennych, logicznego rozumowania i praktycznej wiedzy, które są bardzo ważne dla solidnych i niezawodnych aplikacji AI.

HellaSwag (Harder Endings, Longer contexts, and Low-shot Activities for Situations With Adversarial Generations)

Hellaswag został opracowany przez Rowana Zellersa i jego kolegów z Uniwersytetu Waszyngtonu i Instytutu Allen Institute for Artificial Intelligence. Jest zaprojektowany do testowania zdolności modelu do przewidywania najbardziej prawdopodobnego kontynuowania danego scenariusza. Ten benchmark jest konstruowany przy użyciu Adversarial Filtering (AF), gdzie seria dyskryminatorów iteratywnie wybiera przeciwnie wygenerowane błędne odpowiedzi. Ta metoda tworzy zestaw danych z przykładami trywialnymi dla ludzi, ale wymagającymi dla modeli, co prowadzi do strefy „złotej średniej” trudności.

Chociaż Hellaswag stanowił wyzwanie dla wcześniejszych modeli, modele najnowszej generacji, takie jak GPT-4, osiągają poziom dokładności zbliżony do ludzkiej, co wskazuje na znaczny postęp w tej dziedzinie. Jednak te wyniki sugerują potrzebę ciągłego rozwoju benchmarków, aby nadążyć za postępem w możliwościach AI.

Openbook

Zestaw danych Openbook składa się z 5957 pytań wielokrotnego wyboru z poziomu szkoły podstawowej. Pytania są zebrane z egzaminów otwartych i zostały opracowane, aby ocenić zrozumienie przez ludzi tej dziedziny.

Benchmark Openbook wymaga zdolności rozumnienia poza poziomem informacji, osiągając 95,9% poprawności.

OpenbookQA jest modelem egzaminów otwartych i składa się z 5 957 pytań wielokrotnego wyboru z poziomu szkoły podstawowej, które są zaprojektowane do testowania zrozumienia 1 326 podstawowych faktów naukowych i ich zastosowania w nowych sytuacjach.

Podobnie jak Hellaswag, wcześniejsze modele miały trudności z OpenbookQA, ale nowoczesne modele, takie jak GPT-4, osiągają poziomy dokładności bliskie ludzkiej. Ten postęp podkreśla wagę tworzenia jeszcze bardziej złożonych i nuansowanych benchmarków, aby kontynuować rozwój zrozumienia AI.

Czy benchmarki są wystarczające do oceny wydajności LLM?

Tak, chociaż zapewniają standaryzowany podejście do oceny wydajności LLM, mogą być również mylące. Organizacja Large Model Systems twierdzi, że dobry benchmark LLM powinien być skalowalny, zdolny do oceny nowych modeli z relatywnie niewielką liczbą prób, i zapewniać unikalną kolejność rankingową dla wszystkich modeli. Ale istnieją powody, dla których mogą nie być wystarczające. Oto kilka z nich:

Przeciekanie benchmarku

Jest to powszechne zjawisko i występuje, gdy dane treningowe pokrywają się z danymi testowymi, co prowadzi do mylącej oceny. Jeśli model spotkał już niektóre pytania testowe podczas treningu, wynik może nie odzwierciedlać jego prawdziwych możliwości. Ale idealny benchmark powinien minimalizować zapamiętywanie i odzwierciedlać scenariusze rzeczywiste.

Sesja oceny

Rankingi LLM na benchmarkach są wykorzystywane do porównania wydajności LLM w różnych zadaniach. Jednak poleganie na tych rankingach do porównania modeli może być mylące. Proste zmiany w testach benchmarkowych, takie jak zmiana kolejności pytań, mogą przesunąć ranking modeli o maksymalnie osiem pozycji. Ponadto LLM mogą radzić sobie różnie w zależności od metod oceny, co podkreśla wagę uwzględnienia sesji oceny.

Otwartość

Rzeczywista interakcja z LLM obejmuje projektowanie podpowiedzi, aby wygenerować pożądane dane wyjściowe AI. Dane wyjściowe LLM zależą od skuteczności podpowiedzi, a benchmarki są zaprojektowane do testowania świadomości kontekstu LLM. Chociaż benchmarki są zaprojektowane do testowania świadomości kontekstu LLM, nie zawsze przekładają się bezpośrednio na wydajność w świecie rzeczywistym. Na przykład model, który osiąga 100% wynik w benchmarku, nie gwarantuje tego samego poziomu dokładności w aplikacjach praktycznych. To podkreśla wagę uwzględnienia otwartego charakteru zadań świata rzeczywistego w ocenie LLM.

Skuteczna ocena dla solidnych LLM

Więc teraz wiesz, że benchmarki nie są zawsze najlepszym rozwiązaniem, ponieważ nie zawsze mogą uogólniać na wszystkie problemy. Ale istnieją inne sposoby.

Benchmarki niestandardowe

Są one idealne do testowania konkretnych zachowań i funkcjonalności w scenariuszach zależnych od zadania. Na przykład, jeśli LLM jest zaprojektowany dla pracowników medycznych, zestawy danych zebrane z placówek medycznych skutecznie reprezentują scenariusze rzeczywiste. Te benchmarki niestandardowe mogą koncentrować się na zrozumieniu języka specyficznego dla danej dziedziny, wydajności i unikalnych wymagań kontekstowych. Poprzez wyrównanie benchmarków z możliwymi scenariuszami świata rzeczywistego, możesz upewnić się, że LLM radzi sobie dobrze ogólnie i wyróżnia się w konkretnych zadaniach, dla których jest przeznaczony. To może pomóc w identyfikowaniu i rozwiązywaniu luk i słabości w możliwościach modelu na wczesnym etapie.

Potok wykrywania przecieku danych

Jeśli chcesz, aby Twoje oceny „pokazały” integralność, posiadanie potoku benchmarkowego wolnego od przecieku danych jest bardzo ważne. Przeciek danych występuje, gdy dane benchmarkowe są uwzględnione w korpusie treningowym modelu, co prowadzi do sztucznie wysokich wyników wydajności. Aby temu zapobiec, benchmarki powinny być skorelowane z danymi treningowymi. Plus, kroki, aby uniknąć jakichkolwiek wcześniej widzianych informacji. To może obejmować wykorzystanie zestawów danych własnościowych lub nowo opracowanych, które są trzymane oddzielnie od potoku treningowego modelu – co zapewni, że metryki wydajności, które otrzymujesz, odzwierciedlają zdolność modelu do generalizacji.

Ocena ludzka

Automatyczne metryki same w sobie nie mogą uchwycić pełnego spektrum wydajności modelu, szczególnie w przypadku bardzo subtelnych i subiektywnych aspektów zrozumienia i generowania języka. Tutaj ocena ludzka daje znacznie lepszą ocenę:

Zatrudnienie profesjonalistów, którzy mogą dostarczyć szczegółowe i godne zaufania oceny, szczególnie w dziedzinach specjalistycznych.
Tłumy! Platformy takie jak Amazon Mechanical Turk pozwalają na szybkie i tanie zebranie różnorodnych ocen ludzkich.
Opinia społeczności: Używanie platform takich jak LMSYS leaderboard arena, gdzie użytkownicy mogą głosować i porównywać modele, dodaje dodatkową warstwę wglądu. LMSYS Chatbot Arena Hard, na przykład, jest szczególnie skuteczny w podkreślaniu subtelnych różnic między najlepszymi modelami poprzez bezpośrednie interakcje użytkowników i głosy.

Podsumowanie

Bez oceny i benchmarkingu nie mielibyśmy sposobu, aby wiedzieć, czy zdolność LLM do radzenia sobie z zadaniami świata rzeczywistego jest tak dokładna i stosowalna, jak myślimy. Ale, jak powiedziałem, benchmarki nie są całkowicie niezawodnym sposobem sprawdzenia tego, mogą prowadzić do luk w wydajności LLM. To może spowolnić rozwój LLM, które są naprawdę solidne do pracy.

To jest tak, jak powinno być w idealnym świecie. LLM rozumieją pytania użytkowników, identyfikują błędy w podpowiedziach, wykonują zadania zgodnie z instrukcjami i generują niezawodne dane wyjściowe. Wyniki są już wielkie, ale nie idealne. To jest miejsce, w którym benchmarki specyficzne dla zadania okazują się bardzo pomocne, tak jak ocena ludzka i wykrywanie przecieku benchmarku. Używając tych, mamy szansę na produkcję naprawdę solidnych LLM.

Related Topics:AI benchmarks AI performance benchmarks LLM LLM performance monitoring

Irina Barskaya, PhD, Head Data Scientist at Yandex

Irina Barskaya, PhD, jest wybitnym naukowcem danych z ponad dekadą doświadczenia, obejmującym zarówno analizy produktów, jak i analizy dla najnowocześniejszych technologii. Kierowała tworzeniem i analizą Yasminy, pierwszego w pełni funkcjonalnego lokalnego asystenta głosowego opartego na sztucznej inteligencji dla Arabii Saudyjskiej, zajmując się złożoną lokalizacją danych i ich oznaczaniem dla języka arabskiego i dialektów saudyjskich. Obecnie Irina kieruje analizą jakości w Yandex, napędzając postępy w technologiach sztucznej inteligencji.

Unite.AI

Benchmarks Dla LLM

Czym jest ocena LLM?

Benchmarki

Benchmarki „Wiedza”

MMLU (Multimodal Language Understanding)

GPQA (Graduate-Level Google-Proof Q&A Benchmark)

Benchmarki kodu

HumanEval

MBPP (Mostly Basic Python Programming)

Benchmarki matematyczne

GSM8K: Popularny benchmark matematyczny

Zestaw danych matematycznych: Całkowita alternatywa

Benchmarki zrozumienia czytania

RACE (Reading Comprehension dataset from Examinations)

DROP (Discrete Reasoning Over Paragraphs)

Benchmarki zdrowego rozsądku

HellaSwag (Harder Endings, Longer contexts, and Low-shot Activities for Situations With Adversarial Generations)

Openbook

Czy benchmarki są wystarczające do oceny wydajności LLM?

Przeciekanie benchmarku

Sesja oceny

Otwartość

Skuteczna ocena dla solidnych LLM

Benchmarki niestandardowe

Potok wykrywania przecieku danych

Ocena ludzka

Podsumowanie

You may like