Myslitelé

Benchmarky pro LLM

Publikováno 28. srpna 2024

Aktualizováno 20. května 2026

Irina Barskaya, PhD, Vedoucí kvalitativní analytik ve společnosti Yandex

Pochopíte roli a omezení benchmarků v hodnocení výkonu LLM. Prozkoumejte techniky pro vývoj robustních LLM.

Velké jazykové modely získaly v posledních letech obrovskou popularitu. Všimli jste si toho. Výjimečná schopnost LLM rozumět lidským jazykovým příkazům je činí absolutně perfektní integrací pro podniky, podporující kritické pracovní postupy a automatizující úkoly na maximum efektivity. Kromě toho, že průměrný uživatel rozumí, existuje mnoho dalších věcí, které LLM může dělat. A jak naše závislost na nich roste, musíme opravdu věnovat více pozornosti opatřením, která zajistí potřebnou přesnost a spolehlivost. Jedná se o globální úkol, který se týká celých institucí, ale v oblasti podnikání existují již několik benchmarků, které lze použít k hodnocení výkonu LLM v různých doménách. Tyto benchmarky mohou testovat schopnosti modelu v oblasti porozumění, logického myšlení, matematiky a dalších, a výsledky určují, zda je LLM připraven pro nasazení v podnikání.

V tomto článku jsem shromáždil komplexní seznam nejpopulárnějších benchmarků pro hodnocení LLM. Probereme každý benchmark podrobně a uvidíme, jak různé LLM fungují proti kritériím hodnocení. Ale nejprve se podívejme na hodnocení LLM podrobněji.

Co je hodnocení LLM?

Stejně jako ostatní modely AI, i LLM potřebují být hodnoceny proti specifickým benchmarkům, které hodnotí různé aspekty výkonu jazykového modelu: znalosti, přesnost, spolehlivost a konzistence. Standardně se jedná o:

Porozumění uživatelským dotazům: Hodnocení schopnosti modelu přesně porozumět a interpretovat širokou škálu uživatelských vstupů.
Ověření výstupu: Ověření odpovědí generovaných AI proti důvěryhodné znalostní bázi, aby se zajistilo, že jsou správné a relevantní.
Robustnost: Měření toho, jak dobře model funguje s nejasnými, neúplnými nebo šumovými vstupy.

Hodnocení LLM dává vývojářům možnost identifikovat a řešit omezení efektivně, aby mohli zlepšit celkovou uživatelskou zkušenost. Pokud je LLM důkladně hodnocen, bude dostatečně přesný a robustní, aby zvládl různé reálné aplikace, včetně těch s nejasnými nebo neočekávanými vstupy.

Benchmarky

LLM jsou jednou z nejkomplikovanějších technologií současnosti a mohou pohánět i ty nejsložitější aplikace. Proto proces hodnocení musí být stejně komplexní, aby otestoval myšlení a technickou přesnost.

Benchmark používá specifické datové sady, metriky a úkoly hodnocení, aby otestoval výkon LLM, a umožňuje srovnání různých LLM a měření jejich přesnosti, což pohání pokrok v oboru zlepšením výkonu.

Zde jsou některé z nejtypičtějších aspektů výkonu LLM:

Znalosti: Znalosti modelu musí být testovány v různých doménách. To je účelem benchmarku znalostí. Hodnotí, jak efektivní je model při vzpomínání informací z různých oblastí, jako je fyzika, programování, geografie atd.
Logické myšlení: Testování schopnosti modelu „myslet“ krok za krokem a vyvodit logický závěr, obvykle zahrnuje scénáře, ve kterých model musí vybrat nejpravděpodobnější pokračování nebo vysvětlení na základě všedního znalostí a logického myšlení.
Porozumění textu: Modely musí být excelente v interpretaci přirozeného jazyka a generování odpovědí podle toho. Test vypadá jako odpovědi na otázky založené na pasážích, aby se ohodnotilo porozumění, dedukce a uchování detailů. Jako školní test z čtení.
Porozumění kódu: To je nutné pro měření schopnosti modelu porozumět, psát a ladit kód. Tyto benchmarky poskytují modelu úkoly programování nebo problémy, které musí vyřešit přesně, často pokrývající širokou škálu programovacích jazyků a paradigm.
Světové znalosti: Hodnotí modelovo chápání obecných znalostí o světě. Tyto datové sady obvykle obsahují otázky, které vyžadují široké, encyklopedické znalosti, aby byly zodpovězeny správně, což je odlišuje od více specifických a specializovaných znalostních benchmarků.

Benchmarky „Znalosti“

MMLU (Multimodal Language Understanding)

Tento benchmark je navržen pro testování LLM v oblasti faktických znalostí v různých tématech, jako jsou humanitní vědy, sociální vědy, historie, počítačové vědy a dokonce i právo. 57 otázek a 15 000 úkolů jsou zaměřeny na to, aby se zajistilo, že model má vynikající schopnosti myšlení.

Nedávno se stal klíčovým benchmarkem pro hodnocení LLM v výše uvedených oblastech. Vývojáři vždy chtějí optimalizovat své modely, aby překonali ostatní v tomto benchmarku, což z něj dělá de facto standard pro hodnocení pokročilého myšlení a znalostí v LLM.

Velké podnikové modely ukázaly impresivní výsledky v tomto benchmarku, včetně GPT-4-omni s 88,7 %, Claude 3 Opus s 86,8 %, Gemini 1.5 Pro s 85,9 % a Llama-3 70B s 82 %. Menší modely obvykle nedosahují tak dobrých výsledků v tomto benchmarku, obvykle nedosahují více než 60-65 %, ale nedávný výkon Phi-3-Small-7b s 75,3 % je něco, co stojí za úvahu.

MMLU však není bez nevýhod: má známé problémy, jako jsou nejasné otázky, nesprávné odpovědi a chybějící kontext. A mnoho lidí si myslí, že některé jeho úkoly jsou příliš snadné pro řádné hodnocení LLM.

Chci zdůraznit, že benchmarky jako MMLU nedokážou přesně zobrazit reálné scénáře. Pokud LLM dosáhne skvělého výsledku v tomto benchmarku, neznamená to vždy, že se stal odborníkem v dané oblasti. Benchmarky jsou omezené ve svém rozsahu a často spoléhají na multiple-choice otázky, které nemohou plně zachytit složitost a kontext reálných interakcí. Skutečné porozumění vyžaduje znalosti a dynamické použití znalostí, což zahrnuje kritické myšlení, řešení problémů a kontextuální porozumění. Proto LLM musí být neustále vylepšovány a aktualizovány, aby model zachoval relevanci a účinnost benchmarku.

GPQA (Graduate-Level Google-Proof Q&A Benchmark)

Tento benchmark hodnotí LLM na logickém myšlení pomocí datové sady s 448 otázkami. Odborníci z dané oblasti vyvinuli tuto datovou sadu, která pokrývá témata biologie, fyziky a chemie.

Každá otázka prochází následující proces validace:

Odborník z dané oblasti zodpoví otázku a poskytuje podrobnou zpětnou vazbu.
Osoba, která vytvořila otázku, ji reviduje na základě této zpětné vazby.
Druhý odborník zodpoví revidovanou otázku.

Tento proces může skutečně zajistit, že otázky jsou objektivní, přesné a náročné pro jazykový model. I zkušení PhD studenti dosahují pouze 65% přesnosti na těchto otázkách, zatímco GPT-4-omni dosahuje pouze 53,6 %, což zdůrazňuje rozdíl mezi lidskou a strojovou inteligencí.

Vzhledem k vysokým požadavkům na kvalifikaci je datová sada ve skutečnosti poměrně malá, což somewhat omezuje její statistickou sílu pro srovnání přesnosti a vyžaduje velké efektivní velikosti. Odborníci, kteří vytvořili a ověřili tyto otázky, pocházeli z Upwork, takže mohli zavést předpojatosti založené na své odbornosti a pokrytých tématech.

Benchmarky kódu

HumanEval

164 programovacích problémů, skutečný test pro kódovací schopnosti LLM. Je to HumanEval. Je navržen pro testování základních kódovacích schopností velkých jazykových modelů (LLM). Používá metriku pass@k pro hodnocení funkční přesnosti generovaného kódu, která vrací pravděpodobnost, že alespoň jeden z top k generovaných vzorků kódu LLM projde testovacími případy.

Zatímco datová sada HumanEval zahrnuje funkce, docstringy, těla kódu a několik jednotkových testů, nezahrnuje plný rozsah reálných programovacích problémů, což nestačí k tomu, aby model prokázal svou schopnost generovat správný kód pro různé scénáře.

MBPP (Mostly Basic Python Programming)

MBPP benchmark se skládá z 1 000 crowd-sourced Python programovacích otázek. Tyto jsou úvodní problémy a zaměřují se na základní programovací dovednosti. Používá few-shot a fine-tuning přístupy pro hodnocení výkonu modelu, přičemž větší modely obvykle dosahují lepších výsledků v této datové sadě. Nicméně, protože datová sada obsahuje hlavně úvodní programy, stále nedokáže plně reprezentovat složitost a výzvy reálných aplikací.

Matematické benchmarky

Zatímco většina LLM je khá dobrá ve strukturování standardních odpovědí, matematické myšlení je pro ně mnohem větším problémem. Proč? Protože vyžaduje dovednosti související s porozuměním otázek, krok za krokem logickým přístupem s matematickým myšlením a odvozováním správné odpovědi.

Metoda „Chain of Thought“ (CoT) je navržena pro hodnocení LLM na matematických benchmarkech, zahrnuje podněcování modelů, aby vysvětlovaly svůj krok za krokem proces myšlení při řešení problému. Existuje několik výhod tohoto přístupu. Zajišťuje transparentnost myšlení, pomáhá identifikovat chyby v logice modelu a umožňuje podrobnější hodnocení řešení problémů. Rozdělováním složitých problémů na řadu jednodušších kroků může CoT zlepšit výkon modelu na matematických benchmarkech a poskytnout hlubší vhled do jeho myšlení.

GSM8K: Populární matematický benchmark

Jedním z dobře známých benchmarků pro hodnocení matematických schopností LLM je datová sada GSM8K. GSM8K se skládá z 8 500 středních školních matematických problémů, které vyžadují několik kroků pro řešení, a řešení zahrnuje provádění posloupnosti elementárních výpočtů. Obvykle větší modely nebo ty, které jsou speciálně trénovány pro matematické myšlení, dosahují lepších výsledků v tomto benchmarku, například modely GPT-4 dosahují skóre 96,5 %, zatímco DeepSeekMATH-RL-7B dosahuje 88,2 %.

Zatímco GSM8K je užitečný pro hodnocení schopnosti modelu zvládat problémy na úrovni základní školy, nemusí plně zachytit modelovu schopnost řešit pokročilejší nebo rozmanitější matematické výzvy, což omezuje jeho účinnost jako komplexní míry matematických schopností.

Matematická datová sada: Komplexní alternativa

Matematická datová sada řeší nedostatky benchmarků jako GSM8K. Tato datová sada je rozsáhlejší, pokrývá elementární aritmetiku až po střední a dokonce i vysokoškolské problémy. Je také srovnávána s lidskými výkony, přičemž student informatiky, který nemá rád matematiku, dosahuje přesnosti 40 % a držitel zlaté medaile dosahuje přesnosti 90 %.

Poskytuje komplexnější hodnocení matematických schopností LLM. Zajišťuje, že model je schopen základních aritmetických operací a je kompetentní v složitějších oblastech, jako je algebra, geometrie a kalkulus. Nicméně zvýšená složitost a rozmanitost problémů může udělat modelům dosažení vysoké přesnosti obtížným, zejména těm, které nejsou explicitně trénovány na široké škále matematických konceptů. Kromě toho různé formáty problémů v matematické datové sadě mohou zavést nekonzistence ve výkonu modelu, což činí obtížným vyvodit definitivní závěry o celkových matematických schopnostech modelu.

Použití metody Chain of Thought s matematickou datovou sadou může hodnocení zlepšit, protože odhaluje krok za krokem myšlení LLM napříč širokým spektrem matematických výzev. Kombinovaný přístup zajišťuje komplexnější a podrobnější hodnocení skutečných matematických schopností LLM.

Benchmarky porozumění textu

Hodnocení porozumění textu hodnotí schopnost modelu porozumět a zpracovat komplexní text, což je zvláště důležité pro aplikace, jako je zákaznická podpora, generování obsahu a vyhledávání informací. Existuje několik benchmarků navržených pro hodnocení této dovednosti, každý s jedinečnými charakteristikami, které přispívají k komplexnímu hodnocení schopností modelu.

RACE (Reading Comprehension dataset from Examinations)

RACE benchmarky mají téměř 28 000 pasáží a 100 000 otázek shromážděných z anglických zkoušek pro studenty středních a vysokých škol ve věku 12 až 18 let. Neomezuje se na otázky a odpovědi extrahované z daných pasáží, což dělá úkoly ještě náročnější.

Pokrývá širokou škálu témat a typů otázek, což umožňuje komplexní hodnocení a zahrnuje otázky různých úrovní obtížnosti. Otázky v RACE jsou speciálně navrženy pro testování čtenářských dovedností a jsou vytvořeny odborníky z dané oblasti.

Nicméně, benchmark má beberapa nevýhod. Protože je vyvinut na základě čínských vzdělávacích materiálů, je náchylný k zavádění kulturních předpojatostí, které neodrážejí globální kontext. Kromě toho vysoká úroveň obtížnosti některých otázek není vždy reprezentativní pro typické reálné úkoly. Proto hodnocení výkonu nemusí být vždy přesné.

DROP (Discrete Reasoning Over Paragraphs)

Dalším významným přístupem je DROP (Discrete Reasoning Over Paragraphs), který vyzývá modely, aby prováděly diskrétní myšlení nad odstavci. Má 96 000 otázek pro testování rozumových schopností LLM a otázky jsou extrahovány z Wikipedie a crowdsourceny z Amazon Mechanical Turk. Otázky DROP často vyžadují modely, aby provedly matematické operace, jako je sčítání, odčítání a porovnání, na základě informací rozptýlených v pasáži.

Otázky jsou náročné. Vyžadují, aby LLM lokalizovaly více čísel v pasáži a provedly operace, jako je sčítání nebo odčítání, aby získaly konečnou odpověď. Velké modely, jako GPT-4 a Palm, dosahují 80 % a 85 %, zatímco lidé dosahují 96 % v datové sadě DROP.

Benchmarky společného smyslu

Testování společného smyslu v jazykových modelech je zajímavé, ale také klíčové, protože hodnotí schopnost modelu činit úsudky a dedukce, které se shodují s lidským myšlením. Na rozdíl od lidí, kteří vyvíjejí komplexní model světa prostřednictvím praktických zkušeností, jazykové modely jsou trénovány na velkých datech bez vnitřního pochopení kontextu. To znamená, že modely mají potíže s úkoly, které vyžadují intuitivní pochopení všedních situací, logické myšlení a praktické znalosti, které jsou velmi důležité pro robustní a spolehlivé aplikace AI.

HellaSwag (Harder Endings, Longer contexts, and Low-shot Activities for Situations With Adversarial Generations)

Hellaswag byl vyvinut Rowanem Zellersem a kolegy z University of Washington a Allen Institute for Artificial Intelligence. Je navržen pro testování schopnosti modelu předpovědět nejpravděpodobnější pokračování dané situace. Tento benchmark je konstruován pomocí Adversarial Filtering (AF), kde série diskriminátorů iterativně vybírá adversarialní strojově generované špatné odpovědi. Tato metoda vytváří datovou sadu s triviálními příklady pro lidi, ale náročnými pro modely, což vede k „zlatému střednímu“ pásu obtížnosti.

Zatímco Hellaswag byl výzvou pro dříve modely, současné modely, jako GPT-4, dosáhly úrovní výkonu blízkých lidské přesnosti, což naznačuje významný pokrok v oblasti. Nicméně, tyto výsledky naznačují potřebu kontinuálního vývoje benchmarků, aby držely krok s pokrokem v oblasti AI.

Openbook

Datová sada Openbook se skládá z 5 957 multiple-choice otázek z elementární vědy. Otázky jsou shromážděny z otevřených zkoušek a vyvinuty pro hodnocení lidského porozumění předmětu.

Benchmark Openbook vyžaduje schopnost myšlení, která přesahuje pouhé získání informací. GPT-4 dosahuje nejvyšší přesnosti 95,9 %.

OpenbookQA je modelován podle otevřených zkoušek a skládá se z 5 957 multiple-choice otázek z elementární vědy. Tyto otázky jsou navrženy pro testování porozumění 1 326 základních vědeckých faktů a jejich aplikace v nových situacích.

Podobně jako Hellaswag, dříve modely měly potíže s OpenbookQA, ale současné modely, jako GPT-4, dosáhly úrovní výkonu blízkých lidské přesnosti. Tento pokrok zdůrazňuje důležitost vývoje stále komplexnějších a nuancovaných benchmarků pro další pohánění hranic AI porozumění.

Jsou benchmarky dostatečné pro hodnocení výkonu LLM?

Ano, zatímco poskytují standardizovaný přístup k hodnocení výkonu LLM, mohou být také zavádějící. Organizace Large Model Systems říká, že dobrý benchmark LLM by měl být škálovatelný, schopen hodnotit nové modely s relativně malým počtem pokusů a poskytovat jedinečný řazení modelů. Ale existují důvody, proč nemusí být dostatečné. Zde jsou některé z nich:

Únik benchmarků

To je běžný problém, ke kterému dochází, když se trénovací data překrývají s testovacími daty, což vede k zavádějícímu hodnocení. Pokud model již viděl některé testovací otázky během trénování, jeho výsledek nemusí přesně odrážet jeho skutečné schopnosti. Ideální benchmark by měl minimalizovat memorizaci a odrážet reálné scénáře.

Hodnoticí předpojatost

Hodnoticí tabulky LLM jsou používány pro srovnání výkonu LLM v různých úkolech. Nicméně, spoléhání se na tyto tabulky pro srovnání modelů může být zavádějící. Jednoduché změny v benchmark testech, jako je změna pořadí otázek, mohou změnit řazení modelů o až osm pozic. Kromě toho LLM mohou vykazovat různé výkony v závislosti na metodách hodnocení, což zdůrazňuje důležitost zvažování hodnoticích předpojatostí.

Otevřenost

Reálná interakce s LLM zahrnuje návrh podnětů pro generování požadovaných výstupů AI. Výstupy LLM závisí na účinnosti podnětů, a benchmarky jsou navrženy pro testování kontextové povědomí LLM. Zatímco benchmarky jsou navrženy pro testování kontextové povědomí LLM, nemusí vždy přímo přeložit do reálného výkonu. Například model, který dosáhne 100% skóre v benchmarku, jako je LSAT, nemusí nutně dosáhnout stejné úrovně přesnosti v praktických aplikacích. To zdůrazňuje důležitost zvažování otevřené povahy reálných úkolů při hodnocení LLM.

Účinné hodnocení pro robustní LLM

Takže, teď víte, že benchmarky nejsou vždy nejlepší volbou, protože nemohou vždy generalizovat na všechny problémy. Ale existují jiné způsoby.

Vlastní benchmarky

Ty jsou ideální pro testování specifických chování a funkcí v úkolově specifických scénářích. Řekněme, že pokud je LLM navržen pro lékařské pracovníky, datové sady shromážděné z lékařských prostředí budou účinně reprezentovat reálné scénáře. Tyto vlastní benchmarky mohou se zaměřit na doménově specifické jazykové porozumění, výkon a jedinečné kontextové požadavky. Srovnaním benchmarků s možnými reálnými scénáři můžete zajistit, že LLM funguje dobře obecně a vyniká ve specifických úkolech, pro které je určen. To může pomoci identifikovat a řešit mezery nebo slabiny ve schopnostech modelu brzy.

Detekce úniku dat

Pokud chcete, aby vaše hodnocení „ukázalo“ integritu, je důležité mít pipeline bez úniku dat. Únik dat nastává, když jsou benchmarková data zahrnuta do předtrénovacího korpusu modelu, což vede k umělým výkonovým skórům. Chcete-li tomu zabránit, benchmarky by měly být křížově ověřeny proti předtrénovacím datům. Kromě toho je důležité vyhnout se dříve viděným informacím. To může zahrnovat použití proprietárních nebo nově kurátorovaných datových sad, které jsou odděleny od trénovacího pipeline modelu – to zajistí, že metriky výkonu, které získáte, odrážejí schopnost modelu generalizovat dobře.

Lidské hodnocení

Automatizované metriky samy o sobě nemohou zachytit plný rozsah schopností modelu, zejména když se jedná o jemné a subjektivní aspekty jazykového porozumění a generování. Zde lidské hodnocení poskytuje mnohem lepší hodnocení:

Nábor profesionálů, kteří mohou poskytnout podrobné a spolehlivé hodnocení, zejména pro specializované domény.
Crowdsourcing! Platformy, jako je Amazon Mechanical Turk, umožňují shromažďovat rozmanité lidské úsudky rychle a za nízkou cenu.
Komunitní zpětná vazba: Používání platforem, jako je LMSYS leaderboard arena, kde uživatelé mohou hlasovat a srovnávat modely, přidává další vrstvu vhledu. LMSYS Chatbot Arena Hard, například, je zvláště efektivní v zdůrazňování jemných rozdílů mezi top modely prostřednictvím přímých uživatelských interakcí a hlasů.

Závěr

Bez hodnocení a benchmarkingu bychom neměli žádný způsob, jak vědět, zda schopnost LLM zvládat reálné úkoly je tak přesná a použitelná, jak si myslíme. Ale, jak jsem řekl, benchmarky nejsou úplně spolehlivým způsobem, jak to ověřit, mohou vést k mezerám ve výkonu LLM. To může zpomalit vývoj LLM, které jsou skutečně robustní pro práci.

To je, jak by to mělo být v ideálním světě. LLM porozumí uživatelským dotazům, identifikují chyby v podnětech, dokončí úkoly podle pokynů a generují spolehlivé výstupy. Výsledky jsou již skvělé, ale ne ideální. To je místo, kde úkolově specifické benchmarky jsou velmi užitečné, stejně jako lidské hodnocení a detekce úniku benchmarků. Používáním těchto metod získáme šanci produkovat skutečně robustní LLM.

Irina Barskaya, PhD, Vedoucí kvalitativní analytik ve společnosti Yandex

Irina Barskaya, PhD, je uznávaný odborník na data s více než desetiletou zkušeností, která zahrnuje jak produktovou analytiku, tak analytiku pro pokročilé technologie. Vedla vytvoření a analytiku pro Yasminu, první plně funkční lokalizovanou AI-založenou hlasovou asistentku pro Saúdskou Arábii, která zajišťuje komplexní lokalizaci dat a označování pro moderní standardní arabštinu a saúdskoarabské dialekty. V současné době Irina vede kvalitativní analytiku ve společnosti Yandex, kde pohání pokroky v AI technologiích.