výhonek Vyhodnocování velkých jazykových modelů: Technická příručka – Unite.AI
Spojte se s námi

Umělá inteligence

Vyhodnocování velkých jazykových modelů: Technická příručka

mm

Zveřejněno

 on

Vyhodnocování velkých jazykových modelů

Velké jazykové modely (LLM) jako GPT-4, Claude a LLaMA explodovaly v popularitě. Díky své schopnosti generovat působivě lidský text se tyto systémy umělé inteligence nyní používají ke všemu, od vytváření obsahu až po chatboty zákaznických služeb.

Jak ale víme, zda jsou tyto modely skutečně dobré? Jak hodnotíme a porovnáváme jejich výkon, protože jsou neustále ohlašovány nové LLM, které všechny tvrdí, že jsou větší a lepší?

V této komplexní příručce prozkoumáme nejlepší techniky pro vyhodnocování velkých jazykových modelů. Podíváme se na klady a zápory každého přístupu, kdy se nejlépe uplatní a jak je můžete využít při vlastním testování LLM.

Metriky specifické pro úkol

Jedním z nejpřímějších způsobů, jak vyhodnotit LLM, je otestovat jej na zavedených úkolech NLP pomocí standardizovaných metrik. Například:

Shrnutí

Pro souhrnné úkoly, metriky jako RED (Recall-Oriented Understudy for Gisting Evaluation) se běžně používají. ROUGE porovnává modelem generované shrnutí s „referenčním“ shrnutím napsaným člověkem, přičemž počítá překrývání slov nebo frází.

Existuje několik příchutí ROUGE, z nichž každá má své výhody a nevýhody:

  • ROUGE-N: Porovná překrytí n-gramů (sekvencí N slov). ROUGE-1 používá unigramy (jediná slova), ROUGE-2 používá bigramy atd. Výhodou je zachycení slovosledu, ale může být příliš striktní.
  • ROUGE-L: Založeno na nejdelší společné subsekvenci (LCS). Flexibilnější ve slovosledu, ale zaměřuje se na hlavní body.
  • ROUGE-W: Váhy LCS odpovídají jejich významnosti. Pokusy vylepšit ROUGE-L.

Obecně platí, že metriky ROUGE jsou rychlé, automatické a dobře fungují pro hodnocení systémových souhrnů. Neměří však koherenci ani význam. Shrnutí může získat vysoké skóre ROUGE a přesto být nesmyslné.

Vzorec pro ROUGE-N je:

ROUGE-N=∑∈{Referenční souhrny}∑∑�∈{Referenční souhrny}∑

Kde:

  • Count_{match}(gram_n) je počet n-gramů ve vygenerovaném i referenčním souhrnu.
  • Count(gram_n) je počet n-gramů v referenčním souhrnu.

Například pro ROUGE-1 (unigramy):

  • Generované shrnutí: "Kočka seděla."
  • Shrnutí reference: "Kočka seděla na podložce."
  • Překrývající se unigramy: „The“, „cat“, „sat“
  • ROUGE-1 skóre = 3/5 = 0.6

ROUGE-L používá nejdelší společnou subsekvenci (LCS). Je to flexibilnější se slovosledem. Vzorec je:

ROUGE-L=���(generováno,reference)max(délka(generováno), délka(referenční))

Kde LCS je délka nejdelší společné podsekvence.

ROUGE-W váží shody LCS. Zvažuje význam každého zápasu v LCS.

Překlad

Pro úlohy strojového překladu BLUE (Bilingual Evaluation Understudy) je populární metrika. BLEU měří podobnost mezi výstupním překladem modelu a profesionálními lidskými překlady pomocí n-gramové přesnosti a penalizace za stručnost.

Klíčové aspekty fungování BLEU:

  • Porovnává překryvy n-gramů pro n až 4 (unigramy, bigramy, trigramy, 4 gramy).
  • Vypočítá geometrický průměr n-gramových přesností.
  • Použije penalizaci za stručnost, pokud je překlad mnohem kratší než odkaz.
  • Obecně se pohybuje od 0 do 1, přičemž 1 dokonale odpovídá referenci.

BLEU poměrně dobře koreluje s lidským úsudkem o kvalitě překladu. Ale stále má omezení:

  • Měří pouze přesnost podle referencí, nikoli odvolání nebo F1.
  • Bojuje s kreativními překlady pomocí různých formulací.
  • Náchylné k „hraní“ s překladatelskými triky.

Další metriky překladu jako METEOR a TER se pokoušejí vylepšit slabé stránky BLEU. Obecně ale platí, že automatické metriky plně nezachycují kvalitu překladu.

Další úkoly

Kromě sumarizace a překladu lze metriky jako F1, přesnost, MSE a další použít k vyhodnocení výkonu LLM u úkolů, jako jsou:

  • Klasifikace textu
  • Extrakce informací
  • Odpověď na otázku
  • Analýza sentimentu
  • Detekce gramatických chyb

Výhodou metrik specifických pro úkoly je, že hodnocení lze plně automatizovat pomocí standardizovaných datových sad, jako jsou např SQUAD pro QA a GLUE měřítko pro řadu úkolů. Výsledky lze snadno sledovat v průběhu času, jak se modely zlepšují.

Tyto metriky jsou však úzce zaměřené a nemohou měřit celkovou kvalitu jazyka. LLM, které dobře fungují v metrikách pro jeden úkol, mohou obecně selhat při generování koherentního, logického a užitečného textu.

Referenční hodnoty výzkumu

Oblíbeným způsobem, jak hodnotit LLM, je otestovat je v porovnání s rozsáhlými výzkumnými standardy pokrývajícími různá témata a dovednosti. Tyto benchmarky umožňují rychlé testování modelů v měřítku.

Některé známé benchmarky zahrnují:

  • Super lepidlo – Náročná sada 11 různorodých jazykových úkolů.
  • GLUE – Sbírka 9 úloh na porozumění větám. Jednodušší než SuperGLUE.
  • MMLU – 57 různých úkolů v oblasti STEM, společenských a humanitních věd. Testuje znalosti a schopnost uvažování.
  • Winograd Schema Challenge – Problémy s řešením zájmen vyžadující uvažování zdravým rozumem.
  • ARC – Náročné úlohy logického uvažování v přirozeném jazyce.
  • Hellaswag – Zdravý rozum o situacích.
  • PIQA – Fyzikální otázky vyžadující diagramy.

Vyhodnocením srovnávacích testů, jako jsou tyto, mohou výzkumníci rychle otestovat modely na jejich schopnost provádět matematiku, logiku, uvažování, kódování, zdravý rozum a mnoho dalšího. Procento správně zodpovězených otázek se stává srovnávací metrikou pro porovnávání modelů.

Hlavním problémem s benchmarky však je kontaminace tréninkových dat. Mnoho benchmarků obsahuje příklady, které již modelky viděly během předtréninku. To umožňuje modelům „memorovat“ odpovídá na konkrétní otázky a funguje lépe než jejich skutečné schopnosti.

Probíhají pokusy „dekontaminovat” benchmarky odstraněním překrývajících se příkladů. Ale to je náročné udělat komplexně, zvláště když modely mohou vidět parafrázované nebo přeložené verze otázek.

Takže zatímco benchmarky mohou efektivně testovat širokou škálu dovedností, nemohou spolehlivě měřit skutečné schopnosti uvažování ani se vyhnout inflaci skóre kvůli kontaminaci. Jsou zapotřebí doplňkové metody hodnocení.

Sebehodnocení LLM

Zajímavým přístupem je nechat LLM vyhodnotit výstupy jiného LLM. Cílem je využít koncept „jednoduššího“ úkolu:

  • Produkovat vysoce kvalitní výstup může být pro LLM obtížné.
  • Ale určit, zda je daný výstup kvalitní, může být snazší úkol.

Například, zatímco LLM může mít potíže s vytvořením faktického, koherentního odstavce od začátku, může snadněji posoudit, zda daný odstavec dává logický smysl a zapadá do kontextu.

Takže proces je:

  1. Předejte vstupní výzvu prvnímu LLM pro generování výstupu.
  2. Předejte vstupní výzvu + generovaný výstup druhému „hodnotiteli“ LLM.
  3. Položte hodnotiteli LLM otázku k posouzení kvality výstupu. např. "Dává výše uvedená odpověď logický smysl?"

Tento přístup se rychle implementuje a automatizuje hodnocení LLM. Ale jsou tu některé výzvy:

  • Výkon do značné míry závisí na výběru hodnotitele LLM a rychlé formulaci.
  • Omezeno obtížností původního úkolu. Vyhodnocení složitého uvažování je pro LLM stále těžké.
  • Při použití LLM založených na API může být výpočetně nákladné.

Sebehodnocení je zvláště slibné pro hodnocení získaných informací v RAG (generace rozšířená o načítání) systémy. Další dotazy LLM lze ověřit, pokud je načtený kontext správně použit.

Celkově autoevaluace ukazuje potenciál, ale vyžaduje opatrnost při provádění. Lidské hodnocení spíše doplňuje než nahrazuje.

Lidské hodnocení

Vzhledem k omezením automatických metrik a benchmarků je lidské hodnocení stále zlatým standardem pro přísné hodnocení kvality LLM.

Odborníci mohou poskytnout podrobné kvalitativní hodnocení:

  • Přesnost a věcná správnost
  • Logika, uvažování a zdravý rozum
  • Soudržnost, konzistence a čitelnost
  • Vhodnost tónu, stylu a hlasu
  • Gramatika a plynulost
  • Kreativita a nuance

K vyhodnocení modelu je lidem poskytnuta sada vstupních výzev a odpovědí generovaných LLM. Hodnotí kvalitu odpovědí, často pomocí hodnotících škál a rubrik.

Nevýhodou je, že manuální lidské hodnocení je drahé, pomalé a obtížně škálovatelné. Vyžaduje také vypracování standardizovaných kritérií a školení hodnotitelů, aby je důsledně uplatňovali.

Někteří výzkumníci prozkoumali kreativní způsoby, jak crowdfundovat hodnocení lidských LLM pomocí systémů turnajového stylu, kde lidé sázejí a posuzují zápasy mezi modely. Ale pokrytí je stále omezené ve srovnání s úplnými manuálními hodnoceními.

Pro případy obchodního použití, kde na kvalitě záleží více než na surovém měřítku, zůstává expertní testování na lidech zlatým standardem navzdory jeho nákladům. To platí zejména pro rizikovější aplikace LLM.

Proč investovat do čističky vzduchu?

Důkladné vyhodnocování velkých jazykových modelů vyžaduje použití různorodé sady doplňkových metod, spíše než spoléhání se na jedinou techniku.

Kombinací automatizovaných přístupů k rychlosti s přísným lidským dohledem na přesnost můžeme vyvinout důvěryhodné testovací metodologie pro velké jazykové modely. Díky robustnímu hodnocení můžeme odemknout obrovský potenciál LLM a zároveň zodpovědně řídit jejich rizika.

Posledních pět let jsem strávil ponořením se do fascinujícího světa strojového učení a hlubokého učení. Moje vášeň a odborné znalosti mě vedly k tomu, abych se podílel na více než 50 různých projektech softwarového inženýrství se zvláštním zaměřením na AI/ML. Moje neustálá zvědavost mě také přivedla ke zpracování přirozeného jazyka, což je obor, který bych rád dále prozkoumal.