Mesterséges Intelligencia

Nagy nyelvű modellek értékelése: Műszaki útmutató

Közzététel:

3 hónap

Január 29, 2024

A nagy nyelvi modellek (LLM), például a GPT-4, a Claude és a LLaMA népszerűsége robbanásszerűen megnőtt. A lenyűgözően emberszerű szöveget generáló képességüknek köszönhetően ezeket az AI-rendszereket ma már mindenre használják a tartalomkészítéstől az ügyfélszolgálati chatbotokig.

De honnan tudhatjuk, hogy ezek a modellek valóban jók-e? Mivel folyamatosan új LLM-eket jelentenek be, és mindegyik azt állítja, hogy nagyobbak és jobbak, hogyan értékeljük és hasonlítsuk össze teljesítményüket?

Ebben az átfogó útmutatóban megvizsgáljuk a nagy nyelvi modellek értékelésének legjobb technikáit. Megvizsgáljuk az egyes megközelítések előnyeit és hátrányait, hogy mikor alkalmazhatók a legjobban, és hogyan hasznosíthatja őket saját LLM-tesztje során.

Feladatspecifikus mérőszámok

Az LLM értékelésének egyik legegyszerűbb módja az, ha szabványos mérőszámok segítségével teszteljük a bevált NLP-feladatokon. Például:

összefoglalás

Az összegzési feladatoknál a mérőszámok, mint pl PIROS (Recall-Oriented Understudy for Gisting Evaluation) általánosan használtak. A ROUGE összehasonlítja a modell által generált összefoglalót egy ember által írt „referencia” összefoglalóval, számolva a szavak vagy kifejezések átfedését.

A ROUGE számos íze létezik, mindegyiknek megvannak a maga előnyei és hátrányai:

ROUGE-N: Összehasonlítja az n-grammok (N szóból álló sorozatok) átfedését. ROUGE-1 unigramokat (egyetlen szavakat) használ, ROUGE-2 biggramokat használ, stb. Előnye, hogy rögzíti a szórendet, de túl szigorú lehet.
ROUGE-L: A leghosszabb közös részsorozaton (LCS) alapul. Rugalmasabb a szórendben, de a fő pontokra összpontosít.
ROUGE-W: Az LCS egyezéseket a jelentőségük alapján súlyozza. Kísérletek a ROUGE-L fejlesztésére.

Általában a ROUGE mérőszámok gyorsak, automatikusak, és jól használhatók a rendszerösszegzések rangsorolásához. Azonban nem mérik a koherenciát vagy a jelentést. Egy összefoglaló magas ROUGE pontszámot kaphat, és még mindig értelmetlen.

A ROUGE-N képlete:

$ROUGE-N = Σ ^{s \in {Referencia összefoglalók}} Σ ^{g r a m n \in s} C o u n t ( g r a m ^{n} ) Σ ^{s \in {Referencia összefoglalók}} Σ ^{g r a m n \in s} C o u n t ^{ma t c h} ( g r a m ^{n} )$

Ahol:

Count_{match}(gram_n) az n-gramok száma mind a generált, mind a referenciaösszegzésben.
Count(gram_n) az n-gramok száma a referenciaösszegzésben.

Például ROUGE-1 esetén (unigramm):

Generált összefoglaló: „A macska ült.”
Referencia összefoglalása: „A macska a szőnyegen ült.”
Átfedő unigramok: „A”, „macska”, „ült”
ROUGE-1 pontszám = 3/5 = 0.6

ROUGE-L a leghosszabb közös részsorozatot (LCS) használja. Rugalmasabb a szórenddel. A képlet a következő:

$ROUGE-L = max(hossz(generált),hossz(referencia)) L CS ( generált , referencia )$

Hol LCS a leghosszabb közös részsorozat hossza.

ROUGE-W súlyozza az LCS meccseket. Figyelembe veszi az egyes mérkőzések jelentőségét az LCS-ben.

Fordítás

Gépi fordítási feladatokhoz, KÉK (Bilingual Evaluation Understudy) egy népszerű mérőszám. A BLEU méri a hasonlóságot a modell kimeneti fordítása és a professzionális emberi fordítások között, n-gramos pontossággal és rövidségi büntetéssel.

A BLEU működésének fő szempontjai:

Összehasonlítja az n-grammok átfedéseit n-re 4-ig (unigramm, bigramm, trigramm, 4-gramm).
Kiszámítja az n-gramos pontosság geometriai átlagát.
Rövidségi büntetést alkalmaz, ha a fordítás sokkal rövidebb, mint a hivatkozás.
Általában 0 és 1 között mozog, ahol az 1 tökéletesen illeszkedik a referenciához.

A BLEU meglehetősen jól korrelál a fordítás minőségére vonatkozó emberi ítéletekkel. De még mindig vannak korlátai:

Csak a referenciákhoz méri a pontosságot, nem a visszahívást vagy az F1-et.
Küzd a kreatív fordításokkal, különböző megfogalmazások használatával.
Fogékony a fordítási trükkökkel való „játékra”.

Más fordítási mérőszámok, mint például a METEOR és a TER, megpróbálják javítani a BLEU gyengeségein. Általában azonban az automatikus mérőszámok nem rögzítik teljes mértékben a fordítás minőségét.

Egyéb feladatok

Az összegzésen és fordításon kívül az olyan mérőszámok, mint az F1, a pontosság, az MSE és egyebek felhasználhatók az LLM teljesítményének értékelésére olyan feladatoknál, mint:

Szöveges besorolás
Információ kinyerése
Kérdés válasz
Hangulatelemzés
Nyelvtani hibák észlelése

A feladatspecifikus mérőszámok előnye, hogy az értékelés teljesen automatizálható szabványosított adatkészletekkel, mint pl Osztag a minőségbiztosításhoz és ragasztó benchmark számos feladathoz. Az eredmények könnyen nyomon követhetők az idő múlásával, ahogy a modellek javulnak.

Ezek a mutatók azonban szűken fókuszálnak, és nem mérik az általános nyelvi minőséget. Az egyetlen feladat metrikáin jól teljesítő LLM-ek általában nem tudnak koherens, logikus és hasznos szöveget generálni.

Kutatási referenciaértékek

Az LLM-ek értékelésének népszerű módja az, hogy teszteljük őket széles körű kutatási referenciaértékekkel, amelyek különböző témákat és készségeket fednek le. Ezek a referenciaértékek lehetővé teszik a modellek gyors méretarányos tesztelését.

Néhány jól ismert benchmark:

Pillanatragasztó – 11 különböző nyelvi feladatból álló kihívásokkal teli készlet.
ragasztó – 9 mondatértési feladat gyűjteménye. Egyszerűbb, mint a SuperGLUE.
MMLU – 57 különböző STEM, társadalom- és bölcsészettudományi feladat. A tudást és a gondolkodási képességet teszteli.
Winograd Schema Challenge – Józan ész érvelést igénylő névmásfeloldási problémák.
ARC – Kihívó természetes nyelvi érvelési feladatok.
Hellaswag – Józan ésszel való érvelés helyzetekről.
PIQA – Diagramokat igénylő fizika kérdések.

Az ehhez hasonló benchmarkok értékelésével a kutatók gyorsan tesztelhetik a modelleket a matematika, a logika, az érvelés, a kódolás, a józan ész és még sok más teljesítményére. A helyesen megválaszolt kérdések százalékos aránya a modellek összehasonlításának mérőszámává válik.

A benchmarkokkal kapcsolatos fő probléma azonban az képzési adatok szennyeződése. Sok benchmark tartalmaz olyan példákat, amelyeket a modellek már az előképzés során láttak. Ez lehetővé teszi a modelleknek, hogy „memorizálni” konkrét kérdésekre ad választ, és a valódi képességeiknél jobban teljesítenek.

Megpróbálják "fertőtlenít” benchmarkokat az átfedő példák eltávolításával. De ezt nehéz átfogóan megtenni, különösen akkor, ha a modellek láthatták a kérdések átfogalmazott vagy lefordított változatait.

Tehát bár a benchmarkok a készségek széles skáláját képesek hatékonyan tesztelni, nem tudják megbízhatóan mérni a valódi érvelési képességeket, és nem tudják elkerülni a szennyeződés miatti pontszáminflációt. Kiegészítő értékelési módszerekre van szükség.

LLM önértékelés

Érdekes megközelítés, ha egy LLM értékeli egy másik LLM eredményeit. Az ötlet az, hogy kihasználjuk a „könnyebb” feladat koncepcióját:

Egy LLM számára nehéz lehet jó minőségű kimenetet előállítani.
De egyszerűbb feladat lehet annak meghatározása, hogy egy adott kimenet jó-e.

Például, bár egy LLM-nek nehézségei támadhatnak egy tényszerű, koherens bekezdés létrehozásával a semmiből, könnyebben meg tudja ítélni, hogy egy adott bekezdés logikus és illeszkedik-e a kontextushoz.

Tehát a folyamat a következő:

Adja át a bemeneti parancsot az első LLM-nek a kimenet generálásához.
Adja át a bemeneti prompt + generált kimenetet a második „értékelő” LLM-nek.
Tegyen fel egy kérdést az értékelő LLM-nek a kimenet minőségének értékeléséhez. pl. „Van logikus értelme a fenti válasznak?”

Ez a megközelítés gyorsan megvalósítható, és automatizálja az LLM értékelést. De van néhány kihívás:

A teljesítmény nagymértékben függ az értékelő LLM kiválasztásától és a gyors megfogalmazástól.
Az eredeti feladat nehézsége korlátozza. Az összetett érvelés értékelése még mindig nehéz az LLM-ek számára.
Számításilag költséges lehet, ha API-alapú LLM-eket használ.

Az önértékelés különösen ígéretes a begyűjtött információk értékeléséhez RAG (retrieval-augmented generáció) rendszerek. További LLM-lekérdezések ellenőrizhetik, hogy a visszakeresett kontextust megfelelően használják-e.

Összességében az önértékelés potenciális lehetőségeket mutat, de a végrehajtás során odafigyelést igényel. Inkább kiegészíti, mint helyettesíti az emberi értékelést.

Emberi értékelés

Tekintettel az automatizált mérőszámok és benchmarkok korlátaira, az emberi értékelés még mindig az aranyszabvány az LLM minőség szigorú értékelésében.

A szakértők részletes minőségi értékelést tudnak adni a következőkről:

Pontosság és tényszerűség
Logika, érvelés és józan ész
Koherencia, következetesség és olvashatóság
A hangszín, a stílus és a hang megfelelősége
Nyelvtaniság és folyékonyság
Kreativitás és árnyalat

A modell értékeléséhez az emberek egy sor beviteli promptot és az LLM által generált válaszokat kapnak. Felmérik a válaszok minőségét, gyakran értékelési skálákat és rubrikákat használnak.

Hátránya, hogy a manuális emberi értékelés drága, lassú és nehezen skálázható. Ezenkívül szabványosított kritériumok kidolgozását és az értékelők képzését is megköveteli ezek következetes alkalmazása.

Egyes kutatók kreatív módokat tártak fel az emberi LLM-értékelések tömeges finanszírozására versenyszerű rendszerekkel, ahol az emberek a modellek közötti párosításokra fogadnak és ítélkeznek. De a lefedettség továbbra is korlátozott a teljes kézi értékelésekhez képest.

Az olyan üzleti felhasználási esetekben, amikor a minőség fontosabb, mint a nyers méret, a szakértői humán tesztelés továbbra is az aranystandard a költségek ellenére. Ez különösen igaz az LLM-ek kockázatosabb alkalmazásaira.

Következtetés

A nagy nyelvi modellek alapos kiértékeléséhez a kiegészítő módszerek sokféle eszköztárát kell használni, nem pedig egyetlen technikára hagyatkozni.

A gyorsaság automatizált megközelítéseinek és a pontosság szigorú emberi felügyeletének kombinálásával megbízható tesztelési módszereket fejleszthetünk ki nagy nyelvi modellekhez. A robusztus értékeléssel felszabadíthatjuk az LLM-ekben rejlő hatalmas potenciált, miközben felelősségteljesen kezeljük kockázataikat.

Kapcsolódó témák:AI GPT Láma mutatók

Up Next

Navigálás a téves információs korszakban: Az adatközpontú generatív AI esete

Ne hagyd ki

A kiszolgáló nélküli következtetés jövője nagy nyelvi modellekhez

Aayush Mittal

Az elmúlt öt évet azzal töltöttem, hogy elmerüljek a gépi tanulás és a mélytanulás lenyűgöző világában. Szenvedélyem és szakértelmem késztetett arra, hogy több mint 50 különféle szoftverfejlesztési projektben működjek közre, különös tekintettel az AI/ML-re. Folyamatos kíváncsiságom a természetes nyelvi feldolgozás felé is vonzott, amely terület, amelyet szívesen fedezek fel.

Egyesül.AI

Nagy nyelvű modellek értékelése: Műszaki útmutató

Mesterséges Intelligencia

Nagy nyelvű modellek értékelése: Műszaki útmutató

Tartalomjegyzék