Gondolatvezetők
Benchmarkok LLM-ek számára

Ismerje meg a benchmarkok szerepét és korlátait az LLM teljesítményértékelésében. Fedezze fel a robusztus LLM-ek fejlesztésének technikáit.
A nagy nyelvi modellek hatalmas népszerűségre tettek szert az elmúlt években. Úgy értem, láttad. Az LLM-ek kivételes képessége, hogy megértsék az emberi nyelvi parancsokat, teljesen tökéletes integrációvá váltak a vállalkozások számára, támogatva a kritikus munkafolyamatokat és automatizálva a feladatokat a maximális hatékonyság érdekében. Ráadásul az átlagfelhasználók értelmezésén túlmenően az LLM-ek sokkal többre képesek. És ahogy egyre növekszik rájuk való támaszkodásunk, valóban nagyobb figyelmet kell fordítanunk a szükséges pontosság és megbízhatóság biztosítására szolgáló intézkedésekre. Ez egy globális feladat, amely egész intézményeket érint, de az üzleti életben ma már számos benchmark használható az LLM teljesítményének értékelésére a különböző területeken. Ezek tesztelhetik a modell képességeit a megértésben, a logikaépítésben, a matematikában stb., és az eredmények meghatározzák, hogy egy LLM készen áll-e az üzleti életben való alkalmazásra.
Ebben a cikkben összegyűjtöttem egy átfogó listát az LLM-értékelés legnépszerűbb benchmarkjairól. Részletesen megvitatjuk az egyes benchmarkokat, és meglátjuk, hogy a különböző LLM-ek hogyan teljesítenek az értékelési kritériumokkal szemben. De először értsük meg részletesebben az LLM értékelést.
Mi az az LLM értékelés?
A többi mesterségesintelligencia-modellhez hasonlóan az LLM-eket is olyan specifikus benchmarkok alapján kell értékelni, amelyek a nyelvi modell teljesítményének különböző szempontjait értékelik: tudás, pontosság, megbízhatóság és következetesség. A szabvány általában a következőket tartalmazza:
- Felhasználói lekérdezések értelmezése: Annak felmérése, hogy a modell képes-e pontosan megérteni és értelmezni a felhasználói bemenetek széles skáláját.
- Kimenet ellenőrzése: A mesterséges intelligencia által generált válaszok ellenőrzése egy megbízható tudásbázissal, hogy megbizonyosodjon arról, hogy helyesek és relevánsak.
- Robusztusság: Annak mérése, hogy a modell mennyire teljesít kétértelmű, hiányos vagy zajos bemenetekkel.
Az LLM-értékelés lehetővé teszi a fejlesztők számára, hogy hatékonyan azonosítsák és kezeljék a korlátokat, így javíthatják az általános felhasználói élményt. Ha egy LLM-et alaposan kiértékelnek, akkor elég pontos és robusztus lesz ahhoz, hogy kezelje a különböző valós alkalmazásokat, még azokat is, amelyek kétértelmű vagy váratlan bemenetekkel rendelkeznek.
referenciaértékek
Az LLM-ek a mai napig az egyik legbonyolultabb technológia, és a legbonyolultabb alkalmazásokat is képesek ellátni. Tehát az értékelési folyamatnak egyszerűen ugyanolyan összetettnek kell lennie, próbára téve gondolkodási folyamatát és technikai pontosságát.
A benchmark meghatározott adatkészleteket, mérőszámokat és értékelési feladatokat használ az LLM teljesítményének tesztelésére, és lehetővé teszi a különböző LLM-ek összehasonlítását és pontosságuk mérését, ami viszont a jobb teljesítmény révén az iparág fejlődését segíti elő.
Íme néhány az LLM teljesítményének legjellemzőbb aspektusai:
- Tudás: A modell tudását különböző területeken kell tesztelni. Erre való a tudás-benchmark. Kiértékeli, hogy a modell mennyire képes előhívni a különböző területekről származó információkat, mint például a fizika, a programozás, a földrajz stb.
- logikus Érvelés: A modell lépésről lépésre „gondolkodó” és logikus következtetés levonására való képességének tesztelését jelenti, jellemzően olyan forgatókönyveket foglal magában, ahol a modellnek a mindennapi ismeretek és a logikus érvelés alapján kell kiválasztania a legvalószínűbb folytatást vagy magyarázatot.
- Szövegértés: A modelleknek kiválónak kell lenniük a természetes nyelv értelmezésében, és ennek megfelelően kell válaszokat generálniuk. A teszt úgy néz ki, mint a szövegrészek alapján feltett kérdések megválaszolása a megértés, a következtetés és a részletek megtartása érdekében. Mint egy iskolai olvasópróba.
- A kód értelmezése: Erre azért van szükség, hogy mérjük, mennyire jártas a modell a kód megértésében, írásában és hibakeresésében. Ezek a benchmarkok olyan kódolási feladatokat vagy problémákat adnak a modellnek, amelyeket a modellnek pontosan meg kell oldania, gyakran egy sor programozási nyelvet és paradigmát lefedve.
- Világtudás: A modell által a világról alkotott általános ismeretek felfogásának értékelése. Ezekben az adatkészletekben általában olyan kérdések vannak, amelyek helyes megválaszolásához széleskörű, enciklopédikus ismeretekre van szükség, ami különbözik a specifikusabb és speciális tudás-benchmarkoktól.
„Tudás” referenciaértékek
MMLU (Multimodal Language Understanding)
Ez a benchmark azért készült, hogy tesztelje az LLM-nek a tényszerű ismeretek felfogását különböző témákban, például bölcsészettudományok, társadalomtudományok, történelem, számítástechnika, sőt a jog területén. 57 kérdés és 15 XNUMX feladat mind arra irányul, hogy a modell kiváló érvelési képességekkel rendelkezzen. Ez teszi az MMLU-t jó eszközzé egy LLM ténybeli tudásának és érvelésének felmérésére különböző témákkal kapcsolatban.
A közelmúltban a fent említett területeken az LLM-ek értékelésének kulcsfontosságú mércéjévé vált. A fejlesztők mindig úgy szeretnék optimalizálni modelljeiket, hogy felülmúlják a többieket ebben a benchmarkban, ami de facto szabványt jelent az LLM-ek fejlett érvelésének és tudásának értékeléséhez. A nagyvállalati szintű modellek megmutatták lenyűgöző pontszámok ezen a benchmarkon, beleértve a GPT-4-omnit 88.7%-on, a Claude 3 Opust 86.8%-on, a Gemini 1.5 Pro-t 85.9%-on és a Llama-3 70B-t 82%-on. A kis modellek általában nem teljesítenek olyan jól ezen a viszonyítási alapon, általában nem haladják meg a 60-65%-ot, de a Phi-3-Small-7b legutóbbi, 75.3%-os teljesítményén érdemes elgondolkodni.
Az MMLU azonban nem mentes a hátrányoktól: olyan ismert problémákkal rendelkezik, mint a kétértelmű kérdések, helytelen válaszok, és hiányzik a kontextus. És sokan úgy gondolják, hogy egyes feladatai túl könnyűek a megfelelő LLM értékeléshez.
Szeretném világossá tenni, hogy az olyan benchmarkok, mint az MMLU, nem ábrázolják tökéletesen a valós forgatókönyveket. Ha egy LLM kiváló pontszámot ér el ezen, az nem mindig jelenti azt, hogy a téma szakértője lett. A benchmarkok hatóköre meglehetősen korlátozott, és gyakran feleletválasztós kérdésekre támaszkodnak, amelyek soha nem képesek teljes mértékben megragadni a valós interakciók összetettségét és kontextusát. A valódi megértéshez tények ismerete és e tudás dinamikus alkalmazása szükséges, ami kritikus gondolkodást, problémamegoldást és kontextuális megértést igényel. Ezen okok miatt az LLM-eket folyamatosan finomítani és frissíteni kell, hogy a modell megtartsa a benchmark relevanciáját és hatékonyságát.
GPQA (Graduate-Level Google-Proof Q&A Benchmark)
Ez a benchmark az LLM-eket a logikai érvelés alapján értékeli a adatbázisba mindössze 448 kérdéssel. Területi szakértők fejlesztették ki, és biológia, fizika és kémia témákat fed le.
Minden kérdés a következő ellenőrzési folyamaton megy keresztül:
- Ugyanezen téma szakértője válaszol a kérdésre, és részletes visszajelzést ad.
- A kérdés írója ezen visszajelzések alapján felülvizsgálja a kérdést.
- A felülvizsgált kérdésre egy második szakértő válaszol.
Ez a folyamat valóban megbizonyosodhat arról, hogy a kérdések objektívek, pontosak és kihívást jelentenek egy nyelvi modell számára. Még a tapasztalt PhD tudósok is csak 65%-os pontosságot értek el ezekben a kérdésekben, míg a GPT-4-omni csak 53.6%-ot ér el, ami rávilágít az emberi és a gépi intelligencia közötti szakadékra.
A magas minősítési követelmények miatt az adathalmaz valójában meglehetősen kicsi, ami némileg korlátozza az összehasonlítás pontosságát, és nagy hatásméreteket igényel. A kérdéseket létrehozó és érvényesítő szakértők az Upworktől származtak, így szakértelmük és a tárgyalt témák alapján potenciálisan torzításokat vezettek be.
Kód-benchmarkok
HumanEval
164 programozási probléma, igazi próbája az LLM-ek kódolási képességeinek. ez van HumanEval. Úgy tervezték, hogy tesztelje a nagy nyelvi modellek (LLM) alapvető kódolási képességeit. A pass@k metrikát használja a generált kód funkcionális pontosságának megítélésére, amely kiadja annak valószínűségét, hogy a legjobb k LLM által generált kódminta közül legalább egy átmegy a teszteseteken.
Míg a HumanEval adatkészlet tartalmaz függvényaláírásokat, docstringeket, kódtörzseket és számos egységtesztet, nem tartalmazza a valós kódolási problémák teljes skáláját, amelyek egyszerűen nem fogják megfelelően tesztelni a modell azon képességét, hogy megfelelő kódot készítsenek különböző forgatókönyvekhez.
MBPP (többnyire alapvető Python programozás)
Mbpp A benchmark 1,000 tömeges forrásból származó Python programozási kérdésből áll. Ezek belépő szintű problémák, és az alapvető programozási készségekre összpontosítanak. Néhány felvételes és finomhangolási megközelítéseket alkalmaz a modell teljesítményének értékeléséhez, a nagyobb modellek általában jobban teljesítenek ezen az adatkészleten. Mivel azonban az adatkészlet főleg belépő szintű programokat tartalmaz, még mindig nem tükrözi teljes mértékben a valós alkalmazások bonyolultságát és kihívásait.
Matematikai referenciaértékek
Míg a legtöbb LLM nagyon jól strukturálja a szabványos válaszokat, a matematikai érvelés sokkal nagyobb problémát jelent számukra. Miért? Mert ehhez a kérdés megértéséhez, a matematikai érveléssel és a helyes válasz levezetéséhez szükséges lépésről lépésre logikus megközelítésre van szükség.
A „Chain of Thought” (CoT) módszer az LLM-ek matematikával kapcsolatos benchmarkok alapján történő értékelésére szolgál, és magában foglalja a modellek lépésről lépésre történő magyarázatát a probléma megoldása során. Ennek több előnye is van. Átláthatóbbá teszi az érvelési folyamatot, segít azonosítani a modell logikájának hibáit, és lehetővé teszi a problémamegoldó képességek részletesebb értékelését. Az összetett problémákat egyszerűbb lépések sorozatára bontva a CoT javíthatja a modell teljesítményét a matematikai benchmarkokon, és mélyebb betekintést nyújthat annak érvelési képességeibe.
GSM8K: Népszerű matematikai benchmark
Az LLM-ekben a matematikai képességek értékelésének egyik jól ismert mércéje a GSM8K adatkészlet. A GSM8K 8.5 ezer középiskolai matematikai feladatból áll, amelyek megoldása néhány lépést igényel, és a megoldások elsősorban elemi számítások sorozatát foglalják magukban. Általában a nagyobb modellek vagy a kifejezetten matematikai érvelésre kiképzett modellek általában jobban teljesítenek ezen a viszonyítási alapon, például a GPT-4 modellek 96.5%-os pontszámmal büszkélkedhetnek, míg a DeepSeekMATH-RL-7B némileg lemarad, 88.2%-kal.
Míg a GSM8K hasznos a modell azon képességének felmérésére, hogy képes-e kezelni az általános iskolai szintű matematikai problémákat, előfordulhat, hogy nem képes teljes mértékben megragadni a modell azon képességét, hogy fejlettebb vagy változatosabb matematikai kihívásokat oldjon meg, így korlátozza a matematikai képességek átfogó mérőszámaként való hatékonyságát.
A matematikai adatkészlet: átfogó alternatíva
A matematikai adatkészlet a benchmarkok, például a GSM8K hiányosságaival foglalkozott. Ez az adathalmaz kiterjedtebb, lefedi az elemi aritmetikai feladatokat a középiskoláig, sőt az egyetemi szintű problémákat is. Összehasonlítják az emberekkel is: a matematikát nem kedvelő számítástechnikai doktorandusz 40%-os, egy aranyérmes pedig 90%-os pontosságot ér el.
Ez egy átfogóbb értékelést nyújt az LLM matematikai képességeiről. Gondoskodik annak bizonyításáról, hogy a modell jártas az alapvető aritmetikában, és kompetens az olyan összetett területeken, mint az algebra, a geometria és a számítás. A problémák megnövekedett összetettsége és sokfélesége azonban kihívást jelenthet a modellek számára a nagy pontosság elérésében, különösen azoknál, amelyek nincsenek kifejezetten a matematikai fogalmak széles skálájára kiképezve. Ezenkívül a matematikai adatkészlet változatos problémaformátumai következetlenségeket okozhatnak a modell teljesítményében, ami sokkal nehezebbé teszi a végleges következtetések levonását a modell általános matematikai jártasságáról.
A Gondolatlánc módszer használata a matematikai adatkészlettel javíthatja az értékelést, mivel feltárja az LLM-ek lépésről lépésre való érvelési képességeit a matematikai kihívások széles spektrumában. Az ehhez hasonló kombinált megközelítés biztosítja az LLM valódi matematikai képességeinek robusztusabb és részletesebb értékelését.
Szövegértési referenciaértékek
A szövegértés értékelése értékeli a modell azon képességét, hogy képes-e megérteni és feldolgozni az összetett szöveget, ami különösen alapvető az olyan alkalmazásoknál, mint az ügyfélszolgálat, a tartalomgenerálás és az információkeresés. Ennek a képességnek a felmérésére van néhány benchmark, amelyek mindegyike egyedi tulajdonságokkal rendelkezik, amelyek hozzájárulnak a modell képességeinek átfogó értékeléséhez.
RACE (olvasott szövegértés adatkészlet a vizsgákból)
A RACE benchmarkok közel 28,000 100,000 szövegrészt és 12 18 kérdést tartalmaznak az angol vizsgákról XNUMX és XNUMX év közötti kínai diákok számára. Nem korlátozza az adott szövegrészekből kinyerhető kérdéseket és válaszokat, egyenletessé téve a feladatokat. annál nagyobb kihívást jelent.
Témák és kérdéstípusok széles skáláját fedi le, ami alapos értékelést tesz lehetővé, és különböző nehézségi szintű kérdéseket tartalmaz. Szintén a RACE kérdései kifejezetten az emberi olvasási készségek tesztelésére szolgálnak, és területi szakértők készítik őket.
A benchmarknak azonban vannak hátrányai. Mivel kínai oktatási anyagokra fejlesztették ki, hajlamos olyan kulturális torzítások bevezetésére, amelyek nem tükrözik a globális kontextust. Ezenkívül egyes kérdések magas nehézségi szintje valójában nem reprezentálja a tipikus valós feladatokat. Tehát a teljesítményértékelés nem lehet olyan pontos.
DROP (diszkrét érvelés a bekezdések felett)
Egy másik jelentős megközelítés a DROP (Discrete Reasoning Over Chapters), amely kihívást jelent a modelleknek, hogy bekezdéseken keresztül diszkrét érvelést hajtsanak végre. 96,000 XNUMX kérdést tartalmaz az LLM-ek érvelési képességeinek tesztelésére, a kérdések a Wikipédiából származnak, és az Amazon Mechanical Turkből származnak. A DROP-kérdések gyakran hívnak modelleket matematikai műveletek, például összeadás, kivonás és összehasonlítás végrehajtására egy szakaszon szétszórt információk alapján.
A kérdések kihívást jelentenek. Megkövetelik az LLM-ektől, hogy több számot keressenek meg a szövegrészben, és ezeket összeadják vagy kivonják, hogy megkapják a végső választ. A nagy modellek, mint például a GPT-4 és a tenyér 80% és 85%, míg az emberek 96% a DROP adatkészleten.
Common Sense benchmarkok
A józan ész tesztelése a nyelvi modellekben érdekes, de egyben kulcsfontosságú is, mert felméri a modell azon képességét, hogy olyan ítéleteket és következtetéseket hozzon, amelyek összhangban vannak az emberi érvelésünkkel. Ellentétben velünk, akik gyakorlati tapasztalatok révén átfogó világmodellt fejlesztünk ki, a nyelvi modelleket hatalmas adathalmazokon képezzük anélkül, hogy ténylegesen megértenék a kontextust. Ez azt jelenti, hogy a modellek olyan feladatokkal küzdenek, amelyek a mindennapi helyzetek intuitív megértését, logikus érvelést és gyakorlati ismereteket igényelnek, amelyek nagyon fontosak a robusztus és megbízható AI-alkalmazásokhoz.
HellaSwag (Nehezebb befejezések, hosszabb összefüggések és alacsony szintű tevékenységek ellenséges nemzedékekkel járó helyzetekben)
A Hellaswagot Rowan Zellers és munkatársai a Washingtoni Egyetemen és az Allen Mesterséges Intelligencia Intézetben fejlesztették ki. Úgy tervezték, hogy tesztelje a modell azon képességét, hogy előre jelezze egy adott forgatókönyv legvalószínűbb folytatását. Ez a benchmark az Adversarial Filtering (AF) felhasználásával készült, ahol a diszkriminátorok sorozata iteratív módon választja ki az ellenséges, gép által generált rossz válaszokat. Ez a módszer egy olyan adatkészletet hoz létre, amely triviális példákat tartalmaz az emberek számára, de kihívást jelent a modellek számára, ami „aranyhaj” nehézségi zónát eredményez.
Míg a Hellaswag kihívást jelentett a korábbi modellek számára, a legmodernebb modellek, mint a GPT-4 emberi pontossághoz közeli teljesítményszintet értek el, ami jelentős előrelépést jelez ezen a területen. Ezek az eredmények azonban azt sugallják, hogy folyamatosan fejlődő benchmarkokra van szükség, hogy lépést tartsunk az AI-képességek fejlődésével.
Nyitott könyv
Az Openbook adatkészlet 5957 elemi szintű természettudományos feleletválasztós kérdésből áll. A kérdéseket a nyitott könyvvizsgákból gyűjtötték össze, és úgy dolgozták ki, hogy felmérjék a tárgy emberi megértését.
Az Openbook benchmark az információ-visszakeresésen túl érvelési képességet igényel. A GPT-4 jelenleg a legmagasabb, 95.9%-os pontosságot éri el.
Az OpenbookQA nyílt könyvvizsgák alapján készült, és 5,957 feleletválasztós elemi szintű természettudományos kérdésből áll. Ezeket a kérdéseket arra tervezték, hogy megvizsgálják 1,326 alapvető tudományos tény megértését és azok újszerű helyzetekben való alkalmazását.
A Hellaswaghoz hasonlóan a korábbi modellek az OpenbookQA-t kihívásnak találták, de a modern modellek, mint például a GPT-4, szinte emberi teljesítményszintet értek el. Ez az előrehaladás rávilágít annak fontosságára, hogy még összetettebb és árnyaltabb referenciaértékeket kell kidolgozni, hogy továbbra is feszegethessük a mesterséges intelligencia megértésének határait.
Elegendők a referenciaértékek az LLM teljesítményértékeléséhez?
Igen, bár szabványosított megközelítést biztosítanak az LLM teljesítményének értékeléséhez, félrevezetőek is lehetnek. A Large Model Systems Organisation szerint egy jó LLM benchmarknak méretezhetőnek kell lennie, képesnek kell lennie az új modellek viszonylag kis számú próbaszámmal történő értékelésére, és egyedi rangsorolást kell biztosítania minden modell számára. De vannak okai annak, hogy miért nem elegendőek. Íme néhány:
Benchmark szivárgás
Ez gyakori találkozás, és akkor fordul elő, ha a képzési adatok átfedésben vannak a tesztadatokkal, félrevezető értékelést adva. Ha egy modell már találkozott néhány tesztkérdéssel a képzés során, előfordulhat, hogy az eredménye nem tükrözi pontosan a valódi képességeit. De egy ideális viszonyítási alapnak minimálisra kell csökkentenie a memorizálást, és a valós forgatókönyveket kell tükröznie.
Értékelési elfogultság
Az LLM benchmark ranglisták az LLM-ek teljesítményének összehasonlítására szolgálnak különböző feladatokban. Azonban ezekre a ranglistákra támaszkodva a modellek összehasonlítása lehetséges félrevezető. A benchmark tesztek egyszerű módosításai, például a kérdések sorrendjének megváltoztatása, akár nyolc pozícióval is eltolhatják a modellek rangsorát. Ezenkívül az LLM-ek a pontozási módszerektől függően eltérően teljesíthetnek, kiemelve az értékelési torzítások figyelembevételének fontosságát.
Nyitott végűség
A valós LLM interakció magában foglalja a kívánt AI-kimenetek generálásához szükséges promptok tervezését. Az LLM-kimenetek a promptok hatékonyságától függenek, a benchmarkok pedig az LLM-ek környezettudatosságának tesztelésére szolgálnak. Míg a benchmarkokat az LLM környezettudatosságának tesztelésére tervezték, nem mindig tükrözik közvetlenül a valós teljesítményt. Például egy olyan modell, amely 100%-os pontszámot ér el egy benchmark adatkészleten, mint például az LSAT, nem garantálja ugyanolyan szintű pontosságot a gyakorlati alkalmazásokban. Ez aláhúzza annak fontosságát, hogy az LLM-értékelés során figyelembe vegyük a valós feladatok nyílt végű jellegét.
Hatékony értékelés a robusztus LLM-ek számára
Tehát most már tudja, hogy a benchmarkok nem mindig a legjobb megoldás, mert nem mindig általánosíthatók minden problémára. De vannak más módszerek is.
Egyéni referenciaértékek
Ezek tökéletesek bizonyos viselkedések és funkciók tesztelésére feladat-specifikus forgatókönyvekben. Tegyük fel, hogy ha az LLM-t orvosi tisztek számára tervezték, az orvosi beállításokból gyűjtött adatkészletek hatékonyan a való világ forgatókönyveit tükrözik. Ezek az egyéni benchmarkok a domain-specifikus nyelvi megértésre, a teljesítményre és az egyedi környezeti követelményekre összpontosíthatnak. A referenciaértékeknek a lehetséges valós forgatókönyvekhez való igazításával biztosíthatja, hogy az LLM általánosságban jól teljesítsen, és kitűnjön azokban a konkrét feladatokban, amelyekre szánták. Ez segíthet a modell képességeiben meglévő hiányosságok vagy gyengeségek korai felismerésében és kezelésében.
Adatszivárgás-észlelési csővezeték
Ha azt szeretné, hogy az értékelések „megmutassák” az integritást, nagyon fontos az adatszivárgásmentes benchmark folyamat. Adatszivárgás akkor történik, amikor a benchmark adatok szerepelnek a modell előképzési korpuszában, ami mesterségesen magas teljesítményű pontszámokat eredményez. Ennek elkerülése érdekében a benchmarkokat össze kell vetni a képzés előtti adatokkal. Plusz lépések a korábban látott információk elkerülésére. Ez magában foglalhatja olyan szabadalmaztatott vagy újonnan összeállított adatkészletek használatát, amelyeket elkülönítve tartanak a modell betanítási folyamatától – ez biztosítja, hogy a kapott teljesítménymutatók tükrözzék a modell jó általánosítási képességét.
Emberi értékelés
Az automatizált mérőszámok önmagukban nem képesek megragadni a modell teljesítményének teljes spektrumát, különösen, ha a nyelv megértésének és generálásának nagyon árnyalt és szubjektív aspektusairól van szó. Itt az emberi értékelés sokkal jobb értékelést ad:
- Szakemberek felvétele amely részletes és megbízható értékeléseket tud nyújtani, különösen a speciális területeken.
- crowdsourcing! Az olyan platformok, mint az Amazon Mechanical Turk, lehetővé teszik a különféle emberi ítéletek gyors és alacsony költségű összegyűjtését.
- Közösségi visszajelzés: Az olyan platformok használata, mint az LMSYS ranglista arénája, ahol a felhasználók szavazhatnak és modelleket összehasonlíthatnak, további betekintést nyújt. Az LMSYS Chatbot Arena Hard például különösen hatékony a legjobb modellek közötti finom különbségek kiemelésére a közvetlen felhasználói interakciók és szavazatok révén.
Következtetés
Értékelés és benchmarking nélkül nem tudnánk megtudni, hogy az LLM-ek valós feladatok kezelésére való képessége olyan pontos és alkalmazható-e, mint amilyennek gondoljuk. De, mint mondtam, a benchmarkok nem teljesen bolondbiztos módszer ennek ellenőrzésére, hanem hiányosságokhoz vezethetnek az LLM-ek teljesítményében. Ez lelassíthatja a munkához valóban robusztus LLM-ek fejlődését is.
Ennek így kell lennie egy ideális világban. Az LLM-ek megértik a felhasználói lekérdezéseket, azonosítják a hibákat a promptokban, végrehajtják a feladatokat az utasításoknak megfelelően, és megbízható kimeneteket generálnak. Az eredmények már most is nagyszerűek, de nem ideálisak. Itt bizonyulnak nagyon hasznosnak a feladatspecifikus benchmarkok, éppúgy, mint az emberi értékelés és a benchmark szivárgásának észlelése. Ezek felhasználásával lehetőségünk nyílik valóban robusztus LLM-ek előállítására.