Kapcsolatba velünk

Mesterséges intelligencia

Az erősítő tanulás sok arca: nagy nyelvi modellek alakítása

mm

Közzététel:

 on

Az elmúlt években a Large Language Models (LLM) jelentősen újradefiniálta a mesterséges intelligencia (AI) területét, lehetővé téve a gépek számára, hogy figyelemreméltó hozzáértéssel megértsék és generáljanak emberszerű szöveget. Ez a siker nagyrészt a gépi tanulási módszerek fejlődésének tulajdonítható, beleértve a mély tanulást és a megerősítéses tanulást (RL). Míg a felügyelt tanulás döntő szerepet játszott az LLM-ek képzésében, a megerősített tanulás hatékony eszközzé vált képességeik finomítására és fejlesztésére az egyszerű mintafelismerés mellett.

A megerősítő tanulás lehetővé teszi az LLM-ek számára, hogy tapasztalatokból tanuljanak, és optimalizálják viselkedésüket jutalmak vagy büntetések alapján. Az RL különböző változatait, mint például az emberi visszajelzésekből történő tanulás megerősítése (RLHF), az igazolható jutalmakkal végzett tanulás megerősítése (RLVR), a csoportos relatív irányelvek optimalizálása (GRPO) és a közvetlen preferenciaoptimalizálás (DPO) fejlesztették ki az LLM-ek finomhangolására, biztosítva az emberi preferenciákhoz való igazodásukat és javítva érvelési képességeiket.

Ez a cikk az LLM-eket formáló különféle megerősítő tanulási megközelítéseket tárja fel, megvizsgálva azok hozzájárulását és hatását a mesterséges intelligencia fejlesztésére.

Az erősítő tanulás megértése az AI-ban

A megerősítési tanulás (RL) egy olyan gépi tanulási paradigma, amelyben az ügynök megtanul döntéseket hozni a környezettel való interakció révén. Ahelyett, hogy kizárólag a címkézett adatkészletekre hagyatkozna, az ügynök lépéseket tesz, jutalmak vagy büntetések formájában visszajelzést kap, és ennek megfelelően módosítja stratégiáját.

Az LLM-ek számára a megerősítő tanulás biztosítja, hogy a modellek olyan válaszokat generáljanak, amelyek összhangban vannak az emberi preferenciákkal, az etikai irányelvekkel és a gyakorlati érveléssel. A cél nem csak az, hogy szintaktikailag helyes mondatokat állítsunk elő, hanem az is, hogy azokat hasznossá, értelmessé és a társadalmi normákhoz igazodóvá tegyük.

Megerősítő tanulás az emberi visszajelzésből (RLHF)

Az LLM képzésben az egyik legszélesebb körben használt RL technika az  RLHF. Ahelyett, hogy kizárólag előre meghatározott adatkészletekre hagyatkozna, az RLHF javítja az LLM-eket azáltal, hogy az emberi preferenciákat beépíti a képzési körbe. Ez a folyamat általában a következőket tartalmazza:

  1. Emberi visszajelzések gyűjtése: Az emberi értékelők értékelik a modell által generált válaszokat, és rangsorolják azokat minőség, koherencia, segítőkészség és pontosság alapján.
  2. Jutalommodell képzése: Ezeket a rangsorokat azután egy külön jutalmazási modell képzésére használják, amely megjósolja, hogy az emberek melyik kimenetet részesítik előnyben.
  3. Finomhangolás RL-vel: Az LLM-et ezzel a jutalmazási modellel képezik ki, hogy az emberi preferenciák alapján finomítsa válaszait.

Ezt a megközelítést alkalmazták olyan modellek fejlesztésében, mint a ChatGPT és a Claude. Míg az RLHF létfontosságú szerepet játszott abban, hogy az LLM-eket jobban hozzáigazítsák a felhasználói preferenciákhoz, csökkentsék a torzításokat és javítsák az összetett utasítások követésének képességét, ez erőforrás-igényes, és nagyszámú emberi annotátort igényel az AI-kimenetek kiértékeléséhez és finomhangolásához. Ez a korlátozás arra késztette a kutatókat, hogy alternatív módszereket vizsgáljanak, mint pl Megerősítő tanulás az AI visszajelzésből (RLAIF) és a Megerősítő tanulás ellenőrizhető jutalmakkal (RLVR).

RLAIF: Megerősítő tanulás a mesterséges intelligencia visszajelzéseiből

Az RLHF-től eltérően az RLAIF a mesterséges intelligencia által generált preferenciákra támaszkodik az LLM-ek képzéséhez, nem pedig emberi visszajelzésekre. Úgy működik, hogy egy másik mesterséges intelligencia rendszert, jellemzően egy LLM-et alkalmaz a válaszok értékelésére és rangsorolására, és olyan automatizált jutalmazási rendszert hoz létre, amely irányíthatja az LLM tanulási folyamatát.

Ez a megközelítés kezeli az RLHF-hez kapcsolódó skálázhatósági problémákat, ahol az emberi megjegyzések költségesek és időigényesek lehetnek. Az AI visszacsatolás alkalmazásával az RLAIF növeli a konzisztenciát és a hatékonyságot, csökkentve a szubjektív emberi vélemények okozta változékonyságot. Bár az RLAIF értékes megközelítés az LLM-ek skálán történő finomításához, néha megerősítheti a mesterséges intelligencia-rendszerekben meglévő torzításokat.

Megerősítő tanulás ellenőrizhető jutalmakkal (RLVR)

Míg az RLHF és az RLAIF a szubjektív visszajelzésekre támaszkodik, az RLVR objektív, programozottan ellenőrizhető jutalmakat használ az LLM-ek képzéséhez. Ez a módszer különösen hatékony olyan feladatoknál, amelyeknek egyértelmű helyességi kritériumai vannak, mint például:

  • Matematikai problémamegoldás
  • Kódgenerálás
  • Strukturált adatfeldolgozás

Az RLVR-ben a modell válaszait előre meghatározott szabályok vagy algoritmusok segítségével értékelik ki. Az ellenőrizhető jutalomfüggvény meghatározza, hogy egy válasz megfelel-e az elvárt kritériumoknak, és magas pontszámot rendel a helyes válaszokhoz, alacsony pontszámot a helytelenekhez.

Ez a megközelítés csökkenti az emberi címkézéstől és a mesterséges intelligencia torzításától való függőséget, így a képzés méretezhetőbbé és költséghatékonyabbá válik. Például a matematikai érvelési feladatokban az RLVR-t olyan modellek finomítására használták, mint pl DeepSeek R1-Zero, lehetővé téve számukra az önfejlesztést emberi beavatkozás nélkül.

Megerősítő tanulás optimalizálása LLM-ek számára

A fent említett technikákon túlmenően, amelyek irányítják, hogy az LLM-ek hogyan kapják meg a jutalmakat és tanuljanak a visszajelzésekből, az RL-nek ugyanilyen döntő szempontja az, hogy a modellek hogyan fogadják el (vagy optimalizálják) viselkedésüket (vagy irányelveiket) e jutalmak alapján. Itt lépnek életbe a fejlett optimalizálási technikák.

Az RL-ben az optimalizálás lényegében a modell viselkedésének frissítése a jutalom maximalizálása érdekében. Míg a hagyományos RL-megközelítések gyakran instabilitástól és hatástalanságtól szenvednek az LLM-ek finomhangolásakor, új megközelítéseket fejlesztettek ki az LLM-ek optimalizálására. Íme az LLM-ek képzéséhez használt vezető optimalizálási stratégiák:

  • Proximális házirend-optimalizálás (PPO): A PPO az egyik legszélesebb körben használt RL technika az LLM-ek finomhangolására. Az RL egyik fő kihívása annak biztosítása, hogy a modellfrissítések javítsák a teljesítményt anélkül, hogy hirtelen, drasztikus változások történnének, amelyek csökkenthetik a válasz minőségét. A PPO ezt úgy kezeli, hogy ellenőrzött házirend-frissítéseket vezet be, a modellre adott válaszokat fokozatosan és biztonságosan finomítja a stabilitás fenntartása érdekében. Ezenkívül egyensúlyt teremt a felfedezés és a kiaknázás között, segítve a modelleket a jobb válaszok felfedezésében, miközben megerősíti a hatékony viselkedést. Ezenkívül a PPO minta-hatékony, kisebb adatkötegek használatával csökkenti a képzési időt, miközben megőrzi a nagy teljesítményt. Ez a módszer széles körben elterjedt használt Az olyan modellekben, mint a ChatGPT, biztosítja, hogy a válaszok hasznosak, relevánsak maradjanak, és összhangban legyenek az emberi elvárásokkal anélkül, hogy túlzottan alkalmazkodnának bizonyos jutalomjelekhez.
  • Közvetlen preferenciaoptimalizálás (DPO): A DPO egy másik RL-optimalizálási technika, amely a modell kimeneteinek közvetlen optimalizálására összpontosít, hogy igazodjon az emberi preferenciákhoz. A hagyományos RL-algoritmusokkal ellentétben, amelyek összetett jutalommodellezésre támaszkodnak, a DPO közvetlenül optimalizálja a modellt a bináris preferenciaadatok alapján – ami azt jelenti, hogy egyszerűen meghatározza, hogy az egyik kimenet jobb-e a másiknál. A megközelítés az emberi kiértékelőkre támaszkodik, hogy rangsorolják a modell által egy adott prompthoz generált több választ. Ezután finomhangolja a modellt, hogy növelje annak valószínűségét, hogy a jövőben magasabb rangú válaszokat adjon. Az adatvédelmi tisztviselő különösen hatékony olyan forgatókönyvekben, ahol nehéz részletes jutalommodelleket szerezni. Az RL egyszerűsítésével a DPO lehetővé teszi az AI-modellek teljesítményének javítását a bonyolultabb RL technikákhoz kapcsolódó számítási teher nélkül.
  • Group Relative Policy Optimization (GRPO): Az LLM-ek RL-optimalizálási technikáinak egyik legújabb fejlesztése a GRPO. Míg a tipikus RL technikák, mint például a PPO, értékmodellt igényelnek a különböző válaszok előnyeinek becsléséhez, amelyek nagy számítási teljesítményt és jelentős memóriaerőforrást igényelnek, a GRPO kiküszöböli a külön értékmodell szükségességét, mivel különböző generációktól származó jutalomjeleket használ ugyanazon a prompton. Ez azt jelenti, hogy ahelyett, hogy a kimeneteket egy statikus értékmodellhez hasonlítaná, összehasonlítja őket egymással, jelentősen csökkentve a számítási többletköltséget. A GRPO egyik legfigyelemreméltóbb alkalmazása ben volt látható DeepSeek R1-Zero, egy olyan modell, amelyet teljesen felügyelt finomhangolás nélkül képeztek ki, és az önfejlődés révén fejlett érvelési készségeket fejlesztett ki.

A lényeg

A tanulás megerősítése döntő szerepet játszik a nagy nyelvi modellek (LLM) finomításában azáltal, hogy javítja az emberi preferenciákhoz való igazodást és optimalizálja érvelési képességeiket. Az olyan technikák, mint az RLHF, RLAIF és RLVR különféle megközelítéseket kínálnak a jutalomalapú tanuláshoz, míg az olyan optimalizálási módszerek, mint a PPO, DPO és GRPO, javítják a képzés hatékonyságát és stabilitását. Ahogy az LLM-k folyamatosan fejlődnek, a megerősítő tanulás szerepe kritikussá válik abban, hogy ezek a modellek intelligensebbé, etikusabbá és ésszerűbbé váljanak.

Dr. Tehseen Zia a COMSATS Egyetem iszlamábádi egyetemi docense, a Bécsi Műszaki Egyetemen szerzett PhD fokozatot mesterséges intelligenciából. A mesterséges intelligencia, a gépi tanulás, az adattudomány és a számítógépes látás területére specializálódott, és jelentős mértékben hozzájárult jó hírű tudományos folyóiratokban publikált publikációkhoz. Dr. Tehseen különböző ipari projekteket is vezetett vezető kutatóként, és AI-tanácsadóként is szolgált.