peň Čo je to posilňovanie učenia z ľudskej spätnej väzby (RLHF) - Unite.AI
Spojte sa s nami
Masterclass AI:

AI 101

Čo je posilnenie učenia z ľudskej spätnej väzby (RLHF)

uverejnené

 on

V neustále sa vyvíjajúcom svete umelej inteligencie (AI) je Reinforcement Learning From Human Feedback (RLHF) prelomovou technikou, ktorá sa používa na vývoj pokročilých jazykových modelov, ako sú ChatGPT a GPT-4. V tomto blogovom príspevku sa ponoríme do zložitosti RLHF, preskúmame jeho aplikácie a pochopíme jeho úlohu pri formovaní systémov AI, ktoré poháňajú nástroje, s ktorými denne komunikujeme.

Reinforcement Learning From Human Feedback (RLHF) je pokročilý prístup k tréningu systémov AI, ktorý kombinuje učenie posilňovania s ľudskou spätnou väzbou. Je to spôsob, ako vytvoriť robustnejší vzdelávací proces začlenením múdrosti a skúseností ľudských trénerov do modelového tréningového procesu. Technika zahŕňa použitie ľudskej spätnej väzby na vytvorenie signálu odmeny, ktorý sa potom používa na zlepšenie správania modelu prostredníctvom posilňovacieho učenia.

Posilňovacie učenie, zjednodušene povedané, je proces, v ktorom sa agent AI učí robiť rozhodnutia interakciou s prostredím a získavaním spätnej väzby vo forme odmien alebo pokút. Cieľom agenta je maximalizovať kumulatívnu odmenu v priebehu času. RLHF vylepšuje tento proces nahradením alebo doplnením vopred definovaných funkcií odmeňovania spätnou väzbou generovanou človekom, čo umožňuje modelu lepšie zachytiť komplexné ľudské preferencie a chápania.

Ako funguje RLHF

Proces RLHF možno rozdeliť do niekoľkých krokov:

  1. Počiatočný modelový tréning: Na začiatku sa model AI trénuje pomocou učenia pod dohľadom, kde ľudskí tréneri poskytujú označené príklady správneho správania. Model sa učí predpovedať správnu akciu alebo výstup na základe daných vstupov.
  2. Zber ľudskej spätnej väzby: Po zaškolení počiatočného modelu sa ľudskí tréneri podieľajú na poskytovaní spätnej väzby o výkone modelu. Zoraďujú rôzne modelom generované výstupy alebo akcie na základe ich kvality alebo správnosti. Táto spätná väzba sa používa na vytvorenie signálu odmeny za posilňovanie učenia.
  3. Posilňovanie: Model sa potom doladí pomocou optimalizácie proximálnej politiky (PPO) alebo podobných algoritmov, ktoré zahŕňajú signály odmeny generované ľuďmi. Model pokračuje v zlepšovaní svojej výkonnosti tým, že sa učí zo spätnej väzby, ktorú poskytujú školitelia ľudí.
  4. Iteračný proces: Proces zhromažďovania spätnej väzby od ľudí a zdokonaľovania modelu prostredníctvom posilňovacieho učenia sa opakovane opakuje, čo vedie k neustálemu zlepšovaniu výkonnosti modelu.

RLHF v ChatGPT a GPT-4

ChatGPT a GPT-4 sú najmodernejšie jazykové modely vyvinuté OpenAI, ktoré boli vyškolené pomocou RLHF. Táto technika zohrala kľúčovú úlohu pri zvyšovaní výkonu týchto modelov a pri ich zvyšovaní schopnosti generovať reakcie podobné ľuďom.

V prípade ChatGPT sa počiatočný model trénuje pomocou doladenia pod dohľadom. Tréneri ľudskej AI sa zapájajú do konverzácií, pričom hrajú rolu používateľa aj asistenta AI, aby vytvorili množinu údajov, ktorá predstavuje rôzne konverzačné scenáre. Model sa potom učí z tohto súboru údajov predpovedaním ďalšej vhodnej reakcie v konverzácii.

Ďalej začína proces zhromažďovania ľudskej spätnej väzby. Tréneri AI hodnotia viacero odpovedí vygenerovaných modelom na základe ich relevantnosti, koherencie a kvality. Táto spätná väzba sa premení na signál odmeny a model sa doladí pomocou algoritmov učenia zosilnenia.

GPT-4, pokročilá verzia svojho predchodcu GPT-3, sa riadi podobným procesom. Počiatočný model je trénovaný pomocou rozsiahleho súboru údajov obsahujúceho text z rôznych zdrojov. Ľudská spätná väzba je potom začlenená do fázy učenia sa posilňovania, čo pomáha modelu zachytiť jemné nuansy a preferencie, ktoré nie je možné ľahko zakódovať do vopred definovaných funkcií odmeňovania.

Výhody RLHF v systémoch AI

RLHF ponúka niekoľko výhod pri vývoji systémov AI, ako sú ChatGPT a GPT-4:

  • Vylepšený výkon: Začlenením spätnej väzby od človeka do procesu učenia pomáha RLHF systémom AI lepšie pochopiť zložité ľudské preferencie a produkovať presnejšie, koherentnejšie a kontextovo relevantnejšie odpovede.
  • prispôsobivosť: RLHF umožňuje modelom AI prispôsobiť sa rôznym úlohám a scenárom tým, že sa učia z rôznych skúseností a odborných znalostí ľudských trénerov. Táto flexibilita umožňuje modelom dobre fungovať v rôznych aplikáciách, od konverzačnej AI po generovanie obsahu a ďalej.
  • Znížené predsudky: Iteračný proces zhromažďovania spätnej väzby a zdokonaľovania modelu pomáha riešiť a zmierňovať zaujatosti prítomné v počiatočných tréningových údajoch. Keď školitelia ľudí hodnotia a hodnotia výstupy generované modelom, môžu identifikovať a riešiť nežiaduce správanie, čím sa zabezpečí, že systém AI bude viac v súlade s ľudskými hodnotami.
  • Neustále zlepšovanie: Proces RLHF umožňuje neustále zlepšovanie výkonnosti modelu. Keďže školitelia ľudí poskytujú viac spätnej väzby a model prechádza posilňujúcim učením, stáva sa čoraz zdatnejším pri vytváraní vysokokvalitných výstupov.
  • Zvýšená bezpečnosť: RLHF prispieva k vývoju bezpečnejších systémov AI tým, že umožňuje ľudským trénerom odviesť model od vytvárania škodlivého alebo nechceného obsahu. Táto slučka spätnej väzby pomáha zaistiť, že systémy AI sú pri interakciách s používateľmi spoľahlivejšie a dôveryhodnejšie.

Výzvy a perspektívy do budúcnosti

Zatiaľ čo RLHF sa ukázal ako účinný pri zlepšovaní systémov AI, ako sú ChatGPT a GPT-4, stále existujú výzvy, ktoré treba prekonať, a oblasti pre budúci výskum:

  • škálovateľnosť: Keďže proces závisí od ľudskej spätnej väzby, jeho prispôsobenie na trénovanie väčších a komplexnejších modelov môže byť náročné na zdroje a čas. Tento problém by mohol pomôcť vyriešiť vývoj metód na automatizáciu alebo poloautomatizáciu procesu spätnej väzby.
  • Nejednoznačnosť a subjektivita: Spätná väzba od ľudí môže byť subjektívna a môže sa medzi školiteľmi líšiť. To môže viesť k nezrovnalostiam v signáloch odmeňovania a potenciálne ovplyvniť výkonnosť modelu. Vypracovanie jasnejších usmernení a mechanizmov vytvárania konsenzu pre školiteľov ľudí môže pomôcť zmierniť tento problém.
  • Dlhodobé vyrovnávanie hodnôt: Zabezpečiť, aby systémy umelej inteligencie zostali z dlhodobého hľadiska v súlade s ľudskými hodnotami, je výzvou, ktorú treba riešiť. Nepretržitý výskum v oblastiach, ako je modelovanie odmien a bezpečnosť umelej inteligencie, bude rozhodujúci pri udržiavaní súladu hodnôt s vývojom systémov umelej inteligencie.

RLHF je transformačný prístup vo výcviku AI, ktorý bol kľúčový pri vývoji pokročilých jazykových modelov, ako sú ChatGPT a GPT-4. Kombináciou posilňovacieho učenia s ľudskou spätnou väzbou umožňuje RLHF systémom AI lepšie porozumieť komplexným ľudským preferenciám a prispôsobiť sa im, čo vedie k zlepšeniu výkonu a bezpečnosti. Keďže oblasť AI neustále napreduje, je nevyhnutné investovať do ďalšieho výskumu a vývoja techník, ako je RLHF, aby sa zabezpečilo vytvorenie systémov AI, ktoré sú nielen výkonné, ale aj v súlade s ľudskými hodnotami a očakávaniami.

Alex McFarland je novinár a spisovateľ AI, ktorý skúma najnovší vývoj v oblasti umelej inteligencie. Spolupracoval s množstvom AI startupov a publikácií po celom svete.