AI 101

Mis on inimeste tagasisidest õppimine (RLHF)

avaldatud

1 aasta tagasi

Märtsil 29, 2023

Pidevalt arenevas tehisintellekti maailmas on inimese tagasisidest õppimine (RLHF) murranguline tehnika, mida on kasutatud täiustatud keelemudelite, nagu ChatGPT ja GPT-4, väljatöötamiseks. Selles ajaveebi postituses käsitleme RLHF-i keerukust, uurime selle rakendusi ja mõistame selle rolli tehisintellektisüsteemide kujundamisel, mis toidavad tööriistu, millega me igapäevaselt suhtleme.

RLHF (Inforcement Learning From Human Feedback) on täiustatud lähenemine tehisintellektisüsteemide koolitamisele, mis ühendab tugevdavat õppimist inimeste tagasisidega. See on viis luua jõulisem õppeprotsess, kaasates mudelkoolitusprotsessi inimtreenerite tarkuse ja kogemused. See tehnika hõlmab inimese tagasiside kasutamist tasusignaali loomiseks, mida seejärel kasutatakse mudeli käitumise parandamiseks tugevdava õppe kaudu.

Lihtsamalt öeldes on tugevdav õpe protsess, mille käigus tehisintellekti agent õpib keskkonnaga suheldes ja preemiate või karistuste kujul tagasisidet vastu võtma. Agendi eesmärk on aja jooksul maksimeerida kumulatiivset tasu. RLHF täiustab seda protsessi, asendades või täiendades eelmääratletud tasustamisfunktsioone inimese loodud tagasisidega, võimaldades seega mudelil paremini tabada inimeste keerulisi eelistusi ja arusaamu.

Kuidas RLHF töötab

RLHF-i protsessi võib jagada mitmeks etapiks:

Esialgne mudelikoolitus: Alguses treenitakse tehisintellekti mudelit juhendatud õppe abil, kus inimtreenerid annavad sildistatud näiteid õigest käitumisest. Mudel õpib etteantud sisendite põhjal ennustama õiget tegevust või väljundit.
Inimeste tagasiside kogumine: Pärast esialgse mudeli väljaõpetamist kaasatakse inimkoolitajad mudeli toimivuse kohta tagasiside andmisse. Nad järjestavad erinevad mudeliga loodud väljundid või tegevused nende kvaliteedi või korrektsuse alusel. Seda tagasisidet kasutatakse preemiasignaali loomiseks tugevdava õppe eest.
Tugevdusõpe: Seejärel kohandatakse mudelit proksimaalse poliitika optimeerimise (PPO) või sarnaste algoritmide abil, mis sisaldavad inimese loodud tasu signaale. Mudel jätkab oma jõudluse parandamist, õppides inimkoolitajate tagasisidest.
Iteratiivne protsess: Inimeste tagasiside kogumise ja mudeli täiustamise protsessi tugevdamise õppimise kaudu korratakse iteratiivselt, mis viib mudeli jõudluse pideva paranemiseni.

RLHF ChatGPT-s ja GPT-4-s

ChatGPT ja GPT-4 on OpenAI poolt välja töötatud tipptasemel keelemudelid, mis on koolitatud RLHF-i abil. See tehnika on mänginud otsustavat rolli nende mudelite jõudluse parandamisel ja muutes need suutlikumaks tekitada inimsarnaseid reaktsioone.

ChatGPT puhul koolitatakse esialgset mudelit juhendatud peenhäälestuse abil. Inimeste tehisintellekti koolitajad osalevad vestlustes, täites nii kasutaja kui ka tehisintellekti assistendi rolle, et luua andmestik, mis esindab erinevaid vestlusstsenaariume. Seejärel õpib mudel sellest andmekogumist, ennustades vestluses järgmist sobivat vastust.

Järgmisena algab inimeste tagasiside kogumise protsess. AI koolitajad järjestavad mitu mudeliga loodud vastust nende asjakohasuse, sidususe ja kvaliteedi alusel. See tagasiside teisendatakse preemiasignaaliks ja mudelit peenhäälestatakse tugevdavate õppealgoritmide abil.

GPT-4, oma eelkäija GPT-3 täiustatud versioon, järgib sarnast protsessi. Esialgne mudel on koolitatud, kasutades tohutut andmekogumit, mis sisaldab teksti erinevatest allikatest. Inimeste tagasiside lisatakse seejärel tugevdamise õppimise faasi, mis aitab mudelil tabada peeneid nüansse ja eelistusi, mida ei ole lihtne eelnevalt määratletud tasustamisfunktsioonidesse kodeerida.

RLHF-i eelised AI-süsteemides

RLHF pakub tehisintellektisüsteemide (nt ChatGPT ja GPT-4) arendamisel mitmeid eeliseid:

Parem jõudlus: Kaasates õppeprotsessi inimeste tagasisidet, aitab RLHF AI-süsteemidel paremini mõista keerulisi inimeste eelistusi ja toota täpsemaid, sidusamaid ja kontekstipõhisemaid vastuseid.
Kohandatavus: RLHF võimaldab tehisintellekti mudelitel kohaneda erinevate ülesannete ja stsenaariumidega, õppides inimkoolitajate mitmekülgsetest kogemustest ja teadmistest. See paindlikkus võimaldab mudelitel hästi toimida erinevates rakendustes, alates vestluspõhisest AI-st kuni sisu genereerimiseni ja kaugemalgi.
Vähendatud eelarvamused: Iteratiivne tagasiside kogumise ja mudeli täpsustamise protsess aitab käsitleda ja leevendada esialgsetes koolitusandmetes esinevaid eelarvamusi. Kui inimkoolitajad hindavad ja järjestavad mudeli loodud väljundeid, saavad nad tuvastada ja käsitleda soovimatut käitumist, tagades, et tehisintellekti süsteem on inimväärtustega paremini kooskõlas.
Pidev täiustamine: RLHF-protsess võimaldab mudeli jõudlust pidevalt parandada. Kuna inimkoolitajad annavad rohkem tagasisidet ja mudel läbib tugevdusõppe, muutub see kvaliteetsete väljundite loomisel järjest osavamaks.
Suurenenud ohutus: RLHF aitab kaasa turvalisemate tehisintellektisüsteemide arendamisele, võimaldades inimkoolitajatel juhtida mudelit eemale kahjuliku või soovimatu sisu tekitamisest. See tagasisideahel aitab tagada, et tehisintellektisüsteemid on kasutajatega suhtlemisel töökindlamad ja usaldusväärsemad.

Väljakutsed ja tulevikuväljavaated

Kuigi RLHF on osutunud tõhusaks tehisintellektisüsteemide, nagu ChatGPT ja GPT-4, täiustamisel, on veel probleeme, mida tuleb ületada, ja valdkonnad, mida edasi uurida:

Skaalautuvuus: Kuna protsess tugineb inimeste tagasisidele, võib selle skaleerimine suuremate ja keerukamate mudelite koolitamiseks olla ressursimahukas ja aeganõudev. Tagasisideprotsessi automatiseerimiseks või poolautomaatseerimiseks mõeldud meetodite väljatöötamine võib aidata seda probleemi lahendada.
Ebaselgus ja subjektiivsus: Inimeste tagasiside võib olla subjektiivne ja võib koolitajate vahel erineda. See võib põhjustada preemiasignaalide ebakõlasid ja potentsiaalselt mõjutada mudeli jõudlust. Selgemate juhiste ja konsensuse loomise mehhanismide väljatöötamine inimkoolitajate jaoks võib aidata seda probleemi leevendada.
Pikaajaline väärtuste joondamine: Tehisintellektisüsteemide pikas perspektiivis inimeste väärtustega vastavusse viimine on väljakutse, millega tuleb tegeleda. Pidevad uuringud sellistes valdkondades nagu tasu modelleerimine ja tehisintellekti ohutus on tehisintellektisüsteemide arenedes väärtuste ühtlustamise säilitamisel üliolulised.

RLHF on AI-koolituse transformatiivne lähenemine, mis on olnud keskse tähtsusega täiustatud keelemudelite, nagu ChatGPT ja GPT-4, väljatöötamisel. Kombineerides tugevdamise õppimist inimeste tagasisidega, võimaldab RLHF AI-süsteemidel paremini mõista ja kohaneda inimeste keeruliste eelistustega, mis toob kaasa parema jõudluse ja ohutuse. Kuna tehisintellekti valdkond areneb jätkuvalt, on ülioluline investeerida selliste tehnikate nagu RLHF edasistesse uuringutesse ja arendusse, et tagada tehisintellektisüsteemide loomine, mis pole mitte ainult võimsad, vaid ka kooskõlas inimlike väärtuste ja ootustega.

Seotud teemad:tugevdamise õppimine

Järgmisena

AI difusioonimudelid – kõik, mida pead teadma

Ära jäta

Mis on mõjutamistehnoloogia ja kuidas see on seotud emotsioonide tehisintellektiga?

Alex McFarland

Alex McFarland on AI ajakirjanik ja kirjanik, kes uurib tehisintellekti uusimaid arenguid. Ta on teinud koostööd paljude AI idufirmade ja väljaannetega üle maailma.

Ühendage.AI

Mis on inimeste tagasisidest õppimine (RLHF)

AI 101

Mis on inimeste tagasisidest õppimine (RLHF)

Sisukord

Kuidas RLHF töötab

RLHF ChatGPT-s ja GPT-4-s

RLHF-i eelised AI-süsteemides

Väljakutsed ja tulevikuväljavaated

Ühendage.AI

Mis on inimeste tagasisidest õppimine (RLHF)

Sisukord

Kuidas RLHF töötab

RLHF ChatGPT-s ja GPT-4-s

RLHF-i eelised AI-süsteemides

Väljakutsed ja tulevikuväljavaated

Võib meeldida