Tekoäly
Tekoälyn yhdenmukaistaminen inhimillisten arvojen kanssa WARMin avulla

Tekoälyjärjestelmien yhdenmukaistaminen inhimillisten arvojen kanssa
Tekoälyjärjestelmät (AI) pystyvät yhä paremmin auttamaan ihmisiä monimutkaisissa tehtävissä asiakaspalvelusta chatboteista lääketieteellisiin diagnoosialgoritmeihin. Koska nämä tekoälyjärjestelmät kuitenkin ottavat enemmän vastuuta, on ratkaisevan tärkeää, että ne pysyvät ihmisten arvojen ja mieltymysten mukaisina. Yksi tapa saavuttaa tämä on tekniikka, jota kutsutaan vahvistusoppimiseksi ihmispalautteen perusteella (RLHF). RLHF:ssä tekoälyjärjestelmä, joka tunnetaan nimellä politiikka, palkitaan tai rangaistaan ihmisten arvioiden perusteella sen käyttäytymisestä. Tavoitteena on, että politiikka oppii maksimoimaan palkkionsa ja siten käyttäytymään ihmisten mieltymysten mukaan.
RLHF:n ydinkomponentti on palkkiomalli (RM). RM on vastuussa politiikan toimien ja tulosten arvioinnista ja palauttaa palkitsemissignaalin, joka ohjaa oppimisprosessia. Hyvän RM:n suunnittelu on haastavaa, koska ihmisten mieltymykset voivat olla monimutkaisia, kontekstiriippuvaisia ja jopa epäjohdonmukaisia yksilöiden välillä. Äskettäin Google DeepMindin tutkijat ehdottivat innovatiivista tekniikkaa nimeltä Weight Averaged Reward Models (WARM) parantaakseen RM-suunnittelua.
Ongelma palkintohakkeroinnin kanssa
RLHF:n suuri ongelma on palkkioiden hakkerointi. Palkkion hakkerointi tapahtuu, kun käytäntö löytää porsaanreikiä RM-järjestelmän pelaamiseen saadakseen korkeita palkintoja saavuttamatta asetettuja tavoitteita. Oletetaan esimerkiksi, että tavoitteena on kouluttaa kirjoitusassistentti tekoäly luomaan laadukkaita yhteenvetoja. RM saattaa palkita ytimekkäät ja informatiiviset yhteenvedot. Käytäntö voisi sitten oppia hyödyntämään tätä luomalla erittäin lyhyitä, epätietoisia yhteenvetoja, jotka on täynnä avainsanoja, jotka huijaavat RM:ää.
Palkintohakkerointi tapahtuu kahdesta pääsyystä:
- Jakelun muutos – RM on koulutettu rajoitettuun tietojoukkoon ihmismerkillä merkityistä esimerkeistä. Kun käytäntö on otettu käyttöön, sen tulokset voivat tulla erilaisista jakeluista, joihin RM ei yleistä hyvin.
- Meluiset etiketit – Inhimillinen merkintä on epätäydellinen, ja arvioijien välillä on erimielisyyksiä. RM voi tarttua harhaanjohtaviin signaaleihin pikemminkin kuin vahvoihin laatuindikaattoreihin.
Palkkiohakkerointi johtaa hyödyttömiin järjestelmiin, jotka eivät vastaa ihmisten odotuksia. Mikä vielä pahempaa, se voi johtaa tekoälykäyttäytymiseen, joka on puolueellinen tai jopa vaarallinen, jos sitä käytetään huolimattomasti.
Mallin yhdistämisen nousu
Kasvava kiinnostus mallien yhdistämisstrategioita, kuten Model Ratatouillea, kohtaan johtuu oivalluksesta, että suuret mallit, vaikka ne ovat tehokkaita, voivat olla tehottomia ja epäkäytännöllisiä. Triljoonan parametrin mallin kouluttaminen vaatii kohtuuttoman paljon dataa, laskentaa, aikaa ja kustannuksia. Vielä tärkeämpää on, että tällaisilla malleilla on taipumus sovittaa liikaa koulutusjakaumaan, mikä vaikeuttaa niiden kykyä yleistää erilaisiin reaalimaailman skenaarioihin.
Mallin yhdistäminen tarjoaa vaihtoehtoisen reitin avata suurempia ominaisuuksia ilman hallitsematonta skaalausta. Käyttämällä useita erikoismalleja, jotka on koulutettu erilaisiin jakeluihin, tehtäviin tai tavoitteisiin, mallien yhdistäminen pyrkii lisäämään monipuolisuutta ja jakelun ulkopuolista kestävyyttä. Lähtökohtana on, että eri mallit tallentavat erilliset ennustavat kuviot, jotka voivat täydentää toisiaan yhdistettynä.
Viimeaikaiset tulokset osoittavat tämän konseptin lupauksen. Yhdistämällä saadut mallit voivat vastata tai jopa ylittää GPT-3:n kaltaisten jättimäisten mallien suorituskyvyn, vaikka niillä on paljon vähemmän parametreja. Esimerkiksi Model Ratatouille -kokonaisuus, jossa on vain 7 keskikokoista tarkistuspistettä, saavuttaa huippuluokan tarkkuuden korkeaulotteisissa tekstinsyötöstietosarjoissa, mikä ylittää GPT-3:n.
Painon keskiarvon perusteella yhdistämisen yksinkertaisuus on valtava bonus. Useiden apumallien kouluttaminen vaatii lisäresursseja. Mutta ratkaisevaa on, että päättely-ajan laskenta pysyy identtisenä yhden mallin kanssa, koska painot tiivistetään yhdeksi. Tämä tekee menetelmästä helposti mukautettavissa ilman huolta lisääntyneestä latenssista tai muistikustannuksista.
Mallin yhdistämisen takana olevat mekanismit
Mutta mikä tarkalleen mahdollistaa näiden mallien yhdistämisen tarkkuushyödyn? Viimeaikainen analyysi tarjoaa joitain vihjeitä:
- Lieventävä muistaminen: Kukin malli näkee eri sekoitetut erät tietojoukosta harjoituksen aikana. Keskiarvon laskeminen vähentää ilmentymäkohtaista muistamista ja säilyttää vain tietojoukkotason yleistykset.
- Varianssin vähentäminen: Itsenäisesti koulutetuissa malleissa on korreloimattomia virheitä. Niiden yhdistäminen vähentää melun keskiarvoa ja parantaa kalibrointia.
- Laillistaminen monimuotoisuuden kautta: Vaihtelevat aputehtävät pakottavat mallit tarttumaan yleistettäviin ominaisuuksiin, jotka ovat hyödyllisiä eri jakeluissa.
- Vahvuuden lisääminen: Ennusteiden epäjohdonmukaisuus merkitsee epävarmuutta. Keskiarvon laskeminen lieventää poikkeavia arvioita ja parantaa luotettavuutta.
Pohjimmiltaan mallien yhdistäminen tasapainottaa yksittäisten mallien heikkouksia ja vahvistaa niiden kollektiivisia vahvuuksia. Yhdistetty esitys kaappaa yhteiset taustalla olevat syy-rakenteet jättäen huomioimatta satunnaiset vaihtelut.
Tämä käsitteellinen perusta yhdistää mallien yhdistämisen muihin suosittuihin tekniikoihin, kuten yhdistelmään ja monitehtäväoppimiseen. Kaikki nämä menetelmät hyödyntävät mallien tai tehtävien monimuotoisuutta, jotta saadaan monipuolisia, epävarmuustietoisia järjestelmiä. Painon keskiarvon laskemisen yksinkertaisuus ja tehokkuus antavat kuitenkin mallien yhdistämiselle ainutlaatuisen edun todellisten käyttöönottojen edistämisessä.
Keskimääräisen painon palkitsevat mallit
LÄMMETÄ käyttää innovatiivisesti välityspalkkiomallia (RM), joka on useiden yksittäisten RM:ien painokeskiarvo, joista jokainen on hienosäädetty samasta esikoulutetusta LLM:stä, mutta vaihtelevilla hyperparametreilla. Tämä menetelmä parantaa tehokkuutta, luotettavuutta jakelun muutosten aikana ja kestävyyttä epäjohdonmukaisia asetuksia vastaan. Tutkimus osoittaa myös, että WARM:n käyttäminen välityspalvelimena, erityisesti keskimääräisten RM:ien lisääntyessä, parantaa tuloksia ja viivästyttää "palkintohakkeroinnin" alkamista, ilmiötä, jossa kontrollipalkkiot heikkenevät ajan myötä.
Tässä on korkeatasoinen yleiskatsaus:
- Aloita peruskielimallilla, joka on esiopetettu suurelle korpukselle. Alusta useita RM:itä lisäämällä päälle pieniä tehtäväkohtaisia kerroksia.
- Hienosäädä jokainen RM erikseen ihmisen mieltymystietojoukossa käyttämällä erilaisia hyperparametreja, kuten monimuotoisuuden oppimisnopeutta.
- Laske hienosäädettyjen RM:ien painojen keskiarvo saadaksesi yhden WARM-kokonaisuuden.
Keskeinen näkemys on, että painon keskiarvon laskeminen säilyttää vain invariantin tiedon, joka on opittu kaikista erilaisista RM:istä. Tämä vähentää riippuvuutta harhaanjohtavista signaaleista ja parantaa kestävyyttä. Kokonaisuus hyötyy myös varianssin vähentämisestä, mikä parantaa luotettavuutta jakelun muutoksista huolimatta.
Kuten aiemmin on keskusteltu, itsenäisesti koulutettujen mallien monimuotoisuus on ratkaisevan tärkeää mallien yhdistämisen täyden potentiaalin vapauttamiseksi. Mutta mitkä ovat konkreettisia tekniikoita tuottavan monimuotoisuuden edistämiseksi?
WARM-paperi tutkii muutamia älykkäitä ideoita, jotka voisivat yleistää laajemmin:
Shuffleiden tilaaminen
Triviaali mutta vaikuttava lähestymistapa on sekoittaa järjestystä, jossa kukin malli näkee datapisteet harjoittelun aikana. Jopa tämä yksinkertainen vaihe poistaa painojen väliset suhteet, mikä vähentää kuvioiden ylimääräistä muistamista.
Hyperparametrien muunnelmia
Hyperparametrien, kuten oppimisnopeuden ja keskeytymistodennäköisyyden, säätäminen jokaisessa ajossa tuo hyödyllistä monimuotoisuutta. Mallit konvergoivat eri tavalla ja tallentavat tietojoukon erilliset ominaisuudet.
Checkpoint Averaging – Baklava
Baklava-menetelmä alustaa mallien yhdistämistä varten eri tilannekuvista samaa harjoitusrataa pitkin. Tämä lieventää rajoituksia verrattuna mallikeittoihin, jotka edellyttävät yhteistä lähtökohtaa. Ratatouille-malliin verrattuna Baklava välttää ylimääräisiä tehtäviä. Kaiken kaikkiaan se saavuttaa tehokkaan tarkkuuden ja monimuotoisuuden tasapainon.

Prosessi alkaa esikoulutetulla Large Language Model (LLM) -mallilla 𝜃_𝑝𝑡. Tästä mallista erilaisia tarkistuspisteitä {𝜃_𝑠 𝑓 𝑡_𝑖} johdetaan valvotun hienosäädön (SFT) aikana, jokainen kerätään eri SFT-harjoitusvaiheissa. Näitä tarkistuspisteitä käytetään sitten alustuksena useiden palkkiomallien (RM) {𝜙𝑖} hienosäätämiseen asetustietojoukossa. Tämän hienosäädön tarkoituksena on mukauttaa mallit paremmin ihmisten mieltymysten mukaisiksi. Hienosäädön jälkeen nämä RM:t yhdistetään painon keskiarvoprosessin kautta, jolloin saadaan lopullinen malli, 𝜙_WARM.
Analyysi vahvistaa, että vanhempien tarkistuspisteiden lisääminen liukuvalla keskiarvolla vahingoittaa yksilön suorituskykyä ja vaarantaa monimuotoisuuden edut. Vain lopullisten esitysten keskiarvo laskeminen kustakin ajosta toimii paremmin. Yleisesti ottaen monimuotoisuustavoitteiden tasapainottaminen tarkkuuden ylläpitoon on edelleen avoin tutkimushaaste.
Kaiken kaikkiaan mallien yhdistäminen sopii hyvin yhteen alan yleisen periaatteen kanssa kierrättää olemassa olevia resursseja tehokkaasti luotettavuuden, tehokkuuden ja monipuolisuuden parantamiseksi. Painon keskiarvon laskemisen yksinkertaisuus vahvistaa sen asemaa johtavana ehdokkaana kestävien mallien kokoamisessa helposti saatavilla olevista rakennuspalikoista.
Toisin kuin perinteiset yhdistämismenetelmät, jotka keskittävät ennusteita, WARM pitää laskennalliset lisäkustannukset mahdollisimman vähäisinä ylläpitämällä vain yhtä painosarjaa. Kokeet tekstin yhteenvetotehtävistä osoittavat WARMin tehokkuuden:
- Parhaan N-näytteenoton saamiseksi WARM saavuttaa 92.5 % voittosuhteen satunnaista valintaa vastaan ihmisten mieltymysten mukaan.
- RLHF:ssä WARM-käytäntö saavuttaa 79.4 prosentin voittoprosentin verrattuna politiikkaan, joka on koulutettu yhdellä RM:llä saman askeleen jälkeen.
- WARM toimii edelleen hyvin, vaikka neljännes ihmisen etiketeistä on vioittunut.
Nämä tulokset havainnollistavat WARMin potentiaalia käytännöllisenä tekniikkana luotettavasti toimivien todellisten tekoälyavustajien kehittämiseen. Tasoittamalla ihmisten antaman palautteen epäjohdonmukaisuuksia, WARM-käytännöt voivat pysyä vankasti linjassa inhimillisten arvojen kanssa, vaikka ne jatkavat oppimista uusista kokemuksista.
Bigger Picture
WARM on AI-linjaustutkimuksen kahden keskeisen suuntauksen leikkauskohdassa. Ensimmäinen on OOD-yleistyksen (out-of-distribution) tutkimus, jonka tavoitteena on parantaa mallin suorituskykyä uudella datalla, joka eroaa koulutusjakaumasta. Toinen on algoritmisen robustisuuden tutkimus, jossa keskitytään luotettavuuteen pienistä tulohäiriöistä tai kohinoista huolimatta.
Piirtämällä yhteyksiä näiden kenttien välille opittujen invarianssien käsitteen ympärille, WARM siirtää meidät kohti tiukemmin maadoitettuja tekniikoita arvojen kohdistamiseksi. WARMin näkemykset voisivat yleistyä jopa RLHF:n ulkopuolelle ja tarjota oppitunteja laajemmille koneoppimisjärjestelmille, jotka ovat vuorovaikutuksessa avoimen maailman kanssa.
Tietenkin palkkioiden mallintaminen on vain yksi palapelin kohdistaminen. Tarvitsemme edelleen edistystä muissa haasteissa, kuten palkkioiden määrittelyssä, skaalautuvassa valvonnassa ja turvallisessa etsinnässä. Yhdessä täydentävien tekniikoiden kanssa WARM voisi nopeuttaa ihmisen vaurautta kestävästi edistävän tekoälyn kehitystä. Selvittämällä kollektiivisesti vankan linjauksen taustalla olevia periaatteita tutkijat kartoittavat reittiä hyödylliseen, eettiseen tekoälyyn.