Tekoäly

EUREKA: Ihmisen Tason Palkkion Suunnittelu Koodaamalla Suuria Kielen Malleja

Published November 21, 2023

Updated April 4, 2026

Kunal Kejriwal

Suurten kielen mallien edetessä viime vuosina, ei ole yllättävää, miksi nämä LLM-kehykset menestyvät semanttisina suunnittelijoina sekvenssin matalan tason päätöksenteon tehtävissä. Kehittäjät kuitenkin edelleen kohtaavat haasteita hyödyntääksesi LLM-kehysten täysimääräistä potentiaalia monimutkaisten matalan tason manipulaatiotehtävien oppimisessa. Vaikka nykyiset suuret kielen mallit ovat tehokkaita, niiden vaatii merkittävää alan ja aiheen asiantuntemusta oppiakseen jopa yksinkertaisia taitoja tai muodostamaan tekstipromptteja, mikä luo merkittävän aukon niiden suorituskyvyn ja ihmisen taituruuden välille.

Jotta tämä aukko voidaan silittää, kehittäjät Nvidia, CalTech, UPenn ja muut ovat esittäneet EUREKA:n, LLM-pohjaisen ihmisen tason suunnittelualgoritmin. EUREKA pyrkii hyödyntämään LLM-kehysten eri kykyjä, mukaan lukien koodaus, kontekstuaalinen parannus ja nollaus sisällön luominen, suorittaakseen ennennäkemätöntä optimointia palkkio koodeja. Nämä palkkio koodit yhdistettynä vahvistusoppimisella mahdollistavat kehyksille oppia monimutkaisia taitoja tai suorittaa manipulaatiotehtäviä.

Tässä artikkelissa tarkastelemme EUREKA-kehyksen kehittäjän näkökulmasta, tutkimalla sen kehystä, toimintaa ja tuloksia, jotka se saavuttaa palkkiofunktioiden luomisessa. Nämä funktiot, kehittäjien mukaan, ylittävät ihmisten luomat funktiot. Selvitämme myös, miten EUREKA-kehykset avaavat uuden lähestymistavan RLHF:lle (Vahvistusoppiminen Ihmisen Palaute) mahdollistaen gradienttivapaa kontekstuaalista oppimista. Aloita.

EUREKA: Johdanto

Tänään, huipputason LLM-kehykset kuten GPT-3 ja GPT-4 toimittavat erinomaisia tuloksia toimien semanttisina suunnittelijoina sekvenssin korkean tason päätöksenteon tehtävissä, mutta kehittäjät etsivät edelleen keinoja parantaa suorituskykyä matalan tason manipulaatiotehtävissä, kuten kynän pyörittäminen. Lisäksi kehittäjät ovat havainneet, että vahvistusoppiminen voidaan käyttää saavuttamaan kestäviä tuloksia taiturimaisissa olosuhteissa ja muissa aloissa, edellyttäen, että palkkiofunktiot on suunniteltu huolellisesti ihmisten toimesta, ja nämä palkkiofunktiot pystyvät tarjoamaan oppimissignaaleja suotuisille käyttäytymisille. Kun verrataan todellisen maailman vahvistusoppimistehtäviin, jotka hyväksyvät harvat palkkiot, se tekee mallille vaikeaksi oppia kuvioita, ja palkkioiden muotoilu tarjoaa välttämättömät askelmaiset oppimissignaalit. Lisäksi palkkiofunktiot, vaikka niiden merkitystä, ovat erittäin haasteellisia suunnitella, ja alisuunnitellut näistä funktioista usein johtavat tahattomiin käyttäytymisiin.

… (rest of the translation remains the same, following the exact structure and format as the original)