stub Analoogiline ja tagasipöördumine: sukelduge Google DeepMindi hiljutistesse edusammudesse – Unite.AI
Ühenda meile

Kiire inseneritöö

Analoogiline ja tagasipöördumine: sukelduge Google DeepMindi hiljutistesse edusammudesse

mm

avaldatud

 on

Google DeepMind Prompt Engineering uus uuring

Sissejuhatus

Kiire projekteerimine keskendub tõhusate viipade väljatöötamisele, et suunata suuri keelemudeleid (LLM), nagu GPT-4, soovitud vastuste genereerimiseks. Hästi koostatud viip võib olla erinevus ebamäärase või ebatäpse vastuse ja täpse, läbinägeliku vastuse vahel.

Tehisintellekti laiemas ökosüsteemis on kiire inseneritöö üks paljudest meetoditest, mida kasutatakse keelemudelitest täpsema ja kontekstuaalselt asjakohasema teabe hankimiseks. Teised hõlmavad tehnikaid, nagu mõne võttega õppimine, kus mudelile antakse mõned näited, mis aitavad tal ülesandest aru saada, ja peenhäälestus, mille puhul mudelit õpetatakse edasi väiksema andmestiku põhjal, et oma vastuseid spetsialiseeruda.

Google DeepMind on hiljuti avaldanud kaks artiklit, mis käsitlevad kiiret inseneritööd ja selle potentsiaali parandada reageerimist mitmes olukorras.

Need dokumendid on osa AI kogukonnas käimasolevast uurimisest, et täpsustada ja optimeerida seda, kuidas me keelemudelitega suhtleme, ning pakuvad värsket teavet struktureerimisviipade kohta, mis võimaldavad paremat päringute käsitlemist ja andmebaasidega suhtlemist.

See artikkel süveneb nende uurimistööde üksikasjadesse, selgitab välja pakutud tehnikate mõisted, metoodikad ja tagajärjed, muutes selle kättesaadavaks isegi lugejatele, kellel on piiratud teadmised AI-st ja NLP-st.

1. artikkel: Suured keelemudelid kui analoogilised põhjendused

Esimeses artiklis pealkirjaga „Suured keelemudelid kui analoogilised mõistjad” tutvustatakse uut õhutusviisi, mille nimi on Analogical Prompting. Autorid Michihiro Yasunaga, Xinyun Chen ja teised ammutavad inspiratsiooni analoogsest arutlusest – kognitiivsest protsessist, mille käigus inimesed kasutavad uute probleemide lahendamiseks varasemaid kogemusi.

Põhimõisted ja metoodika

Analoogiline õhutus julgustab LLM-e looma ise asjakohaseid näiteid või teadmisi kontekstis, enne kui asuda lahendama antud probleemi. Selline lähenemine välistab vajaduse märgistatud näidiste järele, pakkudes üldistust ja mugavust ning kohandab loodud näidised iga konkreetse probleemiga, tagades kohanemisvõime.

Vasakul: traditsioonilised meetodid LLM-ide küsimiseks tuginevad üldistele sisenditele (0-shot CoT) või nõuavad märgistatud näiteid (mõne võttega CoT). Paremal: uudne lähenemine ärgitab LLM-e enne probleemide lahendamist ise asjakohaseid näiteid looma, kõrvaldades vajaduse märgistamise järele, kohandades näiteid igale ainulaadsele probleemile.

Vasakul: traditsioonilised meetodid LLM-ide küsimiseks tuginevad üldistele sisenditele (0-shot CoT) või nõuavad märgistatud näiteid (mõne võttega CoT). Paremal: uudne lähenemine ajendab LLM-e enne probleemide lahendamist ise asjakohaseid näiteid looma, kõrvaldades vajaduse märgistamise järele, kohandades samal ajal näiteid igaühe jaoks.

Isetehtud eeskujud

Esimene töös esitatud tehnika on ise loodud näidised. Idee on kasutada LLM-ide koolituse käigus omandatud ulatuslikke teadmisi, et aidata neil uusi probleeme lahendada. Protsess hõlmab sihtprobleemi täiendamist juhistega, mis ajendavad mudelit asjakohaseid probleeme ja lahendusi meelde tuletama või genereerima.

Näiteks antakse mudelile ülesandeks probleemi korral meelde tuletada kolm erinevat ja asjakohast probleemi, kirjeldada neid ja selgitada nende lahendusi. See protsess on mõeldud läbiviimiseks ühe käiguga, võimaldades LLM-il luua asjakohaseid näiteid ja lahendada esialgse probleemi sujuvalt. '#' sümbolite kasutamine viipades aitab vastust struktureerida, muutes selle organiseeritumaks ja mudeli jaoks hõlpsamini jälgitavaks.

Peamised dokumendis esile tõstetud tehnilised otsused hõlmavad rõhku asjakohaste ja mitmekesiste näidiste loomisel, ühekordse käiguga lähenemisviisi kasutuselevõttu suurema mugavuse huvides ja järeldust, et kolme kuni viie näidise genereerimine annab parimaid tulemusi.

Ise loodud teadmised + eeskujud

Teist tehnikat, enda loodud teadmised + eeskujud, tutvustatakse keerukamate ülesannete, näiteks koodi genereerimise väljakutsetega tegelemiseks. Nende stsenaariumide korral võivad LLM-id sihtprobleemide lahendamisel liialt toetuda madala taseme eeskujudele ja neil on raskusi üldistustega. Selle leevendamiseks teevad autorid ettepaneku täiustada viipa täiendava juhisega, mis julgustab mudelit tuvastama probleemi põhikontseptsioone ja pakkuma õpetust või kõrgetasemelist ülevaadet.

Üks kriitiline kaalutlus on teadmiste ja eeskujude loomise järjekord. Autorid leidsid, et teadmiste loomine enne eeskujusid annab paremaid tulemusi, kuna see aitab LLM-il keskenduda põhiprobleemide lahendamise lähenemisviisidele, mitte ainult pinnatasandi sarnasustele.

Eelised ja rakendused

Analoogilisel õhutusmeetodil on mitmeid eeliseid. See pakub üksikasjalikke arutlusnäiteid, ilma et oleks vaja käsitsi märgistada, lahendades probleeme, mis on seotud 0-shot ja väheste kaadritega mõtteahela (CoT) meetoditega. Lisaks on loodud näidised kohandatud individuaalsetele probleemidele, pakkudes asjakohasemaid juhiseid kui traditsiooniline mõne võttega CoT, mis kasutab fikseeritud näidiseid.

Dokumendis demonstreeritakse selle lähenemisviisi tõhusust mitmesugustes arutlusülesannetes, sealhulgas matemaatikaprobleemide lahendamisel, koodi genereerimisel ja muudel BIG-Benchi arutlusülesannetel.

Allolevates tabelites on esitatud erinevate viipameetodite toimivusmõõdikud erinevates mudeliarhitektuurides. Eelkõige ületab meetod „ise loodud näidised” täpsuse osas järjekindlalt teisi meetodeid. GSM8K täpsuses saavutab see meetod PaLM2 mudeli kõrgeima jõudluse 81.7%. Samamoodi on MATH täpsuse osas GPT3.5-turbo edetabeli tipus 37.3%.

Matemaatiliste ülesannete, GSM8K ja MATH sooritus

Matemaatiliste ülesannete, GSM8K ja MATH sooritus

Teises tabelis näitab mudelite GPT3.5-turbo-16k ja GPT4 parimat jõudlust „Ise loodud teadmised + eeskujud”.

Codeforcesi koodi genereerimise ülesande jõudlus

Codeforcesi koodi genereerimise ülesande jõudlus

2. artikkel: astuge samm tagasi: arutluskäigu esilekutsumine abstraktsiooni abil suurtes keelemudelites

Ülevaade

Teine paber "Astuge samm tagasi: arutluskäigu esilekutsumine abstraktsiooni abil suurtes keelemudelites” tutvustab Step-Back Prompting – tehnikat, mis julgustab LLM-e võtma üksikasjalikest juhtudest kõrgetasemelisi kontseptsioone ja esimesi põhimõtteid. Autorid Huaixiu Steven Zheng, Swaroop Mishra ja teised püüavad parandada LLM-ide arutlusvõimet, suunates neid järgima õiget arutluskäiku lahenduse poole.

Võtmekontseptsioonide ja põhimõtete järgi juhitud STEP-BACK PROMPTING kujutamine abstraktsiooni ja arutlemise kahe faasi kaudu.

Võtmekontseptsioonide ja põhimõtete järgi juhitud STEP-BACK PROMPTING kujutamine abstraktsiooni ja arutlemise kahe faasi kaudu.

Loome lihtsama näite, kasutades matemaatika põhiküsimust, et demonstreerida “Stepback Question” tehnikat:

Original Question: If a train travels at a speed of 60 km/h and covers a distance of 120 km, how long will it take?

Options:

3 hours
2 hours
1 hour
4 hours
Original Answer [Incorrect]: The correct answer is 1).

Stepback Question: What is the basic formula to calculate time given speed and distance?

Principles:
To calculate time, we use the formula:
Time = Distance / Speed

Final Answer:
Using the formula, Time = 120 km / 60 km/h = 2 hours.
The correct answer is 2) 2 hours.

Kuigi tänapäeval saavad LLM-id ülaltoodud küsimusele hõlpsasti vastata, on see näide vaid selleks, et demonstreerida, kuidas tagasimineku tehnika toimiks. Keerulisemate stsenaariumide puhul saab probleemi süstemaatiliseks lahkamiseks ja lahendamiseks kasutada sama tehnikat. Allpool on dokumendis näidatud keerulisem juhtum:

SAMMU TAGASI VIIPA MMLU-keemia andmekogumis

SAMMU TAGASI VIIPA MMLU-keemia andmekogumis

Põhimõisted ja metoodika

Step-Back Promptingi olemus seisneb selle võimes panna LLM-id astuma metafoorset sammu tagasi, julgustades neid vaatama laiemat pilti, mitte eksima üksikasjadesse. See saavutatakse mitmete hoolikalt koostatud juhiste abil, mis suunavad LLM-id abstraktse teabeni, tuletavad kõrgetasemelisi kontseptsioone ja rakendavad neid kontseptsioone antud probleemi lahendamiseks.

Protsess algab sellega, et LLM-il palutakse antud juhtumite üksikasju abstraktselt võtta, julgustades teda keskenduma aluseks olevatele kontseptsioonidele ja põhimõtetele. See samm on ülioluline, kuna see loob aluse LLM-ile läheneda probleemile teadlikumalt ja põhimõttelisemalt.

Kui kõrgetasemelised kontseptsioonid on tuletatud, kasutatakse neid LLM-i juhtimiseks läbi arutluskäikude lahenduse poole. Need juhised tagavad, et LLM püsib õigel teel, järgides loogilist ja sidusat teed, mis põhineb abstraktsetel kontseptsioonidel ja põhimõtetel.

Autorid viivad läbi mitmeid katseid, et kinnitada Step-Back Promptingi tõhusust, kasutades PaLM-2L mudeleid paljudes väljakutseid pakkuvates arutlusmahukates ülesannetes. Need ülesanded hõlmavad STEM-probleeme, teadmiste kvaliteedi tagamist ja mitme hüppega arutluskäiku, pakkudes tehnika hindamiseks kõikehõlmavat testi.

Olulised täiustused ülesannete lõikes

Tulemused on muljetavaldavad, samm-tagasi viipega saavutatakse oluline jõudlus kõigi ülesannete puhul. Näiteks parandab see tehnika PaLM-2L jõudlust MMLU füüsika ja keemia alal vastavalt 7% ja 11%. Samamoodi suurendab see jõudlust TimeQA-s 27% ja MuSiQue'is 7%.

STEP-BACK PROMPTING toimimine

STEP-BACK PROMPTING vs CoT jõudlus

Need tulemused rõhutavad Step-Back Promptingi potentsiaali suurendada oluliselt LLM-ide arutlusvõimet.

Järeldus

Mõlemad Google DeepMindi artiklid tutvustavad uuenduslikke lähenemisviise kiireks inseneritööks, mille eesmärk on parandada suurte keelemudelite arutlusvõimet. Analogical Prompting kasutab analoogilise arutluskäigu kontseptsiooni, julgustades mudeleid looma oma näiteid ja teadmisi, mis viib kohanemisvõimelisema ja tõhusama probleemide lahendamiseni. Teisest küljest keskendub Step-Back Prompting abstraktsioonile, suunates mudeleid kõrgetasemeliste kontseptsioonide ja põhimõtete tuletamiseks, mis omakorda parandavad nende arutlusvõimet.

Need uurimistööd pakuvad väärtuslikke teadmisi ja metoodikaid, mida saab rakendada erinevates valdkondades, mis viivad intelligentsemate ja võimekamate keelemudeliteni. Kuna me jätkame kiire inseneritöö keerukuse uurimist ja mõistmist, on need lähenemisviisid üliolulised sammud arenenumate ja keerukamate AI-süsteemide loomisel.

Olen viimased viis aastat veetnud masinõppe ja süvaõppe põnevasse maailma sukeldudes. Minu kirg ja teadmised on pannud mind panustama enam kui 50 erinevasse tarkvaratehnoloogia projekti, keskendudes eelkõige AI/ML-ile. Minu jätkuv uudishimu on tõmmanud mind ka loomuliku keele töötlemise poole, valdkonda, mida ma innukalt edasi uurin.