Tehisintellekt

Kunstlike mehaaniliste türklaste loomine eelkoolitatud keelemudelitega

Ajakohastatud on Detsember 9, 2022

Suur osa masinõppesüsteemide arengust sõltub andmete märgistamisest, kus esitatakse sadu, isegi tuhandeid küsimusi (nt. Kas see pilt on kassist? ja Kas see tekst on solvav?).

Kuigi me kõik panustame sellele protsessile mingil hetkel, enamik neist märgistamisülesannetest on esines raha eest inimtöötajad sellistes raamistikes nagu Amazon Mechanical Turk, kus annotaatorid täidavad väiksemaid klassifitseerimisülesandeid a tükitöö majandus.

Mudeliarendus oleks odavam, kui eelkoolitatud keelemudelid (PLM) saaksid ise täita mõningaid elementaarsemaid inimintellekti ülesandeid (HIT), mida praegu AMT ja sarnased platvormid.

Hiljutised Saksamaa ja Huawei uuringud soovitavad seda teha paber LMTurk: vähehaaval õppijad kui kollektiivse hankimise töötajad.

Keelemudelid, mis õpivad vähesel määral

Autorid viitavad sellele, et lihtsamad ülesannete kihid, mis on tüüpiliselt suunatud (inim)türklaste töötajatele, on analoogsed vähehaaval õppimine, kus automatiseeritud raamistik peab väikese hulga sellele antud näidete põhjal otsustama miniülesande.

Seetõttu teevad nad ettepaneku, et tehisintellektisüsteemid saaksid tõhusalt õppida olemasolevatest PLM-idest, mida algselt koolitasid rahvahulga töötajad – et inimestelt masinatele antud põhiteadmised on juba tõhusalt saavutatud ja kui sellised teadmised on mingil moel suhteliselt muutumatud või empiirilised, kasutatakse automatiseeritud keelt. mudelraamistikud võivad potentsiaalselt neid ülesandeid iseseisvalt täita.

„Meie põhiidee on see, et NLP-ülesande T puhul käsitleme vähesel määral õppijaid mitteeksperttöötajatena, mis sarnanevad inimkeeletehnoloogia ressurssidele märkustega. Meid inspireerib tõsiasi, et saame vaadelda ühishanke töötajat kui vähehaaval õppijat.

Mõju hõlmab võimalust, et paljud põhitõed, millest tulevikus sõltuvad tehisintellektisüsteemid, pärinevad inimestelt juba mõni aasta varem, seejärel käsitleti neid eelkinnitatud ja kasutatava teabena, mis ei vaja enam inimese sekkumist.

Töökohad keskklassi, pooltoimivatele keelemudelitele

Lisaks motivatsioonile vähendada in-the-loop inimeste kulusid, soovitavad teadlased kasutada "keskklassi" PLM-e tõeliselt Mehhaanilised türklased pakuvad kasulikku tööd nendele "ka jooksnud" süsteemidele, mida üha enam varjutavad pealkirjade haaramise, hüperskaala ja kulukad keelemudelid, nagu GPT-3, mis on selliste ülesannete jaoks liiga kallid ja ülemäärased.

„Meie eesmärk selles artiklis on välja töötada meetodid, mis kasutavad praeguseid vähehaaval õppijaid tõhusamalt ära. See on ülioluline, sest koolitatakse välja üha rohkem hiiglaslikke vähehaaval õppijaid; Seega on oluline küsimus, kuidas neid tõhusalt kasutada. Eelkõige tahame alternatiivi raskesti juurutatavatele tohututele mudelitele.

„Samal ajal tahame täielikult ära kasutada PLM-ide tugevaid külgi: nende mitmekülgsus tagab laialdase rakendatavuse erinevates ülesannetes; nende tohutu teadmistepagas keele ja maailma kohta (õpitud eelkoolituse käigus) väljendub vähesel määral õppijate andmete tõhususes, vähendades töö- ja ajakulu andmete annotatsioonis.

Siiani väidavad autorid, et NLP-s vähehaaval õppijaid on koheldud kui ühekordselt kasutatavaid interstitsiaalseid etappe teel kõrgetasemeliste loomulike keelesüsteemide poole, mis on palju ressursimahukamad, ning et selline töö on tehtud abstraktselt ja arvestamata nende süsteemide võimalik kasulikkus.

Meetod

Autorite pakkumine LMTurk (Keelemudel kui mehaaniline Turk) töövoos, kus selle automatiseeritud HIT-i sisend annab sildid keskmise taseme NLP-mudeli jaoks.

LMTurki põhikontseptsioonimudel. Allikas: https://arxiv.org/pdf/2112.07522.pdf

See esimene iteratsioon tugineb vähesel hulgal inimese märgistatud kuldandmetele, kus lihanõud türklased on märgistanud piiratud arvu ülesannete jaoks silte ja sildid on kas otsese inimjärelevalve või konsensushääletuse kaudu hästi hinnatud. Selle skeemi tagajärjeks on see, et sellest inimpõhisest lähtepunktist lähtuvad harud või arendused ei pruugi vajada täiendavat inimlikku panust.

Kuigi autorid soovitavad teha täiendavaid katseid hilisemate hübriidmudelitega (kus inimsisend oleks küll olemas, kuid oluliselt vähenenud), ei vastandanud nad oma uurimistöö eesmärgil LMTurki mudeleid inimese loodud HIT-töötajate samaväärsete tulemustega, võttes arvesse, et kullaga märgistatud andmed on iseenesest „inimlik sisend”.

Türgi operatsioonide läbiviimiseks mõeldud PLM kohandas ülesande täitmiseks P-häälestusHiina teadlaste poolt 2021. aastal avaldatud meetod, mis pakkus välja treenitava pideva kiired manustused GPT-3-stiilis mudelite toimivuse parandamiseks loomuliku keele mõistmise (NLU) ülesannete puhul.

P-Tuning püüab süvendada GPT-stiilis mudeli ennustusvõimet ja selle ilmet kontseptuaalsest arusaamisest keelest, kaasates manustatud pseudoviipasid. Sel juhul on alguspäring „Suurbritannia pealinn on [x]”. Allikas: https://arxiv.org/pdf/2103.10385.pdf

Andmed ja arhitektuur

LMTurki hinnati viiel andmekogumil: kahel andmestikul Stanford Sentiment Treebank; AG-d Uudised Corpus; Tekstilise seose äratundmine (RTE); ja keelelise vastuvõetavuse korpus (CoLA).

Oma suurema mudeli jaoks kasutab LMTurk avalikult saadaolevaid PLM-e ALBERT-XXSuur-v2 (AXLV2) on lähtemudel automatiseeritud türklaseks teisendamiseks. Mudelil on 223 miljonit parameetrit (erinevalt 175 miljardit parameetrit GPT-3-s). Autorid märgivad, et AXLV2 on tõestanud, et suudab ületada suuremahulisi mudeleid nagu 334M BERT-Suur.

Kiirema, kergema ja servadega kasutuselevõetava mudeli jaoks kasutab projekt TinyBERT-General-4L-312D (TBG), millel on 14.5 miljonit parameetrit, mille jõudlus on võrreldav BERT-baasiga (millel on 110 miljonit parameetrit).

Kiirtoega koolitus toimus PyTorchis ja HuggingFace'is AXLV2 jaoks 100 partii sammuga partii suurusega 13, õppimiskiirusega 5e–4, kasutades lineaarset lagunemist. Iga katse tehti kolme erineva juhusliku seemnega.

Tulemused

LMTurki projekt kasutab erinevaid mudeleid nii paljude spetsiifiliste NLP alamsektorite vastu, et teadlaste katsete keerulisi tulemusi ei ole lihtne taandada empiirilistele tõenditele selle kohta, et LMTurk pakub juba iseenesest elujõulist lähenemisviisi ajalooliste, inimlike materjalide taaskasutamiseks. tekkisid HIT-stiilis vähesed õpistsenaariumid.

Kuid hindamise eesmärgil võrdlevad autorid oma meetodit kahe varasema tööga: Close Questions'i kasutamine väheste pildistatud tekstide klassifitseerimiseks ja loomuliku keele järelduste tegemiseks Saksa teadlased Timo Schick ja Hinrich Schutze; ja tulemused Viibapõhine automaatne, esile tõstetud Eelkoolitatud keelemudelite paremaks muutmine väheste õppijate jaoks Gao, Chen ja Fisch (vastavalt Princetoni ja MIT).

LMTurki katsete tulemused, kus teadlased teatasid "võrreldavast" jõudlusest.

Lühidalt öeldes pakub LMTurk suhteliselt paljutõotavat uurimissuunda teadlastele, kes soovivad kinnistada ja kinnistada kullamärgisega inimpäritolu andmeid arenevatesse, keskmise keerukusega keelemudelitesse, kus automatiseeritud süsteemid on inimese sisendiks.

Nagu selles valdkonnas tehtud suhteliselt väikese hulga varasemate tööde puhul, tugineb keskne kontseptsioon algsete inimandmete muutumatusest ja eeldusest, et ajalised tegurid, mis võivad kujutada endast olulisi takistusi NLP arengule, ei vaja täiendavat inimese sekkumist, kuna areneb ainult masinate suguvõsa.

Algselt avaldati 30. detsembril 2022