Tekoäly

Keinotekoisten mekaanisten turkkien luominen valmiiksi koulutetuilla kielimalleilla

Päivitetty on Joulukuu 9, 2022

Suuri osa koneoppimisjärjestelmien kehityksestä riippuu datan merkinnöistä, joissa satoja, jopa tuhansia kysymyksiä (esim. Onko tämä kuva kissasta? ja Onko tämä teksti loukkaavaa?) on ratkaistava, jotta voidaan kehittää arvovaltaisia tietojoukkoja, joihin tekoälyjärjestelmiä koulutetaan.

Vaikka me kaikki osallistumme tähän prosessiin jossain vaiheessa suurin osa näistä merkintätehtävistä on suoritettu rahasta ihmistyöntekijät sellaisissa kehyksissä kuin Amazon Mechanical Turk, joissa annotaattorit suorittavat pieniä luokitustehtäviä a kappaletyötalous.

Mallin kehittäminen olisi halvempaa, jos esikoulutetut kielimallit (PLM) voisivat itsessään suorittaa joitain perustavanlaatuisimmista Human Intelligence Tasks (HIT) -tehtävistä, joita tällä hetkellä joukko hankitaan AMT:ltä ja vastaavilla alustoilla.

Saksan ja Huawein viimeaikaiset tutkimukset ehdottavat tätä paperi LMTurk: Few-Shot Learners as Crowdsourcing Workers.

Kielimallit, jotka harjoittavat pientä oppimista

Kirjoittajat ehdottavat, että (ihmis)turkkilaisille työntekijöille tyypillisesti suunnatut yksinkertaisemmat tehtäväosuudet ovat analogisia muutaman laukauksen oppiminen, jossa automaattisen kehyksen on päätettävä minitehtävä muutaman sille annettujen esimerkkien perusteella.

Siksi he ehdottavat, että tekoälyjärjestelmät voivat oppia tehokkaasti olemassa olevilta PLM:iltä, jotka alun perin joukkotyöntekijät ovat kouluttaneet – että ihmisiltä koneille siirretty ydintieto on jo käytännössä saavutettu, ja jos tällainen tieto on jollain tavalla suhteellisen muuttumatonta tai empiiristä, automatisoitu kieli. mallikehykset voivat mahdollisesti suorittaa nämä tehtävät itsessään.

"Perusajatuksemme on, että NLP-tehtävässä T kohtelemme muutaman pisteen oppijoita ei-asiantuntijatyöntekijöinä, jotka muistuttavat joukkotyöntekijöitä, jotka kommentoivat resursseja ihmiskieliteknologiaan. Meitä inspiroi se tosiasia, että voimme nähdä joukkotyöntekijän eräänlaisena muutaman kerran oppijana.

Seuraukset sisältävät sen mahdollisuuden, että monet tulevaisuuden tekoälyjärjestelmien perustana olevista totuuksista on johdettu ihmisiltä jo useita vuosia aikaisemmin, minkä jälkeen niitä on käsitelty ennalta validoituna ja hyödynnettävänä tietona, joka ei enää vaadi ihmisen puuttumista.

Työpaikkoja keskitason, puolitehokkaille kielimalleille

Motivaatioiden leikkaamisen lisäksi in-the-loop-ihmisten kustannuksia tutkijat ehdottavat, että "keskitason" PLM:ien käyttäminen todella Mechanical Turks tarjoaa hyödyllistä työtä näille "myös suoritetuille" järjestelmille, jotka jäävät yhä useammin otsikoihin tarttuvien, ylimitoitettujen ja kalliiden kielimallien, kuten GPT-3:n, varjoon, jotka ovat liian kalliita ja ylimääriteltyjä tällaisiin tehtäviin.

”Tavoitteenamme tässä artikkelissa on kehittää menetelmiä, jotka hyödyntävät tehokkaammin nykyisiä muutaman pisteen oppijoita. Tämä on ratkaisevan tärkeää, koska yhä useammat jättiläismäiset muutaman kerran oppineet koulutetaan; kuinka niitä käytetään tehokkaasti, on siksi tärkeä kysymys. Erityisesti haluamme vaihtoehdon vaikeasti otettavissa oleville suurille malleille.

”Samalla haluamme hyödyntää täysimääräisesti PLM:ien vahvuuksia: Niiden monipuolisuus takaa laajan sovellettavuuden eri tehtäviin; heidän laaja tietovarasto kielestä ja maailmasta (oppinut esikoulutuksessa) ilmenee harvojen oppijoiden datatehokkuudessa, mikä vähentää työ- ja ajankulutusta datamerkinnöissä.

Kirjoittajat väittävät tähän mennessä, että NLP:n harvoja oppijoita on kohdeltu kertakäyttöisinä välivaiheina matkalla korkean tason luonnollisen kielen järjestelmiin, jotka ovat paljon resurssiintensiivisempiä, ja että tällainen työ on tehty abstraktisti ja ottamatta huomioon näiden järjestelmien mahdollinen hyöty.

Menetelmä

Kirjoittajien tarjous LMTurk (Kielimalli kuten mekaaninen Turk) työnkulussa, jossa tämän automatisoidun HIT:n syöte tarjoaa tarroja keskitason NLP-mallille.

LMTurkin peruskonseptimalli. Lähde: https://arxiv.org/pdf/2112.07522.pdf

Tämä ensimmäinen iteraatio perustuu muutaman otoksen ihmisten merkitsemiin "kultaisiin" tietoihin, joissa liha-astioiden turkkilaiset ovat lisänneet tarroja rajoitetulle määrälle tehtäviä, ja tarrat on pisteytetty hyvin joko suoran ihmisen valvonnan tai konsensusäänestyksen kautta. Tämän kaavan vaikutuksena on, että haarukat tai kehitykset tästä ihmislähtöisestä lähtökohdasta eivät ehkä tarvitse ylimääräistä ihmisen panosta tiellä.

Vaikka kirjoittajat ehdottavat lisäkokeita myöhemmillä hybridimalleilla (joissa ihmisen panos olisi läsnä, mutta huomattavasti vähentynyt), he eivät tutkimuksessaan vertaaneet LMTurk-malleja vastaaviin ihmisten tuottamien HIT-työntekijöiden tuloksiin, koska kullalla merkitty tieto on itsessään "ihmisen syöte".

Turkkilaisten operaatioiden suorittamiseen suunnitellun PLM:n sopeutti tehtävään mm P-viritys, kiinalaisten tutkijoiden vuonna 2021 julkaisema menetelmä, joka ehdotti koulutettavaa jatkuvaa nopeat upotukset parantaa GPT-3-tyylisten mallien suorituskykyä Natural Language Understanding (NLU) -tehtävissä.

P-Tuning yrittää syventää GPT-tyylisen mallin ennustusvoimaa ja sen ilmettä käsitteellisellä kielen ymmärtämisellä sisällyttämällä siihen sulautetut pseudokehotteet. Tässä tapauksessa aloituskysely on "Ison-Britannian pääkaupunki on [x]". Lähde: https://arxiv.org/pdf/2103.10385.pdf

Data ja arkkitehtuuri

LMTurk arvioitiin viidellä tietojoukolla: kahdella Stanford Sentiment Treebank; AG:n Uutiset Corpus; Tekstisisällön tunnistaminen (RTE); ja Corpus of Linguistic Acceptability (CoLA).

Suuremmassa mallissaan LMTurk käyttää julkisesti saatavilla olevia PLM:itä ALBERT-XXLarge-v2 (AXLV2) lähdemallina muuntamiseen automatisoiduksi turkkilaiseksi. Mallissa on 223 miljoonaa parametria (toisin kuin 175 miljardia parametria GPT-3:ssa). Kirjoittajat huomauttavat, että AXLV2 on osoittanut kykenevänsä ylittämään suuremman mittakaavan mallit, kuten 334M BERT-suuri.

Ketterämmän, kevyemmän ja reunakäyttöisemmän mallin saamiseksi projekti käyttää TinyBERT-General-4L-312D (TBG), jossa on 14.5 miljoonaa parametria, joiden suorituskyky on verrattavissa BERT-base-pohjaan (jossa on 110 miljoonaa parametria).

Nopeasti käytössä oleva koulutus suoritettiin PyTorchilla ja HuggingFacella AXLV2:lle yli 100 erävaiheessa eräkoolla 13 oppimisnopeudella 5e-4 käyttäen lineaarista hajoamista. Jokainen koe syntyi kolmella eri satunnaisella siemenellä.

tulokset

LMTurk-projektissa käytetään erilaisia malleja niin monia spesifisiä NLP:n osa-alueita vastaan, että tutkijoiden kokeiden monimutkaisia tuloksia ei ole helppo pelkistää empiiriseksi todisteeksi siitä, että LMTurk tarjoaa itsessään toteuttamiskelpoisen lähestymistavan historiallisten, inhimillisten aineistojen uudelleenkäyttöön. sai alkunsa HIT-tyylisistä muutamasta oppimisskenaariosta.

Arviointia varten kirjoittajat kuitenkin vertaavat menetelmäään kahteen aikaisempaan työhön: Cloze-kysymysten hyödyntäminen harvojen tekstien luokitteluun ja luonnollisen kielen päättelyyn saksalaiset tutkijat Timo Schick ja Hinrich Schutze; ja tulokset Kehotuspohjainen automaatti, esiintynyt Valmiiksi koulutetuista kielimalleista parempia harvoja oppijoita Gao, Chen ja Fisch (Princetonista ja MIT:stä).

Tulokset LMTurk-kokeista, joissa tutkijat raportoivat "vertailukelpoisesta" suorituskyvystä.

Lyhyesti sanottuna LMTurk tarjoaa suhteellisen lupaavan tutkimuslinjan tutkijoille, jotka haluavat upottaa ja tallentaa kullalla merkittyä ihmisperäistä dataa kehittyviin, keskimonimutkaisiin kielimalleihin, joissa automatisoidut järjestelmät ovat ihmisen syöttämiä.

Kuten suhteellisen pienessä aikaisemmassa työmäärässä tällä alalla, keskeinen käsite perustuu alkuperäisen ihmisdatan muuttumattomuuteen ja olettamukseen, että ajalliset tekijät – jotka voivat olla merkittäviä esteitä NLP:n kehitykselle – eivät vaadi ihmisen lisätoimia, koska vain koneen syntyperä kehittyy.

Julkaistu alun perin 30

Seuraavaksi

DRM Computer Vision Datasetille

Älä missaa

Tutkijat kehittävät uuden käsieleiden tunnistusalgoritmin

Martin Anderson

Kirjoittaja koneoppimisesta, tekoälystä ja big datasta.
Henkilökohtainen sivusto: martinanderson.ai
Ottaa yhteyttä: [sähköposti suojattu]
Twitter: @manders_ai