Kunstig intelligens

Skapelse av kunstige mekaniske tyrkere med forhånds trenede språkmodeller

Published December 30, 2021

Updated April 5, 2026

Martin Anderson

En stor del av utviklingen av maskinlæringsystemer avhenger av merking av data, der hundrevis, ja til og med tusenvis av spørsmål (slik som Er dette et bilde av en katt? og Er denne teksten offensiv?) må avgjøres for å utvikle autoritative datasett som AI-systemer vil bli trenet på.

Selv om vi alle bidrar til denne prosessen på et eller annet tidspunkt, utføres de fleste av disse merkingsoppgavene for penger av menneskelige arbeidere i rammer som Amazon Mechanical Turk, der annotatorer fullfører mindre klassifiseringsoppgaver i en piece-work-økonomi.

Modellutviklingen ville være billigere hvis forhånds trenede språkmodeller (PLMs) kunne selv utføre noen av de mer grunnleggende menneskelige intelligensoppgavene (HITs) som for tiden blir crowdsourcet på AMT og lignende plattformer.

Nylig forskning fra Tyskland og Huawei foreslår dette, i paperet LMTurk: Few-Shot Learners as Crowdsourcing Workers.

Språkmodeller som utfører few-shot-læring

Forfatterne foreslår at de enklere lagene av oppgaver som vanligvis rettes mot (menneskelige) tyrker-arbeidere er analoge med few-shot-læring, der et automatisert rammeverk må avgjøre en mini-oppgave basert på et lite antall eksempler som er gitt til det.

De foreslår derfor at AI-systemer kan lære effektivt fra eksisterende PLMs som opprinnelig ble trenet av crowdworkers – at den grunnleggende kunnskapen som er overført fra mennesker til maskiner har vært gjort allerede, og at der hvor slik kunnskap er relativt uforanderlig eller empirisk på en eller annen måte, automatiserte språkmodell-rammeverk potensielt kan utføre disse oppgavene selv.

‘Vår grunnleggende idé er at, for en NLP-oppgave T, vi behandler few-shot-lærere som ikke-ekspert-arbeidere, lignende crowdsourcing-arbeidere som annoterer ressurser for menneskespråkteknologi. Vi er inspirert av det faktum at vi kan se på en crowdsourcing-arbeider som en type few-shot-lærer.’

Konsekvensene inkluderer muligheten for at mange av de grunnleggende sannhetene som fremtidens AI-systemer avhenger av, vil ha blitt avledet fra mennesker noen år tidligere, og deretter behandlet som forhåndsvalideret og utnyttbar informasjon som ikke lenger krever menneskelig inngripen.

Jobber for mid-range, semi-performante språkmodeller

Foruten motivasjonen til å kutte kostnadene til mennesker-i-løkken, foreslår forskerne at bruk av ‘mid-range’ PLMs som sannt mekaniske tyrkere gir nyttig arbeid for disse ‘også-ran’-systemene, som stadig blir overskygget av overskrift-gripende, hyperskala og dyre språkmodeller som GPT-3, som er for dyre og over-spekket for slike oppgaver.

‘Vårt mål i denne artikkelen er å utvikle metoder som gjør mer effektiv bruk av nåværende few-shot-lærere. Dette er avgjørende fordi et økende antall gigantiske few-shot-lærere blir trenet; hvordan man bruker dem effektivt er derfor et viktig spørsmål. Spesielt ønsker vi en alternativ løsning til vanskelige å distribuere store modeller.

‘Samtidig ønsker vi å utnytte PLMs’ styrker fullt ut: Deres fleksibilitet sikrer vid anvendelse på tvers av oppgaver; deres enorme lager av kunnskap om språk og verden (lært i forhåndstrenning) manifesterer seg i dataeffektiviteten til few-shot-lærere, og reduserer arbeid og tidskonsum i dataannotering.’

Hittil har forfatterne argumentert for at few-shot-lærere i NLP har blitt behandlet som midlertidige mellomstasjoner på veien til høynivå naturligspråk-systemer som er mye mer ressurskrevende, og at slik arbeid har blitt utført abstrakt og uten hensyn til den mulige nytten av disse systemene.

Metode

Forfatterne tilbyr LMTurk (Language Model as mechanical Turk), i en arbeidsflyt der inndata fra denne automatiserte HIT gir merkinger for en mid-nivå NLP-modell.

A basic concept model for LMTurk. Source: https://arxiv.org/pdf/2112.07522.pdf

Denne første iterasjonen avhenger av few-shot menneske-merket ‘gull’ data, der kjøtt- og blod-tyrkere har annotert merkinger for en begrenset mengde oppgaver, og merkingene har blitt poengsatt godt, enten via direkte menneskelig tilsyn eller gjennom konsensusavstemning. Konsekvensen for dette schema er at fork eller utviklinger fra dette menneske-baserte utgangspunktet kanskje ikke trenger ytterligere menneskelig inngripen nedover veien.

Selv om forfatterne foreslår videre eksperimenter med senere hybridmodeller (der menneskelig inngripen ville være til stede, men kraftig redusert), gjorde de det ikke, for forskningens formål, plasserte LMTurk-modellene mot ekvivalente resultater fra menneske-genererte HIT-arbeidere, med tanke på at de gull-merkede dataene i seg selv er ‘menneskelig inngripen’.

PLM designet for å utføre tyrk-operasjoner ble tilpasset for oppgaven ved P-Tuning, en metode publisert av forskere fra Kina i 2021, som foreslo trenbare kontinuerlige prompt-embeddings for å forbedre ytelsen til GPT-3-liknende modeller på Natural Language Understanding (NLU)-oppgaver.

P-Tuning attempts to deepen a GPT-style model’s predictive power, and its appearance of conceptual understanding of language, by incorporating embedded pseudo-prompts. In this case, the start query is ‘The capital of Britain is a [x]’. Source: https://arxiv.org/pdf/2103.10385.pdf

Data og arkitektur

LMTurk ble evaluert på fem datasett: to fra Stanford Sentiment Treebank; AGs News Corpus; Recognizing Textual Entailment (RTE); og Corpus of Linguistic Acceptability (CoLA).

For sin større modell, bruker LMTurk den offentlig tilgjengelige PLMs ALBERT-XXLarge-v2 (AXLV2) som kilde-modellen for omforming til en automatisert tyrk. Modellen har 223 millioner parametre (i motsetning til 175 milliarder parametre i GPT-3). AXLV2, observerer forfatterne, har vist seg å være i stand til å overgå større skala-modeller som 334M BERT-Large.

For en mer agil, lettvekt og kant-distribuerbar modell, bruker prosjektet TinyBERT-General-4L-312D (TBG), som har 14,5 millioner parametre med ytelse sammenlignbar med BERT-base (som har 110 millioner parametre).

Prompt-aktivert trening fant sted på PyTorch og HuggingFace for AXLV2 over 100 batch-steg ved en batch-størrelse på 13, på en læringshastighet på 5e-4, ved lineær nedgang. Hver eksperiment ble startet med tre forskjellige tilfeldige frø.

Resultater

LMTurk-prosjektet kjører diverse modeller mot så mange spesifikke undersektorer av NLP at de komplekse resultater av forskernes eksperimenter ikke er lett å redusere ned til empirisk bevis for at LMTurk tilbyr i seg selv en livskraftig tilnærming til gjenbruk av historiske, menneske-oppståtte HIT-liknende few-shot-lærings-scenarier.

Likevel, for evalueringens skyld, sammenligner forfatterne sin metode med to tidligere arbeider: Exploiting Cloze Questions for Few Shot Text Classification and Natural Language Inference av tyske forskere Timo Schick og Hinrich Schutze; og resultater fra Prompt-Based Auto, presentert i Making Pre-trained Language Models Better Few-shot Learners av Gao, Chen og Fisch (henholdsvis fra Princeton og MIT).

Results from the LMTurk experiments, with the researchers reporting ‘comparable’ performance.

Kort sagt, LMTurk tilbyr en relativt lovende linje for forskere som søker å innbygge og innføre gull-merket menneske-oppstått data i utviklende, mid-kompleksitetsspråkmodeller hvor automatiserte systemer står i for menneskelig inngripen.

Som med den relativt lille mengden tidligere arbeid i dette feltet, avhenger den sentrale konsepten av uforanderligheten av de opprinnelige menneskelige dataene, og antagelsen av at tidsfaktorer – som kan representere betydelige hindringer for NLP-utvikling – ikke vil kreve ytterligere menneskelig inngripen når maskin-til-maskin-linjen utvikler seg.

Opprinnelig publisert 30. desember 2022