Kunstig intelligens

Oprettelse af kunstige mekaniske tyrker med forudtrænede sprogmodeller

Published December 30, 2021

Updated April 5, 2026

Martin Anderson

En stor del af udviklingen af maskinelæringsystemer afhænger af mærkning af data, hvor hundredvis, ja endda tusindvis af spørgsmål (såsom Er dette et billede af en kat? og Er denne tekst krænkende?) skal afgøres for at udvikle autoritative datasæt, som AI-systemer vil blive trænet på.

Selvom vi alle bidrager til denne proces på et eller andet tidspunkt, udføres de fleste af disse mærkningsopgaver for penge af menneskelige arbejdere i rammer som Amazon Mechanical Turk, hvor annotatorer udfører mindre klassificeringsopgaver i en stykkedelsøkonomi.

Modeludviklingen ville være billigere, hvis forudtrænede sprogmodeller (PLM’er) kunne påtage sig nogle af de mere basale menneskelige intelligensopgaver (HIT’er), som i øjeblikket crowdsources på AMT og lignende platforme.

Nyt forskning fra Tyskland og Huawei foreslår dette i artiklen LMTurk: Few-Shot Learners som crowdsourcing-arbejdere.

Sprogmodeller, der udfører few-shot-læring

Forfatterne foreslår, at de enklere lag af opgaver, der typisk rettes mod (menneskelige) Turk-arbejdere, er analoge med few-shot-læring, hvor et automatiseret framework skal træffe en mini-opgave på basis af et lille antal eksempler, der gives til det.

De foreslår derfor, at AI-systemer kan lære effektivt fra eksisterende PLM’er, der oprindeligt blev trænet af crowdworkers – at den centrale viden, der overføres fra mennesker til maskiner, effektivt er blevet udført allerede, og at hvor sådan viden er relativt uforanderlig eller empirisk på en eller anden måde, kan automatiserede sprogmodel-frameworks potentielt udføre disse opgaver i sig selv.

‘Vores grundlæggende idé er, at vi for en NLP-opgave T behandler few-shot-lærere som ikke-ekspertarbejdere, der ligner crowdsourcing-arbejdere, der annoterer ressourcer for menneskesprogsteknologi. Vi er inspireret af, at vi kan betragte en crowdsourcing-arbejder som en type few-shot-lærer.’

Konsekvenserne omfatter muligheden for, at mange af de sandheder, som fremtidens AI-systemer afhænger af, vil være blevet afledt fra mennesker for nogle år siden, og derefter behandles som forvalideret og udnyttelig information, som ikke længere kræver menneskelig indgriben.

Job for mid-range, semi-performante sprogmodeller

Ud over motivationen til at reducere omkostningerne ved mennesker-i-løkken, foreslår forskerne, at brugen af ‘mid-range’ PLM’er som sand mekaniske tyrker giver nyttig arbejde for disse ‘also ran’-systemer, der stadig mere bliver overskygget af overskriftsinddragende, hyperskala- og dyre sprogmodeller som GPT-3, der er for dyre og over-specifikationer for sådanne opgaver.

‘Vores mål i denne artikel er at udvikle metoder, der gør bedre brug af nuværende few-shot-lærere. Dette er afgørende, fordi der trænes en stigende mængde kæmpestore few-shot-lærere; hvordan man bruger dem effektivt er således et vigtigt spørgsmål. Specielt ønsker vi en alternativ løsning til svært-at-deploye kæmpestore modeller. ‘

‘Samtidig ønsker vi at udnytte PLM’ernes styrker fuldt ud: Deres fleksibilitet sikrer bred anvendelighed på tværs af opgaver; deres enorme lager af viden om sprog og verden ( tilegnet under fortræning) manifestere sig i dataeffektiviteten af few-shot-lærere, hvilket reducerer arbejds- og tidforbrug ved dataannotering.’

Indtil nu har forfatterne argumenteret for, at few-shot-lærere i NLP er blevet behandlet som bortkastelige mellemstadier på vejen til højtniveau-natur-sprog-systemer, der er langt mere ressourcekrævende, og at sådant arbejde er blevet udført abstrakt og uden hensyn til den mulige nytte af disse systemer.

Metode

Forfatterne tilbyder LMTurk (Sprogmodel som mekanisk tyrk), i en arbejdsgang, hvor input fra denne automatiserede HIT giver mærker for en midterniveau-NLP-model.

En grundlæggende konceptmodel for LMTurk. Kilde: https://arxiv.org/pdf/2112.07522.pdf

Denne første iteration afhænger af few-shot menneske-mærkede ‘guld’-data, hvor kød-tyrker har annoteret mærker for et begrænset antal opgaver, og mærkerne er blevet vurderet godt, enten via direkte menneskelig tilsyn eller gennem konsensusafstemning. Konsekvensen af denne skema er, at forgreninger eller udviklinger fra dette menneske-baserede udgangspunkt måske ikke kræver yderligere menneskelig input længere nede ad vejen.

Selvom forfatterne foreslår yderligere eksperimenter med senere hybridmodeller (hvor menneskelig input ville være til stede, men kraftigt reduceret), gjorde de det ikke for formålet med deres forskning, pit LMTurk-modeller mod tilsvarende resultater fra menneske-genererede HIT-arbejdere, idet de mente, at de guld-mærkede data i sig selv er ‘menneskelig input’.

PLM, der er designet til at udføre tyrk-operationer, blev tilpasset til opgaven ved P-Tuning, en metode offentliggjort af forskere fra Kina i 2021, som foreslog trænbar kontinuert prompt-embedding for at forbedre ydeevnen af GPT-3-lignende modeller på Natural Language Understanding (NLU)-opgaver.

P-Tuning forsøger at dykke en GPT-lignende models forudsigelsesevne og dens fremtoning af konceptuel forståelse af sprog, ved at inkorporere indlejrede pseudo-prompts. I dette tilfælde er startspørgsmålet ‘Storbyen i Storbritannien er en [x]’. Kilde: https://arxiv.org/pdf/2103.10385.pdf

Data og arkitektur

LMTurk blev evaluueret på fem datasæt: to fra Stanford Sentiment Treebank; AG’s News Corpus; Recognizing Textual Entailment (RTE); og Corpus of Linguistic Acceptability (CoLA).

Til sin større model bruger LMTurk den offentligt tilgængelige PLM ALBERT-XXLarge-v2 (AXLV2) som kilde-model til omvandling til en automatiseret tyrk. Modellen har 223 millioner parametre (i modsætning til 175 milliarder parametre i GPT-3). AXLV2 har, ifølge forfatterne, vist sig i stand til at overgå større skala-modeller som 334M BERT-Large.

Til en mere agil, letvægts- og kant-udførbar model bruger projektet TinyBERT-General-4L-312D (TBG), der har 14,5 millioner parametre med en ydeevne, der er sammenlignelig med BERT-base (der har 110 millioner parametre).

Prompt-aktiveret træning fandt sted på PyTorch og HuggingFace til AXLV2 over 100 batch-trin med en batch-størrelse på 13, på en læringsrate på 5e-4, ved hjælp af lineær decay. Hver eksperiment blev startet med tre forskellige tilfældige frø.

Resultater

LMTurk-projektet kører diverse modeller mod så mange specifikke undersektorer af NLP, at de komplekse resultater af forskernes eksperimenter ikke let kan reduceres til empirisk bevis for, at LMTurk tilbyder i sig selv en livskraftig tilgang til genbrug af historisk, menneske- oprindelige HIT-lignende few-shot-lærings-scenarier.

Men til evaluering formål sammenligner forfatterne deres metode med to tidligere arbejder: Udnyttelse af lukkede spørgsmål til few-shot-tekstklassificering og naturlig sprogindføring af tyske forskere Timo Schick og Hinrich Schutze; og resultater fra Prompt-Based Auto, præsenteret i At gøre forudtrænede sprogmodeller bedre few-shot-lærere af Gao, Chen og Fisch (henholdsvis fra Princeton og MIT).

Resultater fra LMTurk-eksperimenterne, hvor forskerne rapporterer ‘sammenlignelige’ resultater.

Som kort sagt, tilbyder LMTurk en relativt lovende linje af undersøgelse for forskere, der søger at indlejre og fastholde guld-mærkede, menneske-oprindelige data i udviklende, midt-kompleksitetssprogmodeller, hvor automatiserede systemer træder i stedet for menneskelig input.

Som med den relativt lille mængde tidligere arbejde på dette område, afhænger den centrale idé af den uforanderlighed af den oprindelige menneskelige data, og antagelsen af, at tidsfaktorer – som kan repræsentere betydelige hindringer for NLP-udvikling – ikke vil kræve yderligere menneskelig indgriben, da den maskin-kun-linje udvikler sig.

Oprindeligt udgivet 30. december 2022