Kunstmatige intelligentie

Het creëren van kunstmatige mechanische Turken met vooraf getrainde taalmodellen

Published December 30, 2021

Updated April 5, 2026

Martin Anderson

Een groot deel van de ontwikkeling van machine learning-systemen is afhankelijk van het labelen van gegevens, waarbij honderden, zelfs duizenden vragen (zoals Is dit een afbeelding van een kat? en Is deze tekst aanstootgevend?) moeten worden beantwoord om autoritaire datasets te ontwikkelen waarop AI-systemen getraind zullen worden.

Hoewel we allemaal bijdragen aan dit proces op een bepaald moment, worden de meeste van deze labeltaken uitgevoerd voor geld door menselijke werknemers op kaders zoals Amazon Mechanical Turk, waar annotators kleine classificatietaken uitvoeren in een stukwerk-economie.

De ontwikkeling van modellen zou goedkoper zijn als vooraf getrainde taalmodellen (PLM’s) zelf enkele van de meer basale Human Intelligence Tasks (HIT’s) konden uitvoeren die momenteel worden gecrowdsourced op AMT en soortgelijke platforms.

Recent onderzoek van Duitsland en Huawei stelt dit voor in de paper LMTurk: Few-Shot Learners as Crowdsourcing Workers.

Taalmodellen die few-shot learning uitvoeren

De auteurs suggereren dat de eenvoudigere taken die typisch op (menselijke) Turk-werkers zijn gericht, analoog zijn aan few-shot learning, waarbij een geautomatiseerd kader een mini-taak moet beslissen op basis van een kleine hoeveelheid voorbeelden die aan het zijn gegeven.

Zij stellen daarom voor dat AI-systemen effectief kunnen leren van bestaande PLM’s die oorspronkelijk zijn getraind door crowdworkers – dat de kernkennis die van mensen naar machines is overgedragen, effectief al is voltooid, en dat waar deze kennis relatief onveranderlijk of empirisch is, geautomatiseerde taalmodelkaders deze taken zelf kunnen uitvoeren.

‘Ons basisidee is dat, voor een NLP-taak T, we few-shot learners behandelen als niet-expertwerknemers, die lijken op crowdsourcing-werknemers die bronnen annoteren voor menselijke taaltechnologie. We worden geïnspireerd door het feit dat we een crowdsourcing-werknemer kunnen zien als een type few-shot learner.’

De implicaties omvatten de mogelijkheid dat veel van de grondwaarheden waarop toekomstige AI-systemen afhankelijk zijn, zijn afgeleid van mensen enkele jaren eerder, en daarna zijn behandeld als vooraf gevalideerde en exploiteerbare informatie die geen menselijke interventie meer nodig heeft.

Banen voor mid-range, semi-performante taalmodellen

Naast de motivatie om de kosten van menselijke interventie te verlagen, suggereren de onderzoekers dat het gebruik van ‘mid-range’ PLM’s als echte Mechanische Turken een nuttige taak biedt voor deze ‘ook-ran’-systemen, die steeds meer worden overschaduwd door koploper, hyperschaal- en dure taalmodellen zoals GPT-3, die te duur en over-uitgerust zijn voor dergelijke taken.

‘Ons doel in dit artikel is om methoden te ontwikkelen die een effectiever gebruik maken van huidige few-shot learners. Dit is cruciaal omdat een toenemend aantal reusachtige few-shot learners wordt getraind; hoe ze effectief te gebruiken is dus een belangrijke vraag. In het bijzonder willen we een alternatief voor moeilijk te implementeren grote modellen.’

‘Tegelijkertijd willen we volledig gebruik maken van de sterke punten van PLM’s: Hun veelzijdigheid zorgt voor een brede toepasbaarheid over taken; hun enorme kennis over taal en de wereld (geleerd tijdens de voortraining) manifesteert zich in de gegevensefficiëntie van few-shot learners, waardoor de arbeid en tijdsconsumptie in gegevensannotatie worden verlaagd.’

Tot nu toe zijn few-shot learners in NLP behandeld als wegwerpartikelen op de weg naar hoogwaardige natuurlijke taalsystemen die veel meer resourcesintensief zijn, en dat dit werk is uitgevoerd op een abstracte manier en zonder rekening te houden met de mogelijke nuttigheid van deze systemen.

Methode

De auteurs bieden LMTurk (Taalmodel als mechanische Turk) aan, in een workflow waarin invoer van deze geautomatiseerde HIT labels levert voor een mid-niveau NLP-model.

Een basisconceptmodel voor LMTurk. Bron: https://arxiv.org/pdf/2112.07522.pdf

Deze eerste iteratie is afhankelijk van few-shot menselijke gelabelde ‘goud’ gegevens, waarbij vleesware Turken labels hebben geannoteerd voor een beperkt aantal taken, en de labels goed zijn beoordeeld, hetzij via directe menselijke toezicht of via consensusstemming. De implicatie voor dit schema is dat forks of ontwikkelingen vanuit dit menselijke startpunt mogelijk geen verdere menselijke input nodig hebben in de toekomst.

Hoewel de auteurs suggereren dat verdere experimenten met latere hybride modellen (waarbij menselijke input aanwezig zou zijn, maar sterk verlaagd) nodig zijn, hebben zij dit voor hun onderzoek niet gedaan, omdat de goud-gelabelde gegevens zelf ‘menselijke input’ zijn.

Het PLM dat is ontworpen om Turk-operaties uit te voeren, is aangepast voor de taak door P-Tuning, een methode die in 2021 is gepubliceerd door onderzoekers uit China, die trainable continue prompt-embeddings heeft voorgesteld om de prestaties van GPT-3-achtige modellen op Natural Language Understanding (NLU)-taken te verbeteren.

P-Tuning probeert de voorspellende kracht van een GPT-achtig model te verdiepen en de verschijning van conceptueel begrip van taal te verbeteren door ingebedde pseudo-prompts op te nemen. In dit geval is de startquery ‘De hoofdstad van Groot-Brittannië is een [x]’. Bron: https://arxiv.org/pdf/2103.10385.pdf

Gegevens en architectuur

LMTurk is geëvalueerd op vijf datasets: twee van de Stanford Sentiment Treebank; AG’s News Corpus; Recognizing Textual Entailment (RTE); en Corpus of Linguistic Acceptability (CoLA).

Voor zijn grotere model gebruikt LMTurk de openbaar beschikbare PLM’s ALBERT-XXLarge-v2 (AXLV2) als bronmodel voor omzetting in een geautomatiseerde Turk. Het model heeft 223 miljoen parameters (in tegenstelling tot de 175 miljard parameters in GPT-3). AXLV2, merken de auteurs op, heeft zichzelf bewezen als capabel om beter te presteren dan grotere modellen zoals 334M BERT-Large.

Voor een meer agile, lichtgewicht en edge-deployable model gebruikt het project TinyBERT-General-4L-312D (TBG), dat 14,5 miljoen parameters heeft met prestaties die vergelijkbaar zijn met BERT-base (dat 110 miljoen parameters heeft).

Prompt-geactiveerde training vond plaats op PyTorch en HuggingFace voor AXLV2 over 100 batch-stappen met een batchgrootte van 13, met een leer tempo van 5e-4, met lineaire afname. Elk experiment is gestart met drie verschillende willekeurige zaden.

Resultaten

Het LMTurk-project voert diverse modellen uit tegen zo veel specifieke subsectoren van NLP dat de complexe resultaten van de experimenten van de onderzoekers niet gemakkelijk zijn terug te brengen tot empirisch bewijs dat LMTurk op zichzelf een haalbare aanpak biedt voor hergebruik van historische, menselijke oorsprong few-shot learning-scenario’s.

Hoewel, voor evaluatiedoeleinden, de auteurs hun methode vergelijken met twee eerdere werken: Exploiting Cloze Questions for Few Shot Text Classification and Natural Language Inference door Duitse onderzoekers Timo Schick en Hinrich Schutze; en resultaten uit Prompt-Based Auto, gepresenteerd in Making Pre-trained Language Models Better Few-shot Learners door Gao, Chen en Fisch (respectievelijk van Princeton en MIT).

Resultaten uit de LMTurk-experimenten, met de onderzoekers die ‘vergelijkbare’ prestaties melden.

Kortom, LMTurk biedt een relatief veelbelovende onderzoekslijn voor onderzoekers die goud-gelabelde, menselijke oorsprong gegevens in evoluerende, mid-complexiteit taalmodellen willen embedden en verankeren, waar geautomatiseerde systemen in de plaats komen van menselijke input.

Zoals bij de relatief kleine hoeveelheid eerdere werk in dit veld, hangt het centrale concept af van de onveranderlijkheid van de oorspronkelijke menselijke gegevens en de veronderstelling dat tijdsfactoren – die een aanzienlijke hindernis voor NLP-ontwikkeling kunnen vormen – geen verdere menselijke interventie zullen vereisen naarmate de machine-only afstamming evolueert.

Oorspronkelijk gepubliceerd 30 december 2022