Kunstig intelligens
De mangler ved Amazon Mechanical Turk kan truede Natural Language Generation-systemer

En ny studie fra University of Massachusetts Amherst har sat engelsklærere op imod crowdsourced-arbejdere på Amazon Mechanical Turk i vurdering af output fra Natural Language Generation (NLG)-systemer, og konkluderer, at lave standarder og ‘gaming’ af prisværdige opgaver blandt AMT-arbejdere kan hæmme udviklingen af sektoren.
Rapporten kommer til en række kritiske konklusioner om, i hvilken udstrækning den ‘industrielle’ billige outsourcing af åbne NLG-evalueringopgaver kan føre til ringe resultater og algoritmer i denne sektor.
Forskerne har også samlet en liste over 45 artikler om åben tekstgenerering, hvor forskningen havde gjort brug af AMT, og fandt, at ‘den overvældende majoritet’ ikke rapporterede kritiske detaljer om brugen af Amazons crowdservice, hvilket gjorde det svært at reproducere artiklernes resultater.
Svedshop-arbejde
Rapporten retter kritik mod både svedshop-naturen af Amazon Mechanical Turk og de (sandsynligvis budget-begrænsede) akademiske projekter, der giver AMT yderligere troværdighed ved at bruge (og citerer) det som en gyldig og konsekvent forskningsressource. Forfatterne bemærker:
‘Selvom AMT er en praktisk og billig løsning, observerer vi, at høj variation mellem arbejdere, dårlig kalibrering og kognitivt krævende opgaver kan føre forskere til at trække misvisende videnskabelige konklusioner (f.eks. at menneskeskrevet tekst er “værre” end GPT-2’s).’
Rapporten skyder skylden på spillet snarere end spillerne, og forskerne observerer:
‘[Crowd]arbejdere er ofte underbetalt for deres arbejde, hvilket skader både kvaliteten af forskningen og, endnu vigtigere, evnen til, at disse crowd-arbejdere kan tjene en passende indtægt.’
Den artikel, med titlen De farer ved at bruge Mechanical Turk til at evaluere åben tekstgenerering, konkluderer yderligere, at ‘ekspert-vurderere’ som sprog-lærere og lingvister skal bruges til at evaluere åben kunstig NLG-indhold, selv om AMT er billigere.
Testopgaver
I sammenligning af AMT’s præstation med mindre tidsbegrænsede, ekspert-læsere, brugte forskerne 144 dollar på AMT-tjenesterne, der faktisk blev brugt i sammenligningstestene (selv om meget mere blev brugt på ‘ikke-brugbare’ resultater – se nedenfor), og krævede, at tilfældige ‘Turks’ skulle evaluere en af 200 tekster, fordelt mellem menneskeskabt tekstindhold og kunstigt genereret tekst.
At bede professionelle lærere om at udføre det samme arbejde kostede 187,50 dollar, og bekræftede deres overlegne præstation (i sammenligning med AMT-arbejdere) ved at hyre Upwork-freelancere til at gentage opgaverne for yderligere 262,50 dollar.
Hver opgave bestod af fire evaluative kriterier: grammatik (‘Hvor grammatisk korrekt er teksten i historiefragmentet?’); kohærens (‘Hvor godt passer sætningerne i historiefragmentet sammen?’); behagelighed (‘Hvor behageligt finder du historiefragmentet?’); og relevans (‘Hvor relevant er historiefragmentet for prompten?’).
Generering af tekster
For at få NLG-materiale til testene brugte forskerne Facebook AI Research’s 2018 Hierarchical Neural Story Generation dataset, der består af 303.358 engelske historier komponeret af brugere på den meget populære (15m+ brugere) r/writingprompts subreddit, hvor brugernes historier er ‘sået’ med enkelt-sætnings-‘prompts’ på en lignende måde som nuværende praksis i tekst-til-billede-generering – og, naturligvis, i åben Natural Language Generation systemer.
200 prompts fra datasettet blev tilfældigt valgt og passeret gennem en medium-størrelse GPT-2-model med Hugging-Face Transformers bibliotek. Der blev således to sæt resultater erhvervet fra de samme prompts: de menneskeskrevne diskursive essays fra Reddit-brugere og GPT-2-genererede tekster.
For at forhindre, at de samme AMT-arbejdere dømmer det samme historiefragment flere gange, blev tre AMT-arbejderdomme anmodet per eksempel. Sammen med eksperimenter omkring de engelske sprogfærdigheder hos arbejderne (se slutningen af artiklen) og efter at have fjernet resultater fra lav indsats-arbejdere (se ‘Kort Tid’ nedenfor), øgede dette den samlede udgift på AMT til omkring 1.500 dollar.
For at skabe en lige spillende grund blev alle testene udført på hverdage mellem 11.00-11.30 PST.
Resultater og konklusioner
Den omfattende studie dækker meget ground, men de vigtigste punkter er følgende:
Kort Tid
Artiklen fandt, at en officiel Amazon-rapporteret gennemsnitlig opgavetid på 360 sekunder blev reduceret til en reel arbejdstid på kun 22 sekunder, og en median arbejdstid på kun 13 sekunder – en fjerdedel af den tid, det hurtigste engelske lærer tog til at gentage opgaven.

Fra dag 2 af studiet: de enkelte arbejdere (i orange) brugte bemærkelsesværdigt mindre tid på at evaluere hver opgave end de bedre betalte lærere og (senere) de endnu bedre betalte Upwork-entreprenører. Kilde: https://arxiv.org/pdf/2109.06835.pdf
Da AMT ikke pålægger nogen begrænsning for, hvor mange Human Intelligence Tasks (HITs), en enkelt arbejder kan påtage sig, er AMT ‘big hitters’ dukket op, med (profitable) rygte for at fuldføre høje antal opgaver pr. eksperiment. For at kompensere for accepterede hits af den samme arbejder målte forskerne tiden mellem pågældende HITs, sammenlignede start- og sluttiden for hver HIT. På denne måde kom underskuddet mellem AMT’s rapporterede WorkTimeInSeconds og den faktiske tid brugt på opgaven i fokus.
Da sådant arbejde ikke kan udføres i disse reducerede tidsrammer, måtte forskerne kompensere for dette:
‘Da det er umuligt at omhyggeligt læse en paragraf-længde historie og vurder alle fire egenskaber på så kort tid som 13 sekunder, måler vi effekten på gennemsnitsvurderinger, når vi filterer ud arbejdere, der bruger for lidt tid pr. HIT…Specifikt fjerner vi vurderinger fra arbejdere, hvis median tid er under 40 sekunder (hvilket er en lav bar), og finder, at i gennemsnit ca. 42% af vores vurderinger fjernes (varierende fra 20%-72% på tværs af alle eksperimenter).’
Artiklen påstår, at fejlrapporteret reel arbejdstid i AMT er ‘en stor problem’ typisk overset af forskere, der bruger tjenesten.
Hånd-holdning nødvendig
Fundene antyder yderligere, at AMT-arbejdere ikke kan pålideligt skelne mellem tekst skrevet af et menneske og tekst skrevet af en maskine, medmindre de ser begge tekster side om side, hvilket ville kompromittere en typisk evalueringsscenarie (hvor læseren skal kunne træffe en vurdering baseret på en enkelt tekstprøve, ‘ægte’ eller kunstigt genereret).
Nonchalant accept af lavkvalitets kunstig tekst
AMT-arbejdere vurderede konsekvent lavkvalitets GPT-baseret kunstig tekst på samme niveau som højere kvalitets, koherent tekst skrevet af mennesker, i modsætning til de engelske lærere, der let kunne skelne forskellen i kvalitet.
Ingen forberedelsestid, nul kontekst
At gå ind i den rigtige sindstilstand for en så abstrakt opgave som vurdering af ægthed kommer ikke naturligt; engelske lærere krævede 20 opgaver for at kalibrere deres sanser til vurderingsmiljøet, mens AMT-arbejdere typisk fik ingen ‘orienteringstid’ overhovedet, hvilket reducerede kvaliteten af deres input.
At spille systemet
Rapporten fastholder, at den totale tid, AMT-arbejdere bruger på enkelt-opgaver, er opblæst af arbejdere, der accepterer multiple opgaver samtidigt, og løber gennem opgaverne i forskellige faneblade på deres browsere, i stedet for at koncentrere sig om en opgave for den registrerede opgavevarighed.
Land af oprindelse er vigtigt
Standardindstillingerne for AMT filtrerer ikke arbejdere efter land af oprindelse, og rapporten bemærker tidligere arbejde, der angiver, at AMT-arbejdere bruger VPN’er til at arbejde omkring geografiske begrænsninger, hvilket ermöglicher ikke-moderne talere til at præsentere sig som moderne engelske talere (i et system, der måske ret naivt, ligner en arbejders modersmål med deres IP-baserede geografiske placering).
Derfor gentog forskerne evalueringstestene på AMT med filtre, der begrænsede potentielle tager til ikke-engelsktalende lande, og fandt, at ‘arbejdere fra ikke-engelsktalende lande vurderede kohærens, relevans og grammatik…significativt lavere end identisk kvalificerede arbejdere fra engelsktalende lande’.
Rapporten konkluderer:
‘[Ekspert]vurderere som lingvister eller sprog-lærere skal bruges, når det er muligt, da de allerede er trænet til at evaluere skrevet tekst, og det er ikke meget dyrere…’
Udgivet 16. september 2021 – Opdateret 18. december 2021: Tilføjet tags












