Følg os

Kunstig intelligens

Manglerne ved Amazon Mechanical Turk kan true naturlige sproggenereringssystemer

mm

En ny undersøgelse fra University of Massachusetts Amherst har sat engelsklærere op imod crowdsourcede arbejdere på Amazon Mechanical Turk ved vurdering af output fra Natural Language Generation (NLG) systemer, der konkluderede, at slappe standarder og "spil" af værdsatte opgaver blandt AMT-arbejdere kunne hæmme udviklingen af ​​sektoren.

Rapporten kommer til en række fordømmende konklusioner vedrørende, i hvilket omfang den billige outsourcing i 'industriel skala' af åbne NLG-evalueringsopgaver kan føre til dårligere resultater og algoritmer i denne sektor.

Forskerne udarbejdede også en liste med 45 artikler om åben tekstgenerering, hvor forskningen havde gjort brug af AMT, og fandt ud af, at 'det store flertal' undlod at rapportere kritiske detaljer om brugen af ​​Amazons crowd-service, hvilket gjorde det vanskeligt at gengive avisens resultater.

Sweat-Shop Labor

Rapporten kritiserer både Amazon Mechanical Turks sved-shop-karakter og de (sandsynligvis budgetbegrænsede) akademiske projekter, der giver AMT ekstra troværdighed ved at bruge (og citere) det som en gyldig og konsekvent forskningsressource. Forfatterne bemærker:

"Selvom AMT er en bekvem og overkommelig løsning, observerer vi, at høj varians mellem arbejdere, dårlig kalibrering og kognitivt krævende opgaver kan få forskere til at drage vildledende videnskabelige konklusioner (f.eks. at menneskeskreven tekst er "værre" end GPT-2's ).'

Rapporten giver spillet skylden snarere end spillerne, hvor forskerne observerer:

"[Crowd]-arbejdere bliver ofte underbetalt for deres arbejde, hvilket skader både kvaliteten af ​​forskningen og endnu vigtigere, disse crowd-arbejderes evne til at tjene et passende liv."

papir, med titlen Farerne ved at bruge Mechanical Turk til at evaluere open-ended tekstgenerering, konkluderer endvidere, at "ekspertbedømmere" såsom sproglærere og lingvister bør bruges til at evaluere åbent kunstigt NLG-indhold, selvom AMT er billigere.

Test opgaver

Ved at sammenligne AMT's præstation med mindre tidskrævende ekspertlæsere brugte forskerne 144 USD på de AMT-tjenester, der faktisk blev brugt i sammenligningstestene (selvom der blev brugt meget mere på 'ikke-brugelige' resultater - se nedenfor), hvilket krævede tilfældige 'tyrkere' at evaluere en af ​​200 tekster, fordelt mellem menneskeskabt tekstindhold og kunstigt genereret tekst.

At uddele professionelle lærere med det samme arbejde koster $187.50, og bekræftelse af deres overlegne præstation (sammenlignet med AMT-arbejdere) ved at hyre Upwork freelancere til at replikere opgaverne koster yderligere $262.50.

Hver opgave bestod af fire evaluerende kriterier: grammatik ('Hvor grammatisk korrekt er teksten i historiefragmentet?'); sammenhæng ("Hvor godt passer sætningerne i historiefragmentet sammen?"); sympati ("Hvor fornøjeligt synes du at historiefragmentet?"); og relevans ('Hvor relevant er historiefragmentet for prompten?').

Generering af tekster

For at få NLG-materiale til testene brugte forskerne Facebook AI Researchs 2018 Hierarkisk neural historiegenerering datasæt, som omfatter 303,358 engelsksprogede historier komponeret af brugere på de meget populære (15m+ brugere) r/writingprompts subreddit, hvor abonnenters historier er 'seedet' af enkeltsætnings 'prompter' på samme måde som nuværende praksis i tekst-til-billede generering – og selvfølgelig i en åben Natural Language Generation systemer.

200 prompter fra datasættet blev tilfældigt udvalgt og sendt gennem en mellemstor GPT-2-model ved hjælp af Hugging-Face Transformers bibliotek. Således blev to sæt resultater opnået fra de samme prompter: de menneskeskrevne diskursive essays fra Reddit-brugere og GPT-2-genererede tekster.

For at forhindre, at de samme AMT-arbejdere dømmer den samme historie flere gange, blev der anmodet om tre AMT-arbejderdomme pr. eksempel. Sammen med eksperimenter vedrørende arbejdernes engelsksprogede evner (se slutningen af ​​artiklen) og diskontering af resultater fra lav-indsatsende arbejdere (se 'Kort tid' nedenfor), øgede dette de samlede udgifter til AMT til omkring $1,500 USD.

For at skabe lige vilkår blev alle test udført på hverdage mellem kl. 11.00-11 PST.

Resultater og konklusioner

Den vidtstrakte undersøgelse dækker meget, men hovedpunkterne er som følger:

kort tid

Avisen fandt, at en officiel Amazon-rapporteret gennemsnitlig opgavetid på 360 sekunder kogte ned til en virkelig arbejdstid på kun 22 sekunder og en medianarbejdstid på kun 13 sekunder – en fjerdedel af den tid, det tager hurtigste Engelsklærer replikerer opgaven.

Fra dag 2 af undersøgelsen: de enkelte arbejdere (i orange) brugte markant mindre tid på at evaluere hver opgave end de bedre lønnede lærere og (senere) de endnu bedre lønnede Upwork-entreprenører. Kilde: https://arxiv.org/pdf/2109.06835.pdf

Fra dag 2 af undersøgelsen: de enkelte arbejdere (i orange) brugte markant mindre tid på at evaluere hver opgave end de bedre lønnede lærere og (senere) de endnu bedre lønnede Upwork-entreprenører. Kilde: https://arxiv.org/pdf/2109.06835.pdf

Da AMT ikke sætter nogen grænse for de Human Intelligence Tasks (HIT'er), som en individuel arbejder kan påtage sig, er AMT 'big hitters' dukket op med (rentable) ry for at udføre et stort antal opgaver pr. eksperiment. For at kompensere for accepterede hits af den samme arbejder målte forskerne tiden mellem fortløbende indsendte HIT'er ved at sammenligne start- og sluttidspunktet for hvert HIT. På denne måde rapporterede manglen mellem AMT's WorkTimeInSeconds og den faktiske tid brugt på opgaven kom i fokus.

Da et sådant arbejde ikke kan udføres inden for disse reducerede tidsrammer, var forskerne nødt til at kompensere for dette:

'Da det er umuligt at læse en afsnitslængde historie omhyggeligt og vurdere alle fire egenskaber på så lidt som 13 sekunder, måler vi påvirkningen af ​​gennemsnitlige vurderinger, når vi filtrerer arbejdere fra, der bruger for lidt tid pr. HIT... Helt konkret fjerner vi domme fra arbejdere, hvis mediantid er under 40'erne (hvilket er en lav søjle), og finder ud af, at omkring 42% af vores vurderinger i gennemsnit er filtreret ud (fra 20%-72% på tværs af alle eksperimenter).'

Papiret hævder, at forkert rapporteret faktisk arbejdstid i AMT er 'et stort problem', der typisk overses af forskere, der bruger tjenesterne.

Håndholdt nødvendig

Resultaterne tyder endvidere på, at AMT-medarbejdere ikke pålideligt kan skelne mellem tekst skrevet af et menneske og tekst skrevet af en maskine, medmindre de ser begge tekster side om side, hvilket effektivt ville kompromittere et typisk evalueringsscenarie (hvor læseren burde være i stand til at foretage en bedømmelse baseret på et enkelt udsnit af tekst, 'rigtig' eller kunstigt genereret).

Tilfældig accept af kunstig tekst af lav kvalitet

AMT-arbejdere vurderede konsekvent lavkvalitets GPT-baseret kunstig tekst på niveau med højere kvalitet, sammenhængende tekst skrevet af mennesker, i modsætning til engelsklærerne, som let var i stand til at skelne forskellen i kvalitet.

Ingen forberedelsestid, nul kontekst

At gå ind i det korrekte tankesæt til en så abstrakt opgave som evaluering af ægthed kommer ikke naturligt; Engelsklærere krævede 20 opgaver for at kalibrere deres følsomhed over for det evaluerende miljø, mens AMT-medarbejdere typisk ikke får nogen 'orienteringstid' overhovedet, hvilket sænker kvaliteten af ​​deres input.

Spil systemet

Rapporten fastholder, at den samlede tid, AMT-medarbejdere bruger på individuelle opgaver, oppumpes af arbejdere, der accepterer flere opgaver samtidigt, og kører gennem opgaverne i forskellige faner på deres browsere, i stedet for at koncentrere sig om én opgave i den registrerede opgavevarighed.

Oprindelsesland er vigtigt

Standardindstillingerne for AMT filtrerer ikke arbejdere efter oprindelsesland, og det bemærkes i rapporten tidligere arbejde hvilket indikerer, at AMT-arbejdere bruger VPN'er til at omgå geografiske begrænsninger, hvilket gør det muligt for ikke-modersmålstalere at præsentere som modersmål engelsktalende (i et system, der, måske ret naivt, sidestiller en arbejders modersmål med deres IP-baserede geografiske placering).

Forskerne kørte således evalueringstestene på AMT igen med filtre, der begrænser potentielle deltagere til Nej-Engelsktalende lande, at finde det "arbejdere fra ikke-engelsktalende lande vurderede sammenhæng, relevans og grammatik ... væsentligt lavere end identisk kvalificerede arbejdere fra engelsktalende lande".

Rapporten konkluderer:

"[Ekspert] bedømmere såsom lingvister eller sproglærere bør bruges, når det er muligt, da de allerede er blevet uddannet til at vurdere skriftlig tekst, og det er ikke meget dyrere...".

 

Udgivet den 16. september 2021 - Opdateret 18. december 2021: Tilføjet tags

Forfatter på maskinlæring, domænespecialist i menneskelig billedsyntese. Tidligere leder af forskningsindhold hos Metaphysic.ai.
Personlig side: martinanderson.ai
Kontakt: [e-mail beskyttet]
Twitter: @manders_ai