Anslut dig till vÄrt nÀtverk!

Artificiell intelligens

Bristerna hos Amazon Mechanical Turk kan hota naturliga sprÄkgenereringssystem

mm

En ny studie frÄn University of Massachusetts Amherst har stÀllt engelska lÀrare mot arbetare med crowdsourced Amazon Mekanisk Turk vid bedömning av resultatet av Natural Language Generation (NLG) system, som drar slutsatsen att slappa standarder och "spelandet" av vÀrdefulla uppgifter bland AMT-arbetare kan hindra utvecklingen av sektorn.

Rapporten kommer till ett antal fördömliga slutsatser om i vilken utstrÀckning den billiga outsourcingen av "industriell skala" av öppna NLG-utvÀrderingsuppgifter kan leda till sÀmre resultat och algoritmer inom denna sektor.

Forskarna sammanstÀllde ocksÄ en lista med 45 artiklar om öppen textgenerering dÀr forskningen hade anvÀnt AMT, och fann att "de allra flesta" misslyckades med att rapportera kritiska detaljer om anvÀndningen av Amazons publiktjÀnst, vilket gjorde det svÄrt att Äterskapa tidningarnas fynd.

Sweat-Shop Labor

Rapporten riktar kritik mot bÄde den svettiga karaktÀren hos Amazon Mechanical Turk och de (sannolikt budgetbegrÀnsade) akademiska projekt som ger AMT ytterligare tilltro genom att anvÀnda (och citera) det som en giltig och konsekvent forskningsresurs. Författarna noterar:

"Även om AMT Ă€r en bekvĂ€m och prisvĂ€rd lösning, observerar vi att stor variation mellan arbetare, dĂ„lig kalibrering och kognitivt krĂ€vande uppgifter kan fĂ„ forskare att dra vilseledande vetenskapliga slutsatser (t.ex. att mĂ€nskligt skriven text Ă€r "vĂ€rre" Ă€n GPT-2:s ).'

Rapporten skyller pÄ spelet snarare Àn spelarna, och forskarna observerar:

"[Crowd]-arbetare Àr ofta underbetalda för sitt arbete, vilket skadar bÄde kvaliteten pÄ forskningen och Ànnu viktigare, förmÄgan för dessa folkmassaarbetare att försörja sig pÄ ett adekvat sÀtt."

Ocuco-landskapet papper, med titeln Farorna med att anvÀnda Mechanical Turk för att utvÀrdera öppen textgenerering, drar vidare slutsatsen att "expertbedömare" som sprÄklÀrare och lingvister bör anvÀndas för att utvÀrdera artificiellt NLG-innehÄll med öppet slut, Àven om AMT Àr billigare.

Testa uppgifter

NÀr forskarna jÀmförde AMT:s prestanda med mindre tidsbegrÀnsade, expertlÀsare, spenderade forskarna 144 USD pÄ AMT-tjÀnsterna som faktiskt anvÀndes i jÀmförelsetesterna (Àven om mycket mer spenderades pÄ "icke-anvÀndbara" resultat - se nedan), vilket krÀvde slumpmÀssiga "turkar" att utvÀrdera en av 200 texter, uppdelade mellan mÀnskligt skapat textinnehÄll och artificiellt genererad text.

Att ge professionella lÀrare i uppdrag med samma arbete kostade $187.50, och att bekrÀfta deras överlÀgsna prestation (jÀmfört med AMT-arbetare) genom att anlita Upwork-frilansare för att replikera uppgifterna kostade ytterligare $262.50.

Varje uppgift bestod av fyra utvÀrderingskriterier: grammatik ("Hur grammatiskt korrekt Àr texten i berÀttelsefragmentet?"); sammanhang ("Hur vÀl stÀmmer meningarna i berÀttelsefragmentet ihop?"); sympati ("Hur roligt tycker du att berÀttelsefragmentet Àr?"); och relevans ("Hur relevant Àr berÀttelsefragmentet för uppmaningen?").

Skapa texter

För att fĂ„ NLG-material för testerna anvĂ€nde forskarna Facebook AI Researchs 2018 Hierarkisk neural berĂ€ttelsegenerering dataset, som omfattar 303,358 15 engelska berĂ€ttelser komponerade av anvĂ€ndare pĂ„ den mycket populĂ€ra (XNUMXm+ anvĂ€ndare) r/writingprompts subreddit, dĂ€r prenumeranters berĂ€ttelser "sĂ„ddas" av "uppmaningar" i en mening pĂ„ ett liknande sĂ€tt som nuvarande praxis i text-till-bild generering – och, naturligtvis, i en öppen Natural Language Generation system.

200 uppmaningar frÄn datasetet valdes slumpmÀssigt ut och skickades genom en medelstor GPT-2-modell med Hugging-Face Transformers bibliotek. SÄlunda erhölls tvÄ uppsÀttningar resultat frÄn samma uppmaningar: de mÀnskligt skrivna diskursiva uppsatserna frÄn Reddit-anvÀndare och GPT-2-genererade texter.

För att förhindra att samma AMT-arbetare dömer samma historia flera gÄnger, begÀrdes tre AMT-arbetaredomar per exempel. Tillsammans med experiment angÄende arbetarnas engelska sprÄkkunskaper (se slutet av artikeln) och diskontering av resultat frÄn lÄganstrÀngande arbetare (se 'Kort tid' nedan), ökade detta de totala utgifterna för AMT till cirka 1,500 XNUMX USD.

För att skapa lika villkor genomfördes alla tester vardagar mellan 11.00 och 11 PST.

Resultat och slutsatser

Den vidstrÀckta studien tÀcker mycket mark, men nyckelpunkterna Àr följande:

kort tid

Tidningen fann att en officiell Amazon-rapporterad genomsnittlig arbetstid pĂ„ 360 sekunder kokade ner till en verklig arbetstid pĂ„ bara 22 sekunder och en medianarbetstid pĂ„ bara 13 sekunder – en fjĂ€rdedel av den tid det tar snabbast EngelsklĂ€rare replikerar uppgiften.

FrÄn dag 2 av studien: de enskilda arbetarna (i orange) spenderade betydligt mindre tid pÄ att utvÀrdera varje uppgift Àn de bÀttre betalda lÀrarna och (senare) de Ànnu bÀttre betalda Upwork-entreprenörerna. KÀlla: https://arxiv.org/pdf/2109.06835.pdf

FrÄn dag 2 av studien: de enskilda arbetarna (i orange) spenderade betydligt mindre tid pÄ att utvÀrdera varje uppgift Àn de bÀttre betalda lÀrarna och (senare) de Ànnu bÀttre betalda Upwork-entreprenörerna. KÀlla: https://arxiv.org/pdf/2109.06835.pdf

Eftersom AMT inte sÀtter nÄgon grÀns för Human Intelligence Tasks (HITs) som en enskild arbetare kan ta sig an, har AMT "big hitters" dykt upp, med (lönsamt) rykte för att utföra ett stort antal uppgifter per experiment. För att kompensera för accepterade trÀffar av samma arbetare, mÀtte forskarna tiden mellan pÄ varandra följande inlÀmnade HITs, och jÀmförde start- och sluttid för varje HIT. PÄ detta sÀtt rapporterades bristen mellan AMT:s WorkTimeInSeconds och den faktiska tiden som spenderades pÄ uppgiften kom i fokus.

Eftersom sÄdant arbete inte kan utföras inom dessa reducerade tidsramar, var forskarna tvungna att kompensera för detta:

"Eftersom det Ă€r omöjligt att noggrant lĂ€sa en styckelĂ„ng berĂ€ttelse och bedöma alla fyra egenskaperna pĂ„ sĂ„ lite som 13 sekunder, mĂ€ter vi effekten pĂ„ genomsnittliga betyg nĂ€r vi filtrerar bort arbetare som tillbringar för lite tid per HIT... NĂ€rmare bestĂ€mt tar vi bort domar frĂ„n arbetare vars mediantid Ă€r under 40s (vilket Ă€r en lĂ„g stapel), och upptĂ€cker att i genomsnitt cirka 42 % av vĂ„ra betyg filtreras bort (frĂ„n 20–72 % i alla experiment).'

Tidningen hÀvdar att felaktigt rapporterad faktisk arbetstid i AMT Àr "en viktig frÄga" som vanligtvis förbises av forskare som anvÀnder tjÀnsterna.

HandhÄllning nödvÀndig

Resultaten tyder vidare pÄ att AMT-arbetare inte pÄ ett tillförlitligt sÀtt kan skilja mellan text skriven av en mÀnniska och text skriven av en maskin, sÄvida de inte ser bÄda texterna sida vid sida, vilket effektivt skulle Àventyra ett typiskt utvÀrderingsscenario (dÀr lÀsaren borde kunna göra en bedömning baserad pÄ ett enda urval av text, "verklig" eller artificiellt genererad).

TillfÀlligt accepterande av konstgjord text av lÄg kvalitet

AMT-arbetare bedömde konsekvent lÄgkvalitativ GPT-baserad konstgjord text i nivÄ med högre kvalitet, sammanhÀngande text skriven av mÀnniskor, i motsats till engelsklÀrarna, som lÀtt kunde urskilja skillnaden i kvalitet.

Ingen förberedelsetid, noll sammanhang

Att gÄ in i rÀtt tÀnkesÀtt för en sÄdan abstrakt uppgift som utvÀrdering av Àkthet faller inte naturligt; EngelsklÀrare krÀvde 20 uppgifter för att kalibrera sin kÀnslighet för den utvÀrderande miljön, medan AMT-arbetare vanligtvis inte fÄr nÄgon "orienteringstid" alls, vilket sÀnker kvaliteten pÄ deras input.

Spelar systemet

Rapporten hÀvdar att den totala tiden som AMT-arbetare spenderar pÄ individuella uppgifter blÄses upp av arbetare som accepterar flera uppgifter samtidigt och kör igenom uppgifterna pÄ olika flikar i sina webblÀsare, istÀllet för att koncentrera sig pÄ en uppgift under den registrerade uppgiftens varaktighet.

Ursprungsland Àr viktigt

StandardinstÀllningarna för AMT filtrerar inte arbetare efter ursprungsland, och rapporten noterar tidigare arbete vilket indikerar att AMT-arbetare anvÀnder VPN för att kringgÄ geografiska begrÀnsningar, vilket gör det möjligt för icke-modersmÄlstalare att presentera som modersmÄl engelska (i ett system som, kanske ganska naivt, likstÀller en arbetares modersmÄl med deras IP-baserade geografiska plats).

SÄledes körde forskarna om utvÀrderingstesterna pÄ AMT med filter som begrÀnsar potentiella personer till ej-Engelsktalande lÀnder, att hitta det "arbetare frÄn icke-engelsktalande lÀnder bedömde koherens, relevans och grammatik ... betydligt lÀgre Àn identiskt kvalificerade arbetare frÄn engelsktalande lÀnder".

Rapporten avslutar:

"[Expert] bedömare som lingvister eller sprÄklÀrare bör anvÀndas nÀr det Àr möjligt eftersom de redan har utbildats i att utvÀrdera skriven text, och det Àr inte mycket dyrare...".

 

Publicerad 16 september 2021 - Uppdaterad 18 december 2021: Taggar lagts till

Skribent pÄ maskininlÀrning, domÀnspecialist pÄ mÀnsklig bildsyntes. Tidigare chef för forskningsinnehÄll pÄ Metaphysic.ai.
Personlig sida: martinanderson.ai
Kontakt: [e-postskyddad]
Twitter: @manders_ai