Artificiell intelligens
De ‘osynliga’, ofta olyckliga arbetskraften som bestämmer AI:s framtid

Två nya rapporter, inklusive en artikel ledd av Google Research, uttrycker oro över att den nuvarande trenden att förlita sig på en billig och ofta maktlös grupp av globala gigarbetare för att skapa grundläggande sanning för maskinlärningssystem kan ha stora nedströmskonsekvenser för AI.
Bland en rad slutsatser finner Google-studien att crowdworkers egna fördomar sannolikt kommer att infogas i de AI-system vars grundläggande sanning kommer att baseras på deras svar; att omfattande orättvisa arbetspraxis (inklusive i USA) på crowdworking-plattformar sannolikt kommer att försämra kvaliteten på svaren; och att “konsensus”-systemet (i effektivt en “mini-omröstning” för någon del av grundläggande sanning som kommer att påverka nedströms AI-system) som för närvarande löser tvister faktiskt kan kasta bort de bästa och/eller mest informerade svaren.
Det är de dåliga nyheterna; de värre nyheterna är att nästan alla lösningarna är dyra, tidskrävande eller båda.
Otrygghet, slumpmässig avvisning och bitterhet
Den första artikeln, från fem Google-forskare, heter Vems grundläggande sanning? Redovisning av individuella och kollektiva identiteter under datasettsannotering; den andra, från två forskare vid Syracuse University i New York, heter Ursprunget och värdet av oenighet bland datalabelare: En fallstudie av individuella skillnader i annotering av hatprat.
Google-artikeln påpekar att crowdworkers – vars utvärderingar ofta utgör den avgörande grunden för maskinlärningssystem som kan komma att påverka våra liv – ofta opererar under en rad begränsningar som kan påverka hur de svarar på experimentella uppgifter.
Till exempel tillåter Amazons nuvarande policyer för Mechanical Turk att beställare (de som ger ut uppgifterna) kan avvisa en annotators arbete utan ansvar*:
‘[E]n stor majoritet av crowdworkers (94%) har haft arbete som avvisats eller som de inte har betalats för. Ändå behåller beställarna fulla rättigheter över de data de tar emot, oavsett om de accepterar eller avvisar dem; Roberts (2016) beskriver detta system som ett som “möjliggör lönestöld”.
‘Dessutom är att avvisa arbete och vägra betala smärtsamt eftersom avvisningar ofta orsakas av otydliga instruktioner och brist på meningsfulla feedbackkanaler; många crowdworkers rapporterar att dålig kommunikation negativt påverkar deras arbete.’
Författarna rekommenderar att forskare som använder utkontrakterade tjänster för att utveckla dataset bör överväga hur en crowdworking-plattform behandlar sina arbetare. De påpekar vidare att i USA klassificeras crowdworkers som “oberoende entreprenörer”, med arbetet därmed oreglerat och inte omfattat av minimilön enligt Fair Labor Standards Act.
Sammanhang har betydelse
Artikeln kritiserar också användningen av ad hoc global arbetskraft för annoteringsuppgifter, utan hänsyn till annotatorns bakgrund.
Där budgeten tillåter är det vanligt för forskare som använder AMT och liknande crowdwork-plattformar att ge samma uppgift till fyra annotatorer och följa “majoritetsprincipen” för resultaten.
Kontextuell erfarenhet, hävdar artikeln, är anmärkningsvärt underbetonad. Till exempel, om en uppgiftsfråga relaterad till sexism slumpmässigt distribueras mellan tre överensstämmande män i åldern 18-57 och en avvikande kvinna i åldern 29, vinner männen, förutom i de relativt sällsynta fallen där forskare uppmärksammar annotatorernas kvalifikationer.
På liknande sätt, om en fråga om gängbeteende i Chicago distribueras mellan en kvinna från landsbygden i USA i åldern 36, en man från Chicago i åldern 42 och två annotatorer från Bangalore och Danmark, har den person som sannolikt är mest berörd av frågan (mannen från Chicago) endast en fjärdedel av andelarna i resultatet, i en standardiserad utkontrakteringskonfiguration.
Forskarna hävdar:
‘[B]egreppet “en sanning” i crowdsourcing-svar är en myt; oenighet mellan annotatorer, som ofta ses som negativ, kan faktiskt ge ett värdefullt signal. Dessutom, eftersom många crowdsourcade annotatorpooler är socio-demografiskt snedvridna, finns det konsekvenser för vilka befolkningar som representeras i dataset och vilka befolkningar som möter utmaningarna med [crowdwork].
‘Att ta hänsyn till snedvridningar i annotatorernas demografi är avgörande för att kontextualisera dataset och säkerställa ansvarsfull nedströmsanvändning. Kort sagt, det finns värde i att erkänna och ta hänsyn till arbetarnas socio-kulturella bakgrund — både ur datorkvalitetssynpunkt och ur samhällelig påverkan.’
Inga ‘neutrala’ åsikter om heta ämnen
Även där de fyra annotatorernas åsikter inte är snedvridna, antingen demografiskt eller genom någon annan måttstock, uttrycker Google-artikeln oro över att forskare inte tar hänsyn till annotatorernas livserfarenheter eller filosofiska inställning:
‘Medan vissa uppgifter tenderar att ställa objektiva frågor med ett korrekt svar (finns det ett mänskligt ansikte på bilden?), är det ofta så att dataset syftar till att fånga bedömningar av relativt subjektiva uppgifter utan ett universellt korrekt svar (är den här texten stötande?). Det är viktigt att vara medveten om om man ska lita på annotatorernas subjektiva bedömningar.’
Vad gäller dess specifika område för att lösa problem med märkning av hatprat påpekar Syracuse-artikeln att mer kategoriska frågor som Finns det en katt på den här bilden? är anmärkningsvärt olika från att fråga en crowdworker om en fras är “toxisk”:
‘Med hänsyn till den röriga sociala verkligheten varierar människors uppfattningar om toxicitet avsevärt. Deras etiketter för toxiskt innehåll baseras på deras egna uppfattningar.’
Efter att ha funnit att personlighet och ålder har en “avsevärd inverkan” på den dimensionella märkningen av hatprat, drar Syracuse-forskarna slutsatsen:
‘Dessa fynd tyder på att ansträngningar för att uppnå annoteringskonsekvens bland labelare med olika bakgrunder och personligheter för hatprat kanske aldrig helt lyckas.’
Domen kan också vara partisk
Denna brist på objektivitet kommer sannolikt att iterera uppåt också, enligt Syracuse-artikeln, som hävdar att den manuella ingreppet (eller automatiserade principer, som också beslutas av en människa) som bestämmer “vinnaren” av konsensusomröstningar också bör vara föremål för granskning.
Genom att likna processen vid forummoderering påpekar författarna*:
‘[E]n communitys moderatorer kan bestämma ödet för både inlägg och användare i sin community genom att främja eller dölja inlägg, samt hedra, skämma eller förvisa användarna. Moderatorernas beslut påverkar innehållet som levereras till communitymedlemmar och publik och i förlängningen också påverkar communityns upplevelse av diskussionen.
‘Att anta att en mänsklig moderator är en communitymedlem som har demografisk homogenitet med andra communitymedlemmar, verkar det möjligt att de mentala scheman de använder för att utvärdera innehåll kommer att matcha de som andra communitymedlemmar.’
Detta ger en antydan om varför Syracuse-forskarna har kommit till en sådan dyster slutsats om framtiden för hatpratmärkning; antydningen är att principer och bedömningar av avvikande crowdwork-åsikter inte kan appliceras slumpmässigt enligt “acceptabla” principer som inte är fastställda någonstans (eller inte kan reduceras till ett tillämpligt schema, även om de finns).
De människor som fattar besluten (crowdworkers) är partiska, och skulle vara värdelösa för sådana uppgifter om de inte var partiska, eftersom uppgiften är att ge ett värderingsdokument; de människor som dömer i tvister i crowdwork-resultat fattar också värderingsdokument vid fastställandet av principer för tvister.
Det kan finnas hundratals principer i bara ett ramverk för hatpratupptäckt, och så länge var och en av dem inte tas hela vägen till Högsta domstolen, var kan “auktoritativ” konsensus uppstå?
Google-forskarna föreslår att ‘[o]enigheterna mellan annotatorer kan innehålla värdefulla nyanser om uppgiften’. Artikeln förespråkar användningen av metadata i dataset som återspeglar och kontextualiserar tvister.
Men det är svårt att se hur en sådan kontextspecifik lager av data någonsin kunde leda till liknande mått, anpassa sig till kraven från etablerade standardtester eller stödja någon definitivt resultat — förutom i det orealistiska scenariot att anta samma grupp av forskare över efterföljande arbete.
Att kuratera annotatorpoolen
Allt detta förutsätter att det finns en budget i ett forskningsprojekt för flera annoteringar som skulle leda till en konsensusomröstning. I många fall försöker forskare “kuratera” den utkontrakterade annotatorpoolen på ett billigare sätt genom att specificera egenskaper som arbetarna ska ha, såsom geografisk plats, kön eller andra kulturella faktorer, och handla med mångfald för specifikhet.
Google-artikeln hävdar att vägen framåt från dessa utmaningar kunde vara att etablera utvidgade kommunikationsramverk med annotatorer, liknande den minimala kommunikation som Uber-appen möjliggör mellan en förare och en passagerare.
En sådan omsorgsfull övervägning av annotatorer skulle, naturligtvis, vara ett hinder för hyperskala-annoteringsutkontrakt, vilket skulle resultera i antingen mer begränsade och lågvolymdataset som har en bättre motivering för sina resultat, eller en “rusad” utvärdering av de involverade annotatorerna, med begränsad information om dem och karakterisering av dem som “lämpliga för uppgiften” baserat på för lite information.
Det är om annotatorerna är ärliga.
‘People Pleasers’ i utkontrakterad dataset-märkning
Med en tillgänglig arbetskraft som är underbetald, under allvarlig konkurrens för tillgängliga uppgifter och deprimerad av knapphändiga karriärmöjligheter, är annotatorer motiverade att snabbt ge “rätt” svar och gå vidare till nästa mini-uppgift.
Om “rätt” svar är något mer komplicerat än Har katt/Ingen katt, hävdar Syracuse-artikeln att arbetaren sannolikt kommer att försöka gissa ett “acceptabelt” svar baserat på innehållet och sammanhanget i frågan*:
‘Både spridningen av alternativa konceptualiseringar och den omfattande användningen av förenklade annoteringsmetoder är troligen hindrande för forskningen om hatprat online. Till exempel fann Ross et al. att att visa Twitters definition av hatiskt uppförande för annotatorer orsakade att de delvis anpassade sina egna åsikter till definitionen. Denna omjustering resulterade i mycket låg överensstämmelse mellan annoteringarna.’
* Min konvertering av artiklens inline-citat till hyperlänkar.
Publicerad 13 december 2021 – Uppdaterad 18 december 2021: Taggar tillagda












