Kunstig intelligens

De ‘usynlige’, ofte misfornøyde arbeidsstyrken som bestemmer fremtiden for AI

Published December 13, 2021

Updated April 28, 2026

Martin Anderson

To nye rapporter, inkludert en artikkel ledet av Google Research, uttrykker bekymring for at den nåværende trenden med å stole på en billig og ofte maktesløs gruppe globale gig-arbeidere for å lage grunnfakta for maskinlæringsystemer, kan ha store konsekvenser for AI nedover linjen.

Blant en rekke konklusjoner, finner Google-studien at crowdworkerens egne fordommer sannsynligvis vil bli innbygget i AI-systemene hvis grunnfakta vil baseres på deres svar; at utbredte urimelige arbeidspraksiser (inkludert i USA) på crowdworking-plattformer sannsynligvis vil degradere kvaliteten på svarene; og at ‘konsensus’-systemet (i realiteten en ‘mini-valg’ for noen del av grunnfakta som vil påvirke nedover AI-systemer) som nå løser disputter, faktisk kan kaste bort de beste og/eller mest informerte svarene.

Dette er de dårlige nyhetene; de verre nyhetene er at nesten alle løsningene er dyre, tidskrevende, eller begge deler.

Usikkerhet, tilfeldig avvisning og bitterhet

Den første rapporten, fra fem Google-forskere, heter Hvem er grunnfakta? Regnskap for individuelle og kollektive identiteter under datasett-annotering; den andre, fra to forskere ved Syracuse University i New York, heter Opphav og verdi av uenighet blant data-merkere: En casestudie av individuelle forskjeller i hate speech-annotering.

Google-rapporten påpeker at crowd-arbeidere – hvis vurderinger ofte danner grunnlaget for maskinlæringsystemer som kan påvirke våre liv – ofte opererer under en rekke begrensninger som kan påvirke måten de responderer på eksperimentelle oppgaver.

For eksempel tillater Amazon Mechanical Turks nåværende politik at oppdragsgivere (de som gir ut oppgavene) kan avvise en annotators arbeid uten ansvar*:

‘[E]n stor majoritet av crowd-arbeidere (94%) har hatt arbeid som ble avvist eller som de ikke ble betalt for. Likevel beholder oppdragsgiverne full rett over dataene de mottar, uavhengig av om de godtar eller avviser dem; Roberts (2016) beskriver dette systemet som et som “muliggjør lønnstyving”.

‘Videre er avvisning av arbeid og tilbakeholdning av lønn smertefullt fordi avvisninger ofte skyldes uklare instruksjoner og manglende meningsfulle tilbakemeldingskanaler; mange crowd-arbeidere rapporterer at dårlig kommunikasjon negativt påvirker deres arbeid.’

Forfatterne anbefaler at forskere som bruker outsourced-tjenester for å utvikle datasett, bør vurdere hvordan en crowdworking-plattform behandler sine arbeidere. De påpeker videre at i USA er crowd-arbeidere klassifisert som ‘uavhengige entreprenører’, og at arbeidet derfor er uregulert og ikke omfattes av minimumslønnen fastsatt i Fair Labor Standards Act.

Kontekst er viktig

Rapporten kritiserte også bruken av ad hoc global arbeidskraft for annotering oppgaver, uten å vurdere annotatoren bakgrunn.

Hvis budsjettet tillater, er det vanlig for forskere som bruker AMT og lignende crowdwork-plattformer å gi samme oppgave til fire annotatorer, og følge ‘flertallsprinsippet’ for resultater.

Kontekstuell erfaring, rapporten hevder, er merkbart underverdiert. For eksempel, hvis en oppgave-spørsmål relatert til seksisme er tilfeldig fordelt mellom tre enige menn i alderen 18-57 og en uenig kvinnelig i alderen 29, vinner mennenes dom, bortsett fra i de relativt sjeldne tilfeller hvor forskerne tar hensyn til kvalifikasjonene til deres annotatorer.

Liksom hvis et spørsmål om gang-atferd i Chicago er fordelt mellom en kvinnelig bosatt i en rural område i USA i alderen 36, en mannlig Chicago-boer i alderen 42, og to annotatorer fra henholdsvis Bangalore og Danmark, har personen som sannsynligvis er mest berørt av problemet (Chicago-mannen) bare en fjerdedel andel i utfallet, i en standard outsourcing-konfigurasjon.

Forskerne fastslår:

‘[Begrepet] “en sannhet” i crowdsourcing-svar er en myte; uenighet mellom annotatorer, som ofte sees på som negativ, kan faktisk gi en verdifull signal. For det andre, ettersom mange crowdsourced annotator-puljer er socio-demografisk skjeve, er det implikasjoner for hvilke befolkninger som er representert i datasett, samt hvilke befolkninger som møter utfordringene med [crowdwork].

‘Regnskap for skjevheter i annotatoren-demografi er kritisk for å kontekstualisere datasett og sikre ansvarlig nedover bruk. Kort sagt, det er verdi i å anerkjenne og regnskape for arbeidernes socio-kulturelle bakgrunn — både fra datakvalitetsperspektivet og samfunnsmessig påvirkning.’

Ingen ‘nøytrale’ meninger om hete emner

Selv der annotatorenens meninger ikke er skjeve, hverken demografisk eller ved noen annen målestokk, uttrykker Google-rapporten bekymring for at forskerne ikke tar hensyn til annotatorenens livserfaring eller filosofisk holdning:

‘ Mens noen oppgaver stiller objektive spørsmål med et riktig svar (er det et menneskeansikt på et bilde?), ofte har datasettene som mål å fange dom over relativt subjektive oppgaver uten en universelt riktig svar (er denne teksten offensiv?). Det er viktig å være bevisst på om man skal stole på annotatorenens subjektive dom.’

Med hensyn til dets spesifikke område for å løse problemer i merking av hate speech, påpeker Syracuse-rapporten at mer kategoriske spørsmål som Er det en katt på dette fotografiet? er merkbart forskjellige fra å spørre en crowdworker om en setning er ‘giftig’:

‘Ved å ta hensyn til uorden i sosial virkelighet, varierer menneskers persepsjoner av giftighet betydelig. Deres merking av giftig innhold er basert på deres egne persepsjoner.’

Etter å ha funnet at personlighet og alder har en ‘betydelig innvirkning’ på den dimensjonale merking av hate speech, konkluderer Syracuse-forskerne:

‘Disse funnene antyder at forsøk på å oppnå annotasjonskonsekvens blant merker med forskjellige bakgrunner og personligheter for hate speech, kan aldri fullstendig lykkes.’

Dommen kan også være fordomsfull

Mangel på objektivitet er sannsynligvis å iterere oppover også, ifølge Syracuse-rapporten, som argumenterer for at den manuelle inngripen (eller automatiserte politikk, også bestemt av et menneske) som bestemmer ‘vinneren’ av konsensus-avstemninger, også bør være gjenstand for skråning.

Lignende prosessen til forum-moderering, påpeker forfatterne*:

‘[E]n samfunnets moderatorer kan bestemme skjebnen til både innlegg og brukere i deres samfunn ved å fremme eller skjule innlegg, samt hedre, skamme eller forby brukere. Moderatorernes beslutninger påvirker innholdet som leveres til samfunnets medlemmer og publikum og ved utvidelse også påvirker samfunnets erfaring av diskusjonen.

‘Anta at en menneskelig moderator er en samfunnets medlem som har demografisk homogenitet med andre samfunnets medlemmer, synes det mulig at den mentale skjema de bruker til å vurdere innhold, vil matche de til andre samfunnets medlemmer.’

Dette gir en antyding til hvorfor Syracuse-forskerne har kommet til en så despondent konklusjon med hensyn til fremtiden for hate speech-merking; implikasjonen er at politikk og domsavstemninger på uenige crowdwork-meninger ikke bare kan være tilfeldig anvendt i henhold til ‘akseptable’ prinsipper som ikke er innført noen sted (eller ikke kan reduseres til en anvendbar skjema, selv om de eksisterer).

Menneskene som tar beslutninger (crowd-arbeiderne) er fordomsfulle, og ville være nytteløse for slike oppgaver hvis de ikke var ikke fordomsfulle, siden oppgaven er å gi en verdi-dømming; menneskene som avgjør disputter i crowdwork-resultater, tar også verdi-dømminger i å sette politikk for disputter.

Det kan være hundrevis av politikk i bare ett hate speech-deteksjonsrammeverk, og med mindre hver og en av dem tas helt tilbake til Høyesterett, hvor kan ‘autoritativ’ konsensus oppstå?

Google-forskerne foreslår at ‘[uenighet mellom annotatorer kan inneholde verdifulle nyanser om oppgaven’. Rapporten foreslår bruken av metadata i datasett som reflekterer og kontekstualiserer disputter.

Men det er vanskelig å se hvordan en slik kontekst-spesifikk lag med data noen gang kan føre til like-på-like-mål, tilpasse seg kravene til etablerte standardtester, eller støtte noe definitive resultater – bortsett fra i den urealistiske scenariet med å adoptere samme gruppe forskere over påfølgende arbeid.

Kuratering av annotator-puljen

Alt dette antar at det fins budsjett i et forskningsprosjekt for multiple annotasjoner som ville føre til en konsensus-avstemning. I mange tilfeller prøver forskerne å ‘kuratere’ den outsourcede annotator-puljen billigere ved å spesifisere trekk som arbeiderne bør ha, som geografisk beliggenhet, kjønn eller andre kulturelle faktorer, og bytte mangfold mot spesifisitet.

Google-rapporten hevder at veien fremover fra disse utfordringene kunne være å etablere utvidede kommunikasjonsrammeverk med annotatorer, lignende de minimale kommunikasjonene som Uber-appen fasiliteter mellom en sjåfør og en passasjer.

Slik omtanke for annotatorer ville, naturligvis, være en hindring for hyperskala-annotering-outsourcing, resulterende i enten mer begrensede og lav-volum datasett som har en bedre begrunnelse for deres resultater, eller en ‘rask’ evaluering av annotatorene involvert, og å få begrenset informasjon om dem, og karakterisere dem som ‘egnet for oppgaven’ basert på for lite informasjon.

Det er hvis annotatorene er ærlige.

‘People Pleasers’ i outsourced datasett-merking

Med en tilgjengelig arbeidsstyrke som er underbetalt, under alvorlig konkurranse for tilgjengelige oppgaver, og deprimert av få karriere-perspektiver, er annotatorer motivert til å raskt gi ‘riktig’ svar og gå videre til neste mini-oppgave.

Hvis ‘riktig svar’ er noe mer komplisert enn Har katt/Ingen katt, hevder Syracuse-rapporten at arbeideren sannsynligvis vil prøve å avgjøre et ‘akseptabelt’ svar basert på innhold og kontekst av spørsmålet*:

‘Både spredningen av alternative konseptualiseringer og den vidstrakte bruken av simplistic annoteringsmetoder, er arguabelt hindrer fremgangen av forskning på nett-hate speech. For eksempel, fant Ross, et al. at å vise Twitters definisjon av hatefult oppførsel til annotatorer, fikk dem til delvis å justere sine egne meninger med definisjonen. Denne justeringen resulterte i svært lav inter-rater-reliabilitet av annotasjonene.’

* Min konvertering av rapportens inline-citater til hyperlenker.

Publisert 13. desember 2021 – Oppdatert 18. desember 2021: Emner lagt til