Kunstig intelligens
Den ‘usynlige’, ofte ulykkelige arbejdsstyrke, der afgør fremtiden for AI

To nye rapporter, herunder en artikel ledet af Google Research, udtrykker bekymring over, at den nuværende tendens til at afhænge af en billig og ofte magtesløs pulje af globale gig-arbejdere til at skabe grundsandhed for maskinlæringsystemer kunne have store nedstrømskonsekvenser for AI.
Blandt en række konklusioner finder Google-studiet, at crowdworkernes egne fordomme sandsynligvis vil blive indlejret i de AI-systemer, hvis grundsandheder vil blive baseret på deres svar; at udbredte urimelige arbejdspraksisser (herunder i USA) på crowdwork-platforme sandsynligvis vil nedgrade kvaliteten af svarene; og at ‘konsensus’-systemet (effektivt en ‘mini-valg’ for en given grundsandhed, der vil påvirke nedstrøms AI-systemer) kan faktisk kassere de bedste og/eller mest informerede svar.
Det er det dårlige nyheder; de værre nyheder er, at næsten alle forbedringsmulighederne er dyre, tidskrævende eller begge dele.
Usikkerhed, tilfældig afvisning og bitterhed
Den første rapport, fra fem Google-forskere, hedder Hvis grundsandhed? Regnskab for enkelt- og kollektive identiteter under dataset-annotering; den anden, fra to forskere ved Syracuse University i New York, hedder Ursprunget og værdien af uenighed blandt data-mærkere: En case-studie af individuelle forskelle i hadforbrydelses-annotering.
Google-rapporten påpeger, at crowd-arbejdere – hvis vurderinger ofte danner den definerende basis for maskinlæringsystemer, der måske til sidst vil påvirke vores liv – ofte opererer under en række begrænsninger, der kan påvirke, hvordan de responderer på eksperimentelle opgaver.
For eksempel tillader Amazon Mechanical Turks nuværende politikker, at anmodere (de, der giver opgaverne) kan afvise en annotators arbejde uden ansvar*:
‘[E]n stor majoritet af crowdworkere (94%) har haft arbejde, der er blevet afvist eller som de ikke er blevet betalt for. Alligevel beholder anmoderne fuld ret over de data, de modtager, uanset om de accepterer eller afviser dem; Roberts (2016) beskriver dette system som et, der “muliggør løntyveri”.
‘Desuden er afvisning af arbejde og tilbageholdelse af betaling smertefuldt, fordi afvisninger ofte skyldes uklare instruktioner og manglen på meningsfulde feedback-kanaler; mange crowdworkere rapporterer, at dårlig kommunikation negativt påvirker deres arbejde.’
Forfatterne anbefaler, at forskere, der bruger outsourcede tjenester til at udvikle datasets, skal overveje, hvordan en crowdwork-platform behandler sine arbejdere. De påpeger yderligere, at i USA er crowdworkere klassificeret som ‘uafhængige entreprenører’, og arbejdet er derfor ureguleret og ikke dækket af den mindsteløn, der er fastsat i Fair Labor Standards Act.
Kontekst er vigtig
Rapporten kritiserer også brugen af ad hoc global arbejdskraft til annoteringsopgaver uden overvejelse af annotatoren baggrund.
Hvor budgettet tillader, er det almindeligt for forskere, der bruger AMT og lignende crowdwork-platforme, at give samme opgave til fire annotatorer og følge ‘flertalsreglen’ for resultaterne.
Kontekstuelt erfaring, rapporten argumenterer, er bemærkelsesværdigt underbetonet. For eksempel, hvis en opgave om sexisme tilfældigt distribueres mellem tre enige mænd i alderen 18-57 og en uenig kvinde på 29, vinder mændenes dom, bortset fra i de relativt sjældne tilfælde, hvor forskerne lægger vægt på annotatorernes kvalifikationer.
Ligeså, hvis en spørgsmål om bande-adfærd i Chicago distribueres mellem en rural kvinde fra USA på 36, en mandlig Chicago-beboer på 42, og to annotatorer fra henholdsvis Bangalore og Danmark, har personen, der sandsynligvis er mest berørt af problemet (den mandlige Chicago-beboer), kun en fjerdedel af stemmerne i resultatet, i en standard outsourcing-konfiguration.
Forskerne påpeger:
‘[B]egrebet “en sandhed” i crowdsourcing-svar er en myte; uenighed mellem annotatorer, der ofte ses som negativ, kan faktisk give et værdifuldt signal. For det andet, da mange crowdsourcede annotator-puljer er socio-demografisk skævede, har det implikationer for, hvilke befolkninger der er repræsenteret i datasets samt hvilke befolkninger står over for udfordringerne ved [crowdwork].
‘At tage hensyn til skævheder i annotatordemografi er afgørende for at kontekstualisere datasets og sikre ansvarlig nedstrømsbrug. Med andre ord er der værdi i at anerkende og tage hensyn til arbejdernes socio-kulturelle baggrund — både fra datakvalitetsperspektiv og samfundsmæssig påvirkning.’
Ingen ‘neutrale’ meninger om kontroversielle emner
Selv hvor meningerne fra fire annotatorer ikke er skævede, hverken demografisk eller efter en anden målestok, udtrykker Google-rapporten bekymring over, at forskerne ikke tager hensyn til annotatorernes livserfaringer eller filosofiske holdninger:
‘ Mens nogle opgaver stiller objektive spørgsmål med et korrekt svar (er der et menneskeansigt på et billede?), søger datasets ofte at fange dom over relativt subjektive opgaver med ingen universelt korrekt svar (er denne tekst offensiv?). Det er vigtigt at være bevidst om, hvilken vej man skal gå, når man afhænger af annotatorernes subjektive dom.’
Med hensyn til dets specifikke område for at løse problemer i mærkning af hadforbrydelser, påpeger Syracuse-rapporten, at mere kategoriske spørgsmål som Er der en kat på dette billede? er bemærkelsesværdigt forskellige fra at spørge en crowdworker, om en frase er ‘giftig’:
‘Når man tager i betragtning den rod, der er i den sociale virkelighed, varierer menneskers opfattelse af giftighed væsentligt. Deres mærkning af giftigt indhold er baseret på deres egne opfattelser.’
Da de finder, at personlighed og alder har en ‘væsentlig indvirkning’ på den dimensionale mærkning af hadforbrydelser, konkluderer Syracuse-forskerne:
‘Disse resultater antyder, at bestræbelserne på at opnå mærkningskonsistens blandt mærkere med forskellig baggrund og personlighed for hadforbrydelser måske aldrig fuldt ud vil lykkes.’
Dommen kan også være fordomsfuld
Mangen på objektivitet er sandsynligvis også til stede længere oppe i systemet, ifølge Syracuse-rapporten, der argumenterer for, at den manuelle intervention (eller automatiserede politik, der også er besluttet af et menneske), der bestemmer ‘vinderen’ af konsensus-afstemninger, også skal være genstand for undersøgelse.
Lignende processen med forum-moderation, påpeger forfatterne*:
‘[E]n fællesskabs moderatorer kan afgøre skæbnen for både indlæg og brugere i deres fællesskab ved at fremme eller skjule indlæg samt ære, skamme eller bande brugerne. Moderatorernes beslutninger påvirker indholdet, der leveres til fællesskabsmedlemmer og publikum og udvider også fællesskabets oplevelse af diskussionen.
‘At antage, at en menneskelig moderator er et fællesskabsmedlem, der har demografisk homogenitet med andre fællesskabsmedlemmer, synes det muligt, at den mentale skema, de bruger til at evaluere indhold, vil matche de andre fællesskabsmedlemmers.’
Dette giver en antydning af, hvorfor Syracuse-forskerne er kommet til en så desperat konklusion om fremtiden for hadforbrydelses-mærkning; antydningen er, at politikker og domme over uenige crowdwork-meninger ikke kan blot tilfældigt anvendes efter ‘acceptable’ principper, der ikke er fastlagt eller ikke kan reduceres til et anvendeligt skema, selv hvis de findes.
Menneskene, der træffer beslutninger (crowdworkere), er fordomsfulde, og ville være værdiløse til sådanne opgaver, hvis de ikke var fordomsfulde, da opgaven er at give en værdidom; menneskene, der afgør uenigheder i crowdwork-resultater, træffer også værdidom, når de fastsætter politikker for uenigheder.
Der kan være hundredvis af politikker i bare ét hadforbrydelses-detections-rammeværk, og medmindre hver enkelt politik føres hele vejen tilbage til Højesteret, hvor kan ‘autoritativ’ konsensus opstå?
Google-forskerne foreslår, at ‘[u]enigheden mellem annotatorer kan indeholde værdifulde nuancer om opgaven’. Rapporten foreslår brugen af metadata i datasets, der reflekterer og kontekstualiserer uenigheder.
Men det er svært at se, hvordan en sådan kontekst-specifik lag af data nogensinde kan føre til lignende målinger, tilpasse sig kravene til etablerede standardtests eller støtte enhver definitiv resultater – undtagen i den urealistiske scenario, hvor man antager den samme gruppe af forskere på tværs af efterfølgende arbejde.
Curering af annotator-puljen
Alt dette antager, at der overhovedet er budget i et forskningsprojekt til multiple annoteringer, der ville føre til en konsensus-afstemning. I mange tilfælde forsøger forskere at ‘kurere’ den outsourcede annotator-pulje billigere ved at specificere træk, som arbejderne skal have, såsom geografisk beliggenhed, køn eller andre kulturelle faktorer, og handler mangfoldighed for specifikation.
Google-rapporten påpeger, at vejen frem fra disse udfordringer kunne være at etablere udvidede kommunikations-rammer med annotatorer, lignende den minimale kommunikation, som Uber-appen faciliterer mellem en chauffør og en passager.
En sådan omhyggelig overvejelse af annotatorer ville naturligvis være en hindring for hyperskala-annotation-outsourcing, hvilket ville resultere i enten mere begrænsede og lav-volumen-datasets med en bedre begrundelse for resultaterne eller en ‘rushet’ evaluering af de involverede annotatorer, hvor man får begrænsede oplysninger om dem og karakteriserer dem som ‘egnet til opgaven’ på baggrund af for lidt information.
Det er, hvis annotatorerne er ærlige.
‘People Pleasers’ i outsourcede dataset-mærkning
Med en tilgængelig arbejdskraft, der er underbetalt, under stærk konkurrence for tilgængelige opgaver og deprimeret af få karriereudsigter, er annotatorer motiveret til hurtigt at give ‘det rigtige’ svar og gå videre til den næste mini-opgave.
Hvis ‘det rigtige’ svar er noget mere kompliceret end Har kat/Ingen kat, påpeger Syracuse-rapporten, at arbejderen sandsynligvis vil forsøge at slutte sig til et ‘acceptabelt’ svar baseret på indholdet og konteksten af spørgsmålet*:
‘Både den omfattende brug af alternative konceptualiseringer og den udbredte brug af simplistic mærkningsmetoder hindrer sandsynligvis fremskridtet i forskningen om hadforbrydelser online. For eksempel fandt Ross et al. , at visning af Twitters definition af hadforbrydelser til annotatorer fik dem til delvist at harmonisere deres egne meninger med definitionen. Dette resulterede i meget lav inter-rater-reliabilitet af mærkningerne.’
* Min konvertering af rapportens inline-citationer til hyperlinks.
Udgivet 13. december 2021 – Opdateret 18. december 2021: Tags tilføjet












