Kunstmatige intelligentie

De ‘Onzichtbare’, Vaak Ongelukkige Werknemers Die De Toekomst Van AI Bepalen

Published December 13, 2021

Updated April 28, 2026

Martin Anderson

Twee nieuwe rapporten, waaronder een paper onder leiding van Google Research, uiten hun bezorgdheid dat de huidige trend om te vertrouwen op een goedkope en vaak gemarginaliseerde groep wereldwijde gig-werkers om grondwaarheden voor machine learning-systemen te creëren, grote gevolgen kan hebben voor AI.

Onder een reeks conclusies vindt de Google-studie dat de vooroordelen van de crowdworkers waarschijnlijk worden ingebed in de AI-systemen waarvan de grondwaarheden zijn gebaseerd op hun antwoorden; dat wijdverbreide oneerlijke arbeidspraktijken (inclusief in de VS) op crowdwork-platforms de kwaliteit van de antwoorden kunnen verslechteren; en dat het ‘consensus’-systeem (effectief een ‘mini-verkiezing’ voor een stuk grondwaarheid dat een invloed kan hebben op downstream AI-systemen) dat momenteel geschillen oplost, eigenlijk de beste en/of meest geïnformeerde antwoorden kan weggooien.

Dat is het slechte nieuws; het nog slechtere nieuws is dat vrijwel alle oplossingen duur, tijdrovend of beide zijn.

Onzekerheid, Willekeurige Afwijzing en Rancune

Het eerste rapport, van vijf Google-onderzoekers, heet Wiens Grondwaarheid? Rekening houden met Individuele en Collectieve Identiteiten Onderliggend aan Dataset-annotatie; het tweede, van twee onderzoekers aan de Syracuse University in New York, heet De Oorsprong en Waarde van Meningsverschillen onder Data-labelers: Een Casestudy van Individuele Verschillen in Haatzaaiende Taal-annotatie.

Het Google-rapport merkt op dat crowdworkers – wiens evaluaties vaak de basis vormen van machine learning-systemen die uiteindelijk ons leven kunnen beïnvloeden – vaak opereren onder een reeks beperkingen die de manier waarop ze reageren op experimentele opdrachten kunnen beïnvloeden.

Bijvoorbeeld, het huidige beleid van Amazon Mechanical Turk staat requesters (diegenen die de opdrachten geven) toe om het werk van een annotator zonder verantwoording af te wijzen*:

‘[E]en grote meerderheid van crowdworkers (94%) heeft werk dat is afgewezen of waarvoor ze niet zijn betaald. Toch behouden requesters alle rechten over de gegevens die ze ontvangen, ongeacht of ze het werk al dan niet accepteren; Roberts (2016) beschrijft dit systeem als een systeem dat “loonsoevereigniteit mogelijk maakt”.

‘Bovendien is het afwijzen van werk en het inhouden van loon pijnlijk omdat afwijzingen vaak worden veroorzaakt door onduidelijke instructies en het ontbreken van zinvolle feedbackkanalen; veel crowdworkers melden dat slechte communicatie hun werk negatief beïnvloedt.’

De auteurs bevelen aan dat onderzoekers die gebruikmaken van uitbesteedde diensten om datasets te ontwikkelen, moeten overwegen hoe een crowdwork-platform zijn werknemers behandelt. Ze merken verder op dat in de Verenigde Staten, crowdworkers zijn geclassificeerd als ‘zelfstandige ondernemers’, met het werk dus ongereguleerd, en niet wordt gedekt door het minimumloon zoals voorgeschreven door de Fair Labor Standards Act.

Context Maakt uit

Het rapport bekritiseert ook het gebruik van ad hoc wereldwijde arbeid voor annotatietaken, zonder rekening te houden met de achtergrond van de annotator.

Waar het budget het toelaat, is het gebruikelijk voor onderzoekers die gebruikmaken van AMT en soortgelijke crowdwork-platforms om dezelfde taak aan vier annotators te geven en zich te houden aan ‘meerderheidsregel’ voor de resultaten.

Contextuele ervaring, betoogt het rapport, wordt opvallend ondergewaardeerd. Bijvoorbeeld, als een taakvraag met betrekking tot seksisme willekeurig wordt verdeeld tussen drie instemmende mannen van 18-57 jaar en één afwijkende vrouw van 29 jaar, wint de mening van de mannen, behalve in de relatief zeldzame gevallen waarin onderzoekers aandacht besteden aan de kwalificaties van hun annotators.

Evenzo, als een vraag over bendegedrag in Chicago wordt verdeeld tussen een plattelandsvrouw uit de VS van 36 jaar, een mannelijke inwoner van Chicago van 42 jaar en twee annotators uit respectievelijk Bangalore en Denemarken, heeft de persoon die waarschijnlijk het meest door het probleem wordt getroffen (de man uit Chicago) slechts een kwart aandeel in de uitkomst, in een standaard uitbestedingsconfiguratie.

De onderzoekers stellen:

‘[De] notie van “één waarheid” in crowdsourcing-antwoorden is een mythe; meningsverschillen tussen annotators, die vaak als negatief worden beschouwd, kunnen eigenlijk een waardevol signaal geven. Ten tweede, aangezien veel crowdsourced annotator-pools sociodemografisch scheef zijn, zijn er implicaties voor welke bevolkingsgroepen worden weergegeven in datasets, evenals welke bevolkingsgroepen worden geconfronteerd met de uitdagingen van [crowdwork].

‘Rekening houden met scheeftrekken in annotator-demografie is cruciaal voor het contextualiseren van datasets en het waarborgen van verantwoord downstream-gebruik. Kortom, er is waarde in het erkennen en rekening houden met de sociaal-culturele achtergrond van de werknemer — zowel vanuit het perspectief van gegevenskwaliteit als vanuit het perspectief van maatschappelijke impact.’

Geen ‘Neutrale’ Meningen over Hete Onderwerpen

Zelfs waar de meningen van vier annotators niet scheef zijn, noch demografisch noch op een andere manier, uit het Google-rapport dat onderzoekers geen rekening houden met de levenservaring of filosofische ingesteldheid van annotators:

‘Terwijl sommige taken objectieve vragen stellen met een correct antwoord (is er een menselijk gezicht in een afbeelding?), zijn veel datasets bedoeld om oordelen over relatief subjectieve taken te vangen met geen universeel correct antwoord (is deze tekst aanstootgevend?). Het is belangrijk om opzettelijk te zijn over of men moet vertrouwen op de subjectieve oordelen van annotators.’

Met betrekking tot zijn specifieke doel om problemen in het labelen van haatzaaiende taal aan te pakken, merkt het Syracuse-rapport op dat meer categorale vragen zoals Is er een kat in deze foto? opvallend verschillen van het vragen aan een crowdworker of een frase ‘giftig’ is:

‘Rekening houdend met de rommeligheid van de sociale realiteit, variëren mensen’s percepties van giftigheid aanzienlijk. Hun labels van giftige inhoud zijn gebaseerd op hun eigen percepties.’

Na te hebben vastgesteld dat persoonlijkheid en leeftijd een ‘aanzienlijke invloed’ hebben op de dimensionale labeling van haatzaaiende taal, concluderen de Syracuse-onderzoekers:

‘Deze bevindingen suggereren dat inspanningen om annotatie-consistentie te verkrijgen onder labelers met verschillende achtergronden en persoonlijkheden voor haatzaaiende taal mogelijk nooit volledig zullen slagen.’

De Rechter Kan Ook Bevooroordeeld Zijn

Deze gebrek aan objectiviteit is waarschijnlijk omhoog te itereren, volgens het Syracuse-rapport, dat betoogt dat de handmatige interventie (of geautomatiseerd beleid, ook beslist door een mens) die de ‘winnaar’ van consensus-stemmen bepaalt, ook aan scrutiny onderworpen moet worden.

Door het proces te vergelijken met forummoderatie, stellen de auteurs*:

‘[E]en community’s moderators kunnen het lot van zowel berichten als gebruikers in hun community bepalen door berichten te promoten of te verbergen, evenals door gebruikers te eren, te schamen of te verbannen. Moderators’ beslissingen beïnvloeden de inhoud die wordt geleverd aan community-leden en -publiek en door extensie ook de ervaring van de community met de discussie.

‘Als we aannemen dat een menselijke moderator een community-lid is dat demografische homogeniteit heeft met andere community-leden, lijkt het mogelijk dat het mentale schema dat ze gebruiken om inhoud te evalueren, overeenkomt met die van andere community-leden.’

Dit geeft enig inzicht in waarom de Syracuse-onderzoekers tot zo’n sombere conclusie zijn gekomen met betrekking tot de toekomst van haatzaaiende taal-annotatie; de implicatie is dat beleid en oordelen over meningsverschillen in crowdwork-resultaten niet zomaar kunnen worden toegepast volgens ‘aanvaardbare’ principes die nergens zijn vastgelegd (of niet zijn terug te voeren op een toepasbaar schema, zelfs als ze wel bestaan).

De mensen die de beslissingen nemen (de crowdworkers) zijn bevooroordeeld, en zouden nutteloos zijn voor dergelijke taken als ze niet bevooroordeeld waren, aangezien de taak is om een waardeoordeel te geven; de mensen die geschillen in crowdwork-resultaten beslechten, nemen ook waardeoordeel in bij het opstellen van beleid voor geschillen.

Er kunnen honderden beleidsregels zijn in slechts één haatzaaiende taal-detectie-kader, en tenzij elk van deze beleidsregels helemaal terug naar het Hooggerechtshof wordt genomen, waar kan ‘gezaghebbende’ consensus vandaan komen?

De Google-onderzoekers suggereren dat ‘[de] meningsverschillen tussen annotators waardevolle nuances over de taak kunnen embedden’. Het rapport stelt voor om metadata in datasets te gebruiken die geschillen weerspiegelt en contextualiseert.

Echter, het is moeilijk om te zien hoe een dergelijke contextspecifieke laag van gegevens ooit kan leiden tot vergelijkbare metingen, kan aanpassen aan de eisen van gevestigde standaardtests, of enige definitieve resultaten kan ondersteunen – behalve in het onrealistische scenario van het aannemen van dezelfde groep onderzoekers voor vervolgonderzoek.

Curatie van de Annotator-Pool

Al dit gaat ervan uit dat er zelfs budget is in een onderzoeksproject voor meerdere annotaties die zouden leiden tot een consensus-stem. In veel gevallen proberen onderzoekers de uitbesteedde annotator-pool goedkoper te ‘cureren’ door kenmerken op te geven die de werknemers zouden moeten hebben, zoals geografische locatie, geslacht of andere culturele factoren, en pluraliteit in te ruilen voor specificiteit.

Het Google-rapport stelt dat de manier vooruit vanuit deze uitdagingen kan zijn door uitgebreide communicatiekaders met annotators op te zetten, vergelijkbaar met de minimale communicatie die de Uber-app faciliteert tussen een chauffeur en een passagier.

Dergelijke zorgvuldige overweging van annotators zou, van nature, een obstakel vormen voor hyperschaal-annotatie-uitbesteding, resulterend in meer beperkte en lage-volumedatasets die een betere verklaring hebben voor hun resultaten, of een ‘haastige’ evaluatie van de annotators, met beperkte informatie over hen, en hen karakteriseren als ‘geschikt voor de taak’ op basis van te weinig informatie.

Dat is als de annotators eerlijk zijn.

De ‘Mensenbevorderaars’ in uitbestede dataset-labeling

Met een beschikbare werkkracht die onderbetaald is, onder hevige concurrentie voor beschikbare opdrachten, en gedrukt door slechte carrièreperspectieven, zijn annotators gemotiveerd om snel het ‘juiste’ antwoord te geven en door te gaan naar de volgende mini-opdracht.

Als het ‘juiste antwoord’ iets meer ingewikkelds is dan Heeft kat/Geen kat, betoogt het Syracuse-rapport dat de werknemer waarschijnlijk zal proberen om een ‘aanvaardbaar’ antwoord te raden op basis van de inhoud en context van de vraag*:

‘Zowel de verspreiding van alternatieve concepten en de wijdverbreide gebruik van simplistische annotatiemethoden zijn mogelijk het onderzoek naar online haatzaaiende taal hinderend. Bijvoorbeeld, Ross et al. vonden dat het tonen van Twitter’s definitie van hatelijke inhoud aan annotators hen deed gedeeltelijk hun eigen meningen aanpassen aan de definitie. Deze heralignering resulteerde in een zeer lage interrater-betrouwbaarheid van de annotaties.’

* Mijn conversie van de paper’s inline-citaten naar hyperlinks.

Geplaatst op 13 december 2021 – Bijgewerkt op 18 december 2021: Tags toegevoegd