Kunstmatige intelligentie

De tekortkomingen van Amazon Mechanical Turk kunnen een bedreiging vormen voor Natural Language Generation-systemen

Published September 16, 2021

Updated April 28, 2026

Martin Anderson

Een nieuwe studie van de University of Massachusetts Amherst heeft Engelse leraren tegenover crowdsourced werknemers op Amazon Mechanical Turk gezet bij het beoordelen van de output van Natural Language Generation (NLG) systemen, en concludeert dat lage standaarden en het ‘gamen’ van gewaardeerde taken onder AMT-werkers de ontwikkeling van de sector kunnen hinderen.

Het rapport komt tot een aantal verontrustende conclusies over de mate waarin de ‘industriële-schaal’ goedkope uitbesteding van open-eindige NLG-evaluatietaken kan leiden tot inferieure resultaten en algoritmen in deze sector.

De onderzoekers hebben ook een lijst van 45 papers over open-eindige tekstgeneratie samengesteld waarin het onderzoek gebruik had gemaakt van AMT, en vonden dat ‘de overgrote meerderheid’ geen kritische details rapporteerde over het gebruik van Amazon’s crowd-service, waardoor het moeilijk was om de resultaten van de papers te reproduceren.

Sweat-Shop Arbeid

Het rapport richt kritiek op zowel de sweat-shop-aard van Amazon Mechanical Turk als de (waarschijnlijk budget-beperkte) academische projecten die AMT extra geloofwaardigheid geven door het te gebruiken (en te citeren) als een valide en consistente onderzoeksbron. De auteurs merken op:

‘Terwijl AMT een handige en betaalbare oplossing is, observeren we dat hoge variatie tussen werknemers, slechte kalibratie en cognitief veeleisende taken onderzoekers kunnen leiden tot misleidende wetenschappelijke conclusies (bijv. dat door mensen geschreven tekst “slechter” is dan GPT-2’s).’

Het rapport geeft de schuld aan het spel en niet aan de spelers, waarbij de onderzoekers opmerken:

‘[Crowd] werknemers worden vaak onderbetaald voor hun arbeid, wat zowel de kwaliteit van het onderzoek als, belangrijker nog, de mogelijkheid van deze crowd-werkers om een adequate boterham te verdienen, schaadt.’

De paper, getiteld De gevaren van het gebruik van Mechanical Turk om open-eindige tekstgeneratie te evalueren, concludeert verder dat ‘expert-raters’ zoals taalleraren en linguïsten moeten worden gebruikt om open-eindige kunstmatige NLG-inhoud te evalueren, zelfs als AMT goedkoper is.

Testtaken

Bij het vergelijken van de prestaties van AMT met minder tijdsbeperkte, expert-lezers, hebben de onderzoekers $144 uitgegeven aan de AMT-diensten die daadwerkelijk werden gebruikt in de vergelijkingstests (hoewel veel meer werd uitgegeven aan ‘niet-bruikbare’ resultaten – zie hieronder), waarbij willekeurige ‘Turks’ één van de 200 teksten moesten evalueren, verdeeld tussen door mensen gegenereerde tekstinhoud en kunstmatig gegenereerde tekst.

Het inschakelen van professionele leraren voor hetzelfde werk kostte $187,50, en bevestigde hun superieure prestaties (in vergelijking met AMT-werkers) door Upwork-freelancers in te huren om de taken te repliceren, tegen een extra $262,50.

Elke taak bestond uit vier evaluatiecriteria: grammatica (‘Hoe grammaticaal correct is de tekst van het verhaalfragment?’); coherentie (‘Hoe goed passen de zinnen in het verhaalfragment bij elkaar?’); sympathie (‘Hoe leuk vind je het verhaalfragment?’); en relevantie (‘Hoe relevant is het verhaalfragment voor de prompt?’).

Tekstgeneratie

Om NLG-materiaal voor de tests te verkrijgen, hebben de onderzoekers het dataset van Facebook AI Research uit 2018 Hiërarchische neurale verhaalgeneratie dataset gebruikt, dat bestaat uit 303.358 Engelstalige verhalen die zijn samengesteld door gebruikers van de zeer populaire (15 miljoen+ gebruikers) r/writingprompts subreddit, waarbij verhalen van abonnees worden ‘gezaaid’ door enkele zin-prompten op een soortgelijke manier als de huidige praktijken in tekst-naar-afbeeldinggeneratie – en, natuurlijk, in open-eindige Natural Language Generation systemen.

200 prompts uit het dataset werden willekeurig geselecteerd en doorgegeven aan een medium-grote GPT-2-model met behulp van de Hugging-Face Transformers bibliotheek. Zo werden twee sets resultaten verkregen van dezelfde prompts: de door mensen geschreven discursieve essays van Reddit-gebruikers en GPT-2-gegenereerde teksten.

Om te voorkomen dat dezelfde AMT-werkers hetzelfde verhaal meerdere keren beoordelen, werden drie AMT-werkersbeoordelingen per voorbeeld aangevraagd. Samen met experimenten met betrekking tot de Engelstalige capaciteiten van de werknemers (zie het einde van het artikel) en het uitsluiten van resultaten van lage-inspanningswerknemers (zie ‘Korte Tijd’ hieronder), verhoogde dit de totale uitgaven aan AMT tot ongeveer $1.500 USD.

Om een gelijk speelveld te creëren, werden alle tests uitgevoerd op weekdagen tussen 11.00 en 11.30 uur PST.

Resultaten en Conclusies

De uitgebreide studie bestrijkt veel terrein, maar de belangrijkste punten zijn als volgt:

Korte Tijd

Het paper vond dat de door Amazon gerapporteerde gemiddelde taakduur van 360 seconden neerkwam op een reële werktijd van slechts 22 seconden, en een mediaan werktijd van alleen 13 seconden – een kwart van de tijd die de snelste Engelse leraar nodig had om de taak te repliceren.

Vanaf dag 2 van de studie: de individuele werknemers (in oranje) besteedden aanzienlijk minder tijd aan het evalueren van elke taak dan de beter betaalde leraren, en (later) de nog beter betaalde Upwork-contractanten. Bron: https://arxiv.org/pdf/2109.06835.pdf

Aangezien AMT geen limiet oplegt aan het aantal Human Intelligence Tasks (HIT’s) dat een individuele werknemer kan uitvoeren, zijn er AMT ‘big hitters’ ontstaan, met (winstgevende) reputaties voor het voltooien van hoge aantallen taken per experiment. Om te compenseren voor geaccepteerde hits door dezelfde werknemer, hebben de onderzoekers de tijd tussen opeenvolgend ingediende HIT’s gemeten, door de start- en eindtijd van elke HIT te vergelijken. Op deze manier kwam het tekort tussen AMT’s gerapporteerde WorkTimeInSeconds en de daadwerkelijke tijd die aan de taak werd besteed, in beeld.

Aangezien een dergelijke taak niet kan worden voltooid in deze verkorte tijd, moesten de onderzoekers compenseren:

‘Aangezien het onmogelijk is om zorgvuldig een alinea-lange tekst te lezen en alle vier eigenschappen te beoordelen in slechts 13 seconden, meten we de impact op gemiddelde beoordelingen wanneer we werknemers filteren die te weinig tijd per HIT besteden…Specifiek verwijderen we beoordelingen van werknemers van wie de mediaan tijd lager is dan 40s (wat een lage lat is), en vinden we dat gemiddeld ongeveer 42% van onze beoordelingen worden gefilterd (variërend van 20%-72% over alle experimenten).’

Het paper stelt dat misgerapporteerde werktijd in AMT ‘een groot probleem’ is dat gewoonlijk door onderzoekers die de diensten gebruiken, wordt genegeerd.

Hand-Holding Noodzakelijk

De bevindingen suggereren verder dat AMT-werkers niet betrouwbaar kunnen onderscheiden tussen tekst geschreven door een mens en tekst geschreven door een machine, tenzij ze beide teksten naast elkaar zien, wat effectief een typische evaluatiescenario zou compromitteren (waarbij de lezer in staat zou moeten zijn om een oordeel te vellen op basis van een enkel tekstvoorbeeld, ‘echt’ of kunstmatig gegenereerd).

Casuele Acceptatie van Lage-Kwaliteit Kunstmatige Tekst

AMT-werkers beoordeelden consistent lage-kwaliteit GPT-gebaseerde kunstmatige tekst op gelijke hoogte met hogere kwaliteit, coherente tekst geschreven door mensen, in tegenstelling tot de Engelse leraren, die gemakkelijk het verschil in kwaliteit konden onderscheiden.

Geen Voorbereidingstijd, Geen Context

Het betreden van de juiste mindset voor een dergelijke abstracte taak als evaluatie van authenticiteit komt niet van nature; Engelse leraren hadden 20 taken nodig om hun gevoeligheid te kalibreren aan de evaluatie-omgeving, terwijl AMT-werkers over het algemeen helemaal geen ‘oriëntatie-tijd’ kregen, waardoor de kwaliteit van hun input lager was.

Gamen van het Systeem

Het rapport stelt dat de totale tijd die AMT-werkers besteden aan individuele taken wordt opgeblazen door werknemers die meerdere taken tegelijk aanvaarden en door de taken heen gaan in verschillende tabs op hun browsers, in plaats van zich te concentreren op één taak voor de geregistreerde taakduur.

Land van Herkomst is Belangrijk

De standaardinstellingen van AMT filteren werknemers niet op land van herkomst, en het rapport merkt op eerder onderzoek dat aangeeft dat AMT-werkers VPN’s gebruiken om rondom geografische beperkingen te werken, waardoor niet-moedertaalsprekers zich kunnen voordoen als moedertaalsprekers (in een systeem dat, misschien nogal naïef, een werknemers moedertaal gelijkstelt met hun IP-gebaseerde geografische locatie).

De onderzoekers hebben de evaluatietests op AMT opnieuw uitgevoerd met filters die potentiële deelnemers beperkten tot niet-Engelstalige landen, en vonden dat ‘werknemers uit niet-Engelstalige landen coherentie, relevantie en grammatica…significant lager beoordeelden dan identiek gekwalificeerde werknemers uit Engelstalige landen’.

Het rapport concludeert:

‘[Expert] beoordelaars zoals linguïsten of taalleraren moeten worden gebruikt wanneer mogelijk, omdat ze al zijn getraind om geschreven tekst te beoordelen, en het is niet veel duurder…’

Geplaatst op 16 september 2021 – Bijgewerkt op 18 december 2021: Tags toegevoegd