Intelligenza Artificiale
Le carenze di Amazon Mechanical Turk possono minacciare i sistemi di generazione del linguaggio naturale

Un nuovo studio dell'Università del Massachusetts Amherst ha contrapposto gli insegnanti di inglese ai lavoratori del crowdsourcing Amazon Mechanical Turk nella valutazione dell'output di Natural Language Generation (NLG), concludendo che gli standard permissivi e la "manipolazione" di mansioni ricercate tra i lavoratori dell'AMT potrebbero ostacolare lo sviluppo del settore.
Il rapporto giunge a una serie di conclusioni schiaccianti in merito alla misura in cui l'esternalizzazione a basso costo su "scala industriale" di attività di valutazione NLG aperte potrebbe portare a risultati e algoritmi inferiori in questo settore.
I ricercatori hanno anche compilato un elenco di 45 articoli sulla generazione di testo aperto in cui la ricerca aveva utilizzato AMT e hanno scoperto che "la stragrande maggioranza" non riportava dettagli critici sull'uso del servizio crowd di Amazon, rendendo difficile riprodurre i risultati degli articoli.
Manodopera sudatoria
Il rapporto critica sia la natura sfruttatrice di Amazon Mechanical Turk, sia i progetti accademici (probabilmente con limiti di budget) che stanno prestando ulteriore credibilità ad AMT utilizzando (e citandolo) come una risorsa di ricerca valida e coerente. Gli autori notano:
"Sebbene l'AMT sia una soluzione comoda e conveniente, osserviamo che l'elevata varianza tra i lavoratori, la scarsa calibrazione e i compiti cognitivamente impegnativi possono portare i ricercatori a trarre conclusioni scientifiche fuorvianti (ad esempio, che il testo scritto da esseri umani sia "peggiore" di quello di GPT-2)."
Il rapporto incolpa il gioco piuttosto che i giocatori, con i ricercatori che osservano:
"I lavoratori [della folla] sono spesso sottopagati per il loro lavoro, il che danneggia sia la qualità della ricerca sia, cosa ancora più importante, la capacità di questi lavoratori della folla di guadagnarsi da vivere in modo adeguato".
. carta, dal titolo I pericoli dell'utilizzo di Mechanical Turk per valutare la generazione di testo a tempo indeterminato, conclude inoltre che per valutare i contenuti NLG artificiali aperti si dovrebbe ricorrere a "valutatori esperti", come insegnanti di lingue e linguisti, anche se l'AMT è più economico.
Compiti di prova
Nel confrontare le prestazioni di AMT con quelle di lettori esperti con meno vincoli di tempo, i ricercatori hanno speso 144 dollari per i servizi AMT effettivamente utilizzati nei test di confronto (anche se molto di più è stato speso per risultati "non utilizzabili" - vedi sotto), chiedendo a "turchi" casuali di valutare uno dei 200 testi, suddivisi tra contenuti di testo creati dall'uomo e testo generato artificialmente.
Incaricare insegnanti professionisti con lo stesso lavoro costa $ 187.50 e confermare le loro prestazioni superiori (rispetto ai lavoratori AMT) assumendo freelance Upwork per replicare le attività costa $ 262.50 aggiuntivi.
Ogni compito consisteva in quattro criteri di valutazione: grammatica ('Quanto è grammaticalmente corretto il testo del frammento di storia?'); coerenza ('Quanto bene si incastrano tra loro le frasi nel frammento di storia?'); simpatia ('Quanto trovi piacevole questo frammento di storia?'); e rilevanza ('Quanto è pertinente il frammento di storia rispetto al suggerimento?').
Generazione dei testi
Per ottenere il materiale NLG per i test, i ricercatori hanno utilizzato il modello NLG del 2018 di Facebook AI Research. Generazione di storie neurali gerarchiche dataset, che comprende 303,358 storie in lingua inglese composte da utenti molto popolari (oltre 15 milioni di utenti) r/richiesta di scrittura subreddit, dove le storie degli abbonati vengono "seminate" da "suggerimenti" composti da una sola frase in modo simile alle pratiche attuali in generazione testo-immagine – e, naturalmente, nella generazione del linguaggio naturale a tempo indeterminato di riferimento.
200 prompt dal set di dati sono stati selezionati casualmente e passati attraverso un modello GPT-2 di medie dimensioni utilizzando i trasformatori Hugging-Face libreria. Pertanto, sono state ottenute due serie di risultati dagli stessi suggerimenti: i saggi discorsivi scritti dall'uomo dagli utenti di Reddit e i testi generati da GPT-2.
Per evitare che gli stessi lavoratori AMT valutassero la stessa storia più volte, sono stati richiesti tre giudizi di lavoratori AMT per esempio. Insieme agli esperimenti sulle capacità linguistiche in inglese dei lavoratori (vedi alla fine dell'articolo) e allo sconto sui risultati dei lavoratori meno impegnati (vedi "Short Time" di seguito), ciò ha portato la spesa totale per AMT a circa 1,500 dollari.
Per creare condizioni di parità , tutti i test sono stati condotti nei giorni feriali tra le 11.00:11 e le 30:XNUMX PST.
Risultati e conclusioni
Lo studio tentacolare copre molto terreno, ma i punti chiave sono i seguenti:
Short Time
Il documento ha rilevato che un tempo di attività medio riportato da Amazon ufficiale di 360 secondi si è ridotto a un tempo di lavoro nel mondo reale di soli 22 secondi e un tempo di lavoro medio di solo 13 secondi – un quarto del tempo impiegato dal più veloce Insegnante di inglese che replica il compito.

Dal giorno 2 dello studio: i singoli lavoratori (in arancione) hanno trascorso molto meno tempo a valutare ogni compito rispetto agli insegnanti meglio pagati e (successivamente) agli appaltatori Upwork ancora meglio pagati. Fonte: https://arxiv.org/pdf/2109.06835.pdf
Poiché l'AMT non impone alcun limite ai compiti di intelligence umana (HIT) che un singolo lavoratore può svolgere, sono emersi i cosiddetti "big hitters" dell'AMT, con una reputazione (redditizia) per il completamento di un elevato numero di compiti per esperimento. Per compensare gli "hit" accettati dallo stesso lavoratore, i ricercatori hanno misurato il tempo tra gli HIT inviati consecutivamente, confrontando l'ora di inizio e di fine di ciascun HIT. In questo modo, il divario tra i risultati AMT riportati Tempo di lavoro in secondi e il tempo effettivo impiegato per l'attività è stato messo a fuoco.
Poiché tale lavoro non può essere realizzato in questi tempi ridotti, i ricercatori hanno dovuto compensare questo:
"Dato che è impossibile leggere attentamente un articolo lungo un paragrafo e valutare tutte e quattro le proprietà in appena 13 secondi, misuriamo l'impatto sulle valutazioni medie quando filtriamo i lavoratori che dedicano troppo poco tempo a HIT... Nello specifico, rimuoviamo i giudizi dei lavoratori il cui tempo mediano è inferiore a 40 secondi (che è un limite basso) e scopriamo che in media circa il 42% delle nostre valutazioni viene filtrato (con una variazione dal 20% al 72% in tutti gli esperimenti)."
Il documento sostiene che la mancata segnalazione dell'orario di lavoro effettivo nell'AMT è "un problema importante" solitamente trascurato dai ricercatori che utilizzano i servizi.
Necessario tenersi per mano
I risultati suggeriscono inoltre che gli operatori AMT non riescono a distinguere in modo affidabile tra un testo scritto da un essere umano e un testo scritto da una macchina, a meno che non vedano entrambi i testi uno accanto all'altro, il che comprometterebbe di fatto uno scenario di valutazione tipico (in cui il lettore dovrebbe essere in grado di esprimere un giudizio basato su un singolo campione di testo, "reale" o generato artificialmente).
Accettazione casuale di testo artificiale di bassa qualitÃ
I lavoratori AMT hanno costantemente valutato il testo artificiale basato su GPT di bassa qualità alla pari con un testo coerente e di qualità superiore scritto da esseri umani, in contrasto con gli insegnanti di inglese, che erano facilmente in grado di distinguere la differenza di qualità .
Nessun tempo di preparazione, zero contesto
Adottare la mentalità corretta per un compito astratto come la valutazione dell'autenticità non è una cosa naturale; gli insegnanti di inglese avevano bisogno di 20 compiti per calibrare la propria sensibilità all'ambiente valutativo, mentre gli operatori AMT in genere non hanno alcun "tempo di orientamento", il che riduce la qualità del loro contributo.
Gioco del sistema
Il rapporto sostiene che il tempo totale che i lavoratori AMT dedicano alle singole attività è gonfiato dai lavoratori che accettano più attività contemporaneamente ed eseguono le attività in diverse schede sui loro browser, invece di concentrarsi su un'attività per la durata dell'attività registrata.
Paese di origine è importante
Le impostazioni predefinite di AMT non filtrano i lavoratori per paese di origine e le note del rapporto lavoro precedente indicando che i lavoratori AMT utilizzano le VPN per aggirare le restrizioni geografiche, consentendo ai non madrelingua di presentarsi come madrelingua inglese (in un sistema che, forse in modo piuttosto ingenuo, equipara la lingua madre di un lavoratore alla sua posizione geografica basata sull'IP).
Così i ricercatori hanno ripetuto i test di valutazione su AMT con filtri che limitano i potenziali acquirenti a no-Paesi di lingua inglese, trovandolo "I lavoratori provenienti da paesi non anglofoni hanno valutato la coerenza, la pertinenza e la grammatica... significativamente inferiori rispetto ai lavoratori con le stesse qualifiche provenienti da paesi anglofoni".
Il rapporto conclude:
"Ogniqualvolta sia possibile, si dovrebbe ricorrere a valutatori [esperti] come linguisti o insegnanti di lingue, poiché sono già stati formati per valutare testi scritti e non è molto più costoso...".
Pubblicato il 16 settembre 2021 - Aggiornato il 18 dicembre 2021: tag aggiunti












