Intelligenza artificiale

L'”Invisibile”, Spesso Infelice Forza Lavoro Che Sta Decidendo Il Futuro Dell’AI

Published December 13, 2021

Updated April 28, 2026

Martin Anderson

Due nuovi rapporti, tra cui un documento guidato da Google Research, esprimono preoccupazione che l’attuale tendenza a fare affidamento su un pool a buon mercato e spesso svantaggiato di lavoratori freelance globali per creare verità di base per i sistemi di apprendimento automatico potrebbe avere importanti implicazioni a valle per l’AI.

Tra una serie di conclusioni, lo studio di Google trova che i pregiudizi propri dei lavoratori della folla sono probabilmente destinati a essere incorporati nei sistemi di AI le cui verità di base saranno basate sulle loro risposte; che le pratiche di lavoro ingiuste diffuse (incluso negli Stati Uniti) sulle piattaforme di lavoro della folla sono probabilmente degradare la qualità delle risposte; e che il sistema di “consenso” (effettivamente una “mini-elezione” per un pezzo di verità di base che influenzerà i sistemi di AI a valle) che attualmente risolve le controversie può effettivamente scartare le migliori e/o più informate risposte.

Queste sono le cattive notizie; le notizie peggiori sono che quasi tutti i rimedi sono costosi, lungi o entrambi.

Insicurezza, Rifiuto Casuale e Rancore

Il primo documento, di cinque ricercatori di Google, si intitola Di Chi è la Verità di Base? Considerazione delle Identità Individuali e Collettive Sottostanti l’Annotazione del Set di Dati; il secondo, di due ricercatori dell’Università di Syracuse a New York, si intitola L’Origine e il Valore del Disaccordo tra gli Annotatori dei Dati: Uno Studio di Caso sulle Differenze Individuali nell’Annotazione del Discorso d’Odio.

Il documento di Google nota che i lavoratori della folla – le cui valutazioni spesso formano la base definitiva dei sistemi di apprendimento automatico che possono eventualmente influenzare le nostre vite – operano spesso in un contesto di vincoli che possono influenzare il modo in cui rispondono agli incarichi sperimentali.

Ad esempio, le politiche attuali di Amazon Mechanical Turk consentono ai richiedenti (coloro che assegnano gli incarichi) di rifiutare il lavoro di un annotatore senza responsabilità*:

‘[U]na grande maggioranza di lavoratori della folla (94%) ha avuto lavoro che è stato rifiutato o per il quale non è stato pagato. Tuttavia, i richiedenti mantengono i pieni diritti sui dati che ricevono, indipendentemente dal fatto che accettino o rifiutino il lavoro; Roberts (2016) descrive questo sistema come uno che “consente il furto di salario”.

‘Inoltre, rifiutare il lavoro e trattenere il pagamento è doloroso perché i rifiuti sono spesso causati da istruzioni poco chiare e dalla mancanza di canali di feedback significativi; molti lavoratori della folla riferiscono che la cattiva comunicazione influisce negativamente sul loro lavoro.’

Gli autori raccomandano che i ricercatori che utilizzano servizi esternalizzati per sviluppare set di dati considerino come una piattaforma di lavoro della folla tratti i suoi lavoratori. Notano inoltre che negli Stati Uniti, i lavoratori della folla sono classificati come “lavoratori autonomi”, con il lavoro quindi non regolamentato e non coperto dal salario minimo previsto dal Fair Labor Standards Act.

Il Contesto è Fondamentale

Il documento critica anche l’uso di lavoro globale ad hoc per i compiti di annotazione, senza considerare lo sfondo dell’annotatore.

Quando il budget lo consente, è comune per i ricercatori che utilizzano AMT e piattaforme di lavoro della folla simili assegnare lo stesso compito a quattro annotatori e attenersi alla “regola della maggioranza” sui risultati.

L’esperienza contestuale, sostiene il documento, è notevolmente sottovalutata. Ad esempio, se una domanda relativa al sessismo viene distribuita casualmente tra tre uomini d’accordo di età compresa tra 18 e 57 anni e una donna dissenziente di 29 anni, il verdetto degli uomini vince, tranne nei casi relativamente rari in cui i ricercatori prestano attenzione alle qualifiche dei loro annotatori.

Allo stesso modo, se una domanda su comportamento delle gang a Chicago viene distribuita tra una donna rurale statunitense di 36 anni, un residente di Chicago di 42 anni e due annotatori rispettivamente di Bangalore e Danimarca, la persona più probabilmente influenzata dalla questione (l’uomo di Chicago) detiene solo un quarto della quota nei risultati, in una configurazione di esternalizzazione standard.

I ricercatori affermano:

‘[L]a nozione di “una verità” nelle risposte della folla è un mito; il disaccordo tra gli annotatori, che è spesso visto come negativo, può effettivamente fornire un segnale prezioso. In secondo luogo, poiché molti pool di annotatori della folla sono distorti socio-demograficamente, ci sono implicazioni per le popolazioni rappresentate nei set di dati, nonché per le popolazioni che affrontano le sfide della folla di lavoro.

‘È fondamentale considerare le distorsioni nelle demografie degli annotatori per contestualizzare i set di dati e garantire un uso responsabile a valle. In breve, c’è valore nel riconoscere e considerare lo sfondo socioculturale dei lavoratori — sia dal punto di vista della qualità dei dati che dell’impatto sociale.’

Nessun Parere “Neutrale” su Argomenti Caldi

Anche quando le opinioni di quattro annotatori non sono distorte, né demograficamente né con qualche altro parametro, il documento di Google esprime preoccupazione che i ricercatori non stiano considerando le esperienze di vita o la disposizione filosofica degli annotatori:

‘Mentre alcuni compiti tendono a porre domande oggettive con una risposta corretta (c’è un volto umano in un’immagine?), spesso i set di dati tendono a catturare giudizi su compiti relativamente soggettivi senza una risposta universalmente corretta (è questo testo offensivo?). È importante essere intenzionali nel decidere se fare affidamento sui giudizi soggettivi degli annotatori.’

Riguardo al suo ambito specifico di affrontare problemi nell’etichettatura del discorso d’odio, il documento di Syracuse nota che domande più categoriche come C’è un gatto in questa fotografia? sono notevolmente diverse dal chiedere a un lavoratore della folla se una frase è “tossica”:

‘Considerando la complessità della realtà sociale, le percezioni della tossicità variano sostanzialmente. Le loro etichette di contenuto tossico si basano sulle loro stesse percezioni.’

Trovando che la personalità e l’età hanno un’influenza “sostanziale” sull’etichettatura dimensionale del discorso d’odio, i ricercatori di Syracuse concludono:

‘Questi risultati suggeriscono che gli sforzi per ottenere la coerenza dell’annotazione tra etichettatori con background diversi e personalità per il discorso d’odio potrebbero non avere mai pieno successo.’

Il Giudice Potrebbe Essere Pregiudicato Anche Lui

Questa mancanza di obiettività è probabile che si ripeta anche verso l’alto, secondo il documento di Syracuse, che sostiene che l’intervento manuale (o la politica automatizzata, decisa anche da un essere umano) che determina il “vincitore” dei voti di consenso dovrebbe essere soggetto a scrutinio.

Paragonando il processo alla moderazione del forum, gli autori affermano*:

‘[I] moderatori di una comunità possono decidere il destino di post e utenti nella loro comunità promuovendo o nascondendo post, nonché onorando, umiliando o bandendo gli utenti. Le decisioni dei moderatori influenzano il contenuto consegnato ai membri della comunità e del pubblico e, di conseguenza, influenzano anche l’esperienza della comunità nella discussione.

‘Supponendo che un moderatore umano sia un membro della comunità che ha omogeneità demografica con altri membri della comunità, sembra possibile che lo schema mentale che utilizzano per valutare il contenuto corrisponda a quello degli altri membri della comunità.’

Ciò dà un indizio sul perché i ricercatori di Syracuse sono giunti a una conclusione così despondente riguardo al futuro dell’annotazione del discorso d’odio; l’implicazione è che le politiche e le decisioni sui pareri discordanti della folla di lavoro non possono essere applicate casualmente secondo “principi accettabili” che non sono enunciati da nessuna parte (o non riducibili a uno schema applicabile, anche se esistono).

Le persone che prendono le decisioni (i lavoratori della folla) sono pregiudicate e sarebbero inutili per tali compiti se non fossero pregiudicate, poiché il compito è quello di fornire un giudizio di valore; le persone che giudicano le controversie nei risultati della folla di lavoro stanno anche prendendo decisioni di valore nel fissare le politiche per le controversie.

Potrebbero esserci centinaia di politiche in un solo quadro di rilevamento del discorso d’odio e, a meno che ognuna di esse non sia portata fino alla Corte Suprema, da dove potrebbe provenire il “consenso autoritativo”?

I ricercatori di Google suggeriscono che ‘[i] disaccordi tra gli annotatori possono incorporare sfumature preziose sul compito’. Il documento propone l’uso di metadati nei set di dati che riflettono e contestualizzano le controversie.

Tuttavia, è difficile vedere come un tale livello di dati contestuale potrebbe mai portare a metriche simili, adattarsi alle richieste di test standard stabiliti o supportare alcun risultato definitivo — tranne nello scenario irrealistico di adottare lo stesso gruppo di ricercatori in lavori successivi.

La Selezione della Folla di Lavoratori

Tutto ciò presume che ci sia anche un budget in un progetto di ricerca per più annotazioni che porterebbero a un voto di consenso. In molti casi, i ricercatori tentano di “selezionare” la folla di lavoro esternalizzato più a buon mercato specificando i tratti che i lavoratori dovrebbero avere, come la posizione geografica, il genere o altri fattori culturali, scambiando la pluralità con la specificità.

Il documento di Google sostiene che il modo in cui affrontare queste sfide potrebbe essere quello di stabilire quadri di comunicazione estesi con gli annotatori, simili alle comunicazioni minimali che l’app Uber facilita tra un conducente e un passeggero.

Una tale attenta considerazione degli annotatori sarebbe, naturalmente, un ostacolo all’esternalizzazione dell’annotazione su larga scala, risultando in set di dati più limitati e a basso volume che hanno una migliore ragione per i loro risultati, o una “valutazione affrettata” degli annotatori coinvolti, ottenendo informazioni limitate su di loro e caratterizzandoli come “idonei per il compito” in base a troppa poca informazione.

E se gli annotatori sono onesti.

I “Piaceri della Gente” nell’etichettatura dei set di dati esternalizzati

Con una forza lavoro disponibile che è sottopagata, sotto concorrenza severa per gli incarichi disponibili e depressa da prospettive di carriera scarse, gli annotatori sono motivati a fornire rapidamente la “risposta giusta” e passare all’incarico successivo.

Se la “risposta giusta” è qualcosa di più complesso di Ha gatto/No gatto, il documento di Syracuse sostiene che il lavoratore probabilmente tenterà di dedurre una “risposta accettabile” in base al contenuto e al contesto della domanda*:

‘Sia la proliferazione di concettualizzazioni alternative che l’uso diffuso di metodi di annotazione semplicistici sono probabilmente ostacolando i progressi della ricerca sul discorso d’odio online. Ad esempio, Ross e altri hanno trovato che mostrare la definizione di condotta odiosa di Twitter agli annotatori li ha portati a allineare parzialmente le loro opinioni con la definizione. Questo allineamento ha portato a una bassa attendibilità inter-annotatore delle annotazioni.’

* La mia conversione delle citazioni in linea del documento in collegamenti ipertestuali.

Pubblicato il 13 dicembre 2021 – Aggiornato il 18 dicembre 2021: Aggiunti tag