Intelligenza artificiale

Creazione di Mechanical Turks Artificiali con Modelli Linguistici Pre-addestrati

Published December 30, 2021

Updated April 5, 2026

Martin Anderson

Una grande parte dello sviluppo dei sistemi di apprendimento automatico dipende dall’etichettatura dei dati, dove centinaia, anche migliaia di domande (come È questo un’immagine di un gatto? e È questo testo offensivo?) devono essere risolte per sviluppare set di dati autorevoli su cui addestrare i sistemi di intelligenza artificiale.

Sebbene noi tutti contribuiamo a questo processo in qualche momento, la maggior parte di questi compiti di etichettatura viene eseguita per denaro da lavoratori umani in framework come Amazon Mechanical Turk, dove gli annotatori completano compiti di classificazione minori in un economia di lavoro a pezzo.

Lo sviluppo del modello sarebbe più economico se i modelli linguistici pre-addestrati (PLM) potessero intraprendere alcuni dei compiti di intelligenza umana più basilari (HIT) attualmente crowdsourcings su AMT e piattaforme simili.

Recenti ricerche dalla Germania e Huawei propongono questo, nel documento LMTurk: Few-Shot Learners come lavoratori di crowdsourcing.

Modelli linguistici che eseguono l’apprendimento a pochi shot

Gli autori suggeriscono che gli strati più semplici dei compiti tipicamente rivolti ai lavoratori (umani) Turk sono analoghi all’apprendimento a pochi shot, dove un framework automatizzato deve decidere un mini-compito in base a un piccolo numero di esempi forniti.

Essi quindi propongono che i sistemi di intelligenza artificiale possano imparare efficacemente da PLM esistenti che sono stati originariamente addestrati da lavoratori di crowdsourcing – che la conoscenza fondamentale trasmessa dalle persone alle macchine è stata effettivamente realizzata già, e che dove tale conoscenza è relativamente immutabile o empirica in qualche modo, i framework di modelli linguistici automatizzati possono potenzialmente eseguire questi compiti da soli.

‘La nostra idea di base è che, per un compito NLP T, trattiamo i learner a pochi shot come lavoratori non esperti, simili ai lavoratori di crowdsourcing che annotano risorse per la tecnologia del linguaggio umano. Siamo ispirati dal fatto che possiamo considerare un lavoratore di crowdsourcing come un tipo di learner a pochi shot.’

Le implicazioni includono la possibilità che molti dei punti di verità sui quali i sistemi di intelligenza artificiale del futuro dipendono saranno stati derivati da esseri umani molti anni prima, e successivamente trattati come informazioni pre-convalidate e sfruttabili che non richiedono più l’intervento umano.

Lavori per modelli linguistici mid-range, semi-performanti

Oltre alla motivazione per ridurre i costi degli esseri umani nel ciclo, i ricercatori suggeriscono che l’utilizzo di PLM ‘mid-range’ come veri Mechanical Turks fornisce un lavoro utile per questi sistemi ‘anche ran’, che sono sempre più oscurati da modelli linguistici di grandi dimensioni e costosi come GPT-3, che sono troppo costosi e sovradimensionati per tali compiti.

‘Il nostro obiettivo in questo documento è quello di elaborare metodi che utilizzino in modo più efficace i learner a pochi shot attuali. Ciò è cruciale perché un numero crescente di gigantic learner a pochi shot viene addestrato; come utilizzarli efficacemente è quindi una domanda importante. In particolare, vogliamo un’alternativa ai modelli enormi difficili da distribuire.’

‘Allo stesso tempo, vogliamo sfruttare appieno i punti di forza dei PLM: la loro versatilità garantisce un’amplia applicabilità tra i compiti; la loro vasta conoscenza del linguaggio e del mondo (appresa durante il pre-addestramento) si manifesta nell’efficienza dei dati dei learner a pochi shot, riducendo il lavoro e il consumo di tempo nell’annotazione dei dati.’

Finora, gli autori sostengono, i learner a pochi shot nel NLP sono stati trattati come fasi interstiziali disposable lungo la strada per sistemi di linguaggio naturale di alto livello che sono molto più intensivi in termini di risorse, e che tale lavoro è stato svolto in modo astratto e senza considerazione per l’eventuale utilità di questi sistemi.

Metodo

Gli autori offrono LMTurk (Modello linguistico come Mechanical Turk), in un flusso di lavoro in cui l’input da questo HIT automatizzato fornisce etichette per un modello NLP di livello medio.

Un modello di base per LMTurk. Source: https://arxiv.org/pdf/2112.07522.pdf

Questa prima iterazione si basa su dati ‘gold’ etichettati da pochi shot umani, dove i lavoratori di crowdsourcing hanno annotato etichette per un numero limitato di compiti, e le etichette sono state valutate bene, sia attraverso la supervisione diretta umana che attraverso il voto di consenso. L’implicazione per questo schema è che le diramazioni o gli sviluppi da questo punto di partenza umano potrebbero non richiedere ulteriore input umano lungo la strada.

Sebbene gli autori suggeriscano ulteriori esperimenti con modelli ibridi successivi (dove l’input umano sarebbe presente, ma notevolmente ridotto), non hanno, per gli scopi della loro ricerca, confrontato i modelli LMTurk con risultati equivalenti da lavoratori di HIT umani, considerando che i dati ‘gold’ etichettati sono essi stessi ‘input umano’.

Il PLM progettato per eseguire operazioni di Turk è stato adattato per il compito tramite P-Tuning, un metodo pubblicato da ricercatori cinesi nel 2021, che ha proposto prompt embeddings continuamente addestrabili per migliorare le prestazioni dei modelli di stile GPT-3 su compiti di comprensione del linguaggio naturale (NLU).

P-Tuning tenta di approfondire il potere predittivo di un modello di stile GPT e la sua apparente comprensione concettuale del linguaggio, incorporando pseudo-prompt incorporati. In questo caso, la query di inizio è ‘La capitale della Gran Bretagna è una [x]’. Source: https://arxiv.org/pdf/2103.10385.pdf

Dati e architettura

LMTurk è stato valutato su cinque set di dati: due dal Stanford Sentiment Treebank; AG’s News Corpus; Recognizing Textual Entailment (RTE); e Corpus of Linguistic Acceptability (CoLA).

Per il suo modello più grande, LMTurk utilizza i PLM pubblicamente disponibili ALBERT-XXLarge-v2 (AXLV2) come modello di origine per la conversione in un Turk automatizzato. Il modello presenta 223 milioni di parametri (rispetto ai 175 miliardi di parametri in GPT-3). AXLV2, gli autori osservano, ha dimostrato di essere in grado di superare modelli di scala più alta come 334M BERT-Large.

Per un modello più agile, leggero e distribuibile su edge, il progetto utilizza TinyBERT-General-4L-312D (TBG), che presenta 14,5 milioni di parametri con prestazioni paragonabili a BERT-base (che ha 110 milioni di parametri).

L’addestramento abilitato da prompt ha avuto luogo su PyTorch e HuggingFace per AXLV2 su 100 passi di batch con una dimensione del batch di 13, su una velocità di apprendimento di 5e-4, utilizzando decadimento lineare. Ogni esperimento è stato originato con tre semi casuali diversi.

Risultati

Il progetto LMTurk esegue modelli diversi contro molti sottosettori specifici del NLP, quindi i risultati complessi degli esperimenti dei ricercatori non sono facili da ridurre a prove empiriche che LMTurk offra in sé un approccio valido per il riutilizzo di scenari di apprendimento a pochi shot di origine umana storica.

Tuttavia, per scopi di valutazione, gli autori confrontano il loro metodo con due lavori precedenti: Sfruttare le domande Cloze per la classificazione del testo e l’inferenza del linguaggio naturale a pochi shot di ricercatori tedeschi Timo Schick e Hinrich Schutze; e i risultati da Prompt-Based Auto, presentati in Migliorare i modelli linguistici pre-addestrati come learner a pochi shot di Gao, Chen e Fisch (rispettivamente da Princeton e MIT).

Risultati dagli esperimenti LMTurk, con i ricercatori che segnalano prestazioni ‘comparabili’.

In breve, LMTurk offre una linea di indagine relativamente promettente per i ricercatori che cercano di incorporare e consolidare dati umani di origine ‘gold’ in modelli linguistici in evoluzione di media complessità, dove i sistemi automatizzati sostituiscono l’input umano.

Come nel caso del lavoro precedente in questo campo, il concetto centrale si basa sull’immutabilità dei dati umani originali e sulla presunzione che i fattori temporali – che possono rappresentare ostacoli significativi per lo sviluppo del NLP – non richiederanno ulteriore intervento umano mentre la discendenza della macchina si evolve.

Originariamente pubblicato il 30 dicembre 2022