Conectează-te cu noi

Inteligența artificială

Deficiențele lui Amazon Mechanical Turk pot amenința sistemele de generare a limbajului natural

mm

Un nou studiu de la Universitatea din Massachusetts Amherst i-a pus în față pe profesorii de engleză cu lucrătorii care au participat la crowdsource Amazon Mechanical Turk în evaluarea rezultatelor Natural Language Generation (NLG), ajungând la concluzia că standardele laxe și „jocul” de sarcini valoroase în rândul lucrătorilor AMT ar putea împiedica dezvoltarea sectorului.

Raportul ajunge la o serie de concluzii condamnatoare cu privire la măsura în care externalizarea ieftină „la scară industrială” a sarcinilor deschise de evaluare a NLG ar putea duce la rezultate și algoritmi inferiori în acest sector.

Cercetătorii au întocmit, de asemenea, o listă de 45 de lucrări despre generarea de text deschisă în care cercetarea a folosit AMT și au descoperit că „marea majoritate” nu a reușit să raporteze detalii critice despre utilizarea serviciului de aglomerație al Amazon, ceea ce face dificilă reproducerea. constatările lucrărilor.

Muncă din atelierul de transpirație

Raportul ridică critici atât asupra naturii de atelier a Amazon Mechanical Turk, cât și asupra proiectelor academice (probabil limitate de buget) care oferă AMT credibilitate suplimentară prin utilizarea (și citarea) ca o resursă de cercetare validă și consecventă. Autorii notează:

„În timp ce AMT este o soluție convenabilă și accesibilă, observăm că diferența mare între lucrători, calibrarea slabă și sarcinile solicitante din punct de vedere cognitiv pot determina cercetătorii să tragă concluzii științifice înșelătoare (de exemplu, că textul scris de om este „mai rău” decât GPT-2). ).'

Raportul dă vina pe joc mai degrabă decât pe jucători, cercetătorii observând:

„Lucrătorii [mulțimii] sunt adesea subplătiți pentru munca lor, ceea ce dăunează atât calității cercetării, cât și, mai important, capacității acestor muncitori ai mulțimii de a-și câștiga un trai adecvat”.

hârtie, intitulat Pericolele utilizării turcului mecanic pentru a evalua generarea de text deschisă, concluzionează în continuare că „evaluatorii experți”, cum ar fi profesorii de limbi străine și lingviștii, ar trebui să fie utilizați pentru a evalua conținutul NLG artificial deschis, chiar dacă AMT este mai ieftin.

Sarcini de testare

Comparând performanța AMT cu cititorii experți, mai puțin constrânși în timp, cercetătorii au cheltuit 144 USD pentru serviciile AMT utilizate efectiv în testele de comparație (deși mult mai mult s-a cheltuit pentru rezultate „neutilizabile” – vezi mai jos), necesitând „turci” aleatoriu. pentru a evalua unul dintre cele 200 de texte, împărțite între conținutul text creat de om și textul generat artificial.

Atribuirea profesorilor profesioniști cu aceeași muncă a costat 187.50 USD, iar confirmarea performanței lor superioare (comparativ cu lucrătorii AMT) prin angajarea de freelanceri Upwork pentru a reproduce sarcinile a costat 262.50 USD în plus.

Fiecare sarcină a constat din patru criterii de evaluare: gramatică („Cât de corect din punct de vedere gramatical este textul fragmentului de poveste?”); coerență („Cât de bine se potrivesc propozițiile din fragmentul de poveste?”); simpatia („Cât de plăcut ți se pare fragmentul de poveste?”); și relevanță („Cât de relevant este fragmentul de poveste pentru prompt?”).

Generarea textelor

Pentru a obține material NLG pentru teste, cercetătorii au folosit Facebook AI Research 2018 Generarea de povești neuronale ierarhice date CCD, care cuprinde 303,358 de povești în limba engleză compuse de utilizatori de la cele foarte populare (15 milioane de utilizatori) r/writingprompts subreddit, unde poveștile abonaților sunt „însămânțate” de „îndemnuri” cu o singură propoziție într-un mod similar cu practicile curente în generarea text-to-image – și, bineînțeles, în generația de limbaj natural deschis sisteme.

200 de solicitări din setul de date au fost selectate aleatoriu și trecute printr-un model GPT-2 de dimensiuni medii folosind transformatoarele Hugging-Face bibliotecă. Astfel, două seturi de rezultate au fost obținute din aceleași solicitări: eseurile discursive scrise de oameni de la utilizatorii Reddit și textele generate de GPT-2.

Pentru a preveni aceiași lucrători AMT să judece aceeași poveste de mai multe ori, au fost solicitate trei judecăți ale lucrătorilor AMT per exemplu. Împreună cu experimentele privind capacitățile de limba engleză ale lucrătorilor (a se vedea sfârșitul articolului) și a reducerii rezultatelor de la lucrătorii cu efort redus (a se vedea „Timp scurt” de mai jos), acest lucru a crescut cheltuielile totale pentru AMT la aproximativ 1,500 USD.

Pentru a crea condiții de concurență echitabile, toate testele au fost efectuate în zilele săptămânii, între orele 11.00:11 și 30:XNUMX PST.

Rezultate și concluzii

Studiul extins acoperă o mulțime de terenuri, dar punctele cheie sunt următoarele:

Timp scurt

Lucrarea a constatat că un timp mediu de activitate raportat de Amazon oficial de 360 ​​de secunde se reduce la un timp de lucru real de doar 22 de secunde și un timp mediu de lucru de numai 13 secunde – un sfert din timpul necesar cel mai rapid Profesor de engleză replicând sarcina.

Din ziua 2 a studiului: lucrătorii individuali (în portocaliu) au petrecut mult mai puțin timp evaluând fiecare sarcină decât profesorii mai bine plătiți și (mai târziu) contractorii Upwork chiar mai bine plătiți. Sursa: https://arxiv.org/pdf/2109.06835.pdf

Din ziua 2 a studiului: lucrătorii individuali (în portocaliu) au petrecut mult mai puțin timp evaluând fiecare sarcină decât profesorii mai bine plătiți și (mai târziu) contractorii Upwork chiar mai bine plătiți. Sursă: https://arxiv.org/pdf/2109.06835.pdf

Întrucât AMT nu impune nicio limită asupra sarcinilor de inteligență umană (HIT) pe care le poate prelua un lucrător individual, au apărut „marii lovitori” AMT, cu reputație (profitabilă) pentru îndeplinirea unui număr mare de sarcini per experiment. Pentru a compensa hit-urile acceptate de către același lucrător, cercetătorii au măsurat timpul dintre HIT-urile trimise consecutiv, comparând timpul de început și de sfârșit al fiecărui HIT. În acest fel, deficitul dintre AMT a raportat WorkTimeInSeconds iar timpul efectiv petrecut cu sarcina a intrat în atenție.

Deoarece o astfel de muncă nu poate fi realizată în aceste intervale de timp reduse, cercetătorii au trebuit să compenseze acest lucru:

„Deoarece este imposibil să citiți cu atenție o poveste cu lungimea de paragraf și să evaluați toate cele patru proprietăți în doar 13 secunde, măsurăm impactul asupra evaluărilor medii atunci când filtrăm lucrătorii care petrec prea puțin timp pe HIT... În mod specific, eliminăm judecățile din lucrătorii al căror timp mediu este sub 40 de secunde (care este o bară scăzută) și constată că, în medie, aproximativ 42% dintre evaluările noastre sunt filtrate (variind între 20% și 72% în toate experimentele).'

Lucrarea susține că timpul de lucru efectiv raportat în mod greșit în AMT este „o problemă majoră”, de obicei trecută cu vederea de către cercetătorii care folosesc serviciile.

Ținerea de mână este necesară

Descoperirile sugerează în plus că lucrătorii AMT nu pot distinge în mod fiabil între textul scris de un om și textul scris de o mașină, cu excepția cazului în care văd ambele texte unul lângă altul, ceea ce ar compromite efectiv un scenariu tipic de evaluare (în care cititorul ar trebui să poată face o judecată bazată pe un singur eșantion de text, „real” sau generat artificial).

Acceptarea întâmplătoare a textului artificial de calitate scăzută

Lucrătorii AMT au evaluat în mod constant textul artificial de calitate scăzută bazat pe GPT la egalitate cu textul de calitate superioară, coerent scris de oameni, spre deosebire de profesorii de engleză, care au putut să distingă cu ușurință diferența de calitate.

Fără timp de pregătire, zero context

Introducerea mentalității corecte pentru o sarcină atât de abstractă precum evaluarea autenticității nu vine de la sine; Profesorii de engleză au avut nevoie de 20 de sarcini pentru a-și calibra sensibilitățile la mediul evaluativ, în timp ce lucrătorii AMT de obicei nu beneficiază deloc de „timp de orientare”, scăzând calitatea contribuției lor.

Jocul sistemului

Raportul susține că timpul total petrecut de lucrătorii AMT pe sarcini individuale este umflat de lucrătorii care acceptă mai multe sarcini simultan și rulează sarcinile în diferite file din browserele lor, în loc să se concentreze pe o singură sarcină pentru durata sarcinii înregistrate.

Țara de origine este importantă

Setările implicite ale AMT nu filtrează lucrătorii după țara de origine, iar raportul notează munca anterioară indicând faptul că lucrătorii AMT folosesc VPN-uri pentru a rezolva restricțiile geografice, permițând vorbitorilor non-nativi să se prezinte ca vorbitori nativi de engleză (într-un sistem care, poate destul de naiv, echivalează limba maternă a lucrătorului cu locația lor geografică bazată pe IP).

Astfel, cercetătorii au efectuat din nou testele de evaluare pe AMT cu filtre care limitează potențialii utilizatori la nu-Țări vorbitoare de engleză, constatând asta „lucrătorii din țările care nu vorbesc engleza au evaluat coerența, relevanța și gramatica... semnificativ mai mici decât lucrătorii cu calificare identică din țările vorbitoare de engleză”.

Raportul concluzionează:

„Evaluatorii [experți], cum ar fi lingviștii sau profesorii de limbi străine, ar trebui folosiți ori de câte ori este posibil, deoarece au fost deja instruiți să evalueze textul scris și nu este mult mai scump...”.

 

Publicat pe 16 septembrie 2021 - Actualizat 18 decembrie 2021: Etichete adăugate

Scriitor pe machine learning, specialist în domeniul sintezei imaginilor umane. Fost șef de conținut de cercetare la Metaphysic.ai.
Site personal: martinanderson.ai
Contact: [e-mail protejat]
Twitter: @manders_ai