Povežite se s nama

Umjetna inteligencija

Nedostaci Amazon Mechanical Turka mogu ugroziti sustave za generiranje prirodnog jezika

mm

Nova studija sa Sveučilišta Massachusetts Amherst suprotstavila je učitelje engleskog i zaposlenike koji rade na masovnom tržištu Amazon Mechanical Turk u procjeni rezultata generiranja prirodnog jezika (NLG) sustava, zaključivši da bi slabi standardi i 'igranje' vrijednih zadataka među radnicima AMT-a mogli kočiti razvoj sektora.

Izvješće dolazi do brojnih osuđujućih zaključaka u vezi s mjerom u kojoj bi jeftino outsourcing otvorenih zadataka NLG-a na 'industrijskoj razini' moglo dovesti do lošijih rezultata i algoritama u ovom sektoru.

Istraživači su također sastavili popis od 45 radova o generiranju otvorenog teksta gdje je istraživanje koristilo AMT i otkrili da 'velika većina' nije prijavila kritične pojedinosti o korištenju Amazonove usluge skupa, što otežava reprodukciju nalazi radova.

Rad u znojnoj radnji

U izvješću se kritizira i priroda Amazon Mechanical Turka kao pogonska radionica i akademski projekti (vjerojatno ograničeni proračunom) koji AMT-u daju dodatnu vjerodostojnost korištenjem (i citiranjem) kao valjanog i dosljednog istraživačkog resursa. Autori napominju:

'Iako je AMT prikladno i pristupačno rješenje, primjećujemo da velika varijacija između radnika, loša kalibracija i kognitivno zahtjevni zadaci mogu navesti istraživače da izvuku pogrešne znanstvene zaključke (npr. da je tekst koji su napisali ljudi "gori" od GPT-2 ).'

Izvješće okrivljuje igru, a ne igrače, a istraživači primjećuju:

'[Crowd] radnici su često nedovoljno plaćeni za svoj rad, što šteti i kvaliteti istraživanja, i što je još važnije, sposobnosti tih masovnih radnika da zarade primjeren život.'

The papir, Pod naslovom Opasnosti korištenja mehaničkog Turka za procjenu generiranja otvorenog teksta, nadalje zaključuje da bi se 'stručni ocjenjivači' poput profesora jezika i lingvista trebali koristiti za procjenu otvorenog umjetnog NLG sadržaja, čak i ako je AMT jeftiniji.

Testni zadaci

U usporedbi performansi AMT-a s manje vremenski ograničenim, stručnim čitateljima, istraživači su potrošili 144 dolara na AMT usluge koje su se stvarno koristile u usporednim testovima (iako je mnogo više potrošeno na 'neupotrebljive' rezultate – vidi dolje), zahtijevajući nasumične 'Turke' za procjenu jednog od 200 tekstova, podijeljenih između tekstualnog sadržaja koji je stvorio čovjek i umjetno generiranog teksta.

Zaduživanje profesionalnih učitelja istim poslom koštalo je 187.50 USD, a potvrđivanje njihove superiorne izvedbe (u usporedbi s radnicima AMT-a) angažiranjem Upwork slobodnih djelatnika za repliciranje zadataka koštalo je dodatnih 262.50 USD.

Svaki zadatak sastojao se od četiri kriterija ocjenjivanja: gramatika ('Koliko je gramatički ispravan tekst fragmenta priče?'); koherencija ('Koliko dobro rečenice u fragmentu priče odgovaraju jedna drugoj?'); dopadljivost ('Koliko vam se sviđa fragment priče?'); i relevantnost ('Koliko je fragment priče relevantan za upit?').

Generiranje tekstova

Kako bi dobili NLG materijal za testove, istraživači su koristili Facebook AI Research 2018 Generiranje hijerarhijske neuronske priče skup podataka, koji se sastoji od 303,358 priča na engleskom jeziku koje su sastavili korisnici na vrlo popularnom (15m+ korisnika) r/napisi za pisanje subreddit, gdje su priče pretplatnika 'zasijane' 'uputama' u jednoj rečenici na sličan način kao i trenutna praksa u generiranje teksta u sliku – i, naravno, u otvorenoj Generaciji prirodnog jezika sustavi.

200 upita iz skupa podataka nasumično je odabrano i prošlo kroz GPT-2 model srednje veličine pomoću transformatora grlećeg lica knjižnica. Tako su dobivena dva skupa rezultata iz istih upita: diskurzivni eseji koje su napisali ljudi od korisnika Reddita i tekstovi generirani GPT-2.

Kako bi se spriječilo da isti radnici AMT-a više puta prosuđuju istu priču, tražene su tri prosudbe radnika AMT-a po primjeru. Zajedno s eksperimentima koji se odnose na znanje engleskog jezika radnika (vidi kraj članka) i diskontiranjem rezultata radnika koji se malo trude (vidi 'Kratko vrijeme' u nastavku), to je povećalo ukupne izdatke za AMT na oko 1,500 USD.

Kako bi se stvorili jednaki uvjeti, svi testovi su se provodili radnim danima između 11.00 do 11 PST.

Rezultati i zaključci

Opsežna studija pokriva mnogo područja, ali ključne točke su sljedeće:

Kratko vrijeme

Rad je otkrio da se službeno Amazonovo prosječno vrijeme zadatka od 360 sekundi svodi na radno vrijeme u stvarnom svijetu od samo 22 sekunde, a prosječno radno vrijeme od samo 13 sekundi – četvrtina vremena potrebnog za Najbrže Učiteljica engleskog replicira zadatak.

Od 2. dana studije: pojedinačni radnici (u narančastom) proveli su značajno manje vremena procjenjujući svaki zadatak nego bolje plaćeni učitelji i (kasnije) još bolje plaćeni izvođači Upworka. Izvor: https://arxiv.org/pdf/2109.06835.pdf

Od 2. dana studije: pojedinačni radnici (u narančastom) proveli su značajno manje vremena procjenjujući svaki zadatak nego bolje plaćeni učitelji i (kasnije) još bolje plaćeni izvođači Upworka. Izvor: https://arxiv.org/pdf/2109.06835.pdf

Budući da AMT ne nameće ograničenja za zadatke ljudske inteligencije (HIT) koje pojedinačni radnik može preuzeti, pojavili su se AMT 'veliki napadači', s (profitabilnom) reputacijom za dovršavanje velikog broja zadataka po eksperimentu. Kako bi kompenzirali prihvaćene pogotke od strane istog radnika, istraživači su mjerili vrijeme između uzastopno poslanih HIT-ova, uspoređujući vrijeme početka i završetka svakog HIT-a. Na taj način, manjak između prijavljenih AMT-a Radno vrijeme u sekundama a u fokus je došlo stvarno vrijeme potrošeno na zadatak.

Budući da se takav posao ne može obaviti u ovim skraćenim vremenskim okvirima, istraživači su to morali kompenzirati:

'Budući da je nemoguće pažljivo pročitati priču duljine odlomka i procijeniti sva četiri svojstva u samo 13 sekundi, mjerimo utjecaj na prosječne ocjene kada filtriramo radnike koji troše premalo vremena na HIT... Konkretno, uklanjamo prosudbe iz radnika čiji je medijan vremena ispod 40 s (što je niska letvica), i otkrili da je u prosjeku oko 42% naših ocjena filtrirano (u rasponu od 20%-72% u svim eksperimentima).'

U radu se tvrdi da je pogrešno prijavljeno stvarno radno vrijeme u AMT-u 'veliki problem' koji istraživači koji koriste usluge obično zanemaruju.

Neophodno držanje za ruke

Nalazi dalje sugeriraju da radnici AMT-a ne mogu pouzdano razlikovati tekst koji je napisao čovjek od teksta koji je napisao stroj, osim ako ne vide oba teksta jedan pored drugog, što bi učinkovito kompromitiralo tipični scenarij evaluacije (gdje bi čitatelj trebao moći donijeti prosudbu na temelju jednog uzorka teksta, 'pravog' ili umjetno generiranog).

Opušteno prihvaćanje umjetnog teksta niske kvalitete

Radnici AMT-a dosljedno su ocjenjivali umjetni tekst niske kvalitete temeljen na GPT-u na razini kvalitetnijeg, koherentnog teksta koji su napisali ljudi, za razliku od učitelja engleskog jezika, koji su lako mogli razlikovati razliku u kvaliteti.

Nema vremena za pripremu, nula konteksta

Ulazak u ispravan način razmišljanja za tako apstraktan zadatak kao što je procjena autentičnosti ne dolazi prirodno; Učiteljima engleskog jezika bilo je potrebno 20 zadataka kako bi kalibrirali svoju osjetljivost na evaluacijsko okruženje, dok radnici AMT-a obično uopće ne dobivaju 'vrijeme za orijentaciju', što smanjuje kvalitetu njihovog unosa.

Igranje sustava

Izvješće tvrdi da je ukupno vrijeme koje radnici AMT-a potroše na pojedinačne zadatke napuhano radnicima koji prihvaćaju više zadataka istovremeno i prolaze kroz zadatke u različitim karticama na svojim preglednicima, umjesto da se koncentriraju na jedan zadatak tijekom zabilježenog trajanja zadatka.

Zemlja porijekla je važna

Zadane postavke AMT-a ne filtriraju radnike prema zemlji podrijetla, a izvješće navodi prethodni rad što ukazuje da radnici AMT-a koriste VPN-ove kako bi zaobišli geografska ograničenja, omogućujući osobama kojima nije izvorni jezik da se predstave kao izvorni govornici engleskog jezika (u sustavu koji, možda prilično naivno, izjednačava materinji jezik radnika s njihovom geografskom lokacijom temeljenom na IP-u).

Stoga su istraživači ponovno pokrenuli evaluacijske testove na AMT-u s filtrima koji ograničavaju potencijalne korisnike na nije-Zemlje engleskog govornog područja, pronaći to 'radnici iz zemalja izvan engleskog govornog područja ocijenili su koherentnost, relevantnost i gramatiku... znatno niže od identično kvalificiranih radnika iz zemalja engleskog govornog područja'.

Izvještaj zaključuje:

'[Stručne] ocjenjivače poput lingvista ili profesora jezika treba koristiti kad god je to moguće jer su oni već obučeni za ocjenjivanje pisanog teksta, a nije puno skuplje...'.

 

Objavljeno 16. rujna 2021 - Ažurirano 18. prosinca 2021.: dodane oznake

Pisac o strojnom učenju, stručnjak za područje sinteze ljudske slike. Bivši voditelj istraživačkog sadržaja na Metaphysic.ai.
Osobna stranica: martinanderson.ai
Kontaktirajte nas na: [e-pošta zaštićena]
Twitter: @manders_ai