Connect with us

‘Invizibilii’, adesea nefericiți, Forța de muncă care decide viitorul Inteligenței Artificiale

Inteligență artificială

‘Invizibilii’, adesea nefericiți, Forța de muncă care decide viitorul Inteligenței Artificiale

mm

Două rapoarte noi, inclusiv un studiu condus de Google Research, exprimă îngrijorarea că tendința actuală de a se baza pe un grup ieftin și adesea lipsit de putere de lucrători globali pentru a crea adevărul de bază pentru sistemele de învățare automată ar putea avea implicații majore pentru Inteligența Artificială.

Printre o serie de concluzii, studiul Google constată că prejudecățile proprii ale lucrătorilor din mulțime sunt probabil să devină încorporate în sistemele de Inteligență Artificială ale căror adevăruri de bază se vor baza pe răspunsurile lor; că practicile de muncă injuste (inclusiv în Statele Unite) pe platformele de muncă în mulțime sunt probabil să degradeze calitatea răspunsurilor; și că sistemul de “consens” (efectiv un “mini-alegeri” pentru un anumit adevăr de bază care va influența sistemele de Inteligență Artificială în aval) care rezolvă în prezent disputele poate arunca de fapt cea mai bună și/sau cea mai informată răspuns.

Aceasta este veștile proaste; veștile și mai proaste sunt că majoritatea remedierilor sunt scumpe, consumatoare de timp, sau ambele.

Insecuritate, respingere aleatorie și rancor

Primul studiu, de la cinci cercetători de la Google, se numește A cui este adevărul de bază? Luând în considerare identitățile individuale și colective care stau la baza annotării setului de date; al doilea studiu, de la doi cercetători de la Universitatea Syracuse din New York, se numește Originea și valoarea dezacordului dintre etichetatorii de date: Un studiu de caz al diferențelor individuale în etichetarea discursului de ură.

Studiul Google notează că lucrătorii din mulțime – ale căror evaluări adesea formează baza definitorie a sistemelor de învățare automată care pot afecta în cele din urmă viețile noastre – funcționează adesea sub o serie de constrângeri care pot afecta modul în care răspund la sarcinile experimentale.

De exemplu, politicile actuale ale Amazon Mechanical Turk permit solicitatorilor (cei care dau sarcinile) să respingă lucrarea unui annotator fără răspundere*:

‘[O] majoritate covârșitoare a lucrătorilor din mulțime (94%) au avut lucrări care au fost respinse sau pentru care nu au fost plătiți. Cu toate acestea, solicitatorii păstrează drepturi complete asupra datelor pe care le primesc, indiferent dacă le acceptă sau le resping; Roberts (2016) descrie acest sistem ca unul care “permite furtul de salariu”.

‘Mai mult, respingerea lucrării și reținerea plății este dureroasă, deoarece respingerile sunt adesea cauzate de instrucțiuni neclare și lipsa canalelor de feedback semnificative; mulți lucrători din mulțime raportează că comunicarea slabă afectează negativ lucrarea lor.’

Autorii recomandă ca cercetătorii care utilizează servicii externalizate pentru a dezvolta seturi de date să ia în considerare modul în care o platformă de muncă în mulțime îi tratează pe lucrătorii săi. Ei mai notează că, în Statele Unite, lucrătorii din mulțime sunt clasificați ca “contractori independenți”, astfel încât lucrarea este necontrolată și nu este acoperită de salariul minim prevăzut de Legea standardelor de muncă corecte.

Contextul contează

Studiul critică, de asemenea, utilizarea ad hoc a forței de muncă globale pentru sarcinile de annotare, fără a lua în considerare background-ul annotatorului.

În cazul în care bugetul permite, este obișnuit ca cercetătorii care utilizează AMT și platforme similare de muncă în mulțime să dea aceeași sarcină a patru annotatori și să se conformeze “regulii majorității” în ceea ce privește rezultatele.

Experiența contextuală, studiul argumentează, este remarcabil de subevaluată. De exemplu, dacă o întrebare legată de sexism este distribuită aleatoriu între trei bărbați de acord cu vârste cuprinse între 18 și 57 de ani și o femeie care nu este de acord cu vârsta de 29 de ani, verdictul bărbaților câștigă, cu excepția cazurilor rare în care cercetătorii acordă atenție calificărilor annotatorilor.

La fel, dacă o întrebare despre comportamentul bandelor din Chicago este distribuită între o femeie din zona rurală a Statelor Unite cu vârsta de 36 de ani, un bărbat rezident din Chicago cu vârsta de 42 de ani și doi annotatori din Bangalore și Danemarca, persoana care este probabil cea mai afectată de problema (bărbatul din Chicago) deține doar o cotă de o pătrime din rezultat, într-o configurație standard de externalizare.

Cercetătorii afirmă:

‘[N]oțiunea de “un singur adevăr” în răspunsurile crowdsourcing este un mit; dezacordul dintre annotatori, care este adesea considerat negativ, poate oferi de fapt un semnal valoros. În al doilea rând, deoarece multe grupuri de annotatori crowdsourciți sunt distorsionate din punct de vedere socio-demografic, există implicații pentru care populații sunt reprezentate în seturile de date, precum și pentru care populații se confruntă cu provocările muncii în mulțime.

‘Luarea în considerare a distorsiunilor în demografia annotatorilor este esențială pentru contextualizarea seturilor de date și asigurarea utilizării responsabile în aval. În scurt, există valoare în a recunoaște și a lua în considerare background-ul socio-cultural al lucrătorului — atât din perspectiva calității datelor, cât și a impactului social.’

Nu există opinii “neutre” pe subiecte fierbinți

Chiar și în cazul în care opiniile a patru annotatori nu sunt distorsionate, nici demografic, nici prin altă măsură, studiul Google exprimă îngrijorarea că cercetătorii nu iau în considerare experiențele de viață sau dispoziția filosofică a annotatorilor:

‘În timp ce unele sarcini tind să pună întrebări obiective cu un răspuns corect (există o față umană în imagine?), adesea seturile de date încearcă să capteze judecăți asupra sarcinilor subiective cu răspunsuri corecte universale (este acest text ofensator?). Este important să fim intenționați cu privire la modul în care ne bazăm pe judecățile subiective ale annotatorilor.’

În ceea ce privește domeniul său specific de a aborda problemele de etichetare a discursului de ură, studiul Syracuse notează că întrebări mai categorice, cum ar fi Există o pisică în această fotografie? sunt remarcabil de diferite de a cere unui lucrător din mulțime dacă o frază este “toxică”:

‘Luând în considerare complexitatea realității sociale, percepțiile oamenilor asupra toxicității variază substanțial. Etichetele lor de conținut toxic se bazează pe percepțiile lor.’

Constatarea că personalitatea și vârsta au o “influență substanțială” asupra etichetării dimensionale a discursului de ură, cercetătorii de la Syracuse concluzionează:

‘Aceste constatări sugerează că eforturile de a obține consistență în etichetarea discursului de ură între etichetatori cu background-uri și personalități diferite pot să nu reușească niciodată pe deplin.’

Judecătorul poate fi părtinitor și el

Lipsa de obiectivitate este probabil să se propage și în sus, conform studiului Syracuse, care argumentează că intervenția manuală (sau politica automată, decisă de asemenea de un om) care determină “câștigătorul” voturilor de consens ar trebui, de asemenea, să fie supusă examinării.

Asemănând procesul cu moderarea forumului, autorii afirmă*:

‘[U]n moderator al comunității poate decide soarta atât a postărilor, cât și a utilizatorilor din comunitatea sa, promovând sau ascunzând postări, precum și onorând, rușinând sau interzicând utilizatorii. Deciziile moderatorilor influențează conținutul livrat membrilor comunității și publicului și, prin extensie, influențează și experiența comunității în ceea ce privește discuția.

‘Presupunând că un moderator uman este un membru al comunității care are o omogenitate demografică cu alți membri ai comunității, pare posibil ca schema mentală pe care o utilizează pentru a evalua conținutul să se potrivească cu cea a altor membri ai comunității.’

Acest lucru oferă o pistă despre de ce cercetătorii de la Syracuse au ajuns la o concluzie atât de descurajantă cu privire la viitorul etichetării discursului de ură; implicația este că politicile și apelurile la opinii discordante ale muncii în mulțime nu pot fi aplicate aleatoriu în conformitate cu “principii acceptabile” care nu sunt consacrate nicăieri (sau nu pot fi reduse la o schemă aplicabilă, chiar dacă există).

Oamenii care iau deciziile (lucrătorii din mulțime) sunt părtinitori și ar fi inutili pentru astfel de sarcini dacă nu ar fi părtinitori, deoarece sarcina constă în a oferi o judecată de valoare; oamenii care judecă disputele în rezultatele muncii în mulțime iau, de asemenea, decizii de valoare atunci când stabilesc politici pentru dispute.

Pot exista sute de politici într-un singur cadru de detectare a discursului de ură și, dacă nu se duc toate până la Curtea Supremă, de unde poate proveni “consensul autoritativ”?

Cercetătorii de la Google sugerează că ‘dezacordurile dintre annotatori pot încorpora nuanțe valoroase despre sarcină’. Studiul propune utilizarea de metadate în seturile de date care reflectă și contextualizează disputele.

Cu toate acestea, este dificil să se vadă cum un astfel de strat de date contextuale ar putea duce vreodată la metrici comparabile, să se adapteze la cerințele testelor standard stabilite sau să susțină rezultate definitive — cu excepția scenariului nerealist de a adopta același grup de cercetători în lucrările ulterioare.

Curățarea grupului de annotatori

Toate acestea presupun că există buget într-un proiect de cercetare pentru multiple annotări care ar duce la un vot de consens. În multe cazuri, cercetătorii încearcă să “curățe” grupul de muncă în mulțime mai ieftin, specificând trăsături pe care lucrătorii ar trebui să le aibă, cum ar fi locația geografică, sexul sau alte factori culturali, schimbând pluralitatea cu specificitatea.

Studiul Google susține că calea de urmat din aceste provocări ar putea fi prin stabilirea unor cadre de comunicare extinse cu annotatorii, similare cu comunicarea minimă pe care aplicația Uber o facilitează între un șofer și un pasager.

O astfel de considerare atentă a annotatorilor ar fi, în mod natural, un obstacol în calea externalizării hiperscale a annotării, rezultând fie seturi de date limitate și de volum mic care au o justificare mai bună pentru rezultatele lor, fie o “evaluare grabită” a annotatorilor implicați, obținând informații limitate despre ei și caracterizându-i ca “potriviți pentru sarcină” pe baza unor informații prea puține.

Asta, în cazul în care annotatorii sunt onești.

“Plăcitorii de oameni” în etichetarea seturilor de date externalizate

Cu o forță de muncă disponibilă care este subplatită, sub concurență severă pentru sarcinile disponibile și deprimată de perspective de carieră slabe, annotatorii sunt motivați să ofere rapid “răspunsul corect” și să treacă la următoarea mică sarcină.

Dacă “răspunsul corect” este ceva mai complicat decât Are pisică/Nu are pisică, studiul Syracuse susține că lucrătorul va încerca să deducă un “răspuns acceptabil” pe baza conținutului și contextului întrebării*:

‘Atât proliferarea conceptualizărilor alternative, cât și utilizarea pe scară largă a metodelor de annotare simpliste sunt, probabil, împiedică progresul cercetării privind discursul de ură online. De exemplu, Ross și alții au găsit că prezentarea definiției Twitter a conduitei urâte annotatorilor i-a făcut să-și alinieze parțial opiniile cu definiția. Această realiniere a dus la o fiabilitate inter-răspuns foarte scăzută a annotărilor.’

 

* Conversia mea a citărilor inline din lucrare în hyperlinkuri.

Publicat la 13 decembrie 2021 – Actualizat la 18 decembrie 2021: Adăugate etichete

Scriitor pe machine learning, specialist în domeniul sintezei de imagini umane. Foster head of research content la Metaphysic.ai.