Inteligenta Artificiala

Forța de muncă „invizibilă”, adesea nefericită, care decide viitorul AI

Actualizat on December 9, 2022

Două noi rapoarte, inclusiv o lucrare condusă de Google Research, exprimă îngrijorarea că tendința actuală de a se baza pe un grup ieftin și adesea lipsit de putere de lucrători la nivel mondial aleatoriu pentru a crea un adevăr de bază pentru sistemele de învățare automată ar putea avea implicații majore în aval pentru AI.

Printre o serie de concluzii, studiul Google constată că propriile părtiniri ale crowdworkers sunt probabil încorporate în sistemele AI ale căror adevăruri de bază se vor baza pe răspunsurile lor; că practicile de lucru neloiale răspândite (inclusiv în SUA) pe platformele de lucru în grup este probabil să degradeze calitatea răspunsurilor; și că sistemul de „consens” (de fapt, o „mini-alegeri” pentru o parte de adevăr de bază care va influența sistemele AI din aval) care rezolvă litigiile în prezent poate de fapt arunca cele mai bune și/sau cele mai informate răspunsuri.

Aceasta este vestea proastă; vestea cea mai proastă este că aproape toate remediile sunt scumpe, consumă mult timp sau ambele.

Nesiguranță, respingere aleatorie și rancor

Prima hârtie, de la cinci cercetători Google, se numește Al cui adevăr de bază? Contabilitatea identităților individuale și colective care stau la baza adnotării setului de date; al doilea, de la doi cercetători de la Universitatea Syracuse din New York, este numit Originea și valoarea dezacordului între etichetatorii de date: un studiu de caz al diferențelor individuale în adnotarea discursului instigator la ură.

Lucrarea Google notează că lucrătorii în mulțime – ale căror evaluări formează adesea baza definitorie a sistemelor de învățare automată care ne pot afecta în cele din urmă viețile – operează frecvent sub o serie de constrângeri care pot afecta modul în care răspund la sarcinile experimentale.

De exemplu, politicile actuale ale Amazon Mechanical Turk permit solicitanților (cei care dau sarcinile) să respingă munca unui adnotator fără responsabilitate*:

„[O] mare majoritate a lucrătorilor în masă (94%) au avut muncă care a fost respinsă sau pentru care nu au fost plătite. Cu toate acestea, solicitanții păstrează drepturile depline asupra datelor pe care le primesc, indiferent dacă le acceptă sau le resping; Roberts (2016) descrie acest sistem ca fiind unul care „permite furtul de salarii”.

„În plus, respingerea muncii și reținerea plății sunt dureroase, deoarece respingerea sunt adesea cauzate de instrucțiuni neclare și de lipsa unor canale de feedback semnificative; mulți crowdworkers raportează că comunicarea deficitară le afectează negativ munca.'

Autorii recomandă cercetătorilor care folosesc servicii externalizate pentru a dezvolta seturi de date să ia în considerare modul în care o platformă de lucru în grup își tratează lucrătorii. În plus, ei observă că în Statele Unite, lucrătorii în mulțime sunt clasificați drept „antreprenori independenți”, munca, prin urmare, nereglementată și neacoperită de salariul minim impus de Legea privind standardele de muncă echitabile.

Contextul contează

Lucrarea critică, de asemenea, utilizarea ad-hoc muncă globală pentru sarcinile de adnotare, fără a lua în considerare antecedentele adnotatorului.

Acolo unde bugetul permite, este obișnuit ca cercetătorii care folosesc AMT și platforme similare de lucru în mulțime să dea aceeași sarcină celor patru adnotatori și să respecte „regula majorității” privind rezultatele.

Experiența contextuală, susține lucrarea, este în mod semnificativ subestimată. De exemplu, dacă o întrebare legată de sarcină sexismul este distribuit aleatoriu între trei bărbați de acord cu vârsta cuprinsă între 18 și 57 de ani și o femeie disidentă în vârstă de 29 de ani, verdictul bărbaților câștigă, cu excepția cazurilor relativ rare în care cercetătorii acordă atenție calificărilor adnotatorilor lor.

La fel, dacă o întrebare pe comportamentul bandelor din Chicago este distribuită între o femeie din mediul rural din SUA în vârstă de 36 de ani, un bărbat rezident din Chicago în vârstă de 42 de ani și, respectiv, doi adnotatori din Bangalore și, respectiv, Danemarca, persoana probabil cea mai afectată de problemă (bărbatul din Chicago) deținând doar un sfert din cota de rezultat, într-un configurație standard de externalizare.

Cercetătorii afirmă:

„[Noțiunea de „un singur adevăr” în răspunsurile de crowdsourcing este un mit; dezacordul dintre adnotatori, care este adesea privit ca negativ, poate oferi de fapt un semnal valoros. În al doilea rând, deoarece multe grupuri de adnotatori crowdsourced sunt distorsionate din punct de vedere socio-demografic, există implicații pentru care populații sunt reprezentate în seturi de date, precum și care populații se confruntă cu provocările [crowdwork].

„Contabilizarea distorsiunilor în datele demografice a adnotatorilor este esențială pentru contextualizarea seturilor de date și pentru asigurarea utilizării responsabile în aval. Pe scurt, este util să recunoaștem și să luăm în considerare mediul socio-cultural al lucrătorului – atât din perspectiva calității datelor, cât și a impactului societal.

Nu există păreri „neutre” despre subiecte fierbinți

Chiar și acolo unde opiniile a patru adnotatori nu sunt distorsionate, nici din punct de vedere demografic, nici din punct de vedere al unei alte valori, lucrarea Google își exprimă îngrijorarea că cercetătorii nu iau în considerare experiențele de viață sau dispozițiile filozofice ale adnotatorilor:

„În timp ce unele sarcini tind să pună întrebări obiective cu un răspuns corect (există o față umană într-o imagine?), de multe ori seturile de date urmăresc să capteze judecata asupra sarcinilor relativ subiective fără un răspuns universal corect (este acest text ofensator?). Este important să fii intenționat dacă să te bazezi pe judecățile subiective ale adnotatorilor.

În ceea ce privește sfera sa specifică de a aborda problemele legate de etichetarea discursului instigator la ură, ziarul Syracuse notează că întrebări mai categorice, cum ar fi Există o pisică în această fotografie? diferă în mod semnificativ de a întreba un lucrător în aglomerație dacă o expresie este „toxică”:

„Ținând cont de dezordinea realității sociale, percepțiile oamenilor despre toxicitate variază substanțial. Etichetele lor de conținut toxic se bazează pe propriile lor percepții.

Constatând că personalitatea și vârsta au o „influență substanțială” asupra etichetării dimensionale a discursului instigator la ură, cercetătorii din Syracuse concluzionează:

„Aceste constatări sugerează că eforturile de a obține coerența adnotărilor în rândul etichetatorilor cu medii și personalități diferite pentru discursul instigator la ură nu ar putea niciodată să reușească pe deplin”.

Judecătorul poate fi și părtinitor

Această lipsă de obiectivitate este probabil să se repete și în sus, potrivit documentului de la Syracuse, care susține că intervenția manuală (sau politica automatizată, decisă tot de un om) care determină „câștigătorul” voturilor de consens ar trebui, de asemenea, să fie supusă controlului. .

Asamanând procesul cu moderarea forumului, autorii declară*:

„Moderatorii unei comunități pot decide destinul atât al postărilor, cât și al utilizatorilor din comunitatea lor prin promovarea sau ascunderea postărilor, precum și onorarea, rușinea sau interzicerea utilizatorilor. Deciziile moderatorilor influențează conținutul livrat membrii comunității și publicul și prin extensie influențează și experiența comunității în discuție.

„Presupunând că un moderator uman este un membru al comunității care are omogenitate demografică cu alți membri ai comunității, pare posibil ca schema mentală pe care o folosesc pentru a evalua conținutul să se potrivească cu cea a altor membri ai comunității”.

Acest lucru oferă un indiciu despre motivul pentru care cercetătorii din Syracuse au ajuns la o concluzie atât de descurajată cu privire la viitorul adnotării discursului instigator la ură; implicația este că politicile și apelurile de judecată cu privire la opiniile divergente ale lucrului în mulțime nu pot fi aplicate doar aleatoriu conform unor principii „acceptabile” care nu sunt consacrate nicăieri (sau nu pot fi reduse la o schemă aplicabilă, chiar dacă acestea există).

Oamenii care iau deciziile (crowdworkers) sunt părtinitori și ar fi inutili pentru astfel de sarcini dacă ar fi nu părtinitoare, deoarece sarcina este de a oferi o judecată de valoare; Persoanele care se pronunță asupra disputelor în rezultatele lucrului în mulțime fac, de asemenea, judecăți de valoare în stabilirea politicilor pentru dispute.

Pot exista sute de politici într-un singur cadru de detectare a discursurilor instigatoare la ură și, dacă fiecare dintre ele nu este dus până la Curtea Supremă, de unde poate avea originea consensul „autoritar”?

Cercetătorii Google sugerează că „[dezacordurile] dintre adnotatori pot include nuanțe valoroase despre sarcină”. Lucrarea propune utilizarea metadatelor în seturi de date care reflectă și contextualizează disputele.

Cu toate acestea, este dificil de văzut cum un astfel de strat de date specific contextului ar putea duce vreodată la valori similare, să se adapteze la cerințele testelor standard stabilite sau să asiste Orice rezultate definitive – cu excepția scenariului nerealist al adoptării aceluiași grup de cercetători în lucrările ulterioare.

Curătorirea grupului de adnotatori

Toate acestea presupun că într-un proiect de cercetare există chiar buget pentru adnotări multiple care ar duce la un vot de consens. În multe cazuri, cercetătorii încearcă să „curajeze” grupul de adnotări externalizate mai ieftin, specificând trăsăturile pe care ar trebui să le aibă lucrătorii, cum ar fi locația geografică, genul sau alți factori culturali, schimbând pluralitatea pentru specificitate.

Documentul Google susține că calea de urmat în urma acestor provocări ar putea fi stabilirea unor cadre extinse de comunicații cu adnotatori, similare comunicărilor minime pe care aplicația Uber le facilitează între un șofer și un călăreț.

O asemenea luare în considerare a adnotatorilor ar fi, în mod firesc, un obstacol în calea externalizării adnotărilor la scară largă, rezultând fie seturi de date mai limitate și de volum redus, care au o justificare mai bună pentru rezultatele lor, fie o evaluare „grabă” a adnotatorilor implicați, obținând detalii limitate. despre ele și caracterizarea lor ca fiind „apte pentru sarcină” pe baza prea puține informații.

Asta dacă adnotatorii sunt sinceri.

„Oamenii mulțumiți” în etichetarea setului de date externalizat

Cu o forță de muncă disponibilă, asta e prost plătite, sub competiție severă pentru sarcinile disponibile și deprimat de perspective reduse de carieră, adnotatorii sunt motivați să ofere rapid răspunsul „corect” și să treacă la următoarea mini-temă.

Dacă „răspunsul corect” este ceva mai complicat decât Are pisică/Fără pisică, documentul din Syracuse susține că este probabil ca lucrătorul să încerce să deducă un răspuns „acceptabil” pe baza conținutului și contextului întrebării*:

„Atât proliferarea conceptualizărilor alternative, cât și utilizarea pe scară largă a metodelor simpliste de adnotare împiedică, fără îndoială, progresul cercetării privind discursul instigator la ură online. De exemplu, Ross și colab. găsit că arătând adnotatorilor definiția Twitter pentru comportamentul odios, i-a determinat să-și alinieze parțial propriile opinii cu definiția. Această realiniere a dus la o fiabilitate foarte scăzută între evaluatori a adnotărilor.'

* Conversia mea a citărilor inline ale lucrării în hyperlinkuri.

Publicat pe 13 decembrie 2021 – Actualizat 18 decembrie 2021: Etichete adăugate

Urmeaza

Atacarea sistemelor de procesare a limbajului natural cu exemple adverse

Nu ratați

AI folosește învățarea prin consolidare pentru a naviga prin oceane

Martin Anderson

Scriitor despre învățare automată, inteligență artificială și date mari.
Site personal: martinanderson.ai
Contact: [e-mail protejat]
Twitter: @manders_ai