Umelá inteligencia

„Neviditeľná“, často nešťastná pracovná sila, ktorá rozhoduje o budúcnosti AI

Aktualizované on Decembra 9, 2022

Dve nové správy, vrátane článku vedeného spoločnosťou Google Research, vyjadrujú obavy, že súčasný trend spoliehať sa na lacnú a často neschopnú skupinu náhodných pracovníkov na globálnych koncertoch pri vytváraní základnej pravdy pre systémy strojového učenia by mohol mať veľké následné dôsledky pre AI.

Spomedzi mnohých záverov štúdia Google zistila, že vlastné zaujatosti crowdworkerov sa pravdepodobne začlenia do systémov AI, ktorých základné pravdy budú založené na ich odpovediach; že rozšírené nečestné pracovné praktiky (aj v USA) na platformách kolektívnej práce pravdepodobne zhoršia kvalitu odpovedí; a že systém „konsenzu“ (v skutočnosti „mini-voľby“ pre nejaký kus základnej pravdy, ktorá ovplyvní nadväzujúce systémy AI), ktorý v súčasnosti rieši spory, môže skutočne zahodiť najlepšie a/alebo najinformovanejšie odpovede.

To je tá zlá správa; horšia správa je, že takmer všetky prostriedky sú drahé, časovo náročné alebo oboje.

Neistota, Náhodné odmietnutie a Rancor

Prvé papier, od piatich výskumníkov Google, sa nazýva Koho základná pravda? Účtovanie individuálnych a kolektívnych identít, ktoré sú základom anotácie súboru údajov; druhý, od dvoch výskumníkov na Syracuse University v New Yorku, je tzv Pôvod a hodnota nezhody medzi značkami údajov: Prípadová štúdia individuálnych rozdielov v anotácii nenávistných prejavov.

Dokument Google poznamenáva, že davoví pracovníci – ktorých hodnotenia často tvoria definujúci základ systémov strojového učenia, ktoré môžu v konečnom dôsledku ovplyvniť naše životy – často fungujú pod celým radom obmedzení, ktoré môžu ovplyvniť spôsob, akým reagujú na experimentálne úlohy.

Napríklad súčasné pravidlá Amazon Mechanical Turk umožňujú žiadateľom (tým, ktorí rozdávajú úlohy) odmietnuť prácu anotátora bez zodpovednosti*:

„[A] veľká väčšina crowdworkerov (94%) mali prácu, ktorá bola odmietnutá alebo za ktorú nedostali zaplatené. Žiadatelia si však zachovávajú plné práva na údaje, ktoré dostanú, bez ohľadu na to, či ich prijmú alebo odmietnu; Roberts (2016) opisuje tento systém ako systém, ktorý „umožňuje krádež miezd“.

„Okrem toho odmietnutie práce a zadržiavanie mzdy je bolestivé, pretože odmietnutia sú často spôsobené nejasnými pokynmi a nedostatkom zmysluplných kanálov spätnej väzby; veľa ľudí pracujúcich v kolektíve uvádza, že zlá komunikácia negatívne ovplyvňuje ich prácu.“

Autori odporúčajú, aby výskumníci, ktorí využívajú externé služby na vývoj množín údajov, zvážili, ako sa platforma crowdworkingu správa k svojim pracovníkom. Ďalej poznamenávajú, že v Spojených štátoch sú crowdworkeri klasifikovaní ako „nezávislí dodávatelia“, pričom práca preto nie je regulovaná a nevzťahuje sa na ňu minimálna mzda nariadená zákonom o spravodlivých pracovných normách.

Na kontexte záleží

Príspevok kritizuje aj používanie ad hoc globálna práca na anotačných úlohách bez ohľadu na pôvod anotátora.

Tam, kde to rozpočet dovoľuje, je bežné, že výskumníci používajúci AMT a podobné platformy kolektívnej práce zadajú rovnakú úlohu štyrom anotátorom a pri výsledkoch sa riadia „pravidlom väčšiny“.

Kontextová skúsenosť, tvrdí článok, je výrazne podceňovaná. Napríklad, ak otázka týkajúca sa úlohy sexizmus je náhodne rozdelená medzi troch súhlasných mužov vo veku 18-57 rokov a jednu nesúhlasnú ženu vo veku 29 rokov, verdikt mužov vyhráva, s výnimkou relatívne zriedkavých prípadov, keď výskumníci venujú pozornosť kvalifikácii svojich anotátorov.

Rovnako tak, ak je otázka na správanie gangov v Chicagu je rozdelená medzi vidiecku ženu vo veku 36 rokov, muža s bydliskom v Chicagu vo veku 42 rokov a dvoch anotátorov z Bangalore a Dánska, pričom osoba, ktorej sa problém pravdepodobne najviac týka (chicagský muž), má na výsledku iba štvrtinový podiel. štandardná konfigurácia outsourcingu.

Výskumníci uvádzajú:

„[Pojem „jednej pravdy" v odpovediach crowdsourcingu je mýtus; nezhoda medzi anotátormi, ktorá je často vnímaná ako negatívna, môže v skutočnosti poskytnúť cenný signál. Po druhé, keďže mnohé skupiny anotátorov sú socio-demograficky skreslené, existujú dôsledky pre to, ktoré populácie sú zastúpené v súboroch údajov, ako aj to, ktoré populácie čelia výzvam [crowdwork].

„Zúčtovanie skreslenia v demografických údajoch anotátorov je rozhodujúce pre kontextualizáciu súborov údajov a zabezpečenie zodpovedného následného použitia. Stručne povedané, uznanie a zohľadnenie sociálno-kultúrneho zázemia pracovníka má hodnotu – tak z hľadiska kvality údajov, ako aj z hľadiska spoločenského vplyvu.“

Žiadne „neutrálne“ názory na horúce témy

Aj keď názory štyroch anotátorov nie sú skreslené, či už demograficky, alebo inou metrikou, dokument Google vyjadruje obavy, že výskumníci neberú do úvahy životné skúsenosti alebo filozofické rozpoloženie anotátorov:

„Zatiaľ čo niektoré úlohy majú tendenciu klásť objektívne otázky so správnou odpoveďou (je na obrázku ľudská tvár?), často je cieľom súborov údajov zachytiť úsudok o relatívne subjektívnych úlohách bez všeobecne správnej odpovede (je tento text urážlivý?). Je dôležité, aby sme boli úmyselní, či sa oprieť o subjektívne úsudky anotátorov.“

Pokiaľ ide o jeho špecifický rozsah riešenia problémov pri označovaní nenávistných prejavov, Syracuse paper poznamenáva, že kategorickejšie otázky, ako napr. Je na tejto fotografii mačka? sa výrazne líšia od otázky, či je fráza „toxická“:

„Vzhľadom na chaotickú sociálnu realitu sa vnímanie toxicity výrazne líši. Ich označenia toxického obsahu sú založené na ich vlastnom vnímaní.“

Vedci zo Syrakúz, ktorí zistili, že osobnosť a vek majú „podstatný vplyv“ na dimenzionálne označovanie nenávistných prejavov, dospeli k záveru:

"Tieto zistenia naznačujú, že snahy o dosiahnutie konzistentnosti anotácií medzi štítkovateľmi s rôznym zázemím a osobnosťami pre nenávistné prejavy nemusia nikdy úplne uspieť."

Aj sudca môže byť zaujatý

Tento nedostatok objektivity sa pravdepodobne bude opakovať aj smerom nahor, podľa syrakúzskeho dokumentu, ktorý tvrdí, že manuálny zásah (alebo automatizovaná politika, o ktorej rozhoduje aj človek), ktorá určuje „víťaza“ konsenzuálnych hlasovaní, by mala byť tiež predmetom kontroly. .

Autori prirovnávajú tento proces k moderovaniu fóra*:

„Moderátori komunity [A] môžu rozhodovať o osude príspevkov a používateľov vo svojej komunite propagovaním alebo skrývaním príspevkov, ako aj ocenením, hanbou alebo zakázaním používateľov. Rozhodnutia moderátorov ovplyvňujú dodávaný obsah členov komunity a publikum a v konečnom dôsledku aj ovplyvňovať zážitok komunity z diskusie.

'Za predpokladu, že ľudský moderátor je členom komunity, ktorý je demograficky homogénny s ostatnými členmi komunity, zdá sa možné, že mentálna schéma, ktorú používajú na hodnotenie obsahu, bude zodpovedať schéme ostatných členov komunity.'

To dáva určité vodítko k tomu, prečo výskumníci zo Syrakúz dospeli k takému zúfalému záveru, pokiaľ ide o budúcnosť anotácií nenávistných prejavov; z toho vyplýva, že politiky a výzvy na posúdenie nesúhlasných názorov kolektívu nemožno len tak náhodne aplikovať podľa „prijateľných“ zásad, ktoré nie sú nikde zakotvené (alebo sa nedajú redukovať na použiteľnú schému, aj keď existujú).

Ľudia, ktorí prijímajú rozhodnutia (tzv. crowdworkers), sú zaujatí a na takéto úlohy by boli zbytoční, keby boli nie zaujatý, keďže úlohou je poskytnúť hodnotový úsudok; ľudia, ktorí rozhodujú o sporoch vo výsledkoch kolektívnej práce, tiež hodnotia pri stanovovaní politík pre spory.

Len v jednom rámci na detekciu nenávistných prejavov môžu existovať stovky politík, a ak sa každá z nich nedostane späť na Najvyšší súd, kde môže vzniknúť „autoritatívny“ konsenzus?

Vedci Google to naznačujú „nezhody medzi anotátormi môžu obsahovať cenné nuansy o úlohe“. Článok navrhuje použitie metadát v súboroch údajov, ktoré odrážajú a zaraďujú spory do kontextu.

Je však ťažké pochopiť, ako by takáto kontextovo špecifická vrstva údajov mohla niekedy viesť k podobným metrikám, prispôsobiť sa požiadavkám zavedených štandardných testov alebo podpore akékoľvek definitívne výsledky – s výnimkou nereálneho scenára prijatia rovnakej skupiny výskumníkov do ďalšej práce.

Spravovanie skupiny anotátorov

To všetko predpokladá, že vo výskumnom projekte je dokonca rozpočet na viacero anotácií, ktoré by viedli ku konsenzuálnemu hlasovaniu. V mnohých prípadoch sa výskumníci pokúšajú „spravovať“ outsourcovaný súbor anotácií lacnejšie špecifikovaním vlastností, ktoré by pracovníci mali mať, ako je geografická poloha, pohlavie alebo iné kultúrne faktory, pričom pluralitu vymenia za špecifickosť.

Dokument Google tvrdí, že cestou vpred od týchto výziev by mohlo byť vytvorenie rozšírených komunikačných rámcov s anotátormi, podobne ako minimálna komunikácia, ktorú aplikácia Uber umožňuje medzi vodičom a jazdcom.

Takéto starostlivé zváženie anotátorov by bolo, prirodzene, prekážkou outsourcingu anotácií v hyperškále, čo by viedlo buď k obmedzenejším a maloobjemovým súborom údajov, ktoré majú lepšie odôvodnenie svojich výsledkov, alebo k „unáhlenému“ hodnoteniu zapojených anotátorov, pričom by sa získali obmedzené podrobnosti. o nich a charakterizovať ich ako „vhodných na danú úlohu“ na základe príliš malého množstva informácií.

Ak sú anotátori úprimní.

„Ľudia potešia“ v externom označovaní súboru údajov

S dostupnou pracovnou silou, ktorá je nedostatočne platený, pod silná konkurencia pre dostupné úlohy a deprimovaný tým mizivé kariérne vyhliadky, anotátori sú motivovaní rýchlo poskytnúť „správnu“ odpoveď a prejsť na ďalšiu miniúlohu.

Ak je „správna odpoveď“ niečo zložitejšie ako Má mačku/bez mačky, Syracuse paper tvrdí, že pracovník sa pravdepodobne pokúsi vyvodiť „prijateľnú“ odpoveď na základe obsahu a kontextu otázky*:

Šírenie alternatívnych konceptualizácií a rozšírené používanie zjednodušených anotačných metód pravdepodobne bránia pokroku vo výskume online nenávistných prejavov. Napríklad Ross a kol. nájdených že ukazovanie definície nenávistného správania na Twitteri anotátorom spôsobilo, že čiastočne zosúladili svoje vlastné názory s definíciou. Toto prerovnanie viedlo k veľmi nízkej vzájomnej spoľahlivosti anotácií.“

* Moja konverzia vložených citácií článku na hypertextové odkazy.

Zverejnené 13. decembra 2021 – Aktualizované 18. decembra 2021: Pridané štítky