Umělá inteligence
‘Neviditelní’, Často Nešťastní Zaměstnanci, Kteří Rozhodují o Budoucnosti Umělé Inteligence

Dvě nové zprávy, včetně studie vedené Google Research, vyjadřují obavy, že současný trend spoléhat se na levný a často bezmocný pool globálních pracovníků na základě úkolů, aby vytvořili ground truth pro systémy strojového učení, by mohl mít majoritní důsledky pro umělou inteligenci.
Mezi řadou závěrů studie Google zjistila, že vlastní předpojatosti crowdworkerů se pravděpodobně stanou součástí systémů umělé inteligence, jejichž ground truthy budou založeny na jejich odpovědích; že široce rozšířené nespravedlivé pracovní postupy (včetně těch v USA) na platformách crowdworkingu pravděpodobně sníží kvalitu odpovědí; a že “konsenzuální” systém (efektivně “mini-volba” pro nějakou část ground truth, která ovlivňuje systémy umělé inteligence) který目前 řeší spory, může vlastně odhodit nejlepší a/nebo nejvíce informované odpovědi.
To je špatná zpráva; horší zpráva je, že téměř všechny nápravy jsou drahé, časově náročné, nebo obojí.
Nezabezpečenost, Náhodné Odmítnutí a Zloba
První studie, od pěti výzkumníků Google, se jmenuje Čí Ground Truth? Účtování o Individuálních a Kolektivních Identitách Podkladů Anotace Datasetu; druhá studie, od dvou výzkumníků na Syracuse University v New Yorku, se jmenuje Původ a Hodnota Nesouhlasu Mezi Anotátory Dat: Případová Studie Individuálních Rozdílností v Anotaci Špatného Chování.
Studie Google uvádí, že crowdworkeri – jejichž hodnocení často tvoří definující základ systémů strojového učení, které mohou nakonec ovlivnit naše životy – často pracují pod řadou omezení, která mohou ovlivnit, jak reagují na experimentální úkoly.
Například současné politiky Amazon Mechanical Turk umožňují requestérům (těm, kteří zadávají úkoly) odmítnout práci anotátora bez zodpovědnosti*:
‘[V]e velké většině crowdworkerů (94%) byla odmítnuta práce nebo za kterou nebyli placeni. Přesto requestéři si ponechávají plná práva nad daty, která obdrží, bez ohledu na to, zda práci přijmou nebo odmítnou; Roberts (2016) popisuje tento systém jako jeden, který “umožňuje krádež mzdy”.
‘Kromě toho, odmítnutí práce a zadržování platby je bolestivé, protože odmítnutí jsou často způsobeny nejasnými instrukcemi a nedostatkem smysluplných kanálů zpětné vazby; mnoho crowdworkerů uvádí, že špatná komunikace negativně ovlivňuje jejich práci.’
Autoři doporučují, že výzkumníci, kteří používají outsourcované služby pro vývoj datasetů, by měli zvážit, jak crowdworking platforma zachází se svými pracovníky. Dále uvádějí, že ve Spojených státech jsou crowdworkeri klasifikováni jako “nezávislí dodavatelé”, a proto není jejich práce regulována a není pokryta minimální mzdou stanovenou Zákonem o spravedlivých pracovních standardech.
Kontext Má Vážný Význam
Studie také kritizuje použití ad hoc globální pracovní síly pro úkoly anotace, bez ohledu na pozadí anotátorů.
Kde je rozpočet dostatečný, je běžné, že výzkumníci používající AMT a podobné platformy crowdworku zadají stejný úkol čtyřem anotátorům a budou se řídit “většinovým pravidlem” výsledků.
Kontextuální zkušenost, argumentuje studie, je pozoruhodně podceňována. Například, pokud je otázka související s sexismem náhodně rozdělena mezi tři souhlasící muže ve věku 18-57 a jednu nesouhlasící ženu ve věku 29, verdikt mužů vyhrává, kromě relativně vzácných případů, kdy výzkumníci dbají na kvalifikaci svých anotátorů.
Podobně, pokud je otázka související s chováním gangů v Chicagu rozdělena mezi venkovskou ženu z USA ve věku 36, muže z Chicaga ve věku 42 a dva anotátory z Bangaluru a Dánska, osoba, která je pravděpodobně nejvíce postižena problémem (muž z Chicaga), má pouze čtvrtinový podíl na výsledku, ve standardní konfiguraci outsourcingu.
Výzkumníci uvádějí:
‘[P]ojem “jedna pravda” v odpovědích crowdworkerů je mýtus; nesouhlas mezi anotátory, který je často považován za negativní, může ve skutečnosti poskytnout cenný signál. Za druhé, protože mnoho poolů anotátorů crowdworku je socio-demograficky zkresleno, existují důsledky pro to, které populace jsou reprezentovány v datech, stejně jako které populace čelí výzvám [crowdwork].
‘Účtování o zkreslení v demografii anotátorů je kritické pro kontextualizaci datasetů a zajištění odpovědného následného použití. Stručně řečeno, existuje hodnota v uznání a účtování o socio-kulturním pozadí pracovníků — både z perspektivy kvality dat a společenského dopadu.’
Žádné ‘Neutrální’ Názory na Horká Témata
I když názory čtyř anotátorů nejsou zkresleny, buď demograficky nebo jiným metricky, studie Google vyjadřuje obavy, že výzkumníci neberou v úvahu životní zkušenosti nebo filozofickéDisposition anotátorů:
‘Zatímco některé úkoly tendují k položení objektivní otázce s správnou odpovědí (je lidská tvář na obrázku?), často datasety cílí na zachycení soudů na relativně subjektivních úkolech bez univerzálně správné odpovědi (je tento text urážlivý?). Je důležité být úmyslný o tom, zda se spoléhat na subjektivní soudy anotátorů.’
Pokud jde o jeho konkrétní oblast pro řešení problémů v anotaci hate speech, studie Syracuse uvádí, že více kategoriálních otázek, jako Je kočka na této fotografii? jsou pozoruhodně odlišné od otázky crowdworkera, zda je fráze “toxická”:
‘Vezmeme-li v úvahu zmatečnost sociální reality, lidé vnímají toxicitu velmi odlišně. Jejich štítky toxického obsahu jsou založeny na jejich vlastních vnímaních.’
Zjistiv, že osobnost a věk mají “podstatný vliv” na dimenzionální anotaci hate speech, výzkumníci ze Syracuse uzavírají:
‘Tyto výsledky naznačují, že snahy o dosažení konsistence anotace mezi anotátory s rozdílným pozadím a osobnostmi pro hate speech možná nikdy zcela neuspějí.’
Soudce Může Být Také Předpojatý
Tato absence objektivity se pravděpodobně bude opakovat i výše, podle studie Syracuse, která argumentuje, že manuální zásah (nebo automatizovaná politika, také rozhodnutá člověkem), který určuje “vítěze” konsenzuálních hlasů, by měl být také podroben zkoumání.
Porovnávají-li proces s moderací fóra, autoři uvádějí*:
‘[M]oderátoři komunity mohou rozhodnout o osudu příspěvků a uživatelů ve své komunitě tím, že propagují nebo skrývají příspěvky, a také ctí, haní nebo zakazují uživatele. Rozhodnutí moderátorů ovlivňují obsah doručený členům komunity a divákům a tím také ovlivňují zkušenost komunity z diskuze.
‘Předpokládejme, že lidský moderátor je členem komunity, který má demografickou homogenitu s ostatními členy komunity, zdá se možné, že mentální schéma, které použije k vyhodnocení obsahu, bude odpovídat tomu, co používají ostatní členové komunity.’
To dává nějakou nápovědu, proč výzkumníci ze Syracuse dospěli k takovému pesimistickému závěru ohledně budoucnosti anotace hate speech; implikace je, že politiky a soudy o nesouhlasných názorech crowdworku nelze aplikovat náhodně podle “přijatelných” principů, které nejsou zakotveny nikde (nebo nejsou redukovatelné na aplikovatelné schéma, i když existují).
Lidé, kteří činí rozhodnutí (crowdworkeri), jsou předpojatí, a byli by k ničemu pro takové úkoly, pokud by nebyli ne předpojatí, protože úkol spočívá v poskytnutí hodnotového soudu; lidé, kteří rozhodují o sporech v crowdworku, také činí hodnotové soudy při stanovení politik pro spory.
Může existovat stovky politik v jediném rámci detekce hate speech, a pokud každá z nich není zcela projednána u Nejvyššího soudu, odkud může pocházet “autoritativní” konsenzus?
Výzkumníci z Google navrhují, že ‘[n]esouhlas mezi anotátory může embedovat cenné nuance o úkolu’. Studie navrhuje použití metadat v datech, která odráží a kontextualizuje spory.
Nicméně, je obtížné vidět, jak takový kontextově specifický vrstva dat by mohla kdykoli vést k podobným metrikám, přizpůsobit se požadavkům standardních testů, nebo podporovat jakékoli definitivní výsledky — kromě nereálného scénáře, kdy se přijme stejná skupina výzkumníků napříč následujícím pracím.
Kurátorský Anotátor Pool
Všechno toto předpokládá, že existuje alespoň rozpočet na výzkumném projektu pro multiple anotace, které by vedly k konsenzuálnímu hlasu. Ve mnoha případech se výzkumníci snaží “kurátorský” outsourcovaný anotátor pool levněji tím, že specifikují rysy, které by měli pracovníci mít, jako je geografická poloha, pohlaví nebo jiné kulturní faktory, obchodování pluralitou za specificitu.
Studie Google tvrdí, že cestou vpřed z těchto výzev by mohlo být stanovení prodloužených komunikačních rámců s anotátory, podobných minimálním komunikačním rámcům, které aplikace Uber usnadňuje mezi řidičem a cestujícím.
Taková pečlivá úvaha o anotátorech by, přirozeně, byla překážkou pro hyperscale annotation outsourcing, vedoucí buď k omezenějším a nízkovýkonným datasetům, které mají lepší zdůvodnění pro své výsledky, nebo k “spěšnému” hodnocení anotátorů, získávání omezených informací o nich a charakterizaci jich jako “vhodných pro úkol” na základě příliš málo informací.
To je, pokud anotátoři jsou upřímní.
‘Lidé, Kteří Se Zájem Odpovídají’ v Outsourcovaném Štítkování Datasetu
S dostupnou pracovní silou, která je podplacena, pod vážnou konkurencí pro dostupné úkoly, a deprimována nedostatkem kariérních perspektiv, anotátoři jsou motivováni k rychlému poskytnutí “správné” odpovědi a přechodu k dalšímu mini-úkolu.
Pokud “správná” odpověď je něco složitějšího než Má kočku/Ne má kočku, studie Syracuse tvrdí, že pracovník se pravděpodobně pokusí odvodit “přijatelnou” odpověď na základě obsahu a kontextu otázky*:
‘Obě proliferace alternativních konceptualizací a široké použití simplistických metod anotace jsou zřejmě brzdící pokrok ve výzkumu online hate speech. Například Ross a kol. zjistili, že zobrazení definice Twitteru pro nenávistný obsah anotátorům způsobilo, že částečně sladili své vlastní názory s definicí. Tento přesun vedl k velmi nízké spolehlivosti anotací.’
* Moje konverze inline citací z papíru na hypertextové odkazy.
Publikováno 13. prosince 2021 – Aktualizováno 18. prosince 2021: Přidány značky












