Umělá inteligence

„Neviditelná“, často nešťastná pracovní síla, která rozhoduje o budoucnosti umělé inteligence

aktualizováno on 9. prosince 2022

Dvě nové zprávy, včetně článku vedeném společností Google Research, vyjadřují obavy, že současný trend spoléhat se na levný a často neschopný soubor náhodných pracovníků na globálních koncertech při vytváření základní pravdy pro systémy strojového učení by mohl mít zásadní důsledky pro AI.

Mezi řadou závěrů studie Google zjistila, že vlastní předsudky crowdworkerů se pravděpodobně zabudují do systémů umělé inteligence, jejichž základní pravdy budou založeny na jejich odpovědích; že rozšířené nekalé pracovní praktiky (včetně v USA) na platformách crowdworkingu pravděpodobně zhorší kvalitu odpovědí; a že systém „konsensu“ (ve skutečnosti „minivolby“ pro nějaký kus základní pravdy, která ovlivní navazující systémy umělé inteligence), který v současnosti řeší spory, může ve skutečnosti zahodit nejlepší a/nebo nejinformovanější odpovědi.

To je špatná zpráva; horší zprávou je, že téměř všechny prostředky jsou drahé, časově náročné nebo obojí.

Nejistota, náhodné odmítnutí a nenávist

První papír, od pěti výzkumníků Google, se nazývá Čí základní pravda? Účtování individuálních a kolektivních identit, které jsou základem anotace datové sady; druhý, od dvou výzkumníků na Syracuse University v New Yorku, je tzv Původ a hodnota neshody mezi výrobci datových štítků: případová studie individuálních rozdílů v anotaci nenávistných projevů.

Dokument Google poznamenává, že davoví pracovníci – jejichž hodnocení často tvoří definující základ systémů strojového učení, které mohou nakonec ovlivnit naše životy – často pracují pod řadou omezení, která mohou ovlivnit způsob, jakým reagují na experimentální úkoly.

Například současné zásady Amazon Mechanical Turk umožňují žadatelům (těm, kteří zadávají zadání) odmítnout práci anotátora bez odpovědnosti*:

„[A] velká většina crowdworkerů (94%) měli práci, která byla odmítnuta nebo za kterou nedostali zaplaceno. Žadatelé si však ponechávají plná práva na data, která obdrží, bez ohledu na to, zda je přijmou nebo odmítnou; Roberts (2016) popisuje tento systém jako systém, který „umožňuje krádeže mezd“.

„Odmítnutí práce a zadržování mzdy je navíc bolestivé, protože odmítnutí jsou často způsobena nejasnými pokyny a nedostatkem smysluplných kanálů zpětné vazby; mnoho crowdworkerů uvádí, že špatná komunikace negativně ovlivňuje jejich práci.“

Autoři doporučují, aby výzkumní pracovníci, kteří využívají outsourcované služby k vývoji datových sad, zvážili, jak crowdworkingová platforma zachází se svými pracovníky. Dále poznamenávají, že ve Spojených státech jsou crowdworkeři klasifikováni jako „nezávislí dodavatelé“, jejichž práce proto není regulována a nevztahuje se na ně minimální mzda nařízená zákonem o spravedlivých pracovních standardech.

Záležitosti kontextu

List také kritizuje použití ad hoc globální práce pro anotační úkoly, bez ohledu na původ anotátora.

Tam, kde to rozpočet dovoluje, je běžné, že výzkumníci používající AMT a podobné crowdworkové platformy zadají stejný úkol čtyřem anotátorům a u výsledků se řídí „pravidlem většiny“.

Kontextová zkušenost, tvrdí článek, je zvláště podceňována. Například, pokud se úkolová otázka týká kynjahyggju je náhodně rozdělena mezi tři souhlasné muže ve věku 18-57 let a jednu nesouhlasnou ženu ve věku 29 let, verdikt mužů vyhrává, kromě relativně vzácných případů, kdy výzkumníci věnují pozornost kvalifikaci svých anotátorů.

Stejně tak v případě dotazu chování gangů v Chicagu je rozdělena mezi venkovskou ženu ve věku 36 let, muže s bydlištěm v Chicagu ve věku 42 let a dva anotátory z Bangalore a Dánska, přičemž osoba, která je pravděpodobně nejvíce postižena tímto problémem (chicagský muž), má pouze čtvrtinový podíl na výsledku. standardní konfigurace outsourcingu.

Výzkumníci uvádějí:

„[Pojem „jedné pravdy" v odpovědích crowdsourcingu je mýtus; neshoda mezi anotátory, která je často vnímána jako negativní, může ve skutečnosti poskytnout cenný signál. Zadruhé, protože mnoho skupin anotátorů vytvořených pomocí crowdsourcingu je sociodemograficky zkresleno, existují důsledky pro to, které populace jsou zastoupeny v souborech dat, a také to, které populace čelí výzvám [crowdwork].

„Počet zkreslení v demografii anotátorů je kritický pro kontextualizaci datových sad a zajištění odpovědného následného použití. Stručně řečeno, má cenu uznat a zohlednit sociokulturní zázemí pracovníka – jak z hlediska kvality dat, tak z hlediska společenského dopadu.“

Žádné „neutrální“ názory na aktuální témata

I tam, kde názory čtyř anotátorů nejsou zkreslené, ať už demograficky nebo nějakým jiným ukazatelem, dokument Google vyjadřuje obavu, že výzkumníci neberou v úvahu životní zkušenosti nebo filozofické rozpoložení anotátorů:

„Zatímco některé úkoly mají tendenci klást objektivní otázky se správnou odpovědí (je na obrázku lidská tvář?), často se datové soubory snaží zachytit úsudek o relativně subjektivních úkolech bez univerzálně správné odpovědi (je tento text urážlivý?). Je důležité záměrně, zda se opřít o subjektivní úsudek anotátorů.“

Pokud jde o jeho konkrétní ambice řešit problémy při označování nenávistných projevů, Syracuse paper poznamenává, že kategoričtější otázky, jako je např. Je na této fotografii kočka? se výrazně liší od toho, když se davového pracovníka ptáte, zda je fráze „toxická“:

„Vezmeme-li v úvahu nepořádek sociální reality, vnímání toxicity se mezi lidmi podstatně liší. Jejich označení toxického obsahu je založeno na jejich vlastním vnímání.“

Výzkumníci ze Syrakus zjistili, že osobnost a věk mají „podstatný vliv“ na dimenzionální označování nenávistných projevů:

"Tato zjištění naznačují, že snahy o dosažení konzistentnosti anotací mezi štítkujícími s odlišným zázemím a osobnostmi pro nenávistné projevy nemusí nikdy plně uspět."

Soudce může být také zaujatý

Tento nedostatek objektivity se pravděpodobně bude opakovat i směrem nahoru, podle listu Syracuse, který tvrdí, že manuální zásah (nebo automatizovaná politika, o které rozhoduje také člověk), která určuje „vítěze“ konsensuálních hlasů, by měla být rovněž předmětem kontroly. .

Autoři přirovnávají tento proces k moderování fóra*:

„Moderátoři komunity [A] mohou rozhodovat o osudu příspěvků i uživatelů ve své komunitě tím, že budou propagovat nebo schovávat příspěvky, stejně jako ocenit, zahanbit nebo zakázat uživatele. Rozhodnutí moderátorů ovlivňují doručovaný obsah členy komunity a publikum a potažmo také ovlivnit zkušenost komunity z diskuse.

"Za předpokladu, že lidský moderátor je členem komunity, který je demograficky homogenní s ostatními členy komunity, zdá se možné, že mentální schéma, které používají k hodnocení obsahu, bude odpovídat schématu ostatních členů komunity."

To dává určité vodítko k tomu, proč výzkumníci ze Syrakus došli k tak sklíčenému závěru ohledně budoucnosti anotace nenávistných projevů; z toho plyne, že zásady a výzvy k úsudku o nesouhlasných názorech davu nelze jen tak náhodně uplatňovat podle „přijatelných“ zásad, které nejsou nikde zakotveny (nebo je nelze redukovat na použitelné schéma, i když existují).

Lidé, kteří rozhodují (tzv. crowdworkeři), jsou zaujatí a byli by pro takové úkoly k ničemu, kdyby byli ne zaujatý, protože úkolem je poskytnout hodnotový úsudek; lidé, kteří rozhodují o sporech v rámci výsledků kolektivní práce, také činí hodnotové soudy při stanovování zásad pro spory.

V jediném systému detekce nenávistných projevů mohou existovat stovky politik, a pokud se každá z nich nedostane až k Nejvyššímu soudu, kde může vzniknout „autoritativní“ konsenzus?

Naznačují to výzkumníci Google „Neshody mezi anotátory mohou obsahovat cenné nuance o úkolu“. Článek navrhuje použití metadat v datových sadách, které reflektují a kontextualizují spory.

Je však obtížné pochopit, jak by taková kontextově specifická vrstva dat mohla někdy vést k podobným metrikám, přizpůsobit se požadavkům zavedených standardních testů nebo podporovat žádný definitivní výsledky – s výjimkou nereálného scénáře přijetí stejné skupiny výzkumníků do další práce.

Správa fondu anotátorů

To vše předpokládá, že ve výzkumném projektu existuje dokonce rozpočet pro více anotací, které by vedly ke konsensuálnímu hlasování. V mnoha případech se výzkumníci pokoušejí „spravovat“ outsourcovaný soubor anotací levněji tím, že specifikují vlastnosti, které by pracovníci měli mít, jako je geografická poloha, pohlaví nebo jiné kulturní faktory, výměnou za specifičnost.

Dokument Google tvrdí, že cestou vpřed od těchto výzev by mohlo být vytvoření rozšířených komunikačních rámců s anotátory, podobné minimální komunikaci, kterou aplikace Uber usnadňuje mezi řidičem a jezdcem.

Takové pečlivé zvažování anotátorů by přirozeně bylo překážkou outsourcingu hyperškálových anotací, což by vedlo buď k omezenějším a maloobjemovým datovým sadám, které mají lepší zdůvodnění pro své výsledky, nebo k „uspěchanému“ vyhodnocení zúčastněných anotátorů a získání omezených podrobností. o nich a charakterizovat je jako „vhodné pro daný úkol“ na základě příliš malého množství informací.

Tedy pokud jsou anotátoři upřímní.

„People Pleasers“ v externím označování datových sad

S dostupnou pracovní silou neplacené, pod tvrdá konkurence pro dostupné úkoly a depresivní tím mizivé kariérní vyhlídky, jsou anotátoři motivováni k tomu, aby rychle poskytli „správnou“ odpověď a přešli k dalšímu miniúkolu.

Pokud je „správná odpověď“ něco složitějšího než Má kočku/žádnou kočku, Syracuse paper tvrdí, že pracovník se pravděpodobně pokusí vyvodit „přijatelnou“ odpověď na základě obsahu a kontextu otázky*:

„Jak šíření alternativních konceptualizací, tak rozšířené používání metod zjednodušených anotací pravděpodobně brání pokroku ve výzkumu online nenávistných projevů. Například Ross a kol. nalezeno že ukazování definice nenávistného chování na Twitteru anotátorům způsobilo, že částečně přizpůsobili své vlastní názory této definici. Toto přerovnání vedlo k velmi nízké spolehlivosti mezi hodnotiteli anotací.'

* Můj převod vložených citací článku na hypertextové odkazy.

Publikováno 13. prosince 2021 – Aktualizováno 18. prosince 2021: Přidány štítky