Изкуствен интелект

„Невидимата“, често нещастна работна сила, която решава бъдещето на ИИ

Обновено on Декември 9, 2022

Два нови доклада, включително документ, воден от Google Research, изразяват загриженост, че настоящата тенденция да се разчита на евтин и често лишен от права група от произволни глобални служители за концерти, за да се създаде основна истина за системите за машинно обучение, може да има големи последици за AI.

Сред редица заключения, проучването на Google установява, че собствените пристрастия на краудъркърърите вероятно ще бъдат вградени в системите за изкуствен интелект, чиито основни истини ще се основават на техните отговори; че широко разпространените практики на нелоялна работа (включително в САЩ) в платформите за краудъркинг вероятно ще влошат качеството на отговорите; и че системата за „консенсус“ (ефективно „мини-избори“ за някаква основна истина, която ще повлияе на системите за ИИ надолу по веригата), която в момента разрешава спорове, може действително изхвърлям най-добрите и/или най-информирани отговори.

Това е лошата новина; по-лошата новина е, че почти всички лекарства са скъпи, отнемат време или и двете.

Несигурност, произволно отхвърляне и злоба

Първи хартия, от петима изследователи на Google, се нарича Чия основна истина? Отчитане на индивидуални и колективни идентичности, лежащи в основата на анотацията на набора от данни; на втори, от двама изследователи от университета в Сиракюз в Ню Йорк, се нарича Произходът и стойността на несъгласието между етикетиращите данни: Казус от индивидуалните различия в анотацията на речта на омразата.

Докладът на Google отбелязва, че краудработърите – чиито оценки често формират определящата основа на системите за машинно обучение, които в крайна сметка могат да повлияят на живота ни – често работят при набор от ограничения, които могат да повлияят на начина, по който реагират на експериментални задачи.

Например настоящите политики на Amazon Mechanical Turk позволяват на заявителите (тези, които дават заданията) да отхвърлят работата на анотатор без отговорност*:

„[Голямото мнозинство краудъръркъри (94%) са имали работа, която е била отхвърлена или за която не са получили заплащане. И все пак заявителите запазват пълни права върху данните, които получават, независимо дали ги приемат или отхвърлят; Робъртс (2016) описва тази система като такава, която „позволява кражба на заплати“.

„Освен това отхвърлянето на работа и задържането на заплащане е болезнено, тъй като отказите често са причинени от неясни инструкции и липсата на значими канали за обратна връзка; много краудъркъркъри съобщават, че лошата комуникация се отразява негативно на работата им.'

Авторите препоръчват на изследователите, които използват външни услуги за разработване на набори от данни, да обмислят как платформата за краууъркинг третира своите работници. Освен това те отбелязват, че в Съединените щати краудъръркърите се класифицират като „независими изпълнители“, като работата следователно не е регламентирана и не се покрива от минималната заплата, предвидена от Закона за справедливите трудови стандарти.

Контекстът има значение

Документът също така критикува използването на Ad Hoc глобален труд за анотационни задачи, без да се взема предвид произходът на анотатора.

Когато бюджетът позволява, обичайно е за изследователите, използващи AMT и подобни платформи за работа с хора, да дадат една и съща задача на четирима анотатори и да спазват „правилото на мнозинството“ за резултатите.

Документът твърди, че контекстуалният опит е значително подценен. Например, ако въпрос за задача е свързан с сексизъм се разпределя на случаен принцип между трима съгласни мъже на възраст 18-57 години и една несъгласна жена на възраст 29 години, присъдата на мъжете печели, освен в сравнително редките случаи, когато изследователите обръщат внимание на квалификацията на техните анотатори.

По същия начин, ако въпрос на поведение на банди в Чикаго се разпределя между селска жена в САЩ на 36 години, мъж, жител на Чикаго на 42 години, и двама анотатори съответно от Бангалор и Дания, като лицето, което вероятно е най-засегнато от проблема (мъжът от Чикаго), има само една четвърт дял в резултата, в стандартна конфигурация за аутсорсинг.

Изследователите заявяват:

„[Понятието] за „една истина“ в отговорите на краудсорсинга е мит; несъгласието между анотаторите, което често се разглежда като отрицателно, всъщност може да предостави ценен сигнал. Второ, тъй като много пулове анотатори, привлечени от краудсорсинг, са социално-демографски изкривени, има последици за това кои популации са представени в наборите от данни, както и кои популации са изправени пред предизвикателствата на [работата с тълпи].

„Отчитането на отклоненията в демографските данни на анотатора е от решаващо значение за контекстуализиране на набори от данни и осигуряване на отговорно използване надолу по веригата. Накратко, има стойност в признаването и отчитането на социално-културния произход на работника – както от гледна точка на качеството на данните, така и от общественото въздействие.“

Без „неутрални“ мнения по горещи теми

Дори когато мненията на четирима анотатори не са изкривени, нито демографски, нито по някакъв друг показател, документът на Google изразява загриженост, че изследователите не отчитат житейския опит или философското разположение на анотаторите:

„Докато някои задачи са склонни да поставят обективни въпроси с правилен отговор (има ли човешко лице в изображение?), често наборите от данни имат за цел да уловят преценка за сравнително субективни задачи без универсално правилен отговор (този текст обиден ли е?). Важно е да бъдете съзнателни дали да разчитате на субективните преценки на анотаторите.'

По отношение на конкретната си цел да се справи с проблемите при етикетирането на речта на омразата, документът от Сиракюз отбелязва, че по-категорични въпроси като Има ли котка на тази снимка? се различават значително от това да попитате краудъркърър дали дадена фраза е „токсична“:

„Като се вземе предвид бъркотията на социалната реалност, възприятията на хората за токсичност варират значително. Техните етикети за токсично съдържание се основават на техните собствени възприятия.

Установявайки, че личността и възрастта имат „съществено влияние“ върху размерното етикетиране на речта на омразата, изследователите от Сиракуза заключават:

„Тези констатации предполагат, че усилията за постигане на последователност на анотациите сред етикетиращите с различен произход и личности за реч на омразата може никога да не успеят напълно.“

Съдията също може да е предубеден

Тази липса на обективност вероятно ще се повтори и нагоре, според документа от Сиракюз, който твърди, че ръчната намеса (или автоматизираната политика, също решена от човек), която определя „победителя“ на консенсусните гласове, също трябва да бъде обект на контрол .

Сравнявайки процеса с модерирането на форума, авторите заявяват*:

„Модераторите на [една] общност могат да решават съдбата както на публикациите, така и на потребителите в тяхната общност, като насърчават или скриват публикации, както и почитат, засрамват или забраняват потребителите. Решенията на модераторите влияят върху съдържанието, доставено на членове на общността и публика и като разширение също повлияе на опита на общността от дискусията.

„Ако приемем, че човешкият модератор е член на общността, който има демографска хомогенност с други членове на общността, изглежда възможно умствената схема, която използват, за да оценяват съдържанието, да съвпада с тези на други членове на общността.“

Това дава известна представа защо изследователите от Сиракуза са стигнали до такова обезсърчено заключение относно бъдещето на анотацията на речта на омразата; изводът е, че политиките и призивите за осъждане на несъгласни мнения на тълпата не могат просто да бъдат прилагани на случаен принцип според „приемливите“ принципи, които не са залегнали никъде (или не могат да бъдат сведени до приложима схема, дори и да съществуват).

Хората, които вземат решенията (краудъръркърите), са пристрастни и биха били безполезни за подобни задачи, ако бяха не предубеден, тъй като задачата е да се даде ценностна преценка; хората, които се произнасят по спорове в резултат на работа с хора, също правят ценностни преценки при определянето на политики за спорове.

Може да има стотици политики само в една рамка за откриване на реч на омразата и освен ако всяка една не бъде върната обратно във Върховния съд, откъде може да произлезе „авторитетният“ консенсус?

Това предполагат изследователите на Google „[не]разногласията между анотаторите могат да включат ценни нюанси относно задачата“. Документът предлага използването на метаданни в набори от данни, които отразяват и контекстуализират спорове.

Трудно е обаче да се види как такъв специфичен за контекста слой от данни би могъл някога да доведе до подобни показатели, да се адаптира към изискванията на установени стандартни тестове или да поддържа който и да е окончателни резултати – освен в нереалистичния сценарий за приемане на същата група изследователи в последваща работа.

Куриране на пула от анотатори

Всичко това предполага, че има дори бюджет в изследователски проект за множество анотации, които биха довели до консенсусно гласуване. В много случаи изследователите се опитват да „подготвят“ изнесения пул от анотации по-евтино, като посочват черти, които работниците трябва да притежават, като географско местоположение, пол или други културни фактори, разменяйки множествеността за специфичност.

Документът на Google твърди, че пътят напред от тези предизвикателства може да бъде чрез установяване на разширени комуникационни рамки с анотатори, подобни на минималните комуникации, които приложението Uber улеснява между шофьор и ездач.

Такова внимателно разглеждане на анотаторите, естествено, би било пречка за аутсорсинга на хипермащабни анотации, което води или до по-ограничени набори от данни с малък обем, които имат по-добра обосновка за своите резултати, или до „прибързана“ оценка на включените анотатори, получаване на ограничени подробности за тях и характеризирането им като „подходящи за задача“ въз основа на твърде малко информация.

Това е, ако анотаторите са честни.

„Угодниците на хората“ в етикетирането на изнесен набор от данни

С налична работна сила това е заплатен ниско, под тежка конкуренция за налични задания и натиснат от оскъдни перспективи за кариера, анотаторите са мотивирани бързо да предоставят „правилния“ отговор и да преминат към следващото минизадание.

Ако „верният отговор“ е нещо по-сложно от Има котка/Няма котка, документът от Сиракюз твърди, че е вероятно работникът да се опита да изведе „приемлив“ отговор въз основа на съдържанието и контекста на въпроса*:

„Както разпространението на алтернативни концептуализации, така и широкото използване на опростени методи за анотиране може да възпрепятстват напредъка на изследванията на онлайн речта на омразата. Например, Ross, et al. намерени че показването на определението на Twitter за омразно поведение на анотаторите ги е накарало частично да съгласуват собствените си мнения с определението. Това пренастройване доведе до много ниска междуоценителна надеждност на анотациите.'

* Моето преобразуване на вградените цитати на статията в хипервръзки.

Публикувано на 13 декември 2021 г – Актуализирано на 18 декември 2021 г.: Добавени са етикети