Штучний інтелект

‘Невидима’, Часто Нещаслива Робітниця, Що Визначає Майбутнє Штучного Інтелекту

Published December 13, 2021

Updated April 28, 2026

Martin Anderson

Два нових звіти, включаючи статтю під керівництвом Google Research, висловлюють занепокоєння, що поточна тенденція покладатися на дешеву та часто безправну групу випадкових глобальних фрілансерів для створення основи істинності для систем машинного навчання може мати великі наслідки для штучного інтелекту.

Серед ряду висновків, дослідження Google визначає, що власні упередження фрілансерів, ймовірно, будуть закладені в системи штучного інтелекту, чиї основи істинності будуть засновані на їхніх відповідях; що поширені несправедливі трудові практики (включаючи в США) на платформах фрілансу можуть погіршити якість відповідей; і що система “консенсусу” (фактично “міні-вибори” для деякої частини основи істинності, яка вплине на системи штучного інтелекту) може фактично відкинути найкращі та/або найбільш інформовані відповіді.

Це погані новини; ще гірші новини полягають у тому, що майже всі засоби є дорогими, тривалими або обома.

Небезпека, Випадковий Відхіл та Гореч

Перша стаття, написана п’ятьма дослідниками Google, називається Чия Основна Істинність? Урахування Індивідуальних та Колективних Ідентичностей, що Лежать в Основі Анотації Даних; друга стаття, написана двома дослідниками з Університету Сірак’юс у Нью-Йорку, називається Походження та Значення Незгоди Серед Анотаторів Даних: Випадковий Студій Індивідуальних Різниць у Анотації Ворожої мови.

Стаття Google зазначає, що фрілансери – чиї оцінки часто утворюють визначальну основу систем машинного навчання, які можуть в кінцевому підсумку вплинути на нашу життя – часто працюють під дією ряду обмежень, які можуть вплинути на те, як вони реагують на експериментальні завдання.

Наприклад, поточна політика Amazon Mechanical Turk дозволяє замовникам (тим, хто видає завдання) відхилити роботу анотатора без відповідальності*:

‘[Більшість фрілансерів (94%) мали роботу, яку відхилили або за яку їм не заплатили. Однак замовники зберігають повні права на дані, які вони отримують, незалежно від того, приймають вони роботу чи відхиляють її; Робертс (2016) описує цю систему як ту, яка “дозволяє викрадення заробітної плати”.

‘Крім того, відмова роботи та утримання заробітної плати є болісними, оскільки відхилення часто викликані нечіткими інструкціями та відсутністю значимих каналів зворотного зв’язку; багато фрілансерів повідомляють, що погана комунікація негативно впливає на їхню роботу.’

Автори рекомендують дослідникам, які використовують аутсорсингові послуги для розробки наборів даних, враховувати, як платформа фрілансу поводиться з своїми працівниками. Вони також зазначають, що в США фрілансери класифікуються як “незалежні підрядники”, а робота відповідно не регулюється та не підлягає мінімальній заробітній платі, передбаченій Законом про справедливі трудові стандарти.

Контекст Має Значення

Стаття також критикує використання ад хок глобальної праці для завдань анотації, без урахування походження анотатора.

Коли бюджет дозволяє, дослідники, які використовують AMT та подібні платформи фрілансу, часто дають одне й те саме завдання чотирьом анотаторам та слідують “більшості правил” щодо результатів.

Контекстуальний досвід, як зазначається в статті, є помітно недооціненим. Наприклад, якщо питання, пов’язане з сексизмом, випадково розподілено між трьома згодними чоловіками у віці 18-57 років та однією несогласною жінкою у віці 29 років, вердикт чоловіків перемагає, окрім рідкісних випадків, коли дослідники звертають увагу на кваліфікацію своїх анотаторів.

Аналогічно, якщо питання про поведінку банд у Чикаго розподілено між сільською жінкою з США у віці 36 років, чоловіком-резидентом Чикаго у віці 42 років та двома анотаторами з Бангалору та Данії, людина, яка найімовірніше постраждає від цієї проблеми (чоловік з Чикаго), має лише чверть частку в результаті, у стандартній конфігурації аутсорсингу.

Дослідники зазначають:

‘[Поняття] “одна істина” у відповідях фрілансерів є міфом; незгода між анотаторами, яку часто розглядають як негативну, може фактично надати цінний сигнал. Друга річ, оскільки багато пулів анотаторів фрілансерів соціально-демографічно викривлені, є наслідки для тих популяцій, які представлені в наборах даних, а також тих популяцій, які стикаються з проблемами [фрілансу].

‘Урахування викривлень у демографії анотаторів є критично важливим для контекстуалізації наборів даних та забезпечення відповідального подальшого використання. Коротко кажучи, є цінність у визнанні та урахуванні соціокультурного походження працівників — як з точки зору якості даних, так і соціального впливу.’

Немає ‘Нейтральних’ Відгуків на Гарячі Теми

Дажи коли думки чотирьох анотаторів не викривлені демографічно чи іншим чином, стаття Google висловлює занепокоєння, що дослідники не враховують життєвий досвід або філософську позицію анотаторів:

‘Хоча деякі завдання тенденційно ставлять об’єктивні питання з правильною відповіддю (чи є людське обличчя на зображенні?), часто набори даних намагаються захопити судження щодо відносно суб’єктивних завдань без універсально правильної відповіді (чи це текст образливий?). Важливо бути наміреним щодо того, чи спертися на суб’єктивні судження анотаторів.’

Відносно своєї конкретної сфери для вирішення проблем у маркуванні ворожої мови, стаття Сірак’юс зазначає, що більш категоричні питання, такі як Чи є кіт на цьому фотографії? помітно відрізняються від запитання фрілансеру, чи є фраза “токсична”:

‘Враховуючи хаотичність соціальної реальності, сприйняття людей щодо токсичності суттєво відрізняються. Їхні мітки токсичного вмісту засновані на їхніх власних сприйняттях.’

Встановивши, що особистість та вік мають “суттєвий вплив” на розмірну маркування ворожої мови, дослідники Сірак’юс висновують:

‘Ці результати свідчать про те, що зусилля щодо отримання узгодженості серед мітників з різними походженнями та особистостями для ворожої мови можуть ніколи повністю не вдасться.’

Суддя も Може Бути Упередженим

Відсутність об’єктивності, ймовірно, буде повторюватися вище, згідно зі статтею Сірак’юс, яка стверджує, що ручне втручання (або автоматична політика, також визначена людиною) щодо визначення “переможця” консенсусних голосів також повинно бути предметом розгляду.

Відносно цього процесу до модерації форуму, автори зазначають*:

‘[Модератори спільноти] можуть визначити долю як постів, так і користувачів у своїй спільноті, просуваючи або ховаючи пости, а також шануючи, ганьблячи чи забанюючи користувачів. Рішення модераторів впливають на вміст, наданий членам спільноти та аудиторії та, відповідно, також впливають на досвід спільноти щодо обговорення.

‘Припускаючи, що людський модератор є членом спільноти, який має демографічну однорідність з іншими членами спільноти, здається можливим, що ментальна схема, яку вони використовують для оцінки вмісту, буде відповідати тим, які використовують інші члени спільноти.’

Це дає деяке уявлення про те, чому дослідники Сірак’юс прийшли до такого похмурого висновку щодо майбутнього маркування ворожої мови; імплікація полягає в тому, що політики та судження щодо дисидентських думок фрілансерів не можуть бути просто випадково застосовані згідно з “прийнятними” принципами, які не закріплені ніде (або не скорочуються до застосованої схеми, навіть якщо вони існують).

Люди, які приймають рішення (фрілансери), є упередженими, і були б безцінними для таких завдань, якщо б вони не були упередженими, оскільки завдання полягає у наданні цінного судження; люди, які судять про суперечки у результатах фрілансерів, також приймають цінні судження при встановленні політики для суперечок.

Може бути сотні політик лише в одному кадрі виявлення ворожої мови, і якщо кожна з них не буде розглянута Верховним судом, де може походити “авторитетний” консенсус?

Дослідники Google пропонують, що ‘[незгода між анотаторами] може містити цінні нюанси щодо завдання’. Стаття пропонує використання метаданих у наборах даних, які відображають та контекстуалізують суперечки.

Однак важко побачити, як такий контекстно-залежний шар даних міг би привести до метрик типу “подібний на подібний”, адаптуватися до вимог встановлених стандартних тестів або підтримувати будь-які дефінітивні результати – окрім нереалістичного сценарію прийняття однієї й тієї ж групи дослідників у подальшій роботі.

Кураторство Пулу Анотаторів

Все це припускає, що в дослідницькому проєкті є навіть бюджет для кількох анотацій, які б привели до консенсусного голосування. У багатьох випадках дослідники намагаються “кураторство” пул анотаторів дешевше, вказуючи ознаки, які повинні мати працівники, такі як географічна місцевість, стать чи інші культурні чинники, торгує множинністю на конкретику.

Стаття Google стверджує, що шлях вперед від цих викликів міг би полягати в встановленні розширених комунікаційних рамок з анотаторами, схожих на мінімальну комунікацію, яку забезпечує додаток Uber між водієм та пасажиром.

Така ретельна увага до анотаторів, природно, була б перепоною для гіпермасштабного аутсорсингу анотації, що призвело б або до обмежених та низькооб’ємних наборів даних, які мають кращу раціональність для своїх результатів, або до “поспішного” оцінювання анотаторів, отримання обмеженої інформації про них та характеризації їх як “підходящих для завдання” на основі надто малої інформації.

Це якщо анотатори чесні.

‘Люди, Які Хочуть Задовольнити’ у Маркуванні Наборів Даних

З наявною робочою силою, яка недоплачується, під жорсткою конкуренцією за доступні завдання, та депресивною через маленькі кар’єрні перспективи, анотатори мотивовані швидко надати “правильну” відповідь та перейти до наступного міні-завдання.

Якщо “правильна відповідь” є чимось складнішим, ніж Є кіт/Немає кота, стаття Сірак’юс стверджує, що працівник, ймовірно, спробує вивести “прийнятну” відповідь на основі вмісту та контексту питання*:

‘Обидва поширення альтернативних концептуалізацій та широке використання простих методів анотації, ймовірно, перешкоджають прогресу досліджень про ворожу мову в Інтернеті. Наприклад, Росс та ін. виявили, що показ Twitter’ової визначення ненавистливої поведінки анотаторам викликало часткову згоду їхніх власних думок з визначенням. Це реалігнування призвело до дуже низької надійності анотацій.’

* Мій перехід цитат статті у гіперпосилання.

Опубліковано 13 грудня 2021 – Оновлено 18 грудня 2021: Додані теги