Искусственный интеллект

‘Невидимая’, Часто Несчастная Рабочая Сила, Которая Решает Будущее ИИ

Published December 13, 2021

Updated April 28, 2026

Martin Anderson

Два новых отчета, включая статью под руководством Google Research, выражают обеспокоенность тем, что текущая тенденция полагаться на дешевую и часто бесправную группу глобальных фрилансеров для создания базовой истины для систем машинного обучения может иметь серьезные последствия для ИИ.

Среди ряда выводов исследование Google показывает, что предвзятости самих фрилансеров, скорее всего, будут встроены в системы ИИ, основанные на их ответах; что повсеместные несправедливые трудовые практики (включая в США) на платформах фриланса могут снизить качество ответов; и что система “консенсуса” (по сути, “мини-выборы” для некоторого фрагмента базовой истины, который повлияет на системы ИИ), которая в настоящее время разрешает споры, может фактически отбросить лучшие и/или наиболее информированные ответы.

Это плохие новости; еще хуже то, что几乎 все средства являются дорогими, трудоемкими или обоими.

Небезопасность, Случайное Отказ и Обида

Первая статья, от пяти исследователей Google, называется Чья Базовая Истина? Учет Индивидуальных и Коллективных Идентичностей, Основанных на Аннотации Данных; вторая статья, от двух исследователей Университета Сиракьюса в Нью-Йорке, называется Происхождение и Значение Несогласия Среди Маркировщиков Данных: Кейс-Стади Об Индивидуальных Различиях в Аннотации Ненавистнической Речи.

Статья Google отмечает, что фрилансеры – чьи оценки часто образуют определяющую основу систем машинного обучения, которые могут в конечном итоге повлиять на нашу жизнь – часто работают под различными ограничениями, которые могут повлиять на то, как они реагируют на экспериментальные задания.

Например, текущие политики Amazon Mechanical Turk позволяют заказчикам (тех, кто выдает задания) отклонять работу аннотатора без ответственности*:

‘[Б]ольшинство фрилансеров (94%) имели работу, которая была отклонена или за которую они не были оплачены. Однако заказчики сохраняют все права на полученные данные, независимо от того, принимают они их или отклоняют; Робертс (2016) описывает эту систему как “возможность кражи зарплаты”.’

‘Более того, отклонение работы и удержание оплаты болезненно, поскольку отклонения часто вызваны неясными инструкциями и отсутствием значимых каналов обратной связи; многие фрилансеры сообщают, что плохая связь отрицательно влияет на их работу.’

Авторы рекомендуют исследователям, которые используют аутсорсинговые услуги для разработки наборов данных, учитывать, как платформа фриланса обращается со своими работниками. Они также отмечают, что в США фрилансеры классифицируются как “независимые подрядчики”, поэтому работа не регулируется и не покрывается минимальной заработной платой, предусмотренной Законом о справедливых трудовых стандартах.

Контекст имеет Значение

Статья также критикует использование ад хок глобальной рабочей силы для задач аннотации без учета фона аннотатора.

Когда бюджет позволяет, исследователям, использующим AMT и подобные платформы фриланса, часто дают одну и ту же задачу четырем аннотаторам и следуют “правилу большинства” в результатах.

Контекстуальный опыт, по мнению авторов, заметно недооценен. Например, если вопрос, связанный с сексизмом, случайно распределен между тремя согласными мужчинами в возрасте 18-57 лет и одной несогласной женщиной в возрасте 29 лет, вердикт мужчин выигрывает, за исключением редких случаев, когда исследователи обращают внимание на квалификацию своих аннотаторов.

Аналогично, если вопрос о поведении банд в Чикаго распределен между сельской женщиной из США в возрасте 36 лет, мужчиной-жителем Чикаго в возрасте 42 лет и двумя аннотаторами из Бангалора и Дании, человек, наиболее вероятно пострадавший от проблемы (мужчина из Чикаго), имеет только четвертую долю в результате, в стандартной конфигурации аутсорсинга.

Исследователи заявляют:

‘[П]онятие “одна истина” в ответах краудсорсинга является мифом; несогласие между аннотаторами, которое часто рассматривается как негативное, может фактически предоставить ценный сигнал. Во-вторых, поскольку многие пулы аннотаторов краудсорсинга социально-демографически искажены, есть последствия для того, какие популяции представлены в наборах данных, а также какие популяции сталкиваются с проблемами [фриланса]. ‘

‘Учет искажений в демографии аннотаторов имеет решающее значение для контекстуализации наборов данных и обеспечения ответственного последующего использования. Короче говоря, есть ценность в признании и учете социокультурного фона работников — как с точки зрения качества данных, так и социального воздействия.’

Нет ‘Нейтральных’ Мнений по Горячим Темам

Даже когда мнения четырех аннотаторов не искажены демографически или по другим показателям, статья Google выражает обеспокоенность тем, что исследователи не учитывают опыт жизни или философское отношение аннотаторов:

‘Хотя некоторые задачи представляют собой объективные вопросы с правильным ответом (есть ли человеческое лицо на изображении?), часто наборы данных направлены на захват суждения по относительно субъективным задачам без универсально правильного ответа (является ли этот текст оскорбительным?). Важно быть намеренным в отношении того, чтобы полагаться на субъективные суждения аннотаторов.’

В отношении своей конкретной области для решения проблем с маркировкой ненавистнической речи статья Сиракьюса отмечает, что более категорические вопросы, такие как Есть ли кошка на этом фотографии?, заметно отличаются от вопроса фрилансеру, является ли фраза “токсичной”:

‘Учитывая беспорядочность социальной реальности, восприятие токсичности людей существенно различается. Их метки токсичного контента основаны на их собственных восприятиях.’

Установив, что личность и возраст имеют “существенное влияние” на размерную маркировку ненавистнической речи, исследователи Сиракьюса приходят к выводу:

‘Эти результаты показывают, что усилия по получению согласованности аннотаторов с разными фоновыми данными и личностями для ненавистнической речи могут никогда полностью не увенчаться успехом.’

Судья Может Быть Предвзятым

Эта отсутствие объективности, вероятно, будет итерироваться вверх, согласно статье Сиракьюса, которая утверждает, что ручное вмешательство (или автоматизированная политика, также решенная человеком), которое определяет “победителя” голосов консенсуса, должно быть предметом проверки.

Сравнивая этот процесс с модерацией форума, авторы заявляют*:

‘[М]одераторы сообщества могут решать судьбу как постов, так и пользователей в своем сообществе, продвигая или скрывая посты, а также чествуя, стыдя или блокируя пользователей. Решения модераторов влияют на контент, доставляемый членам сообщества и аудитории и, следовательно, также влияют на опыт сообщества в обсуждении. ‘

‘Предполагая, что человеческий модератор является членом сообщества, который имеет демографическое сходство с другими членами сообщества, кажется возможным, что ментальная схема, которую они используют для оценки контента, будет соответствовать той, которую используют другие члены сообщества.’

Это дает некоторое представление о том, почему исследователи Сиракьюса пришли к такому безрадостному выводу относительно будущего аннотации ненавистнической речи; подразумевается, что политики и суждения о несогласных мнениях фриланса не могут быть просто случайно применены в соответствии с “допустимыми” принципами, которые не закреплены нигде (или не сводятся к применимой схеме, даже если они существуют).

Люди, которые принимают решения (фрилансеры), предвзяты, и они были бы бесполезны для таких задач, если бы они не были предвзяты, поскольку задача состоит в том, чтобы предоставить ценностное суждение; люди, которые выносят решения по спорам в результатах фриланса, также принимают ценностные суждения, устанавливая политику для споров.

Может быть сотни политик в одной только рамке обнаружения ненавистнической речи, и если каждая из них не будет доведена до Верховного суда, откуда может возникнуть “авторитетный” консенсус?

Исследователи Google предлагают, что ‘[н]есогласия между аннотаторами могут встроить ценные нюансы о задаче’. Статья предлагает использование метаданных в наборах данных, отражающих и контекстуализирующих споры.

Однако трудно понять, как такой контекстно-зависимый слой данных может когда-либо привести к метрикам, подобным друг другу, адаптироваться к требованиям установленных стандартных тестов или поддерживать любые определенные результаты – за исключением нереалистичного сценария принятия одной и той же группы исследователей на последующую работу.

Кураторство Пула Аннотаторов

Все это предполагает, что в исследовательском проекте есть бюджет на множественную аннотацию, которая приведет к голосованию консенсуса. Во многих случаях исследователи пытаются “курировать” пул аутсорсинга фриланса более дешево, указывая характеристики, которые должны иметь работники, такие как географическое положение, пол или другие культурные факторы, торгуя множественностью на специфику.

Статья Google утверждает, что выход из этих проблем может заключаться в установлении расширенных коммуникационных рамок с аннотаторами, подобных минимальным коммуникациям, которые приложение Uber облегчает между водителем и пассажиром.

Такое тщательное рассмотрение аннотаторов, естественно, будет препятствием для аутсорсинга аннотации в гипермасштабе, в результате чего либо будет ограниченный и низкообъемный набор данных с лучшей обоснованностью для результатов, либо будет “спешная” оценка аннотаторов, получающая ограниченную информацию о них и характеризующая их как “пригодных для задачи” на основе слишкомlittle информации.

Это если аннотаторы честны.

‘Люди, Пleased’ в Маркировке Наборов Данных

С доступной рабочей силой, которая недооплачивается, под жесткой конкуренцией за доступные задания и депрессией из-за малых карьерных перспектив, аннотаторы мотивированы быстро предоставить “правильный” ответ и перейти к следующему мини-заданию.

Если “правильный ответ” является чем-то более сложным, чем Есть кошка/Нет кошки, статья Сиракьюса утверждает, что работник попытается вывести “допустимый” ответ на основе содержания и контекста вопроса*:

‘[Б]OTH альтернативные концептуализации и широкое использование упрощенных методов аннотации, по сути, препятствуют прогрессу исследований по ненавистнической речи в Интернете. Например, Росс и др. обнаружили, что показ определения ненавистнического поведения Twitter аннотаторам вызвал частичное согласование их собственных мнений с определением. Это реализация привела к очень низкой надежности аннотаций.’

* Мое преобразование внутренних цитат статьи в гиперссылки.

Опубликовано 13 декабря 2021 г. – Обновлено 18 декабря 2021 г.: Добавлены теги