Искусственный интеллект

Недостатки Amazon Mechanical Turk могут угрожать системам генерации естественного языка

mm

Новое исследование Университета Массачусетса в Амхерсте противопоставило учителей английского языка работникам, нанятым через Amazon Mechanical Turk, для оценки выходных данных систем генерации естественного языка (NLG), и пришло к выводу, что низкие стандарты и “игра” с высокооцененными задачами среди работников AMT могут препятствовать развитию отрасли.

Отчет приходит к ряду разрушительных выводов о том, в какой степени “промышленная” дешевая аутсорсинг открытых задач оценки NLG может привести к худшим результатам и алгоритмам в этой области.

Исследователи также составили список из 45 работ по генерации открытого текста, где исследователи использовали AMT, и обнаружили, что “большинство” не сообщили критические детали об использовании сервиса Amazon, что затрудняет воспроизведение результатов работ.

Потогонный труд

Отчет критикует как потогонный характер Amazon Mechanical Turk, так и (вероятно, ограниченные бюджетом) академические проекты, которые придает дополнительную легитимность AMT, используя (и цитируя) его как действительный и последовательный исследовательский ресурс. Авторы отмечают:

‘Хотя AMT является удобным и доступным решением, мы наблюдаем, что высокая вариативность между работниками, плохая калибровка и когнитивно-требовательные задачи могут привести исследователей к вводящим в заблуждение научным выводам (например, что текст, написанный человеком, “хуже”, чем GPT-2)’

Отчет обвиняет систему, а не игроков, и исследователи отмечают:

‘Работники часто недоплачиваются за свой труд, что наносит вред как качеству исследований, так и, более importantly, способности этих работников зарабатывать достойный доход.’

Работа, озаглавленная Опасности использования Mechanical Turk для оценки открытой генерации текста,进一步 заключает, что ‘эксперт-оценщики’, такие как учителя языка и лингвисты, должны использоваться для оценки открытого искусственного контента NLG, даже если AMT дешевле.

Тестовые задачи

При сравнении производительности AMT с менее ограниченными во времени, экспертными читателями, исследователи потратили $144 на услуги AMT, фактически использованные в сравнительных тестах (хотя было потрачено намного больше на “неиспользуемые” результаты – см. ниже), требуя от случайных “турок” оценить один из 200 текстов, разделенных между контентом, созданным человеком, и искусственно сгенерированным текстом.

Назначение профессиональным учителям одной и той же работы стоило $187,50, и подтвердило их лучшую производительность (по сравнению с работниками AMT) путем найма фрилансеров Upwork для повторения задач стоило дополнительные $262,50.

Каждая задача состояла из четырех оценочных критериев: грамматика (‘На сколько грамматически правильен текст истории?’); связность (‘На сколько хорошо предложения в фрагменте истории подходят друг к другу?’); приятность (‘На сколько вам нравится фрагмент истории?’); и актуальность (‘На сколько актуален фрагмент истории для подсказки?’).

Генерация текстов

Чтобы получить материал NLG для тестов, исследователи использовали набор данных Hierarchical Neural Story Generation от Facebook AI Research 2018 года, который состоит из 303 358 английских историй, составленных пользователями в популярном (15 миллионов+ пользователей) сабреддите r/WritingPrompts, где истории пользователей “сеяются” однопредложными “подсказками” аналогичным образом текущим практикам в генерации текста в изображение – и, конечно же, в открытых системах генерации естественного языка системах.

200 подсказок из набора данных были случайно выбраны и переданы через среднюю модель GPT-2 с использованием библиотеки Hugging-Face Transformers. Таким образом, были получены два набора результатов из одних и тех же подсказок: дискурсивные эссе, написанные людьми, из пользователей Reddit, и тексты, сгенерированные GPT-2.

Чтобы предотвратить то, что одни и те же работники AMT оценивают одну и ту же историю несколько раз, было собрано три суждения работников AMT по каждому примеру. Вместе с экспериментами, касающимися возможностей английского языка работников (см. конец статьи), и исключая результаты от работников с низкими усилиями (см. ‘Короткое время’ ниже), это увеличило общую сумму расходов на AMT до khoảng $1 500 долларов США.

Чтобы создать равные условия, все тесты проводились в будние дни между 11:00 и 11:30 утра по тихоокеанскому времени.

Результаты и выводы

Распространенное исследование охватывает много земли, но ключевые моменты следующие:

Короткое время

В работе было обнаружено, что официально заявленное среднее время выполнения задачи в 360 секунд сводится к реальному рабочему времени всего 22 секунды, и медианному рабочему времени только 13 секунд – четверть времени, затраченного самым быстрым учителем английского языка, повторяющим задачу.

Из второго дня исследования: отдельные работники (в оранжевом цвете) потратили значительно меньше времени на оценку каждой задачи, чем лучше оплачиваемые учителя, и (позже) еще лучше оплачиваемые подрядчики Upwork. Источник: https://arxiv.org/pdf/2109.06835.pdf

Из второго дня исследования: отдельные работники (в оранжевом цвете) потратили значительно меньше времени на оценку каждой задачи, чем лучше оплачиваемые учителя, и (позже) еще лучше оплачиваемые подрядчики Upwork. Источник: https://arxiv.org/pdf/2109.06835.pdf

Поскольку AMT не накладывает ограничений на количество Human Intelligence Tasks (HIT), которые может выполнить один работник, появились “большие игроки” AMT, имеющие (прибыльную) репутацию за выполнение высокого числа задач на эксперимент. Чтобы компенсировать принятое количество задач одним и тем же работником, исследователи измерили время между последовательно отправленными HIT, сравнивая начало и конец каждого HIT. Таким образом, нехватка между заявленным WorkTimeInSeconds AMT и фактическим временем, потраченным на задачу, стала очевидной.

Поскольку такая работа не может быть выполнена в этих сокращенных временных рамках, исследователи должны были компенсировать это:

‘Поскольку невозможно тщательно прочитать абзац истории и оценить все четыре свойства за всего 13 секунд, мы измеряем влияние на средние рейтинги при фильтрации работников, которые тратят слишком мало времени на HIT… Конкретно, мы удаляем суждения от работников, чье медианное время ниже 40 с (что является низкой планкой), и находим, что в среднем около 42% наших рейтингов фильтруются (варьируясь от 20% до 72% во всех экспериментах).’

В работе утверждается, что неправильно заявленное фактическое время работы в AMT является “большой проблемой”, обычно упускаемой из виду исследователями, использующими сервис.

Необходимо руководство

Найденные результаты дальнейшим образом предполагают, что работники AMT не могут надежно различать текст, написанный человеком, и текст, написанный машиной, если они не видят оба текста рядом, что фактически компрометирует типичный сценарий оценки (где читатель должен быть в состоянии сделать суждение на основе одного образца текста, “реального” или искусственно сгенерированного).

Легкое принятие низкокачественного искусственного текста

Работники AMT последовательно оценивали низкокачественный искусственный текст на основе GPT наравне с более качественным, связным текстом, написанным людьми, в отличие от учителей английского языка, которые легко могли различить разницу в качестве.

Нет времени на подготовку, нет контекста

Вхождение в правильный настрой для такой абстрактной задачи, как оценка аутентичности, не происходит естественным образом; учителям английского языка потребовалось 20 задач, чтобы откалибровать свою чувствительность к оценочной среде, в то время как работники AMT обычно не получают “ориентационного времени” вообще, что снижает качество их входных данных.

Игра в систему

Отчет утверждает, что общее время, которое работники AMT тратят на отдельные задачи, инфлируется работниками, которые принимают несколько задач одновременно и выполняют задачи в разных вкладках браузера, вместо того, чтобы сосредотачиваться на одной задаче в течение заявленного времени задачи.

Страна происхождения важна

По умолчанию настройки AMT не фильтруют работников по стране происхождения, и в отчете упоминается предыдущую работу, указывающую на то, что работники AMT используют VPN, чтобы обойти географические ограничения, позволяя не носителям языка выдавать себя за носителей английского языка (в системе, которая, возможно, довольно наивно, связывает язык работника с его IP-адресом).

Таким образом, исследователи повторно запустили тесты оценки на AMT с фильтрами, ограничивающими потенциальных участников не-англоязычными странами, и обнаружили, что ‘работники из неанглоязычных стран оценили связность, актуальность и грамматику… значительно ниже, чем работники из англоязычных стран’.

В отчете заключается:

‘[Эксперт]-оценщики, такие как лингвисты или учителя языка, должны использоваться, когда это возможно, поскольку они уже прошли обучение для оценки письменного текста, и это не намного дороже…’

 

Опубликовано 16 сентября 2021 г.Обновлено 18 декабря 2021 г.: Добавлены теги

Писатель о машинном обучении, специалист в области синтеза человеческих изображений. Бывший руководитель исследовательского контента в Metaphysic.ai.