заглушки Недоліки Amazon Mechanical Turk можуть загрожувати системам генерації природної мови - Unite.AI
Зв'язатися з нами

Штучний Інтелект

Недоліки Amazon Mechanical Turk можуть загрожувати системам генерації природної мови

mm
оновлений on

Нове дослідження Університету Массачусетса в Амгерсті протиставило вчителів англійської мови та краудсорсингових працівників у Amazon Mechanical Turk в оцінці результату генерації природної мови (NLG) системи, дійшовши висновку, що слабкі стандарти та «розіграш» цінних завдань серед працівників AMT можуть перешкоджати розвитку сектора.

У звіті зроблено ряд жахливих висновків щодо того, якою мірою «промисловий» дешевий аутсорсинг відкритих завдань оцінки NLG може призвести до гірших результатів і алгоритмів у цьому секторі.

Дослідники також склали список із 45 статей про генерацію відкритого тексту, де в дослідженні використовувався AMT, і виявили, що «переважна більшість» не повідомили важливі подробиці про використання крауд-сервісу Amazon, що ускладнює відтворення. висновки паперів.

Потогінна праця

У звіті піддається критиці як потогінний характер Amazon Mechanical Turk, так і академічні проекти (імовірно з обмеженим бюджетом), які надають AMT додаткової довіри, використовуючи (і цитуючи) його як дійсний і послідовний дослідницький ресурс. Автори зазначають:

«Хоча AMT є зручним і доступним рішенням, ми спостерігаємо, що висока різниця між працівниками, погане калібрування та когнітивно вимогливі завдання можуть змусити дослідників зробити оманливі наукові висновки (наприклад, що текст, написаний людиною, «гірший», ніж GPT-2 ).'

У звіті звинувачують гру, а не гравців, а дослідники зауважують:

«[Крауд-працівникам] часто недоплачують за їхню працю, що шкодить як якості досліджень, так і, що більш важливо, здатності цих крауд-працівників заробляти на належне життя».

Команда папір, Під назвою Небезпеки використання Mechanical Turk для оцінки генерації відкритого тексту, далі робить висновок, що для оцінки відкритого штучного вмісту NLG слід використовувати «експертів», таких як викладачі мов і лінгвісти, навіть якщо AMT дешевший.

Тестові завдання

Порівнюючи продуктивність AMT із менш обмеженими у часі читачами-експертами, дослідники витратили 144 долари на служби AMT, які фактично використовувалися в порівняльних тестах (хоча набагато більше було витрачено на «непридатні» результати – див. нижче), вимагаючи випадкових «турків» щоб оцінити один із 200 текстів, розділених на текстовий вміст, створений людиною, і штучно створений текст.

Доручення професійним викладачам виконати таку саму роботу коштує 187.50 доларів США, а підтвердження їх кращої продуктивності (порівняно з працівниками AMT) шляхом найму фрілансерів Upwork для повторення завдань коштує додатково 262.50 доларів США.

Кожне завдання складалося з чотирьох критеріїв оцінювання: граматика («Наскільки граматично правильний текст фрагмента повісті?»); узгодженість («Наскільки добре поєднуються речення у фрагменті історії?»); симпатія («Наскільки приємним вам здається фрагмент історії?»); і актуальність («Наскільки фрагмент історії відповідає підказці?»).

Створення текстів

Щоб отримати матеріал NLG для тестів, дослідники використовували дослідження Facebook AI Research 2018 Генерація ієрархічної нейронної історії набору даних, який містить 303,358 15 історій англійською мовою, створених користувачами дуже популярного (XNUMX мільйонів користувачів) r/writingprompts subreddit, де історії передплатників «засіваються» за допомогою «підказок» з одного речення подібно до поточної практики в генерація тексту в зображення – і, звичайно, у відкритому генеруванні природної мови системи.

200 підказок із набору даних було випадково відібрано та пропущено через модель GPT-2 середнього розміру за допомогою трансформаторів обіймаючихся облич бібліотека. Таким чином, з одних і тих же підказок було отримано два набори результатів: дискурсивні есе, написані людьми від користувачів Reddit, і тексти, згенеровані GPT-2.

Щоб запобігти тому, щоб ті самі працівники AMT неодноразово оцінювали ту саму історію, було запропоновано три судження працівників AMT для кожного прикладу. Разом із експериментами щодо володіння англійською мовою працівників (див. кінець статті) і дисконтуванням результатів працівників, які не докладають зусиль (див. «Короткий час» нижче), це збільшило загальні витрати на AMT приблизно до 1,500 доларів США.

Щоб створити рівні умови для гри, усі тести проводилися в робочі дні з 11.00:11 до 30:XNUMX за тихоокеанським стандартним часом.

Результати та висновки

Розгалужене дослідження охоплює багато питань, але ключові моменти такі:

Короткий час

Дослідження виявило, що офіційний середній час виконання завдання Amazon, який становить 360 секунд, зводиться до реального робочого часу лише 22 секунд, а середній робочий час складає лише 13 секунд – чверть часу, який займає швидкий Вчитель англійської мови тиражує завдання.

З другого дня дослідження: окремі працівники (помаранчевим) витрачали значно менше часу на оцінку кожного завдання, ніж краще оплачувані вчителі та (пізніше) навіть краще оплачувані підрядники Upwork. Джерело: https://arxiv.org/pdf/2.pdf

З другого дня дослідження: окремі працівники (помаранчевим) витрачали значно менше часу на оцінку кожного завдання, ніж краще оплачувані вчителі та (пізніше) навіть краще оплачувані підрядники Upwork. Джерело: https://arxiv.org/pdf/2109.06835.pdf

Оскільки AMT не накладає обмежень на завдання людського інтелекту (HIT), які може виконувати окремий працівник, з’явилися «великі гравці» AMT із (прибутковою) репутацією за виконання великої кількості завдань за експеримент. Щоб компенсувати прийняті звернення одним і тим же працівником, дослідники вимірювали час між послідовними відправленнями HIT, порівнюючи час початку та закінчення кожного HIT. Таким чином, дефіцит між AMT WorkTimeInSeconds і фактичний час, витрачений на виконання завдання, став у центрі уваги.

Оскільки така робота не може бути виконана в ці скорочені часові рамки, дослідники повинні були компенсувати це:

«Оскільки неможливо уважно прочитати історію довжиною в абзац і оцінити всі чотири властивості всього за 13 секунд, ми вимірюємо вплив на середні оцінки, відфільтровуючи працівників, які витрачають надто мало часу на ХІТ... Зокрема, ми видаляємо судження з працівників, чий середній час становить менше 40 с (що є низькою планкою), і виявили, що в середньому близько 42% наших оцінок відфільтровано (від 20% до 72% у всіх експериментах).

У документі стверджується, що неправильно зареєстрований фактичний час роботи в AMT є «серйозною проблемою», яку дослідники, які користуються послугами, зазвичай не помічають.

Необхідно триматися за руки

Висновки також свідчать про те, що працівники AMT не можуть достовірно відрізнити текст, написаний людиною, від тексту, написаного машиною, якщо вони не бачать обидва тексти поруч, що фактично скомпрометує типовий сценарій оцінювання (де читач повинен мати можливість зробити судження на основі одного зразка тексту, «справжнього» чи штучно створеного).

Випадкове прийняття штучного тексту низької якості

Співробітники AMT постійно оцінювали низькоякісний штучний текст на основі GPT нарівні з високоякісним зв’язним текстом, написаним людьми, на відміну від учителів англійської мови, які легко могли розрізнити різницю в якості.

Немає часу на підготовку, нульовий контекст

Введення правильного мислення для такого абстрактного завдання, як оцінка автентичності, не є природним; Вчителям англійської мови потрібно було виконати 20 завдань, щоб відкалібрувати свою чутливість до середовища оцінювання, тоді як працівники AMT зазвичай не отримують «зорієнтаційного часу», що знижує якість їх вхідних даних.

Ігрова система

У звіті стверджується, що загальний час, який працівники AMT витрачають на окремі завдання, збільшується працівниками, які приймають кілька завдань одночасно та переглядають завдання в різних вкладках своїх браузерів, замість того, щоб зосереджуватися на одному завданні протягом зафіксованої тривалості завдання.

Країна походження важлива

Налаштування AMT за замовчуванням не фільтрують працівників за країною походження, і звіт зазначає попередня робота вказуючи на те, що працівники AMT використовують VPN, щоб обійти географічні обмеження, дозволяючи особам, які не є рідними, представляти себе як носіїв англійської мови (у системі, яка, можливо, досить наївно, прирівнює рідну мову працівника до їхнього географічного розташування на основі IP).

Таким чином, дослідники повторно провели оцінювальні тести на AMT з фільтрами, які обмежують потенційних користувачів НЕ-Англомовні країни, знаходячи це «працівники з неангломовних країн оцінили зв’язність, релевантність і граматику…значно нижче, ніж працівники з однаковою кваліфікацією з англомовних країн».

У звіті робиться висновок:

«По можливості слід використовувати [експертів] оцінювачів, таких як лінгвісти чи вчителі мов, оскільки вони вже навчені оцінювати письмовий текст, і це не набагато дорожче…».

 

Опубліковано 16 вересня 2021 р - Оновлено 18 грудня 2021 р.: додано теги