Штучний інтелект

Недоліки Amazon Mechanical Turk можуть загрожувати системам генерації природної мови

mm

Нове дослідження Університету Массачусетсу в Амгерсті протиставило англійських учителів проти працівників, які працюють через сервіс Amazon Mechanical Turk, оцінюючи результати систем генерації природної мови (NLG), і дійшло до висновку, що низькі стандарти та “ігри” з цінними завданнями серед працівників AMT можуть перешкоджати розвитку галузі.

Звіт містить ряд критичних висновків щодо того, якою мірою “промислово-масштабна” дешева аутсорсинг відкритих завдань оцінки NLG може привести до низьких результатів і алгоритмів у цій галузі.

Дослідники також склали список з 45 робіт про генерацію відкритого тексту, де дослідження використовували AMT, і виявили, що “більшість” не повідомляли критичні деталі про використання сервісу Amazon, що робило важким відтворення результатів робіт.

Потова праця

Звіт критикує як сам сервіс Amazon Mechanical Turk, так і (ймовірно, бюджетно-обмежені) академічні проекти, які надають AMT додаткову легітимність, використовуючи (і цитуючи) його як дійсний і послідовний дослідницький ресурс. Автори зазначають:

‘Хоча AMT є зручним і доступним рішенням, ми спостерігаємо, що висока варіативність між працівниками, погана калібрування і когнітивно-важкі завдання можуть привести дослідників до помилкових наукових висновків (наприклад, що текст, написаний людиною, є “гіршим”, ніж GPT-2).’

Звіт звинувачує систему, а не гравців, зазначаючи:

‘[Крауд-] працівники часто недооплачуються за свою працю, що шкодить якісності дослідження, і що більш важливо, здатності цих працівників заробляти достатній дохід.’

Робота архіву, під назвою Небезпеки використання Mechanical Turk для оцінки відкритої генерації тексту, далі стверджує, що “експертні оцінювачі”, такі як учителі мови і лінгвісти, повинні бути використані для оцінки відкритого штучного контенту NLG, навіть якщо AMT дешевше.

Тестові завдання

При порівнянні продуктивності AMT з менш обмеженими у часі експертними читачами, дослідники витратили $144 на послуги AMT, які були фактично використані в порівняльних тестах (хоча значно більше було витрачено на “не придатні” результати – див. нижче), вимагаючи від випадкових “турків” оцінити один з 200 текстів, розділених між текстами, створеними людиною, і штучно згенерованими текстами.

Виконання професійними учителями тієї ж роботи коштувало $187,50, і підтвердило їх вищу продуктивність (у порівнянні з працівниками AMT) шляхом найму фрілансерів Upwork для повторення завдань коштувало додатково $262,50.

Кожне завдання складалося з чотирьох оцінювальних критеріїв: граматика (‘Якою мірою текст історії є граматично правильним?’); сполучення (‘Якою мірою речення в фрагменті історії сполучаються?’); подобання (‘Якою мірою вам подобається фрагмент історії?’); і актуальність (‘Якою мірою фрагмент історії є актуальним для запиту?’).

Генерація текстів

Для отримання матеріалу NLG для тестів дослідники використали набір даних Facebook AI Research 2018 року Ієрархічна генерація історії набір даних, який складається з 303 358 англійських історій, створених користувачами на популярному (15 млн+ користувачів) р/WritingPrompts subreddit, де історії користувачів “посаджені” однозначними “промптами” подібним чином до сучасних практик у генерації тексту в зображення – і, звичайно, у відкритих системах генерації природної мови систем.

200 промптів з набору даних були випадково вибрані і передані через середній за розміром модель GPT-2 з використанням бібліотеки Hugging-Face Transformers бібліотеки. Таким чином були отримані два набори результатів з тих же промптів: дискурсивні есе, написані людьми з Reddit, і тексти, згенеровані GPT-2.

Для того, щоб запобігти тому, щоб одні й ті ж працівники AMT оцінювали одну й ту ж історію кілька разів, було запрошено три судження працівників AMT на кожен приклад. Разом з експериментами щодо англійських мовних можливостей працівників (див. кінець статті) і виключенням результатів з низькими зусиллями працівників (див. “Короткий час” нижче), це збільшувало загальні витрати на AMT до близько $1 500 USD.

Для створення рівних умов усі тести проводилися у будні дні між 11:00-11:30 PST.

Результати та висновки

Розгалужене дослідження охоплює багато питань, але ключові моменти такі:

Короткий час

У роботі було виявлено, що офіційно зареєстрований Amazon-середній час виконання завдання 360 секунд фактично становив 22 секунди, а медіана робочого часу становила лише 13 секунд – чверть часу, витраченого на виконання завдання найшвидшим учителем англійської мови.

З другого дня дослідження: окремі працівники (помаранчевий колір) витратили значно менше часу на оцінку кожного завдання, ніж краще оплачувані учителі, і (пізніше) ще краще оплачувані контрактори Upwork. Джерело: https://arxiv.org/pdf/2109.06835.pdf

З другого дня дослідження: окремі працівники (помаранчевий колір) витратили значно менше часу на оцінку кожного завдання, ніж краще оплачувані учителі, і (пізніше) ще краще оплачувані контрактори Upwork. Джерело: https://arxiv.org/pdf/2109.06835.pdf

Оскільки AMT не встановлює обмежень на кількість завдань Human Intelligence Tasks (HITs), які може виконати окремий працівник, з’явилися “біг-хіти” AMT, які мають (прибуткові) репутації за виконання великої кількості завдань за експеримент. Для компенсації прийнятих хітів одним і тим же працівником дослідники виміряли час між послідовно поданими HIT, порівнюючи початковий і кінцевий час кожного HIT. Таким чином, розбіжність між зареєстрованим часом виконання завдання в секундах і фактичним часом, витраченим на завдання, стала очевидною.

Оскільки така робота не може бути виконана в таких зменшених часових рамках, дослідники мали компенсувати це:

‘Оскільки неможливо ретельно прочитати параграф-довжину історії та оцінити всі чотири властивості за так мало, як 13 секунд, ми вимірюємо вплив на середні рейтинги при фільтрації працівників, які витрачають занадто мало часу на HIT…Конкретно, ми видаляємо судження працівників, чия медіана часу нижча за 40 с (що є низькою планкою), і виявляємо, що в середньому близько 42% наших рейтингів видаляються (змінюючись від 20% до 72% у всіх експериментах).’

Робота стверджує, що неправильно зареєстрований фактичний час роботи в AMT є “головною проблемою”, яку зазвичай ігнорують дослідники, які використовують ці послуги.

Необхідне поводження

Результати далі свідчать про те, що працівники AMT не можуть надійно розрізняти текст, написаний людиною, і текст, написаний машиною, якщо вони не бачать обидва тексти поряд, що фактично підірве типовий сценарій оцінки (де читач повинен бути здатний зробити висновок на основі одного зразка тексту, “реального” чи штучно згенерованого).

Незаперечне прийняття низькоякісного штучного тексту

Працівники AMT постійно оцінювали низькоякісний штучний текст на основі GPT на одному рівні з вищою якістю, сполученим текстом, написаним людьми, на відміну від учителів англійської мови, які легко могли розрізняти різницю в якості.

Немає підготовчого часу, нульовий контекст

Вхід у правильний стан для такого абстрактного завдання, як оцінка автентичності, не відбувається природно; учителям англійської мови потрібно було 20 завдань, щоб відкалібрувати свої чуття до оцінювального середовища, тоді як працівники AMT зазвичай не мали жодного “орієнтаційного часу” зовсім, знижуючи якість їхнього входу.

Ігри з системою

Звіт стверджує, що загальний час, витрачений працівниками AMT на окремі завдання, завищується працівниками, які приймають кілька завдань одночасно, і проходять завдання в різних вкладках свого браузера, замість того, щоб зосередитися на одному заданні протягом зареєстрованого часу виконання завдання.

Країна походження важлива

Звіт зауважує попередню роботу попередню роботу, яка вказує на те, що працівники AMT використовують VPN, щоб обійти географічні обмеження, дозволяючи нерідним англійським мовникам видавати себе за рідних англійських мовників (у системі, яка, можливо, досить наївно, ототожнює мову працівника з його IP-адресою).

Таким чином, дослідники повторно провели оцінювальні тести на AMT з фільтрами, які обмежували потенційних виконавців не-англомовними країнами, виявивши, що ‘працівники з неангломовних країн оцінювали сполучення, актуальність і граматику…значно нижче, ніж працівники з англомовних країн’.

Звіт висновує:

‘[Експертні] оцінювачі, такі як лінгвісти чи вчителі мови, повинні бути використані, коли це можливо, оскільки вони вже були підготовлені для оцінки написаного тексту, і це не набагато дорожче…’

 

Опубліковано 16 вересня 2021 рокуОновлено 18 грудня 2021 року: Додані теги

Писатель про машинне навчання, домен-спеціаліст у сфері синтезу зображень людини. Колишній керівник дослідницького контенту в Metaphysic.ai.
Особистий сайт: martinanderson.ai
Контакт: [email protected]