Штучний інтелект

Створення штучних механічних турків за допомогою попередньо натренованих мовних моделей

Published December 30, 2021

Updated April 5, 2026

Martin Anderson

Велика частина розробки систем машинного навчання залежить від маркування даних, де сотні,甚至 тисячі питань (наприклад, Чи це зображення кота? та Чи це текст образливий?) повинні бути вирішені для розробки авторитетних наборів даних, на яких будуть тренуватися системи штучного інтелекту.

Хоча ми всі внесли свій внесок в цей процес в якийсь момент, більшість цих завдань маркування виконуються за гроші людьми на платформах, таких як Amazon Mechanical Turk, де аннотатори виконують дрібні завдання класифікації в економіці підробітків.

Розвиток моделей був би дешевшим, якщо попередньо натреновані мовні моделі (PLM) могли б самостійно виконувати деякі з більш базових завдань людської інтелекту (HIT), які зараз передаються на краудсорсингові платформи, такі як AMT та подібні платформи.

Нещодавні дослідження з Німеччини та Huawei пропонують це в статті LMTurk: Few-Shot Learners as Crowdsourcing Workers.

Мовні моделі, що виконують навчання з декількома зразками

Автори пропонують, що простіші завдання, які зазвичай призначені для (людських) турків, аналогічні навчанню з декількома зразками, де автоматизована система повинна прийняти рішення про міні-завдання на основі декількох прикладів, наданих їй.

Вони пропонують, що системи штучного інтелекту можуть ефективно навчатися з існуючих PLM, які спочатку були натреновані краудворкерами, тобто основні знання, передані від людей до машин, вже були виконані, і що там, де такі знання відносно незмінні або емпіричні якимось чином, автоматизовані мовні моделі можуть потенційно виконувати ці завдання самостійно.

‘Наша основна ідея полягає в тому, що для завдання NLP T ми розглядаємо few-shot learners як некваліфікованих працівників, схожих на працівників краудсорсингу, які анотують ресурси для людської мови. Нас надихає той факт, що ми можемо розглядати працівника краудсорсингу як тип few-shot learner.’

Вплив включає можливість того, що багато з основних істин, на яких залежать системи штучного інтелекту майбутнього, будуть отримані від людей деякий час тому, а потім будуть розглядатися як попередньо перевірені та використовувані дані, які більше не потребують людського втручання.

Робота для середніх, напівперформансних мовних моделей

Крім мотивації скоротити вартість людей у циклі, дослідники пропонують, що використання ‘середніх’ PLM як справді механічних турків забезпечує корисну роботу для цих ‘таких же’ систем, які все частіше затіняються заголовками, гіпермасштабними та дорогими мовними моделями, такими як GPT-3, які надто дорогі та переозброєні для таких завдань.

‘Наша мета в цій статті полягає в розробці методів, які дозволять більш ефективно використовувати поточні few-shot learners. Це важливо, оскільки все більше гігантських few-shot learners тренуються; як їх ефективно використовувати, є важливим питанням. Зокрема, ми хочемо альтернативу важко розгортати великі моделі. ‘

‘Водночас ми хочемо повністю використати сильні сторони PLM: їхня універсальність забезпечує широке застосування в завданнях; їхній величезний запас знань про мову та світ (навчених під час попереднього тренування) проявляється в ефективності даних few-shot learners, знижуючи витрати праці та часу на анотацію даних.’

До цього часу автори стверджують, що few-shot learners в NLP розглядалися як тимчасові проміжні етапи на шляху до високорівневих систем природної мови, які є набагато більш ресурсоємними, і що така робота проводилася абстрактно та без урахування можливої корисності цих систем.

Метод

Автори пропонують LMTurk (Мовна модель як механічний турок), у робочому процесі, де вхідні дані від цієї автоматизованої системи забезпечують мітки для середньої моделі NLP.

Базова концепція моделі LMTurk. Джерело: https://arxiv.org/pdf/2112.07522.pdf

Ця перша ітерація залежить від few-shot людських міток ‘золотих’ даних, де людські турки анотували мітки для обмеженої кількості завдань, а мітки були оцінені добре, або через прямий людський нагляд, або через консенсус-голосування. Вплив цієї схеми полягає в тому, що гілки або розробки з цього людського початкового пункту можуть не потребувати додаткового людського вводу в майбутньому.

Хоча автори пропонують подальші експерименти з пізнішими гібридними моделями (де людський ввід буде присутній, але сильно зменшений), вони не проводили, для цілей свого дослідження, порівняння моделей LMTurk з еквівалентними результатами від людських працівників, вважаючи, що золоті мітки даних самі по собі є ‘людським вводом’.

Мовна модель, призначена для виконання операцій турка, була адаптована для завдання за допомогою P-Tuning, методу, опублікованого дослідниками з Китаю в 2021 році, який пропонував тренувальні безперервні вбудовані проміжні мітки для поліпшення продуктивності моделей типу GPT-3 на завданнях природної мови (NLU).

P-Tuning намагається поглибити передбачувальну силу моделі GPT-стилю та її вигляд концептуального розуміння мови, включивши вбудовані псевдопроміжні мітки. У цьому випадку початкове запитання – ‘Столиця Британії – це [x]’. Джерело: https://arxiv.org/pdf/2103.10385.pdf

Дані та архітектура

LMTurk був оцінений на п’яти наборах даних: двох з Stanford Sentiment Treebank; AG’s News Corpus; Recognizing Textual Entailment (RTE); і Corpus of Linguistic Acceptability (CoLA).

Для своєї більшої моделі LMTurk використовує публічно доступну PLM ALBERT-XXLarge-v2 (AXLV2) як джерельну модель для перетворення в автоматизованого турка. Модель має 223 мільйони параметрів (у порівнянні з 175 мільярдами параметрів у GPT-3). AXLV2, як відзначають автори, вже довела свою здатність перевершувати моделі більш високого масштабу, такі як 334M BERT-Large.

Для більш рухливої, легкої та розгортної на краю моделі проект використовує TinyBERT-General-4L-312D (TBG), яка має 14,5 мільйонів параметрів з продуктивністю, порівнянною з BERT-base (яка має 110 мільйонів параметрів).

Тренування з проміжними мітками відбулося на PyTorch і HuggingFace для AXLV2 за 100 кроків пакетів з розміром пакету 13, з швидкістю навчання 5e-4, використовуючи лінійне зниження. Кожен експеримент походив з трьох різних випадкових насінників.

Результати

Проект LMTurk запускає різні моделі проти багатьох конкретних підсекторів NLP, тому складні результати експериментів дослідників не легко зводяться до емпіричних доказів того, що LMTurk пропонує сам по собі життєздатний підхід до повторного використання історичних, людських HIT-стилів few shot навчання сценаріїв.

Однак для оцінки автори порівнюють свій метод з двома попередніми роботами: Exploiting Cloze Questions for Few Shot Text Classification and Natural Language Inference німецькими дослідниками Timo Schick і Hinrich Schutze; і результатами з Prompt-Based Auto, представленими в Making Pre-trained Language Models Better Few-shot Learners Гао, Ченом і Фішем (відповідно з Принстона та МІТ).

Результати експериментів LMTurk, де дослідники повідомляють про ‘порівнянну’ продуктивність.

У короткому підсумку, LMTurk пропонує відносно перспективну лінію дослідження для дослідників, які шукають спосіб вбудувати та закріпити золоті людські дані в еволюційних середньо-складних мовних моделях, де автоматизовані системи замінюють людський ввід.

Як і у відносно невеликій кількості попередніх робіт у цій галузі, центральна концепція залежить від незмінності оригінальних людських даних та припущення, що тимчасові фактори – які можуть представляти значні перешкоди для розвитку NLP – не будуть вимагати подальшого людського втручання, коли лінія машин тільки буде розвиватися.

Спочатку опубліковано 30 грудня 2022 року

Martin Anderson

Писатель про машинне навчання, домен-спеціаліст у сфері синтезу зображень людини. Колишній керівник дослідницького контенту в Metaphysic.ai.
Особистий сайт: martinanderson.ai
Контакт: [email protected]