Искусственный интеллект

Создание искусственных механических турок с помощью предварительно обученных языковых моделей

Published December 30, 2021

Updated April 5, 2026

Martin Anderson

Большая часть разработки систем машинного обучения зависит от маркировки данных, где сотни, а иногда и тысячи вопросов (например, Это картинка кошки? и Это текст оскорбительный?) должны быть решены для разработки авторитетных наборов данных, на которых будут обучаться системы ИИ.

Хотя мы все вносим свой вклад в этот процесс в какой-то момент, большинство этих задач маркировки выполняется за деньги людьми на платформах, таких как Amazon Mechanical Turk, где аннотаторы выполняют небольшие задачи классификации в экономике piece-work.

Разработка моделей была бы дешевле, если бы предварительно обученные языковые модели (PLM) могли бы сами выполнять некоторые из более простых задач человеческого интеллекта (HIT), которые в настоящее время выполняются на платформах AMT и podobных платформах.

Недавние исследования из Германии и Huawei предлагают это в статье LMTurk: Few-Shot Learners as Crowdsourcing Workers.

Языковые модели, выполняющие обучение с несколькими примерами

Авторы предлагают, что более простые задачи, обычно направленные на (человеческих) турок, аналогичны обучению с несколькими примерами, где автоматизированная система должна решить мини-задачу на основе небольшого количества примеров, данного ей.

Они поэтому предлагают, что системы ИИ могут эффективно учиться на существующих PLM, которые были первоначально обучены crowdworkers – что основные знания, переданные от людей к машинам, были фактически уже получены, и что где такие знания относительно неизменны или эмпирические, автоматизированные языковые модели могут потенциально выполнять эти задачи сами.

‘Наша основная идея заключается в том, что, для задачи NLP T, мы рассматриваем few-shot learners как неквалифицированных работников, похожих на работников crowdsourcing, которые аннотируют ресурсы для технологии человеческого языка. Мы вдохновлены тем, что мы можем рассматривать работника crowdsourcing как тип few-shot learner.’

Возможные последствия включают возможность того, что многие из истин, на которых будут основываться системы ИИ будущего, будут получены от людей много лет назад, и затем будут рассматриваться как пред-валидированные и эксплуатируемые знания, которые больше не требуют человеческого вмешательства.

Работы для средних, полу-перформантных языковых моделей

Помимо мотивации сократить стоимость людей в цикле, исследователи предлагают, что использование ‘средних’ PLM в качестве настоящих механических турок предоставляет полезную работу для этих ‘also ran’ систем, которые все больше затеняются заголовками, гипермасштабными и дорогими языковыми моделями, такими как GPT-3, которые слишком дорогие и переоценены для таких задач.

‘Наша цель в этой статье – разработать методы, которые делают более эффективное использование текущих few-shot learners. Это крайне важно, поскольку все больше и больше гигантских few-shot learners обучается; как использовать их эффективно является важным вопросом. В частности, мы хотим альтернативу трудно-развертываемым огромным моделям. ‘

‘В то же время, мы хотим полностью использовать сильные стороны PLM: их универсальность обеспечивает широкую применимость в задачах; их огромный запас знаний о языке и мире (полученных в предварительном обучении) проявляется в эффективности данных few-shot learners, снижая труд и время, затраченные на аннотацию данных.’

До сих пор авторы утверждают, что few-shot learners в NLP были рассмотрены как одноразовые промежуточные этапы на пути к высокоуровневым системам естественного языка, которые намного более ресурсоемкие, и что такая работа была проведена абстрактно и без учета возможной полезности этих систем.

Метод

Авторы предлагают LMTurk (Language Model as mechanical Turk), в рабочем процессе, где входные данные из этой автоматизированной HIT предоставляют метки для средней модели NLP.

Базовая концептуальная модель для LMTurk. Source: https://arxiv.org/pdf/2112.07522.pdf

Эта первая итерация полагается на few-shot human-labeled ‘gold’ данные, где meatware Turks аннотировали метки для ограниченного числа задач, и метки были хорошо оценены, либо через прямое человеческое наблюдение, либо через консенсусное голосование. Возможное последствие для этой схемы заключается в том, что ветви или разработки из этого человеческого стартового пункта могут не требовать дополнительного человеческого ввода в будущем.

Хотя авторы предлагают дальнейшие эксперименты с более поздними гибридными моделями (где человеческий ввод будет присутствовать, но сильно уменьшен), они не поставили LMTurk модели против эквивалентных результатов от человеческих генерируемых HIT-работников, учитывая, что gold-labeled данные сами по себе являются ‘человеческим вводом’.

PLM, предназначенный для выполнения операций Турка, был адаптирован для задачи с помощью P-Tuning, метода, опубликованного исследователями из Китая в 2021 году, который предложил обучаемые непрерывные prompt embeddings для улучшения производительности моделей GPT-3 на задачах понимания естественного языка (NLU).

P-Tuning пытается углубить предсказательную силу модели GPT, и ее видимость понимания языка, включая встроенные псевдопромпты. В этом случае стартовый запрос – ‘Столица Британии – это [x]’. Source: https://arxiv.org/pdf/2103.10385.pdf

Данные и архитектура

LMTurk был оценен на пяти наборах данных: двух из Stanford Sentiment Treebank; AG’s News Corpus; Recognizing Textual Entailment (RTE); и Corpus of Linguistic Acceptability (CoLA).

Для своей более крупной модели LMTurk использует публично доступные PLM ALBERT-XXLarge-v2 (AXLV2) в качестве исходной модели для преобразования в автоматизированного Турка. Модель имеет 223 миллиона параметров (по сравнению с 175 миллиардами параметров в GPT-3). AXLV2, по мнению авторов, доказал свою способность превосходить более крупномасштабные модели, такие как 334M BERT-Large.

Для более гибкой, легкой и развертываемой модели проект использует TinyBERT-General-4L-312D (TBG), которая имеет 14,5 миллионов параметров с производительностью, сравнимой с BERT-base (которая имеет 110 миллионов параметров).

Обучение с помощью промптов проходило на PyTorch и HuggingFace для AXLV2 в течение 100 шагов пакета с размером пакета 13, на скорости обучения 5e-4, используя линейное затухание. Каждый эксперимент был начат с трех разных случайных семян.

Результаты

Проект LMTurk запускает разные модели против многих конкретных под-секторов NLP, поэтому сложные результаты экспериментов исследователей не легко свести к эмпирическим данным, которые LMTurk предлагает в себе жизнеспособный подход к повторному использованию исторических, человеческих HIT-стиля few shot обучения сценариев.

Однако для оценки авторы сравнивают свой метод с двумя предыдущими работами: Exploiting Cloze Questions for Few Shot Text Classification and Natural Language Inference немецкими исследователями Timo Schick и Hinrich Schutze; и результатами из Prompt-Based Auto, представленными в Making Pre-trained Language Models Better Few-shot Learners Gao, Chen и Fisch (соответственно из Princeton и MIT).

Результаты экспериментов LMTurk, с исследователями, сообщающими о ‘сравнимой’ производительности.

Вкратце, LMTurk предлагает относительно перспективную линию исследования для исследователей, ищущих встроить и увековечить gold-labeled человеческие данные в эволюционирующие, средней сложности языковые модели, где автоматизированные системы заменяют человеческий ввод.

Как и в случае с относительно небольшим количеством предыдущих работ в этой области, центральная концепция основана на неизменности исходных человеческих данных и предположении, что временные факторы – которые могут представлять значительные препятствия для разработки NLP – не потребуют дополнительного человеческого вмешательства, поскольку линия машины будет развиваться.

Оригинал опубликован 30 декабря 2022 года