Umělá inteligence

Vytvoření umělých mechanických Turků s předtrénovanými jazykovými modely

Published December 30, 2021

Updated April 5, 2026

Martin Anderson

Velká část vývoje systémů strojového učení závisí na označování dat, kde musí být zodpovězeny stovky, někdy i tisíce otázek (jako Je toto obrázek kočky? a Je tento text urážlivý?), aby se vytvořily autoritativní sady dat, na kterých budou systémy umělé inteligence trénovány.

Ačkoli my všichni přispíváme k tomuto procesu někdy, většina těchto úkolů označování je prováděna za peníze lidskými pracovníky v rámci rámců, jako je Amazon Mechanical Turk, kde anotátoři dokončují malé úkoly klasifikace v ekonomice dílčích prací.

Vývoj modelů by byl levnější, kdyby předtrénované jazykové modely (PLM) mohly samy o sobě provádět některé z jednodušších úkolů lidské inteligence (HIT), které jsou目前 crowdsourcovány na AMT a podobných platformách.

Nový výzkum z Německa a Huawei navrhuje toto, v článku LMTurk: Few-Shot Learners as Crowdsourcing Workers.

Jazykové modely provádějící few-shot learning

Autoři navrhují, že jednodušší úkoly, které jsou obvykle zaměřeny na (lidské) Turky, jsou analogické k few-shot learning, kde automatizovaný rámec musí rozhodnout o mini-úkolu na základě malé části příkladů, které mu byly dány.

Navrhují proto, že systémy umělé inteligence mohou účinně učit z existujících PLM, které byly původně trénovány crowworkers – že základní znalosti předané z lidí do strojů byly již účinně provedeny, a že tam, kde tyto znalosti jsou relativně neměnné nebo empirické, automatizované jazykové modely mohou potenciálně provádět tyto úkoly samy o sobě.

‘Naše základní myšlenka je, že pro úkol NLP T, zacházíme s few-shot learnerami jako s neexpertními pracovníky, podobnými crowworkers, kteří anotují zdroje pro lidskou jazykovou technologii. Jsme inspirováni tím, že můžeme crowworkera považovat za typ few-shot learnera.’

Implikace zahrnují možnost, že mnoho z ground truth, na kterých budou záviset systémy umělé inteligence budoucnosti, bude odvozeno od lidí již beberapa let dříve, a poté bude považováno za předem ověřené a využitelné informace, které již nevyžadují lidskou intervenci.

Práce pro mid-range, semi-performantní jazykové modely

Kromě motivace snížit náklady na lidi v smyčce, autoři navrhují, že použití ‘mid-range’ PLM jako skutečných Mechanical Turků poskytuje užitečnou práci pro tyto ‘also ran’ systémy, které jsou stále více zastíněny hlavními, hyperscale a nákladnými jazykovými modely, jako je GPT-3, které jsou příliš drahé a nadměrně dimenzované pro takové úkoly.

‘Naším cílem v tomto článku je navrhnout metody, které využijí současné few-shot learnerů více účinně. To je důležité, protože je trénováno stále více gigantických few-shot learnerů; jak je účinně využít, je tedy důležitou otázkou. Konkrétně chceme alternativu k obtížně nasaditelným velkým modelům. ‘

‘Současně chceme využít plné silné stránky PLM: Jejich všestrannost zajišťuje širokou aplikovatelnost napříč úkoly; jejich obrovský sklad znalostí o jazyce a světě (naučený v předtrénování) se projevuje v datové efektivitě few-shot learnerů, snižuje pracovní a časovou spotřebu při anotaci dat.’

Do dneška autoři argumentují, že few-shot learneri v NLP byli považováni za odstranitelné mezistupně na cestě k vysokourovňovým systémům přirozeného jazyka, které jsou mnohem více náročné na zdroje, a že taková práce byla provedena abstraktně a bez ohledu na možnou užitečnost těchto systémů.

Metoda

Autoři nabízejí LMTurk (Language Model jako mechanický Turk), v pracovním postupu, kde vstup z tohoto automatizovaného HIT poskytuje štítky pro mid-level NLP model.

Základní konceptový model pro LMTurk. Source: https://arxiv.org/pdf/2112.07522.pdf

Tato první iterace se spoléhá na few-shot lidsky označená ‘zlatá’ data, kde masivní Turci označili štítky pro omezený počet úkolů, a štítky byly dobře ohodnoceny, buď prostřednictvím přímého lidského dohledu nebo prostřednictvím konsensuálního hlasování. Implikace pro tuto schéma je, že odbočky nebo vývoj z tohoto lidsky založeného výchozího bodu možná nebudou potřebovat další lidský vstup na cestě.
Ačkoli autoři navrhují další experimenty s pozdějšími hybridními modely (kde by byl lidský vstup přítomen, ale výrazně snížen), pro účely svého výzkumu neporovnali LMTurk modely s ekvivalentními výsledky z lidsky generovaných HIT pracovníků, s ohledem na to, že zlatě označená data jsou sama o sobě ‘lidský vstup’.
PLM navržen pro provádění Turk operací byl přizpůsoben pro úkol pomocí P-Tuning, metody publikované výzkumníky z Číny v roce 2021, která navrhla trénovatelné kontinuální prompt embeddings pro zlepšení výkonu GPT-3-style modelů na úkolech přirozeného jazykového porozumění (NLU).

P-Tuning se snaží prohloubit předpovědní sílu GPT-style modelu a jeho zdání konceptuálního porozumění jazyka, tím, že začleňuje vložené pseudo-prompty. V tomto případě je startovací dotaz ‘Hlavní město Británie je [x]’. Source: https://arxiv.org/pdf/2103.10385.pdf

Data a architektura

LMTurk byl vyhodnocen na pěti datech: dvě ze Stanford Sentiment Treebank; AG’s News Corpus; Recognizing Textual Entailment (RTE); a Corpus of Linguistic Acceptability (CoLA).

Pro svůj větší model LMTurk používá veřejně dostupný PLM ALBERT-XXLarge-v2 (AXLV2) jako zdroj modelu pro konverzi na automatizovaného Turka. Model má 223 milionů parametrů (oproti 175 miliardám parametrů v GPT-3). AXLV2, autoři pozorují, prokázal svou schopnost překonat vyšší škálovatelné modely, jako je 334M BERT-Large.

Pro více agilní, lehčí a nasaditelný model na okrajích, projekt používá TinyBERT-General-4L-312D (TBG), který má 14,5 milionu parametrů s výkonem srovnatelným s BERT-base (který má 110 milionů parametrů).

Trénování s prompty proběhlo na PyTorch a HuggingFace pro AXLV2 přes 100 batch kroků při velikosti batche 13, při学习 rychlosti 5e-4, s lineárním poklesem. Každý experiment byl zahájen se třemi různými náhodnými semeny.

Výsledky

Projekt LMTurk běží různé modely proti mnoha konkrétním sub-sektorům NLP, takže komplexní výsledky experimentů výzkumníků nejsou snadno redukovatelné na empirické důkazy, že LMTurk nabízí sám o sobě životaschopný přístup k opětovnému použití historických, lidsky pocházejících HIT-style few shot learning scénářů.

Nicméně, pro účely vyhodnocení, autoři porovnávají svou metodu se dvěma předchozími pracemi: Exploiting Cloze Questions for Few Shot Text Classification and Natural Language Inference německými výzkumníky Timo Schickem a Hinrichem Schützem; a výsledky z Prompt-Based Auto, uvedené v Making Pre-trained Language Models Better Few-shot Learners Gao, Chen a Fisch (resp. z Princetonu a MIT).

Výsledky z experimentů LMTurk, s výzkumníky, kteří hlásí ‘srovnatelný’ výkon.

Stručně řečeno, LMTurk nabízí relativně slibnou linii dotazů pro výzkumníky, kteří hledají zabudovat a zvěčnit zlatě označená lidsky pocházející data do vyvíjejících se, mid-komplexních jazykových modelů, kde automatizované systémy nahrazují lidský vstup.

Jak je tomu u relativně malé části předchozích prací v tomto oboru, centrální koncept závisí na neměnnosti původních lidských dat a předpokladu, že temporální faktory – které mohou představovat významné překážky pro vývoj NLP – nebudou vyžadovat další lidskou intervenci, jak se bude vyvíjet strojově-only linie.

Původně publikováno 30. prosince 2022

Martin Anderson

Spisovatel o strojovém učení, doménový specialista na syntézu lidského obrazu. Bývalý vedoucí výzkumného obsahu ve společnosti Metaphysic.ai.
Osobní stránky: martinanderson.ai