Sztuczna inteligencja

Tworzenie Sztucznych Mechanicznych Turków Z Użyciem Wstępnie Wytrenowanych Modeli Językowych

Published December 30, 2021

Updated April 5, 2026

Martin Anderson

Duża część rozwoju systemów machine learning opiera się na oznaczaniu danych, gdzie setki, a nawet tysiące pytań (takich jak Czy to zdjęcie kotka? i Czy ten tekst jest obraźliwy?) muszą zostać rozstrzygnięte w celu opracowania autorytatywnych zbiorów danych, na których będą szkolone systemy AI.

Chociaż wszyscy przyczyniamy się do tego procesu w pewnym momencie, większość tych zadań oznaczania jest wykonywana za pieniądze przez ludzkich pracowników w ramach platform takich jak Amazon Mechanical Turk, gdzie anotatorzy wykonują mniejsze zadania klasyfikacji w gospodarce opartej na pracy.

Rozwój modeli byłby tańszy, gdyby wstępnie wytrenowane modele językowe (PLM) mogły same wykonywać niektóre z bardziej podstawowych Zadań Inteligencji Ludzkiej (HIT) obecnie crowdsourcowanych na AMT i podobnych platformach.

Najnowsze badania z Niemiec i Huawei proponują to w artykule LMTurk: Few-Shot Learners as Crowdsourcing Workers.

Modele językowe wykonujące few-shot learning

Autorzy sugerują, że prostsze warstwy zadań zwykle skierowane do (ludzkich) Turków są analogiczne do few-shot learning, gdzie automatyczna ramka musi podjąć decyzję o mini-zadaniu na podstawie niewielkiej liczby przykładów podanych jej.

Stąd proponują, że systemy AI mogą uczyć się skutecznie z istniejących PLM, które zostały pierwotnie wytrenowane przez crowdworkerów – że podstawowa wiedza przekazana od ludzi do maszyn została już skutecznie przekazana, i że tam, gdzie taka wiedza jest względnie niezmienna lub empiryczna w pewien sposób, automatyczne ramy modeli językowych mogą potencjalnie wykonywać te zadania same.

‘Nasza podstawowa idea jest taka, że dla zadania NLP T, traktujemy few-shot learners jako nieekspertowych pracowników, przypominających pracowników crowdsourcingowych, którzy anotują zasoby dla technologii języka ludzkiego. Jesteśmy zainspirowani faktem, że możemy traktować pracownika crowdsourcingowego jako rodzaj few-shot learnera.’

Wnioski obejmują możliwość, że wiele prawd, na których opierają się systemy AI przyszłości, zostało pochodzących od ludzi wiele lat wcześniej, a następnie traktowanych jako pre-walidowane i wykorzystywane informacje, które nie wymagają już interwencji ludzkiej.

Praca dla modeli językowych o średniej wydajności

Poza motywacją do obniżenia kosztów ludzkich w pętli, badacze sugerują, że używanie “średnich” PLM jako prawdziwych Mechanical Turków zapewnia przydatną pracę dla tych “również biegłych” systemów, które są coraz bardziej przyćmione przez nagłówki, hiperskale i kosztowne modele językowe, takie jak GPT-3, które są zbyt drogie i przeszacowane dla takich zadań.

‘Naszym celem w tym artykule jest opracowanie metod, które umożliwiają bardziej efektywne wykorzystanie bieżących few-shot learners. Jest to kluczowe, ponieważ coraz większa liczba ogromnych few-shot learners jest szkolona; jak je wykorzystać skutecznie jest więc ważnym pytaniem. W szczególności chcemy alternatywy dla trudnych do wdrożenia ogromnych modeli. ‘

‘Jednocześnie chcemy w pełni wykorzystać zalety PLM: Ich wszechstronność zapewnia szeroką stosowalność w zadaniach; ich ogromny zasób wiedzy o języku i świecie (naucony w pre-trenowaniu) objawia się w efektywności danych few-shot learners, redukując zużycie pracy i czasu w anotowaniu danych.’

Do tej pory autorzy argumentują, że few-shot learners w NLP były traktowane jako nieistotne etapy pośrednie na drodze do wysokiego poziomu systemów języka naturalnego, które są o wiele bardziej wymagające zasobów, i że taka praca była prowadzona abstrakcyjnie i bez uwzględnienia możliwego użycia tych systemów.

Metoda

Autorzy proponują LMTurk (Model językowy jako mechaniczny Turk), w przepływie pracy, w którym dane wejściowe z tego automatycznego HIT zapewniają etykiety dla modelu NLP o średnim poziomie.

Podstawowy model koncepcyjny dla LMTurk. Źródło: https://arxiv.org/pdf/2112.07522.pdf

Ta pierwsza iteracja opiera się na few-shot danych oznaczonych przez ludzi “złota”, gdzie ludzcy Turcy oznaczyli etykiety dla ograniczonej liczby zadań, a etykiety zostały ocenione dobrze, albo za pomocą bezpośredniej nadzoru ludzkiego, albo za pomocą głosowania konsensusowego. Wnioskowanie z tego schematu jest takie, że forków lub rozwoju od tego punktu startowego może nie wymagać dodatkowego wkładu ludzkiego w przyszłości.

Chociaż autorzy sugerują dalsze eksperymenty z późniejszymi modelami hybrydowymi (gdzie wkład ludzki byłby obecny, ale znacznie zmniejszony), nie przeprowadzili, dla celów swoich badań, LMTurk modeli przeciwko równoważnym wynikom z ludzkich pracowników HIT, biorąc pod uwagę, że złote oznaczone dane są same “ludzki wkład”.

PLM zaprojektowany do wykonywania operacji Turk został dostosowany do zadania za pomocą P-Tuning, metody opublikowanej przez badaczy z Chin w 2021 roku, która zaproponowała trenowalne ciągłe wstawienia promptów, aby poprawić wydajność modeli GPT-3 w zadaniach Natural Language Understanding (NLU).

P-Tuning próbuje pogłębić predykcyjną moc modelu GPT, i jego postrzeganie konceptualnego zrozumienia języka, poprzez włączenie wbudowanych pseudo-promptów. W tym przypadku startowy zapytanie to ‘Stolica Wielkiej Brytanii to [x]’. Źródło: https://arxiv.org/pdf/2103.10385.pdf

Dane i architektura

LMTurk został oceniony na pięciu zbiorach danych: dwóch z Stanford Sentiment Treebank; AG’s News Corpus; Recognizing Textual Entailment (RTE); i Corpus of Linguistic Acceptability (CoLA).

Dla swojego większego modelu LMTurk używa publicznie dostępnego PLM ALBERT-XXLarge-v2 (AXLV2) jako modelu źródłowego do konwersji na automatyczny Turk. Model ten składa się z 223 milionów parametrów (w porównaniu z 175 miliardami parametrów w GPT-3). AXLV2, autorzy obserwują, okazał się zdolny do przewyższenia modeli o wyższej skali, takich jak 334M BERT-Large.

Dla bardziej zwinnych, lekkich i wdrożonych na krawędzi modeli, projekt używa TinyBERT-General-4L-312D (TBG), który składa się z 14,5 miliona parametrów z wydajnością porównywalną do BERT-base (który ma 110 milionów parametrów).

Szkolenie z włączonym promptem odbyło się na PyTorch i HuggingFace dla AXLV2 przez 100 kroków partii o wielkości 13, przy szybkości uczenia 5e-4, z liniowym spadkiem. Każdy eksperyment został zainicjowany z trzema różnymi losowymi nasionami.

Wyniki

Projekt LMTurk prowadzi różne modele przeciwko wielu konkretnym sektorom NLP, tak że złożone wyniki eksperymentów badaczy nie są łatwe do zredukowania do empirycznych dowodów, że LMTurk oferuje sam w sobie wiarygodne podejście do ponownego użycia historycznych, pochodzących od ludzi few shot learning scenariuszy.

Jednak do celów oceny autorzy porównują swoją metodę z dwiema poprzednimi pracami: Exploiting Cloze Questions for Few Shot Text Classification and Natural Language Inference przez niemieckich badaczy Timo Schick i Hinrich Schutze; oraz wynikami z Prompt-Based Auto, przedstawionymi w Making Pre-trained Language Models Better Few-shot Learners przez Gao, Chen i Fisch (odpowiednio z Princeton i MIT).

Wyniki z eksperymentów LMTurk, z badaczami zgłaszającymi ‘porównywalną’ wydajność.

W skrócie, LMTurk oferuje dość obiecującą linię zapytań dla badaczy, którzy szukają sposobów na wbudowanie i umocnienie złotych, pochodzących od ludzi danych w ewoluujące, średnio złożone modele językowe, gdzie automatyczne systemy zastępują wkład ludzki.

Jak w przypadku stosunkowo niewielkiej ilości poprzednich prac w tym polu, centralna koncepcja opiera się na niezmienności oryginalnych danych ludzkich i założeniu, że czynniki czasowe – które mogą stanowić znaczne przeszkody w rozwoju NLP – nie będą wymagać dalszej interwencji ludzkiej, gdy linia maszynowa ewoluuje.

Oryginalnie opublikowane 30 grudnia 2022