Künstliche Intelligenz

Erstellung künstlicher mechanischer Türken mit vorgefertigten Sprachmodellen

Published December 30, 2021

Updated April 5, 2026

Martin Anderson

Ein großer Teil der Entwicklung von Machine-Learning-Systemen hängt von der Kennzeichnung von Daten ab, wobei Hunderte, sogar Tausende von Fragen (wie Ist dies ein Bild einer Katze? und Ist dieser Text anstößig?) geklärt werden müssen, um autoritative Datensätze zu entwickeln, auf denen KI-Systeme trainiert werden.

Obwohl wir alle irgendwann zu diesem Prozess beitragen, werden die meisten dieser Kennzeichnungsaufgaben gegen Bezahlung von menschlichen Arbeitern in Frameworks wie Amazon Mechanical Turk durchgeführt, wo Annotatoren kleine Klassifizierungsaufgaben in einer Stückarbeit-Wirtschaft erledigen.

Die Modellentwicklung wäre günstiger, wenn vorgefertigte Sprachmodelle (PLMs) einige der grundlegenderen Human-Intelligence-Tasks (HITs) übernehmen könnten, die derzeit bei AMT und ähnlichen Plattformen crowdsourct werden.

Eine aktuelle Forschung aus Deutschland und Huawei schlägt dies in dem Paper LMTurk: Few-Shot-Learner als Crowdsourcing-Arbeiter vor.

Sprachmodelle mit Few-Shot-Learning

Die Autoren suggerieren, dass die einfacheren Aufgaben, die normalerweise an (menschliche) Turk-Arbeiter gerichtet sind, analog zu Few-Shot-Learning sind, bei dem ein automatisiertes Framework eine Mini-Aufgabe auf der Grundlage einer kleinen Anzahl von Beispielen entscheiden muss, die es erhalten hat.

Sie schlagen daher vor, dass KI-Systeme effektiv von bestehenden PLMs lernen können, die ursprünglich von Crowdworkern trainiert wurden – dass das Kernwissen, das von Menschen auf Maschinen übertragen wurde, bereits erfolgreich vermittelt wurde, und dass automatisierte Sprachmodell-Frameworks diese Aufgaben potenziell selbst erledigen können, wenn dieses Wissen relativ unveränderlich oder empirisch ist.

‘Unsere grundlegende Idee ist, dass wir für eine NLP-Aufgabe T Few-Shot-Learner als nicht-experte Arbeiter betrachten, die Annotatoren für die menschliche Sprachtechnologie ähneln. Wir sind inspiriert von der Tatsache, dass wir einen Crowdsourcing-Arbeiter als eine Art Few-Shot-Learner betrachten können.’

Die Implikationen umfassen die Möglichkeit, dass viele der Grundwahrheiten, auf denen zukünftige KI-Systeme basieren, bereits von Menschen vor einigen Jahren abgeleitet wurden und danach als vorvalidierte und ausnutzbare Informationen behandelt werden, die keine menschliche Intervention mehr erfordern.

Arbeitsplätze für mittlere, semi-performante Sprachmodelle

Neben der Motivation, die Kosten für menschliche Arbeit zu reduzieren, schlagen die Forscher vor, mittlere PLMs als wirklich mechanische Türken zu verwenden, um nützliche Arbeit für diese “auch ran”-Systeme zu bieten, die zunehmend von Schlagzeilen machenden, hyperskaligen und teuren Sprachmodellen wie GPT-3 überschattet werden, die für solche Aufgaben zu teuer und überdimensioniert sind.

‘Unser Ziel in diesem Paper ist es, Methoden zu entwickeln, die die aktuellen Few-Shot-Learner effektiver nutzen. Dies ist wichtig, weil eine zunehmende Anzahl von gigantischen Few-Shot-Learnern trainiert wird; wie man sie effektiv nutzt, ist also eine wichtige Frage. Insbesondere möchten wir eine Alternative zu schwer zu deployenden großen Modellen haben.’

‘Gleichzeitig möchten wir die Stärken der PLMs voll ausnutzen: Ihre Vielseitigkeit stellt eine breite Anwendbarkeit über Aufgaben hinweg sicher; ihr umfassendes Wissen über Sprache und die Welt (das während der Vorbereitung erlernt wurde) zeigt sich in der DatenEffizienz von Few-Shot-Learnern, die den Zeitaufwand und die Arbeitskosten bei der Datenannotation reduziert.’

Bisher wurden Few-Shot-Learner in der NLP als verbrauchbare Zwischenstufen auf dem Weg zu hochentwickelten natürlichen Sprachsystemen behandelt, die viel ressourcenintensiver sind, und diese Arbeit wurde abstrakt und ohne Berücksichtigung der möglichen Nützlichkeit dieser Systeme durchgeführt.

Methode

Die Autoren bieten LMTurk (Language Model als mechanische Türke) in einem Workflow an, bei dem die Eingabe von diesem automatisierten HIT Labels für ein mittleres NLP-Modell liefert.

Ein grundlegendes Konzeptmodell für LMTurk. Quelle: https://arxiv.org/pdf/2112.07522.pdf

Diese erste Iteration basiert auf few-shot-menschlich gekennzeichneten ‘Gold’-Daten, bei denen menschliche Türken Labels für eine begrenzte Anzahl von Aufgaben annotiert haben und die Labels gut bewertet wurden, entweder durch direkte menschliche Überwachung oder durch Konsensvotum. Die Implikation für dieses Schema ist, dass Forks oder Entwicklungen von diesem menschlich begründeten Startpunkt möglicherweise keine weitere menschliche Eingabe in Zukunft benötigen.

Obwohl die Autoren weitere Experimente mit späteren Hybridmodellen vorschlagen (bei denen menschliche Eingabe vorhanden, aber stark reduziert ist), haben sie für die Zwecke ihrer Forschung LMTurk-Modelle nicht gegen äquivalente Ergebnisse von menschlich generierten HIT-Arbeitern ausgespielt, da die gold-gelabelten Daten selbst ‘menschliche Eingabe’ sind.

Das für die Durchführung von Turk-Operationen konzipierte PLM wurde für die Aufgabe durch P-Tuning angepasst, einer Methode, die von Forschern aus China im Jahr 2021 veröffentlicht wurde und trainable kontinuierliche Prompt-Embeddings zur Verbesserung der Leistung von GPT-3-ähnlichen Modellen bei Natural Language Understanding (NLU)-Aufgaben vorschlug.

P-Tuning versucht, die Vorhersagekraft eines GPT-ähnlichen Modells und dessen Erscheinungsbild des konzeptuellen Verständnisses von Sprache durch die Einbindung von eingebetteten Pseudo-Prompts zu verbessern. In diesem Fall lautet die Startanfrage ‘Die Hauptstadt von Großbritannien ist ein [x]’. Quelle: https://arxiv.org/pdf/2103.10385.pdf

Daten und Architektur

LMTurk wurde auf fünf Datensätzen evaluiert: zwei aus dem Stanford Sentiment Treebank; AG’s News Corpus; Recognizing Textual Entailment (RTE); und Corpus of Linguistic Acceptability (CoLA).

Für sein größeres Modell verwendet LMTurk das öffentlich verfügbare PLM ALBERT-XXLarge-v2 (AXLV2) als Quellmodell für die Umwandlung in eine automatisierte Türke. Das Modell verfügt über 223 Millionen Parameter (im Vergleich zu den 175 Milliarden Parametern in GPT-3). AXLV2, so bemerken die Autoren, hat sich bereits als in der Lage erwiesen, höher skalierte Modelle wie 334M BERT-Large zu übertreffen.

Für ein agileres, leichteres und edge-deployables Modell verwendet das Projekt TinyBERT-General-4L-312D (TBG), das 14,5 Millionen Parameter mit einer Leistung vergleichbar mit BERT-Base (das 110 Millionen Parameter hat) aufweist.

Prompt-aktivierte Trainings fand auf PyTorch und HuggingFace für AXLV2 über 100 Batch-Schritte bei einer Batch-Größe von 13, einer Lernrate von 5e-4 und linearem Abbau statt. Jedes Experiment wurde mit drei verschiedenen zufälligen Samen durchgeführt.

Ergebnisse

Das LMTurk-Projekt führt diverse Modelle gegen viele spezifische Subsektoren der NLP aus, so dass die komplexen Ergebnisse der Experimente der Forscher nicht leicht auf empirische Beweise reduziert werden können, dass LMTurk selbst einen gangbaren Ansatz für die Wiederverwendung historischer, menschlich erzeugter HIT-ähnlicher Few-Shot-Learning-Szenarien bietet.

Jedoch vergleichen die Autoren für Evaluierungszwecke ihre Methode mit zwei vorherigen Arbeiten: Ausbeutung von Cloze-Fragen für Few-Shot-Textklassifizierung und natürliche Sprachinferenz von deutschen Forschern Timo Schick und Hinrich Schutze; und Ergebnisse aus Prompt-Based Auto, vorgestellt in Vorbereitete Sprachmodelle als bessere Few-Shot-Learner von Gao, Chen und Fisch (jeweils von Princeton und MIT).

Ergebnisse der LMTurk-Experimente, mit denen die Forscher ‘vergleichbare’ Leistung berichten.

In Kürze bietet LMTurk eine relativ vielversprechende Forschungsrichtung für Forscher, die gold-gelabelte, menschlich erzeugte Daten in entwickelnde, mittelkomplexe Sprachmodelle einbetten und verewigen möchten, in denen automatisierte Systeme für menschliche Eingabe einstehen.

Wie bei der relativ kleinen Menge an vorheriger Arbeit in diesem Bereich hängt das zentrale Konzept von der Unveränderlichkeit der ursprünglichen menschlichen Daten ab und von der Annahme, dass zeitliche Faktoren – die erhebliche Hindernisse für die NLP-Entwicklung darstellen können – keine weitere menschliche Intervention erfordern, wenn die maschinelle Abstammungslinie evolviert.

Ursprünglich veröffentlicht am 30. Dezember 2022