Vernetzen Sie sich mit uns

KĂĽnstliche Intelligenz

Die Mängel von Amazon Mechanical Turk können Systeme zur Erzeugung natürlicher Sprache gefährden

mm

Eine neue Studie der University of Massachusetts Amherst hat Englischlehrer gegen Crowdsourcing-Mitarbeiter antreten lassen Amazon Mechanischer Türke bei der Bewertung der Ergebnisse der Erzeugung natürlicher Sprache (NLG)-Systeme und kam zu dem Schluss, dass laxe Standards und das „Spielen“ um wertvolle Aufgaben unter AMT-Arbeitern die Entwicklung des Sektors behindern könnten.

Der Bericht kommt zu einer Reihe vernichtender Schlussfolgerungen hinsichtlich des Ausmaßes, in dem das kostengünstige Outsourcing von NLG-Evaluierungsaufgaben mit offenem Ende im „großen Maßstab“ zu minderwertigen Ergebnissen und Algorithmen in diesem Sektor führen könnte.

Die Forscher stellten außerdem eine Liste mit 45 Artikeln zur offenen Textgenerierung zusammen, bei denen AMT zum Einsatz kam. Dabei stellten sie fest, dass „die überwiegende Mehrheit“ wichtige Details zur Nutzung des Crowd-Dienstes von Amazon nicht angab, was es schwierig machte, die Ergebnisse der Artikel zu reproduzieren.

Ausbeutungsarbeit

Der Bericht kritisiert sowohl den Sweat-Shop-Charakter von Amazon Mechanical Turk als auch die (wahrscheinlich budgetbeschränkten) akademischen Projekte, die AMT zusätzliche Glaubwürdigkeit verleihen, indem sie es als gültige und konsistente Forschungsressource nutzen (und zitieren). Die Autoren bemerken:

„Obwohl AMT eine bequeme und kostengünstige Lösung ist, stellen wir fest, dass große Unterschiede zwischen den Arbeitern, eine schlechte Kalibrierung und kognitiv anspruchsvolle Aufgaben dazu führen können, dass Forscher irreführende wissenschaftliche Schlussfolgerungen ziehen (z. B. dass von Menschen geschriebener Text „schlechter“ ist als der von GPT-2).“

Der Bericht gibt dem Spiel und nicht den Spielern die Schuld. Die Forscher stellen fest:

„[Crowd-]Worker werden für ihre Arbeit häufig unterbezahlt, was sowohl der Qualität der Forschung schadet als auch, was noch wichtiger ist, der Fähigkeit dieser Crowd-Worker, ihren Lebensunterhalt zu verdienen.“

Die Krepppapier, Betitelt Die Gefahren der Verwendung von Mechanical Turk zur Bewertung der offenen Textgenerierung, kommt außerdem zu dem Schluss, dass „Expertenbewerter“ wie Sprachlehrer und Linguisten zur Bewertung offener künstlicher NLG-Inhalte herangezogen werden sollten, auch wenn AMT billiger ist.

Testaufgaben

Beim Vergleich der Leistung von AMT mit der von weniger zeitbeschränkten, erfahrenen Lesern gaben die Forscher 144 US-Dollar für die AMT-Dienste aus, die in den Vergleichstests tatsächlich verwendet wurden (obwohl viel mehr für „nicht verwertbare“ Ergebnisse ausgegeben wurde – siehe unten). Dabei wurden zufällig ausgewählte „Türken“ aufgefordert, einen von 200 Texten zu bewerten, die zwischen von Menschen erstellten Textinhalten und künstlich generierten Texten aufgeteilt waren.

Die Beauftragung professioneller Lehrer mit der gleichen Arbeit kostete 187.50 US-Dollar, und die Bestätigung ihrer überlegenen Leistung (im Vergleich zu AMT-Mitarbeitern) durch die Einstellung von Upwork-Freiberuflern zur Wiederholung der Aufgaben kostete zusätzlich 262.50 US-Dollar.

Jede Aufgabe bestand aus vier Bewertungskriterien: Grammatik („Wie grammatikalisch korrekt ist der Text des Erzählfragments?“); Kohärenz („Wie gut passen die Sätze im Erzählfragment zusammen?“); Sympathie („Wie unterhaltsam finden Sie das Fragment der Geschichte?“); und Relevanz („Wie relevant ist das Story-Fragment für die Aufforderung?“).

Generierung der Texte

Um NLG-Material für die Tests zu erhalten, nutzten die Forscher Facebook AI Researchs 2018 Hierarchische neuronale Story-Generierung Datensatz, das 303,358 englischsprachige Geschichten umfasst, die von Benutzern der sehr beliebten Kategorie (mehr als 15 Millionen Benutzer) verfasst wurden. r/writingprompts Subreddit, wo die Geschichten der Abonnenten durch einzeilige „Aufforderungen“ „gesät“ werden, ähnlich wie die aktuellen Praktiken in Text-zu-Bild-Generierung – und natürlich bei der ergebnisoffenen Erzeugung natürlicher Sprache Systeme.

200 Eingabeaufforderungen aus dem Datensatz wurden zufällig ausgewählt und mithilfe der Hugging-Face-Transformatoren durch ein mittelgroßes GPT-2-Modell geleitet Bibliothek. Somit wurden zwei Ergebnissätze aus denselben Eingabeaufforderungen erhalten: die von Menschen geschriebenen diskursiven Aufsätze von Reddit-Benutzern und GPT-2-generierte Texte.

Um zu verhindern, dass dieselben AMT-Mitarbeiter dieselbe Geschichte mehrfach beurteilen, wurden pro Beispiel drei AMT-Mitarbeiter um ihre Einschätzung gebeten. Zusammen mit Experimenten zu den Englischkenntnissen der Mitarbeiter (siehe Ende des Artikels) und der Berücksichtigung der Ergebnisse von Mitarbeitern mit geringem Arbeitsaufwand (siehe „Kurzzeit“ weiter unten) erhöhte sich der Gesamtaufwand für AMT dadurch auf rund 1,500 US-Dollar.

Um gleiche Wettbewerbsbedingungen zu schaffen, wurden alle Tests wochentags zwischen 11.00:11 und 30:XNUMX Uhr PST durchgefĂĽhrt.

Ergebnisse und Schlussfolgerungen

Die umfangreiche Studie deckt viele Bereiche ab, die wichtigsten Punkte sind jedoch folgende:

Kurze Zeit-

Die Studie kam zu dem Ergebnis, dass eine von Amazon offiziell gemeldete durchschnittliche Aufgabenzeit von 360 Sekunden auf eine reale Arbeitszeit von nur 22 Sekunden und eine mittlere Arbeitszeit von nur 13 Sekunden – ein Viertel der Zeit, die von der schnellsten Englischlehrer wiederholt die Aufgabe.

Ab Tag 2 der Studie: Die einzelnen Arbeiter (in Orange) verbrachten deutlich weniger Zeit mit der Bewertung jeder Aufgabe als die besser bezahlten Lehrer und (später) die noch besser bezahlten Upwork-Auftragnehmer. Quelle: https://arxiv.org/pdf/2109.06835.pdf

Ab Tag 2 der Studie: Die einzelnen Arbeiter (in Orange) verbrachten deutlich weniger Zeit mit der Bewertung jeder Aufgabe als die besser bezahlten Lehrer und (später) die noch besser bezahlten Upwork-Auftragnehmer. Quelle: https://arxiv.org/pdf/2109.06835.pdf

Da AMT keine Begrenzung für die Anzahl der Human Intelligence Tasks (HITs) vorsieht, die ein einzelner Mitarbeiter übernehmen kann, haben sich AMT-„Großmeister“ herausgebildet, die (profitabel) dafür bekannt sind, eine hohe Anzahl an Aufgaben pro Experiment zu erledigen. Um akzeptierte Treffer desselben Mitarbeiters zu kompensieren, maßen die Forscher die Zeit zwischen aufeinanderfolgenden HITs und verglichen die Start- und Endzeit jedes HITs. Auf diese Weise wurde die Lücke zwischen den von AMT gemeldeten WorkTimeInSeconds und die tatsächlich für die Aufgabe aufgewendete Zeit rückte in den Fokus.

Da solche Arbeiten in diesem verkürzten Zeitrahmen nicht durchgeführt werden können, mussten die Forscher dies kompensieren:

„Da es unmöglich ist, eine Geschichte mit mehreren Absätzen sorgfältig zu lesen und alle vier Eigenschaften in nur 13 Sekunden zu bewerten, messen wir die Auswirkungen auf die Durchschnittsbewertungen, wenn wir Mitarbeiter herausfiltern, die zu wenig Zeit pro HIT aufwenden … Konkret entfernen wir Urteile von Mitarbeitern, deren mittlere Zeit unter 40 Sekunden liegt (was eine niedrige Messlatte ist), und stellen fest, dass im Durchschnitt etwa 42 % unserer Bewertungen herausgefiltert werden (zwischen 20 % und 72 % bei allen Experimenten).“

In dem Dokument wird behauptet, dass die falsch angegebene tatsächliche Arbeitszeit bei AMT „ein großes Problem“ sei, das von den Forschern, die die Dienste nutzen, normalerweise übersehen werde.

Händchenhalten erforderlich

Die Ergebnisse deuten außerdem darauf hin, dass AMT-Mitarbeiter nicht zuverlässig zwischen von Menschen und von Maschinen geschriebenem Text unterscheiden können, es sei denn, sie sehen beide Texte nebeneinander, was ein typisches Bewertungsszenario (bei dem der Leser in der Lage sein sollte, sich ein Urteil auf der Grundlage einer einzigen Textprobe zu bilden, sei sie „echt“ oder künstlich generiert) effektiv beeinträchtigen würde.

Lässige Akzeptanz von minderwertigem künstlichem Text

AMT-Mitarbeiter bewerteten künstlichen Text auf GPT-Basis von geringer Qualität durchweg auf Augenhöhe mit kohärentem, von Menschen geschriebenem Text höherer Qualität, im Gegensatz zu den Englischlehrern, die den Qualitätsunterschied leicht erkennen konnten.

Keine Vorbereitungszeit, kein Kontext

Es ist nicht selbstverständlich, sich für eine so abstrakte Aufgabe wie die Bewertung der Authentizität in die richtige Denkweise zu versetzen. Englischlehrer mussten 20 Aufgaben bearbeiten, um ihre Sensibilität für die Bewertungsumgebung zu kalibrieren, während AMT-Mitarbeiter in der Regel überhaupt keine „Orientierungszeit“ erhalten, was die Qualität ihrer Beiträge mindert.

Das System spielen

In dem Bericht wird behauptet, dass die Gesamtzeit, die AMT-Mitarbeiter mit einzelnen Aufgaben verbringen, durch Arbeiter erhöht wird, die mehrere Aufgaben gleichzeitig annehmen und die Aufgaben in verschiedenen Registerkarten ihres Browsers durchgehen, anstatt sich während der aufgezeichneten Aufgabendauer auf eine Aufgabe zu konzentrieren.

Das Herkunftsland ist wichtig

Die Standardeinstellungen von AMT filtern Arbeitnehmer nicht nach Herkunftsland, und der Bericht stellt fest vorherige Arbeit Dies deutet darauf hin, dass AMT-Mitarbeiter VPNs verwenden, um geografische Beschränkungen zu umgehen, sodass Nicht-Muttersprachler sich als englische Muttersprachler ausgeben können (in einem System, das, vielleicht etwas naiv, die Muttersprache eines Mitarbeiters mit seinem IP-basierten geografischen Standort gleichsetzt).

Daher führten die Forscher die Evaluierungstests für AMT mit Filtern erneut durch, die potenzielle Interessenten einschränkten liefert nicht-Englischsprachige Länder, das finde ich „Arbeitnehmer aus nicht englischsprachigen Ländern bewerteten Kohärenz, Relevanz und Grammatik … deutlich niedriger als gleich qualifizierte Arbeitnehmer aus englischsprachigen Ländern.“.

Der Bericht kommt zu dem Schluss:

„Wenn möglich, sollten [fachkundige] Bewerter wie Linguisten oder Sprachlehrer eingesetzt werden, da diese bereits in der Bewertung schriftlicher Texte geschult sind und dies nicht viel teurer ist …“.

 

Veröffentlicht am 16. September 2021 - Aktualisiert am 18. Dezember 2021: Tags hinzugefügt

Autor zum Thema maschinelles Lernen, Fachspezialist fĂĽr die Synthese menschlicher Bilder. Ehemaliger Leiter fĂĽr Forschungsinhalte bei Metaphysic.ai.
Persönliche Seite: martinanderson.ai
Kontakt: [E-Mail geschĂĽtzt]
Twitter: @manders_ai