Künstliche Intelligenz

Die ‘Unsichtbaren’, Oft Unglücklichen Arbeitnehmer, Die Die Zukunft Von KI Bestimmen

Published December 13, 2021

Updated April 28, 2026

Martin Anderson

Zwei neue Berichte, einschließlich eines Papiers unter der Leitung von Google Research, äußern Bedenken, dass die aktuelle Tendenz, auf eine billige und oft entrechtete Gruppe von globalen Gig-Arbeitern zu setzen, um Ground Truth für Machine-Learning-Systeme zu erstellen, erhebliche Auswirkungen auf die Zukunft von KI haben könnte.

Unter einer Reihe von Schlussfolgerungen findet die Google-Studie heraus, dass die eigenen Vorurteile der Crowdworker wahrscheinlich in die KI-Systeme eingebettet werden, deren Ground Truth auf ihren Antworten basiert; dass weit verbreitete ungerechte Arbeitspraktiken (einschließlich in den USA) auf Crowdworking-Plattformen die Qualität der Antworten verschlechtern können; und dass das “Konsens”-System (effektiv eine “Mini-Wahl” für ein bestimmtes Stück Ground Truth, das die nachgelagerten KI-Systeme beeinflusst) tatsächlich die besten und/oder informiertesten Antworten “wegwerfen” kann.

Das ist die schlechte Nachricht; die noch schlechtere Nachricht ist, dass fast alle Abhilfen teuer, zeitaufwändig oder beides sind.

Unsicherheit, Zufällige Ablehnung und Groll

Der erste Bericht, von fünf Google-Forschern, trägt den Titel Wessen Ground Truth? Rechnung für individuelle und kollektive Identitäten bei der Annotation von Datensätzen; der zweite, von zwei Forschern an der Syracuse University in New York, trägt den Titel Der Ursprung und der Wert von Meinungsverschiedenheiten unter Datenanmerkern: Eine Fallstudie über individuelle Unterschiede bei der Anmerkung von Hassreden.

Der Google-Bericht bemerkt, dass Crowdworker – deren Bewertungen oft die definierende Grundlage von Machine-Learning-Systemen bilden, die unser Leben beeinflussen können – häufig unter einer Reihe von Einschränkungen operieren, die ihre Antworten auf experimentelle Aufgaben beeinflussen können.

Zum Beispiel erlauben die aktuellen Richtlinien von Amazon Mechanical Turk Anfragern (denen, die die Aufgaben erteilen), die Arbeit eines Anmerkers ohne Rechenschaftspflicht abzulehnen:

‘[E]ine große Mehrheit der Crowdworker (94%) hatten Arbeit, die abgelehnt oder für die sie nicht bezahlt wurden. Dennoch behalten Anfrager die vollen Rechte an den Daten, die sie erhalten, unabhängig davon, ob sie die Arbeit annehmen oder ablehnen; Roberts (2016) beschreibt dieses System als eines, das “Lohndiebstahl” ermöglicht.

‘Darüber hinaus ist die Ablehnung von Arbeit und die Zurückhaltung von Zahlungen schmerzhaft, da Ablehnungen oft durch unklare Anweisungen und den Mangel an sinnvollen Feedback-Kanälen verursacht werden; viele Crowdworker berichten, dass schlechte Kommunikation ihre Arbeit negativ beeinflusst.’

Die Autoren empfehlen, dass Forscher, die Outsourcing-Dienste zur Entwicklung von Datensätzen nutzen, berücksichtigen sollten, wie eine Crowdworking-Plattform ihre Arbeiter behandelt. Sie bemerken weiter, dass in den Vereinigten Staaten Crowdworker als “unabhängige Auftragnehmer” eingestuft werden, wodurch die Arbeit unreguliert ist und nicht unter dem Mindestlohngesetz des Fair Labor Standards Act fällt.

Kontext Zählt

Der Bericht kritisiert auch die Verwendung von ad hoc-globaler Arbeit für Anmerkaufgaben ohne Berücksichtigung des Hintergrunds des Anmerkers.

Wo das Budget es erlaubt, ist es üblich, dass Forscher, die AMT und ähnliche Crowdwork-Plattformen nutzen, dieselbe Aufgabe vier Anmerkern geben und nach “Mehrheitsregel” auf die Ergebnisse abstimmen.

Kontextuelle Erfahrung, so argumentiert der Bericht, wird deutlich unterbewertet. Zum Beispiel, wenn eine Aufgabenfrage im Zusammenhang mit Sexismus zufällig zwischen drei übereinstimmenden Männern im Alter von 18-57 und einer widersprechenden Frau im Alter von 29 verteilt wird, gewinnt die Meinung der Männer, es sei denn, Forscher achten auf die Qualifikationen ihrer Anmerker.

Ebenso, wenn eine Frage zu Gang-Verhalten in Chicago zwischen einer ländlichen US-Amerikanerin im Alter von 36, einem Chicago-Bewohner im Alter von 42 und zwei Anmerkern aus Bangalore und Dänemark verteilt wird, hat die Person, die wahrscheinlich am meisten von der Frage betroffen ist (der Chicago-Bewohner), nur einen Viertelanteil an der Entscheidung, in einer Standard-Outsourcing-Konfiguration.

Die Forscher stellen fest:

‘[D]ie Vorstellung von “einer Wahrheit” in Crowdsourcing-Antworten ist ein Mythos; Meinungsverschiedenheiten zwischen Anmerkern, die oft als negativ angesehen werden, können tatsächlich ein wertvolles Signal liefern. Zweitens, da viele Crowdsourcing-Anmerker-Pools soziodemografisch verzerrt sind, gibt es Auswirkungen darauf, welche Bevölkerungsgruppen in Datensätzen repräsentiert sind und welche Bevölkerungsgruppen mit den Herausforderungen von [Crowdwork] konfrontiert sind.

‘Die Berücksichtigung von Verzerrungen in der Demografie der Anmerker ist kritisch für die Kontextualisierung von Datensätzen und die Gewährleistung einer verantwortungsvollen nachgelagerten Nutzung. Kurz gesagt, es gibt einen Wert darin, die soziokulturellen Hintergründe der Arbeiter – sowohl aus der Perspektive der Datenqualität als auch der gesellschaftlichen Auswirkungen – anzuerkennen und zu berücksichtigen.’

Keine ‘Neutralen’ Meinungen zu Heißen Themen

Selbst wenn die Meinungen von vier Anmerkern nicht verzerrt sind, entweder demografisch oder durch einen anderen Meter, äußert der Google-Bericht Bedenken, dass Forscher die Lebenserfahrungen oder philosophische Einstellung der Anmerker nicht berücksichtigen:

‘Während einige Aufgaben objektive Fragen mit einer richtigen Antwort stellen (gibt es ein menschliches Gesicht in einem Bild?), zielen Datensätze oft darauf ab, Urteile über relativ subjektive Aufgaben ohne universell richtige Antwort zu erfassen (ist dieser Text anstößig?). Es ist wichtig, absichtlich zu entscheiden, ob man sich auf die subjektiven Urteile der Anmerker verlässt.’

In Bezug auf seinen spezifischen Umfang, um Probleme bei der Anmerkung von Hassreden anzugehen, bemerkt der Syracuse-Bericht, dass mehr kategorische Fragen wie Gibt es eine Katze in diesem Foto? sich deutlich von der Frage unterscheiden, ob ein Crowdworker einen Ausdruck als “giftig” bezeichnen würde:

‘Bei der Berücksichtigung der Komplexität der sozialen Realität variieren die Wahrnehmungen von Giftigkeit erheblich. Ihre Anmerkungen von giftigem Inhalt basieren auf ihren eigenen Wahrnehmungen.’

Die Syracuse-Forscher kommen zu dem Schluss, dass Persönlichkeit und Alter einen “erheblichen Einfluss” auf die dimensionale Anmerkung von Hassreden haben:

‘Diese Ergebnisse deuten darauf hin, dass Bemühungen, Anmerkungskonsistenz unter Anmerkern mit unterschiedlichem Hintergrund und unterschiedlicher Persönlichkeit für Hassreden möglicherweise nie vollständig erfolgreich sein werden.’

Der Richter Kann Auch Voreingenommen Sein

Dieser Mangel an Objektivität ist wahrscheinlich auch weiter aufwärts iterativ, so der Syracuse-Bericht, der argumentiert, dass die manuelle Intervention (oder automatisierte Richtlinie, auch von einem Menschen entschieden) die den “Gewinner” von Konsensabstimmungen bestimmt, auch einer Prüfung unterzogen werden sollte.

Der Prozess wird mit der Moderation eines Forums verglichen, und die Autoren stellen fest*:

‘[D]ie Moderatoren einer Community können das Schicksal von Beiträgen und Benutzern in ihrer Community bestimmen, indem sie Beiträge fördern oder verstecken, sowie Benutzer ehren, beschämen oder verbannen. Die Entscheidungen der Moderatoren beeinflussen den Inhalt, der an Community-Mitglieder und -Zuhörer geliefert wird und damit auch die Erfahrung der Community mit der Diskussion.’

‘Wenn man annimmt, dass ein menschlicher Moderator ein Community-Mitglied ist, das demografische Homogenität mit anderen Community-Mitgliedern aufweist, scheint es möglich, dass das mentale Schema, das sie verwenden, um Inhalt zu bewerten, mit demjenigen anderer Community-Mitglieder übereinstimmt.’

Dies gibt einen Hinweis darauf, warum die Syracuse-Forscher zu einem so despondenten Schluss über die Zukunft der Anmerkung von Hassreden gekommen sind; die Implikation ist, dass Richtlinien und Urteile über abweichende Crowdwork-Meinungen nicht einfach willkürlich nach “akzeptablen” Grundsätzen angewendet werden können, die nirgendwo verankert sind (oder nicht auf ein anwendbares Schema reduziert werden können, selbst wenn sie existieren).

Die Menschen, die die Entscheidungen treffen (die Crowdworker), sind voreingenommen, und wären für solche Aufgaben nutzlos, wenn sie nicht voreingenommen wären, da die Aufgabe darin besteht, ein Werturteil abzugeben; die Menschen, die über Streitigkeiten in Crowdwork-Ergebnissen entscheiden, treffen auch Werturteile, wenn sie Richtlinien für Streitigkeiten festlegen.

Es kann Hunderte von Richtlinien in nur einem Framework zur Erkennung von Hassreden geben, und es ist nicht klar, wo “autoritative” Konsens herkommen kann, es sei denn, man geht jedes einzelne davon bis zum Obersten Gerichtshof, um eine endgültige Entscheidung zu erhalten.

Die Google-Forscher schlagen vor, dass ‘[die] Meinungsverschiedenheiten zwischen Anmerkern wertvolle Nuancen über die Aufgabe einbetten können’. Der Bericht schlägt die Verwendung von Metadaten in Datensätzen vor, die Streitigkeiten widerspiegeln und kontextualisieren.

Es ist jedoch schwierig zu sehen, wie eine derart kontextspezifische Datenebene jemals zu vergleichbaren Metriken führen, den Anforderungen etablierter Standardtests genügen oder irgendeine definitive Ergebnisse unterstützen kann – außer in dem unrealistischen Szenario, dieselbe Gruppe von Forschern über nachfolgende Arbeiten hinweg zu verwenden.

Kuration Der Anmerker-Pool

All dies setzt voraus, dass es in einem Forschungsprojekt überhaupt ein Budget für multiple Anmerkungen gibt, die zu einer Konsensabstimmung führen. In vielen Fällen versuchen Forscher, den ausgelagerten Anmerker-Pool billiger zu “kuratieren”, indem sie Merkmale angeben, die die Arbeiter haben sollten, wie geografische Lage, Geschlecht oder andere kulturelle Faktoren, und damit Vielfalt gegen Spezifität eintauschen.

Der Google-Bericht behauptet, dass der Weg vorwärts aus diesen Herausforderungen darin bestehen könnte, erweiterte Kommunikationsframeworks mit Anmerkern zu etablieren, ähnlich wie die minimalen Kommunikationen, die die Uber-App zwischen einem Fahrer und einem Fahrgast ermöglicht.

Eine derart sorgfältige Berücksichtigung der Anmerker würde natürlich ein Hindernis für die Outsourcing von Anmerkungen im großen Maßstab darstellen, was entweder zu begrenzten und niedrigvolumigen Datensätzen führen würde, die eine bessere Begründung für ihre Ergebnisse haben, oder zu einer “überstürzten” Bewertung der Anmerker, bei der nur begrenzte Informationen über sie erhoben werden und sie als “für die Aufgabe geeignet” auf der Grundlage von zu wenig Informationen charakterisiert werden.

Das ist, wenn die Anmerker ehrlich sind.

Die ‘Menschenfreunde’ Im Outsourcing Von Datensätzen

Mit einer verfügbaren Arbeitskraft, die unterbezahlt ist, unter starkem Wettbewerb um verfügbare Aufgaben und von geringen Karriereperspektiven deprimiert, sind Anmerker motiviert, schnell die “richtige” Antwort zu liefern und zur nächsten Mini-Aufgabe überzugehen.

Wenn die “richtige Antwort” etwas Komplizierteres ist als Hat Katze/Keine Katze, behauptet der Syracuse-Bericht, dass der Arbeiter versucht, eine “akzeptable” Antwort basierend auf dem Inhalt und dem Kontext der Frage abzuleiten*:

‘Sowohl die Verbreitung alternativer Konzeptionen als auch die weit verbreitete Verwendung von simplistischen Anmerkungsmethoden behindern möglicherweise den Fortschritt der Forschung zu Online-Hassreden. Zum Beispiel fanden Ross et al. heraus, dass die Anzeige von Twitters Definition von hassförderndem Verhalten gegenüber Anmerkern dazu führte, dass sie ihre eigenen Meinungen teilweise mit der Definition ausrichteten. Diese Ausrichtung resultierte in einer sehr geringen Interrater-Reliabilität der Anmerkungen.’

* Meine Umwandlung der inline-Zitate des Papiers in Hyperlinks.

Veröffentlicht am 13. Dezember 2021 – Aktualisiert am 18. Dezember 2021: Tags hinzugefügt