Andersons Blickwinkel
Die ‘Lade mehr Labels!’-Illusion in der KI-Forschung

Eine gängige Ansicht in der aktuellen maschinellen Lernforschung ist, dass maschinelles Lernen selbst verwendet werden kann, um die Qualität von KI-Datensatz-Anmerkungen zu verbessern – insbesondere Bildunterschriften, die für die Verwendung in Vision-Language-Modellen (VLMs) bestimmt sind. Diese Denkweise wird durch die hohen Kosten der menschlichen Anmerkung und der zusätzlichen Belastung der Überwachung der Leistung der Anmerker getrieben.
Begründbar ist dies das AI-Äquivalent des frühen 2000er-Jahre-‘Lade mehr RAM’-Memes, das die Vorstellung satirisierte, dass eine Hardware-Einschränkung mit einer softwarebasierten Lösung behoben werden könnte.
Es ist auch ein unterbewertetes Problem; während neue KI-Modelle in öffentlichen und kommerziellen Bereichen weit verbreitet sind, erscheint die Anmerkung oft als ein triviales Detail in maschinellen Lernpipelines, überschattet von der Aufregung um umfassendere Frameworks.
In Wahrheit ist die Fähigkeit von maschinellen Lernsystemen, Muster zu erkennen und zu reproduzieren (der zentrale Anwendungsfall fast aller KI-Systeme), abhängig von der Qualität und Konsistenz realer Anmerkungen – Labels und Phrasen, die von realen Menschen erstellt oder geprüft werden, oft unter subjektiven Urteilen über einzelne Datenpunkte in nicht idealen Umständen.
Unvermeidlich können Systeme, die versuchen, Muster im Anmerkungsverhalten zu beobachten und zu reproduzieren (und damit menschliche Anmerker zu ersetzen und genaue Beschriftung im großen Maßstab zu ermöglichen), nicht darauf hoffen, gut auf Daten zu performen, die nicht in den Beispielen enthalten sind, die von menschlichen Beobachtern genommen wurden. Nichts “Ähnliches” ist genau gleich, und die Äquivalenz zwischen Domänen bleibt ein problematisches Vorhaben in der Computer-Vision.
Der “upstream-Daten-Buck” muss irgendwo stoppen, und in diesem Fall stoppt er genau dort – bei einem menschlichen Kleinhirn, das eine Art subjektive Unterscheidung trifft, um Daten für ein künstliches System zu kodifizieren.
Der RAG-Handel
Bis vor kurzem wurden die Ungenauigkeiten, die durch unterkuratierte Datensatzanmerkungen entstanden, vielleicht als akzeptable Kollateralschäden im Kontext der unvollkommenen, aber immer noch marktfähigen Ergebnisse aus generativen KI-Systemen angesehen.
Tatsächlich kam eine Studie aus Singapur zu dem Schluss, dass Halluzinationen – d. h. die Gelegenheiten, bei denen KI-Systeme Dinge erfinden, die unsere Absichten untergraben – unvermeidlich sind und in der konzeptionellen Architektur solcher Systeme verwurzelt sind.
Um dies zu bekämpfen, werden RAG-basierte Agenten – die Fakten durch Internet-Suchen “überprüfen” können – in der Forschung und in angewandten kommerziellen Lösungen beliebt. Allerdings erhöhen sie die Ressourcenkosten und die Latenz bei Abfragen; zusätzlich kann neue Information, die auf ein trainiertes Modell angewendet wird, nicht mit den komplexeren und tiefer verwobenen Verbindungen konkurrieren, die die nativen Schichten in einem trainierten Modell kennzeichnen.
Es wäre daher besser, wenn die Anmerkungsdaten, die diese Modelle informieren, von vornherein erheblich weniger fehlerhaft wären, auch wenn sie nicht perfekt sein können (nicht zuletzt, weil diese Aktivität in den Bereich der menschlichen Subjektivität eindringt).
RePOPE
Ein neues Papier aus Deutschland hebt die Probleme hervor, die durch die Verwendung älterer, weit verbreiteter Datensätze entstehen, insbesondere im Hinblick auf die Genauigkeit und Zuverlässigkeit ihrer Bildunterschriften. Die Forschungsergebnisse der Autoren deuten darauf hin, dass Label-Fehler in Benchmarks Halluzinationen in Vision-Language-Modellen maskieren oder falsch darstellen können.

Aus dem neuen Papier, einige Beispiele, in denen die ursprünglichen Untertitel es versäumten, Objekte in dem MSCOCO-Datensatz von Bildern richtig zu identifizieren. Die manuelle Überarbeitung der POPE-Benchmark-Datensatz durch die Forscher behebt diese Mängel und zeigt die Kosten der Einsparung von Anmerkungskuration. Quelle: https://arxiv.org/pdf/2504.15707
Stellen Sie sich vor, ein Modell wird ein Bild einer Straßenszene gezeigt und gefragt, ob sich dort ein Fahrrad befindet. Das Modell antwortet ja. Wenn der Benchmark-Datensatz sagt, dass es kein Fahrrad gibt, wird das Modell als falsch markiert. Aber wenn ein Fahrrad deutlich sichtbar auf dem Bild ist und während der Anmerkung einfach übersehen wurde, dann war die Antwort des Modells richtig, und der Benchmark hat versagt. Fehler wie dieser können sich über einen Datensatz ansammeln und ein verzerrtes Bild davon vermitteln, welche Modelle genau sind und welche anfällig für Halluzinationen sind.
Somit können Modelle, wenn ungenaue oder mehrdeutige Anmerkungen als Grundwahrheit behandelt werden, als halluzinierend erscheinen, wenn sie richtig sind, oder als genau, wenn sie es nicht sind, und sowohl die Messung der Halluzination als auch die Bewertung der Modellleistung verzerren und es schwieriger machen, das Problem mit Sicherheit zu diagnostizieren oder anzugehen.
Das neue Papier überprüft einen weithin verbreiteten Benchmark namens Polling-basierte Objekt-Prüfungsbewertung (POPE), der testet, ob Vision-Language-Modelle korrekt sagen können, was in einem Bild ist oder nicht.
POPE basiert auf Labels aus dem einflussreichen Microsoft COCO: Common Objects in Context (MSCOCO)-Datensatz, einer Sammlung von annotierten Bildern, die lange als gut annotiert galten.
POPE bewertet Objekthalluzinationen in großen Vision-Language-Modellen, indem es das Problem als binäre Klassifizierungsaufgabe umformuliert. Anstatt generierte Untertitel zu parsen, stellt das System dem Modell einfache ja/nein-Fragen zu, ob bestimmte Objekte in einem Bild vorhanden sind, mit Vorlagen wie ‘Gibt es ein <Objekt> im Bild?’.

Beispiele für Objekthalluzinationen in Vision-Language-Modellen. Fett gedruckte Labels zeigen Objekte, die im ursprünglichen Anmerkung als vorhanden markiert sind, während rote Labels Objekte zeigen, die von den Modellen halluziniert werden. Das linke Beispiel spiegelt eine traditionelle anweisungsgebundene Bewertung wider, während die drei Beispiele rechts aus verschiedenen POPE-Benchmark-Varianten stammen. Quelle: https://aclanthology.org/2023.emnlp-main.20.pdf
Grundwahrheits-Objekte (Antwort: Ja) werden mit zufällig ausgewählten nicht existierenden Objekten (Antwort: Nein) gepaart, die durch zufällige, häufige (beliebte) oder kookkurrenz-basierte (adversarial) Strategien ausgewählt werden. Diese Einrichtung ermöglicht eine stabilere, prompt-insensitive Bewertung der Halluzination ohne die Notwendigkeit einer komplexen regelbasierten Untertitelanalyse.
Die Autoren des neuen Papiers – betitelt RePOPE: Auswirkungen von Anmerkungsfehlern auf den POPE-Benchmark – fordern die angenommene Genauigkeit von POPE heraus, indem sie die Labels auf den Bildern des Benchmarks (d. h. MSCOCO) überprüfen – und feststellen, dass eine überraschende Anzahl davon falsch oder unklar sind.

Beispiele aus dem 2014er MSCOCO-Datensatz. Quelle: https://arxiv.org/pdf/1405.0312
Diese Fehler ändern die Art und Weise, wie Modelle bewertet werden, wobei einige, die ursprünglich gut performten, zurückfallen, wenn sie anhand korrigierter Labels beurteilt werden.
In Tests bewerteten die Autoren eine Reihe von offenen Gewichts-Vision-Language-Modellen auf dem ursprünglichen POPE-Benchmark und ihrer neu beschrifteten RePOPE-Version.
Laut dem Papier führten die korrigierten Anmerkungen zu bemerkenswerten Änderungen in den Modellbewertungen, insbesondere in F1-Werten, wobei mehrere gut performende Modelle unter POPE unter RePOPE zurückfielen.
Die Autoren argumentieren, dass diese Verschiebung das Ausmaß zeigt, in dem Anmerkungsfehler das tatsächliche Halluzinationsverhalten von Modellen verschleiern können, und sie präsentieren RePOPE als zuverlässigeres Werkzeug für die Bewertung der Halluzinationsanfälligkeit.

In einem weiteren Beispiel aus dem neuen Papier sehen wir, wie die ursprünglichen POPE-Untertitel es versäumen, subtile Objekte wie eine Person, die neben dem Führerhaus eines Trams sitzt, oder den Stuhl, der vom Tennisspieler verdeckt wird, zu erkennen.
Methode und Tests
Die Forscher beschrifteten alle Anmerkungen im ursprünglichen MSCOCO-Datensatz neu, wobei zwei menschliche Anmerker für jeden Datenpunkt zugewiesen wurden. Wo Zweifel an der Qualität der ursprünglichen Labels auftraten (wie in den Beispielen unten), wurden diese Ergebnisse von der Testrunde ausgeschlossen.

Mehrdeutige Fälle, in denen Inkonsistenzen in der POPE-Anmerkung unklare Kategoriegrenzen widerspiegeln. Zum Beispiel ein Teddybär, der als Bär beschriftet ist, ein Motorrad als Fahrrad oder FlughafenvEHikel als Autos. Diese Fälle wurden aus RePOPE ausgeschlossen, aufgrund der subjektiven Natur solcher Klassifizierungen sowie der Inkonsistenzen in den ursprünglichen MSCOCO-Labels.
Das Papier besagt:
‘Die ursprünglichen Anmerker haben Personen im Hintergrund oder hinter Glas übersehen, der Tennispieler verdeckt die ‘Stühle’ im Hintergrund und der Coleslaw enthält nur einen kleinen sichtbaren Streifen von einer Karotte.
‘Für einige Objekte sind die COCO-Anmerkungen aufgrund unterschiedlicher Definitionen dieser Objekte, die von den ursprünglichen Anmerkern verwendet wurden, sehr inkonsistent. Die Klassifizierung eines ‘Teddybären’ als ‘Bär’, ein Motorrad als motorisiertes ‘Fahrrad’ oder ein FlughafenvEHikel als ‘Auto’ hängt von spezifischen Definitionen ab, was zu Inkonsistenzen in den POPE-Grundwahrheitsanmerkungen führt. Daher annotieren wir die entsprechenden Bild-Frage-Paare als ‘mehrdeutig’.’

Ergebnisse der Neuanmerkung: Die positiven Fragen sind über alle drei POPE-Varianten hinweg identisch. Von denen, die in POPE mit ‘Ja’ beschriftet wurden, wurden 9,3 Prozent als falsch erkannt und 13,8 Prozent als mehrdeutig klassifiziert. Für die ‘Nein’-Fragen wurden 1,7 Prozent falsch beschriftet und 4,3 Prozent als mehrdeutig eingestuft.
Die Autoren bewerteten eine Reihe von offenen Gewichtsmodellen auf POPE und auf RePOPE, über diverse Architekturen und Modellgrößen hinweg. Die ausgewählten Modelle umfassten einige der führenden Architekturen auf der OpenVLM-Rangliste: InternVL2.5 (8B/26B/38B/78B und 8B-MPO/26B-MPO); LLaVA-NeXT; Vicuna; Mistral 7b; Llama; LLaVA-OneVision; Ovis2 (1B/2B/4B/8B); PaliGemma-3B; und PaliGemma2 (3B/10B).

Anfangsergebnisse: Die hohe Fehlerrate in den ursprünglichen positiven Labels führt zu einem starken Rückgang der wahren Positiven über alle Modelle hinweg. Falsche Positiven variieren über die Subsets hinweg, fast verdoppeln sich auf dem zufälligen Subset, bleiben aber im Wesentlichen unverändert auf dem beliebten Subset und zeigen einen leichten Rückgang auf dem adversarialen Subset. Die Neuanmerkung hat einen großen Effekt auf die F1-basierten Ranglisten. Modelle wie Ovis2-4B und Ovis2-8B, die auf den beliebten und adversarialen Splits in POPE gut performten, steigen auch auf dem zufälligen Subset unter RePOPE an die Spitze. Bitte verweisen Sie auf das Quell-PDF für eine bessere Auflösung.
Die Ergebnisgrafiken oben zeigen, wie sich die Anzahl der wahren Positiven und falschen Positiven nach der Korrektur der Labels im Benchmark ändert.
Wahre Positiven fielen über alle Modelle hinweg, was zeigt, dass sie oft für korrekte Antworten gutgeschrieben wurden, wenn diese Antworten nur unter fehlerhaften Labels korrekt waren, während falsche Positiven einem variierteren Muster folgten.
Auf dem ‘zufälligen’ Teil von POPE verdoppelten sich falsche Positiven für viele Modelle fast, was darauf hindeutet, dass eine erhebliche Anzahl von Objekten, die als Halluzinationen markiert wurden, tatsächlich in den Bildern vorhanden waren, aber in den ursprünglichen Anmerkungen übersehen wurden. In diesem Fall waren viele vermeintliche Modellfehler tatsächlich Datensatzanmerkungsfehler.
Für den ‘adversarialen’ Teil von POPE, bei dem Fragen auf der Grundlage von Objekten basierten, die häufig zusammen vorkommen, verringerten sich falsche Positiven. Dies spiegelt wahrscheinlich eine höhere Wahrscheinlichkeit wider, dass das vermeintlich abwesende Objekt tatsächlich im Bild war, aber unbeschriftet blieb.
Obwohl diese Verschiebungen Präzision und Recall beeinflussten, blieben die Modellranglisten für beide Metriken relativ stabil.
Der F1-Wert – die primäre Bewertungsmessung von POPE – war viel empfindlicher gegenüber den Labelkorrekturen. Auf dem zufälligen Subset fielen Modelle, die unter den ursprünglichen Labels nahe der Spitze lagen, wie InternVL2.5-8B und -26B, auf die unteren Ränge, wenn sie mit RePOPE bewertet wurden. Andere, wie Ovis2-4B und -8B, stiegen an die Spitze.
Ein ähnliches Muster zeigte sich in den Genauigkeitswerten, obwohl die Autoren anmerken, dass diese jetzt voreingenommen sein könnten, da der korrigierte Datensatz eine ungleiche Anzahl von positiven und negativen Beispielen enthält.
Die Autoren argumentieren, dass der starke Einfluss von Anmerkungsfehlern auf Benchmark-Ergebnisse die Notwendigkeit von hochwertigen Daten unterstreicht. Um eine zuverlässigere Bewertung der Objekthalluzination zu unterstützen, haben sie die korrigierten Labels auf GitHub veröffentlicht.
Allerdings weisen sie darauf hin, dass diese Neuanmerkung das Sättigungsproblem des Benchmarks nicht vollständig löst, da viele Modelle immer noch wahre Positive- und wahre Negative-Raten über 90 % erreichen. Sie schlagen vor, dass zusätzliche Benchmarks wie DASH-B, der eine herausforderndere Menge von negativen Beispielen verwendet, neben RePOPE verwendet werden sollten.
Schlussfolgerung
Dieses spezifische Experiment war möglich, weil der Datensatz sehr klein war. Die Beweisführung der gleichen Hypothese auf Hyperscale-Datensätzen würde bedeuten, an sehr begrenzten Fragmenten der Daten zu arbeiten; in hochdiversen großen Datensätzen könnte es fast unmöglich sein, statistisch repräsentative und semantisch kohärente Gruppierungen zu isolieren – was die Ergebnisse verzerren könnte.
Selbst wenn es möglich wäre, was wäre die Abhilfe unter dem aktuellen Stand der Technik? Das Argument kehrt unweigerlich zur Notwendigkeit besserer und umfangreicherer menschlicher Anmerkung zurück.
In dieser Hinsicht existieren “besser” und “umfangreicher” als separate Probleme, da man durch Billiglöhne wie Amazon Mechanical Turk (AMT) eine größere Menge an Anmerkungen erhalten kann. Offensichtlich führt diese potenziell ausbeuterische Subökonomie häufig zu schlechten Ergebnissen.
Alternativ könnte man Anmerkaufgaben an wirtschaftliche Regionen auslagern, in denen der gleiche Aufwand eine größere Menge an Anmerkungen ergeben würde. Allerdings ist es desto unwahrscheinlicher, dass das resultierende Modell, dessen Labels die Anmerker gestaltet haben, den Bedürfnissen oder Erwartungen der Ziel-Domäne entspricht, je weiter der Anmerker von der beabsichtigten Verwendung des Modells entfernt ist.
Dies bleibt eine der anhaltendsten und ungelösten Herausforderungen in der Ökonomie der maschinellen Lernentwicklung.
Erstveröffentlicht am Mittwoch, 23. April 2025












