Andersons Blickwinkel
Verwendung von KI-Halluzinationen zur Bewertung des Bildrealismus

Neue Forschungsergebnisse aus Russland schlagen eine unkonventionelle Methode zur Erkennung unrealistischer, KI-generierter Bilder vor – nicht durch die Verbesserung der Genauigkeit großer Vision-Language-Modelle (LVLMs), sondern durch die gezielte Nutzung ihrer Neigung zu Halluzinationen.
Der neuartige Ansatz extrahiert mehrere „atomare Fakten“ über ein Bild mithilfe von LVLMs und wendet dann natürliche sprachliche Schlussfolgerung (NLI) zur systematischen Messung von Widersprüchen zwischen diesen Aussagen – und damit zur effektiven Umwandlung der Mängel des Modells in ein Diagnoseinstrument zur Erkennung von Bildern, die dem gesunden Menschenverstand widersprechen.

Zwei Bilder aus dem WHOOPS!-Datensatz neben automatisch generierten Aussagen des LVLM-Modells. Das linke Bild ist realistisch und führt zu konsistenten Beschreibungen, während das ungewöhnliche rechte Bild das Modell halluzinieren lässt und widersprüchliche oder falsche Aussagen produziert. Quelle: https://arxiv.org/pdf/2503.15948
Aufgefordert, den Realismus des zweiten Bildes zu beurteilen, kann der LVLM feststellen, dass etwas ist falsch, da das abgebildete Kamel drei Höcker hat, was in der Natur unbekannt.
Allerdings vermischt das LVLM zunächst >2 Höcker mit >2 Tiere, da dies die einzige Möglichkeit ist, drei Höcker in einem „Kamelbild“ zu sehen. Dann halluziniert es etwas noch Unwahrscheinlicheres als drei Höcker (nämlich „zwei Köpfe“) und geht nie näher auf das ein, was seinen Verdacht ausgelöst zu haben scheint – den unwahrscheinlichen zusätzlichen Höcker.
Die Forscher der neuen Arbeit fanden heraus, dass LVLM-Modelle diese Art der Auswertung nativ durchführen können, und zwar auf Augenhöhe mit (oder besser als) Modelle, die fein abgestimmt für eine Aufgabe dieser Art. Da die Feinabstimmung kompliziert, teuer und hinsichtlich der späteren Anwendbarkeit eher spröde ist, ist die Entdeckung einer nativen Verwendung für einen der größten Hindernisse in der aktuellen KI-Revolution ist eine erfrischende Wendung gegenüber den allgemeinen Trends in der Literatur.
Offene Bewertung
Die Bedeutung dieses Ansatzes, so die Autoren, liege darin, dass er eingesetzt werden könne mit Open-Source- Frameworks. Während ein fortschrittliches und investitionsintensives Modell wie ChatGPT (das räumt das Papier ein) bei dieser Aufgabe möglicherweise bessere Ergebnisse liefern kann, liegt der wahre Wert der Literatur für die meisten von uns (und insbesondere für die Hobby- und VFX-Communitys) in der Möglichkeit, neue Durchbrüche in lokale Implementierungen zu integrieren und zu entwickeln; umgekehrt unterliegt alles, was für ein proprietäres kommerzielles API-System bestimmt ist, Rücknahmen, willkürlichen Preiserhöhungen und Zensurrichtlinien, die eher die Unternehmensinteressen als die Bedürfnisse und Verantwortlichkeiten des Benutzers widerspiegeln.
Die neues Papier ist betitelt Bekämpfen Sie Halluzinationen nicht, nutzen Sie sie: Schätzung des Bildrealismus mit NLI über atomare Faktenund stammt von fünf Forschern des Skolkovo-Instituts für Wissenschaft und Technologie (Skoltech), des Moskauer Instituts für Physik und Technologie sowie der russischen Unternehmen MTS AI und AIRI. Die Arbeit hat eine begleitende GitHub-Seite.
Methodik
Die Autoren verwenden die israelisch-amerikanische WHOOPS! Datensatz für das Projekt:

Beispiele für unmögliche Bilder aus dem WHOOPS!-Datensatz. Es ist bemerkenswert, wie diese Bilder plausible Elemente zusammensetzen und dass ihre Unwahrscheinlichkeit anhand der Verkettung dieser inkompatiblen Facetten berechnet werden muss. Quelle: https://whoops-benchmark.github.io/
Der Datensatz umfasst 500 synthetische Bilder und über 10,874 Anmerkungen, die speziell dafür entwickelt wurden, das gesunde Denken und das Kompositionsverständnis von KI-Modellen zu testen. Er entstand in Zusammenarbeit mit Designern, die anspruchsvolle Bilder über Text-zu-Bild-Systeme generieren, wie zum Beispiel Zwischendurch und die DALL-E-Serie – sie erzeugt Szenarien, die auf natürliche Weise nur schwer oder gar nicht eingefangen werden können:

Weitere Beispiele aus dem WHOOPS!-Datensatz. Quelle: https://huggingface.co/datasets/nlphuji/whoops
Der neue Ansatz funktioniert in drei Phasen: Erstens, das LVLM (insbesondere LLaVA-v1.6-mistral-7b) wird aufgefordert, mehrere einfache Aussagen – sogenannte „atomare Fakten“ – zu generieren, die ein Bild beschreiben. Diese Aussagen werden mithilfe von Diverse Strahlensuche, wodurch die Variabilität der Ergebnisse gewährleistet wird.

Diverse Beam Search bietet eine größere Vielfalt an Untertiteloptionen durch Optimierung auf ein diversitätserweitertes Ziel. Quelle: https://arxiv.org/pdf/1610.02424
Anschließend wird jede generierte Aussage mithilfe eines Natural Language Inference-Modells systematisch mit jeder anderen Aussage verglichen. Dabei werden Punkte vergeben, die widerspiegeln, ob Aussagepaare einander bedingen, widersprechen oder neutral zueinander sind.
Widersprüche deuten auf Halluzinationen oder unrealistische Elemente im Bild hin:

Schema für die Erkennungspipeline.
Schließlich aggregiert die Methode diese paarweisen NLI-Werte zu einem einzigen „Realitätswert“, der die Gesamtkohärenz der generierten Aussagen quantifiziert.
Die Forscher untersuchten verschiedene Aggregationsmethoden, wobei ein clusterbasierter Ansatz am besten abschnitt. Die Autoren verwendeten die k-bedeutet Clustering Algorithmus zur Trennung einzelner NLI-Werte in zwei Cluster, und die Schwerpunkt des Clusters mit dem niedrigeren Wert wurde dann als endgültige Metrik ausgewählt.
Die Verwendung von zwei Clustern entspricht direkt dem binären Charakter der Klassifizierungsaufgabe, d. h. der Unterscheidung zwischen realistischen und unrealistischen Bildern. Die Logik ähnelt der einfachen Auswahl des niedrigsten Gesamtwerts. Durch die Clusterung kann die Metrik jedoch den durchschnittlichen Widerspruch über mehrere Fakten hinweg darstellen, anstatt sich auf einen einzelnen zu verlassen. Ausreißer.
Daten und Tests
Die Forscher testeten ihr System anhand des WHOOPS!-Basis-Benchmarks und verwendeten dabei rotierende Testaufteilungen (dh Kreuzvalidierung). Die getesteten Modelle waren BLIP2 FlanT5-XL sowie BLIP2 FlanT5-XXL in Splits und BLIP2 FlanT5-XXL im Zero-Shot-Format (d. h. ohne zusätzliches Training).
Um eine Basislinie für das Befolgen von Anweisungen zu erstellen, forderten die Autoren die LVLMs mit dem Satz auf „Ist das ungewöhnlich? Bitte erklären Sie es kurz in einem kurzen Satz.“, Die vorherige Forschung hat sich als wirksam erwiesen, um unrealistische Bilder zu erkennen.
Die bewerteten Modelle waren LLaVA 1.6 Mistral 7B, LLaVA 1.6 Vicuna 13Bund zwei Größen (7/13 Milliarden Parameter) von InstructBLIP.
Das Testverfahren basierte auf 102 Paaren realistischer und unrealistischer („seltsamer“) Bilder. Jedes Paar bestand aus einem normalen Bild und einem dem gesunden Menschenverstand widersprechenden Gegenstück.
Drei menschliche Kommentatoren beschrifteten die Bilder und erreichten einen Konsens von 92 %, was auf eine starke menschliche Übereinstimmung darüber hindeutet, was „merkwürdig“ ist. Die Genauigkeit der Bewertungsmethoden wurde an ihrer Fähigkeit gemessen, korrekt zwischen realistischen und unrealistischen Bildern zu unterscheiden.
Das System wurde mittels dreifacher Kreuzvalidierung evaluiert, wobei die Daten mit einem festen Seed zufällig gemischt wurden. Die Autoren passten während des Trainings die Gewichte für Implikationswerte (logisch übereinstimmende Aussagen) und Widerspruchswerte (logisch widersprüchliche Aussagen) an, während „neutrale“ Werte auf Null festgelegt wurden. Die endgültige Genauigkeit wurde als Durchschnitt aller Testaufteilungen berechnet.

Vergleich verschiedener NLI-Modelle und Aggregationsmethoden anhand einer Teilmenge von fünf generierten Fakten, gemessen anhand der Genauigkeit.
Zu den oben gezeigten ersten Ergebnissen heißt es in dem Dokument:
„Die [‚clust‘]-Methode sticht als eine der leistungsstärksten hervor. Dies bedeutet, dass die Aggregation aller Widerspruchswerte entscheidend ist, anstatt sich nur auf Extremwerte zu konzentrieren. Darüber hinaus übertrifft das größte NLI-Modell (nli-deberta-v3-large) alle anderen bei allen Aggregationsmethoden, was darauf hindeutet, dass es den Kern des Problems effektiver erfasst.“
Die Autoren stellten fest, dass die optimalen Gewichte durchweg Widersprüche gegenüber Implikationen bevorzugten. Dies deutet darauf hin, dass Widersprüche aussagekräftiger für die Unterscheidung unrealistischer Bilder sind. Ihre Methode übertraf alle anderen getesteten Zero-Shot-Methoden und kam der Leistung des fein abgestimmten BLIP2-Modells sehr nahe:

Leistung verschiedener Ansätze im WHOOPS!-Benchmark. Feinabgestimmte (ft) Methoden werden oben angezeigt, während Zero-Shot-Methoden (zs) darunter aufgeführt sind. Die Modellgröße gibt die Anzahl der Parameter an, und die Genauigkeit dient als Bewertungsmaß.
Sie stellten außerdem, etwas unerwartet, fest, dass InstructBLIP bei gleicher Eingabeaufforderung bessere Ergebnisse erzielte als vergleichbare LLaVA-Modelle. Die Arbeit erkennt zwar die höhere Genauigkeit von GPT-4o an, betont aber gleichzeitig die Vorliebe der Autoren für die Demonstration praktischer Open-Source-Lösungen. Die explizite Nutzung von Halluzinationen als Diagnoseinstrument kann daher durchaus als neuartig gelten.
Fazit
Die Autoren erkennen jedoch die Schuld ihres Projekts gegenüber dem 2024 FaithScore Ausflug, eine Zusammenarbeit zwischen der University of Texas in Dallas und der Johns Hopkins University.

Veranschaulichung der FaithScore-Auswertung. Zunächst werden beschreibende Aussagen innerhalb einer von LVLM generierten Antwort identifiziert. Anschließend werden diese Aussagen in einzelne Fakten zerlegt. Abschließend werden die Fakten mit dem Eingabebild verglichen, um ihre Richtigkeit zu überprüfen. Unterstrichener Text hebt objektive beschreibende Inhalte hervor, während blauer Text auf halluzinierte Aussagen hinweist. Dadurch liefert FaithScore ein interpretierbares Maß für die sachliche Richtigkeit. Quelle: https://arxiv.org/pdf/2311.01477
FaithScore misst die Genauigkeit der von LVLM generierten Beschreibungen, indem es die Konsistenz mit dem Bildinhalt überprüft, während die Methoden des neuen Artikels explizit LVLM-Halluzinationen ausnutzen, um mithilfe natürlicher Sprachinferenz unrealistische Bilder anhand von Widersprüchen in generierten Fakten zu erkennen.
Die neue Arbeit ist natürlich abhängig von den Eigenheiten der aktuellen Sprachmodelle und ihrer Neigung zur Halluzination. Sollte die Modellentwicklung jemals ein völlig halluzinationsfreies Modell hervorbringen, wären selbst die allgemeinen Prinzipien der neuen Arbeit nicht mehr anwendbar. Dies bleibt jedoch ein herausfordernde Aussicht.
Erstveröffentlichung: Dienstag, 25. März 2025