Andersons Blickwinkel

Verwendung von KI-Halluzinationen zur Bewertung des Bildrealismus

Veröffentlicht 25. März 2025

Martin Anderson

Eine Auswahl von Bildern aus dem WHOOPS!-Datensatz (https://huggingface.co/datasets/nlphuji/whoops), hinter zentralen Bildern aus dem Artikel „Don’t Fight Hallucinations, Use Them: Estimating Image Realism using NLI over Atomic Facts“ (https://arxiv.org/pdf/2503.15948).

Neue Forschungsergebnisse aus Russland schlagen eine unkonventionelle Methode zur Erkennung unrealistischer, KI-generierter Bilder vor – nicht durch die Verbesserung der Genauigkeit großer Vision-Language-Modelle (LVLMs), sondern durch die gezielte Nutzung ihrer Neigung zu Halluzinationen.

Der neuartige Ansatz extrahiert mehrere „atomare Fakten“ über ein Bild mithilfe von LVLMs und wendet dann natürliche sprachliche Schlussfolgerung (NLI) zur systematischen Messung von Widersprüchen zwischen diesen Aussagen – und damit zur effektiven Umwandlung der Mängel des Modells in ein Diagnoseinstrument zur Erkennung von Bildern, die dem gesunden Menschenverstand widersprechen.

Zwei Bilder aus dem WHOOPS!-Datensatz neben automatisch generierten Aussagen des LVLM-Modells. Das linke Bild ist realistisch und führt zu konsistenten Beschreibungen, während das ungewöhnliche rechte Bild das Modell halluzinieren lässt und widersprüchliche oder falsche Aussagen produziert. Quelle: https://arxiv.org/pdf/2503.15948

Aufgefordert, den Realismus des zweiten Bildes zu beurteilen, kann der LVLM feststellen, dass etwas ist falsch, da das abgebildete Kamel drei Höcker hat, was in der Natur unbekannt.

Allerdings vermischt das LVLM zunächst >2 Höcker mit >2 Tiere, da dies die einzige Möglichkeit ist, drei Höcker in einem „Kamelbild“ zu sehen. Dann halluziniert es etwas noch Unwahrscheinlicheres als drei Höcker (nämlich „zwei Köpfe“) und geht nie näher auf das ein, was seinen Verdacht ausgelöst zu haben scheint – den unwahrscheinlichen zusätzlichen Höcker.

Die Forscher der neuen Arbeit fanden heraus, dass LVLM-Modelle diese Art der Auswertung nativ durchführen können, und zwar auf Augenhöhe mit (oder besser als) Modelle, die fein abgestimmt für eine Aufgabe dieser Art. Da die Feinabstimmung kompliziert, teuer und hinsichtlich der späteren Anwendbarkeit eher spröde ist, ist die Entdeckung einer nativen Verwendung für einen der größten Hindernisse in der aktuellen KI-Revolution ist eine erfrischende Wendung gegenüber den allgemeinen Trends in der Literatur.

Offene Bewertung

Die Bedeutung dieses Ansatzes, so die Autoren, liege darin, dass er eingesetzt werden könne mit Open-Source- Frameworks. Während ein fortschrittliches und investitionsintensives Modell wie ChatGPT (das räumt das Papier ein) bei dieser Aufgabe möglicherweise bessere Ergebnisse liefern kann, liegt der wahre Wert der Literatur für die meisten von uns (und insbesondere für die Hobby- und VFX-Communitys) in der Möglichkeit, neue Durchbrüche in lokale Implementierungen zu integrieren und zu entwickeln; umgekehrt unterliegt alles, was für ein proprietäres kommerzielles API-System bestimmt ist, Rücknahmen, willkürlichen Preiserhöhungen und Zensurrichtlinien, die eher die Unternehmensinteressen als die Bedürfnisse und Verantwortlichkeiten des Benutzers widerspiegeln.

Die neues Papier ist betitelt Bekämpfen Sie Halluzinationen nicht, nutzen Sie sie: Schätzung des Bildrealismus mit NLI über atomare Faktenund stammt von fünf Forschern des Skolkovo-Instituts für Wissenschaft und Technologie (Skoltech), des Moskauer Instituts für Physik und Technologie sowie der russischen Unternehmen MTS AI und AIRI. Die Arbeit hat eine begleitende GitHub-Seite.

Methodik

Die Autoren verwenden die israelisch-amerikanische WHOOPS! Datensatz für das Projekt:

Beispiele für unmögliche Bilder aus dem WHOOPS!-Datensatz. Es ist bemerkenswert, wie diese Bilder plausible Elemente zusammensetzen und dass ihre Unwahrscheinlichkeit anhand der Verkettung dieser inkompatiblen Facetten berechnet werden muss. Quelle: https://whoops-benchmark.github.io/

Der Datensatz umfasst 500 synthetische Bilder und über 10,874 Anmerkungen, die speziell dafür entwickelt wurden, das gesunde Denken und das Kompositionsverständnis von KI-Modellen zu testen. Er entstand in Zusammenarbeit mit Designern, die anspruchsvolle Bilder über Text-zu-Bild-Systeme generieren, wie zum Beispiel Zwischendurch und die DALL-E-Serie – sie erzeugt Szenarien, die auf natürliche Weise nur schwer oder gar nicht eingefangen werden können:

Weitere Beispiele aus dem WHOOPS!-Datensatz. Quelle: https://huggingface.co/datasets/nlphuji/whoops

Der neue Ansatz funktioniert in drei Phasen: Erstens, das LVLM (insbesondere LLaVA-v1.6-mistral-7b) wird aufgefordert, mehrere einfache Aussagen – sogenannte „atomare Fakten“ – zu generieren, die ein Bild beschreiben. Diese Aussagen werden mithilfe von Diverse Strahlensuche, wodurch die Variabilität der Ergebnisse gewährleistet wird.

Die erstmals in vorgeschlagene Methode „Diverse Beam Search“ bietet eine größere Vielfalt an Untertiteloptionen durch Optimierung auf Diversität. Quelle: https://arxiv.org/pdf/1610.02424

Diverse Beam Search bietet eine größere Vielfalt an Untertiteloptionen durch Optimierung auf ein diversitätserweitertes Ziel. Quelle: https://arxiv.org/pdf/1610.02424

Anschließend wird jede generierte Aussage mithilfe eines Natural Language Inference-Modells systematisch mit jeder anderen Aussage verglichen. Dabei werden Punkte vergeben, die widerspiegeln, ob Aussagepaare einander bedingen, widersprechen oder neutral zueinander sind.

Widersprüche deuten auf Halluzinationen oder unrealistische Elemente im Bild hin:

Schema für die Erkennungspipeline.

Schließlich aggregiert die Methode diese paarweisen NLI-Werte zu einem einzigen „Realitätswert“, der die Gesamtkohärenz der generierten Aussagen quantifiziert.

Die Forscher untersuchten verschiedene Aggregationsmethoden, wobei ein clusterbasierter Ansatz am besten abschnitt. Die Autoren verwendeten die k-bedeutet Clustering Algorithmus zur Trennung einzelner NLI-Werte in zwei Cluster, und die Schwerpunkt des Clusters mit dem niedrigeren Wert wurde dann als endgültige Metrik ausgewählt.

Die Verwendung von zwei Clustern entspricht direkt dem binären Charakter der Klassifizierungsaufgabe, d. h. der Unterscheidung zwischen realistischen und unrealistischen Bildern. Die Logik ähnelt der einfachen Auswahl des niedrigsten Gesamtwerts. Durch die Clusterung kann die Metrik jedoch den durchschnittlichen Widerspruch über mehrere Fakten hinweg darstellen, anstatt sich auf einen einzelnen zu verlassen. Ausreißer.

Daten und Tests

Die Forscher testeten ihr System anhand des WHOOPS!-Basis-Benchmarks und verwendeten dabei rotierende Testaufteilungen (dh Kreuzvalidierung). Die getesteten Modelle waren BLIP2 FlanT5-XL sowie BLIP2 FlanT5-XXL in Splits und BLIP2 FlanT5-XXL im Zero-Shot-Format (d. h. ohne zusätzliches Training).

Um eine Basislinie für das Befolgen von Anweisungen zu erstellen, forderten die Autoren die LVLMs mit dem Satz auf „Ist das ungewöhnlich? Bitte erklären Sie es kurz in einem kurzen Satz.“, Die vorherige Forschung hat sich als wirksam erwiesen, um unrealistische Bilder zu erkennen.

Die bewerteten Modelle waren LLaVA 1.6 Mistral 7B, LLaVA 1.6 Vicuna 13Bund zwei Größen (7/13 Milliarden Parameter) von InstructBLIP.

Das Testverfahren basierte auf 102 Paaren realistischer und unrealistischer („seltsamer“) Bilder. Jedes Paar bestand aus einem normalen Bild und einem dem gesunden Menschenverstand widersprechenden Gegenstück.

Drei menschliche Kommentatoren beschrifteten die Bilder und erreichten einen Konsens von 92 %, was auf eine starke menschliche Übereinstimmung darüber hindeutet, was „merkwürdig“ ist. Die Genauigkeit der Bewertungsmethoden wurde an ihrer Fähigkeit gemessen, korrekt zwischen realistischen und unrealistischen Bildern zu unterscheiden.

Das System wurde mittels dreifacher Kreuzvalidierung evaluiert, wobei die Daten mit einem festen Seed zufällig gemischt wurden. Die Autoren passten während des Trainings die Gewichte für Implikationswerte (logisch übereinstimmende Aussagen) und Widerspruchswerte (logisch widersprüchliche Aussagen) an, während „neutrale“ Werte auf Null festgelegt wurden. Die endgültige Genauigkeit wurde als Durchschnitt aller Testaufteilungen berechnet.

Vergleich verschiedener NLI-Modelle und Aggregationsmethoden anhand einer Teilmenge von fünf generierten Fakten, gemessen anhand der Genauigkeit.

Zu den oben gezeigten ersten Ergebnissen heißt es in dem Dokument:

„Die [‚clust‘]-Methode sticht als eine der leistungsstärksten hervor. Dies bedeutet, dass die Aggregation aller Widerspruchswerte entscheidend ist, anstatt sich nur auf Extremwerte zu konzentrieren. Darüber hinaus übertrifft das größte NLI-Modell (nli-deberta-v3-large) alle anderen bei allen Aggregationsmethoden, was darauf hindeutet, dass es den Kern des Problems effektiver erfasst.“

Die Autoren stellten fest, dass die optimalen Gewichte durchweg Widersprüche gegenüber Implikationen bevorzugten. Dies deutet darauf hin, dass Widersprüche aussagekräftiger für die Unterscheidung unrealistischer Bilder sind. Ihre Methode übertraf alle anderen getesteten Zero-Shot-Methoden und kam der Leistung des fein abgestimmten BLIP2-Modells sehr nahe:

Leistung verschiedener Ansätze im WHOOPS!-Benchmark. Feinabgestimmte (ft) Methoden werden oben angezeigt, während Zero-Shot-Methoden (zs) darunter aufgeführt sind. Die Modellgröße gibt die Anzahl der Parameter an, und die Genauigkeit dient als Bewertungsmaß.

Sie stellten außerdem, etwas unerwartet, fest, dass InstructBLIP bei gleicher Eingabeaufforderung bessere Ergebnisse erzielte als vergleichbare LLaVA-Modelle. Die Arbeit erkennt zwar die höhere Genauigkeit von GPT-4o an, betont aber gleichzeitig die Vorliebe der Autoren für die Demonstration praktischer Open-Source-Lösungen. Die explizite Nutzung von Halluzinationen als Diagnoseinstrument kann daher durchaus als neuartig gelten.

Fazit

Die Autoren erkennen jedoch die Schuld ihres Projekts gegenüber dem 2024 FaithScore Ausflug, eine Zusammenarbeit zwischen der University of Texas in Dallas und der Johns Hopkins University.

Veranschaulichung der FaithScore-Auswertung. Zunächst werden beschreibende Aussagen in einer von LVLM generierten Antwort identifiziert. Anschließend werden diese Aussagen in einzelne Fakten zerlegt. Abschließend werden die Fakten mit dem Eingabebild verglichen, um ihre Richtigkeit zu überprüfen. Unterstrichener Text hebt objektive beschreibende Inhalte hervor, während blauer Text auf halluzinierte Aussagen hinweist. Dadurch liefert FaithScore ein interpretierbares Maß für die sachliche Richtigkeit. Quelle: https://arxiv.org/pdf/2311.01477

Veranschaulichung der FaithScore-Auswertung. Zunächst werden beschreibende Aussagen innerhalb einer von LVLM generierten Antwort identifiziert. Anschließend werden diese Aussagen in einzelne Fakten zerlegt. Abschließend werden die Fakten mit dem Eingabebild verglichen, um ihre Richtigkeit zu überprüfen. Unterstrichener Text hebt objektive beschreibende Inhalte hervor, während blauer Text auf halluzinierte Aussagen hinweist. Dadurch liefert FaithScore ein interpretierbares Maß für die sachliche Richtigkeit. Quelle: https://arxiv.org/pdf/2311.01477

FaithScore misst die Genauigkeit der von LVLM generierten Beschreibungen, indem es die Konsistenz mit dem Bildinhalt überprüft, während die Methoden des neuen Artikels explizit LVLM-Halluzinationen ausnutzen, um mithilfe natürlicher Sprachinferenz unrealistische Bilder anhand von Widersprüchen in generierten Fakten zu erkennen.

Die neue Arbeit ist natürlich abhängig von den Eigenheiten der aktuellen Sprachmodelle und ihrer Neigung zur Halluzination. Sollte die Modellentwicklung jemals ein völlig halluzinationsfreies Modell hervorbringen, wären selbst die allgemeinen Prinzipien der neuen Arbeit nicht mehr anwendbar. Dies bleibt jedoch ein herausfordernde Aussicht.

Erstveröffentlichung: Dienstag, 25. März 2025

Verwandte Themen:KI-Halluzinationen Halluzinationen LLM-Halluzinationen

Als nächstes

Dark Factories und die Zukunft der Arbeit: Wie KI-gesteuerte Automatisierung die Fertigung umgestaltet

Verpassen Sie nicht

Der Kampf um Zero-Shot-Anpassung in der generativen KI

Martin Anderson

Autor zum Thema maschinelles Lernen, Fachspezialist für die Synthese menschlicher Bilder. Ehemaliger Leiter für Forschungsinhalte bei Metaphysic.ai.
Persönliche Seite: martinanderson.ai
Kontakt: [E-Mail geschützt]
Twitter: @manders_ai

Unite.AI

Verwendung von KI-Halluzinationen zur Bewertung des Bildrealismus

Offene Bewertung

Methodik

Daten und Tests

Fazit

Vielleicht gefällt dir