Connect with us

Andersons Blickwinkel

Mit AI-Halluzinationen die Realität von Bildern bewerten

mm
A selection of images from the WHOOPS! dataset (https://huggingface.co/datasets/nlphuji/whoops), behind central images from the paper 'Don’t Fight Hallucinations, Use Them: Estimating Image Realism using NLI over Atomic Facts' (https://arxiv.org/pdf/2503.15948).

Neue Forschung aus Russland schlägt einen unkonventionellen Ansatz vor, um unrealistische AI-generierte Bilder zu erkennen – nicht, indem die Genauigkeit großer Vision-Language-Modelle (LVLMs) verbessert wird, sondern indem ihre Neigung zu Halluzinationen absichtlich genutzt wird.

Die neue Methode extrahiert multiple ‘atomare Fakten’ über ein Bild mithilfe von LVLMs und wendet dann natürliche Sprachinferenz (NLI) an, um systematisch Widersprüche zwischen diesen Aussagen zu messen – effektiv die Schwächen des Modells in ein diagnostisches Werkzeug für die Erkennung von Bildern, die dem gesunden Menschenverstand widersprechen.

Zwei Bilder aus dem WHOOPS!-Dataset neben automatisch generierten Aussagen des LVLM-Modells. Das linke Bild ist realistisch und führt zu konsistenten Beschreibungen, während das ungewöhnliche rechte Bild das Modell dazu bringt, zu halluzinieren und widersprüchliche oder falsche Aussagen zu produzieren. Quelle: https://arxiv.org/pdf/2503.15948

Zwei Bilder aus dem WHOOPS!-Dataset neben automatisch generierten Aussagen des LVLM-Modells. Das linke Bild ist realistisch und führt zu konsistenten Beschreibungen, während das ungewöhnliche rechte Bild das Modell dazu bringt, zu halluzinieren und widersprüchliche oder falsche Aussagen zu produzieren. Quelle: https://arxiv.org/pdf/2503.15948

Wenn das LVLM aufgefordert wird, die Realität des zweiten Bildes zu bewerten, kann es erkennen, dass etwas nicht stimmt, da der abgebildete Kamel drei Höcker hat, was in der Natur unbekannt ist.

Allerdings verwechselt das LVLM zunächst >2 Höcker mit >2 Tiere, da dies die einzige Möglichkeit ist, wie man drei Höcker in einem ‘Kamel-Bild’ sehen kann. Es halluziniert dann etwas, das noch unwahrscheinlicher ist als drei Höcker (z. B. ‘zwei Köpfe’) und beschreibt nie das, was offensichtlich seine Verdachtsmomente ausgelöst hat – den unwahrscheinlichen zusätzlichen Höcker.

Die Forscher der neuen Arbeit fanden heraus, dass LVLM-Modelle diese Art der Bewertung nativ durchführen können und auf demselben Niveau wie (oder besser als) Modelle, die für eine solche Aufgabe fein abgestimmt wurden. Da Feinabstimmung kompliziert, teuer und eher brüchig in Bezug auf die Anwendbarkeit ist, ist die Entdeckung einer natürlichen Verwendung für einen der größten Hindernisse in der aktuellen AI-Revolution ein erfrischender Twist auf die allgemeinen Trends in der Literatur.

Offene Bewertung

Die Bedeutung des Ansatzes, so behaupten die Autoren, liegt darin, dass er mit Open-Source-Frameworks eingesetzt werden kann. Während ein fortschrittliches und hochinvestitives Modell wie ChatGPT (so räumt die Arbeit ein) potenziell bessere Ergebnisse in dieser Aufgabe liefern kann, liegt der arguable reale Wert der Literatur für die meisten von uns (und insbesondere für die Hobbyist- und VFX-Communities) in der Möglichkeit, neue Durchbrüche in lokalen Implementierungen zu integrieren und zu entwickeln; umgekehrt unterliegt alles, was für ein proprietäres kommerzielles API-System bestimmt ist, dem Risiko von Rücknahmen, willkürlichen Preiserhöhungen und Zensurpolitiken, die eher den corporate Bedenken des Unternehmens als den Bedürfnissen und Verantwortungen der Nutzer entsprechen.

Die neue Arbeit trägt den Titel Don’t Fight Hallucinations, Use Them: Estimating Image Realism using NLI over Atomic Facts und stammt von fünf Forschern aus dem Skolkovo Institute of Science and Technology (Skoltech), dem Moskauer Institut für Physik und Technologie, sowie den russischen Unternehmen MTS AI und AIRI. Die Arbeit hat eine begleitende GitHub-Seite.

Methode

Die Autoren verwenden das israelisch-amerikanische WHOOPS!-Dataset für das Projekt:

Beispiele von unmöglichen Bildern aus dem WHOOPS!-Dataset. Es ist bemerkenswert, wie diese Bilder plausible Elemente zusammenstellen und dass ihre Unwahrscheinlichkeit auf der Basis der Kombination dieser inkompatiblen Aspekte berechnet werden muss. Quelle: https://whoops-benchmark.github.io/

Beispiele von unmöglichen Bildern aus dem WHOOPS!-Dataset. Es ist bemerkenswert, wie diese Bilder plausible Elemente zusammenstellen und dass ihre Unwahrscheinlichkeit auf der Basis der Kombination dieser inkompatiblen Aspekte berechnet werden muss. Quelle: https://whoops-benchmark.github.io/

Das Dataset umfasst 500 synthetische Bilder und über 10.874 Annotationen, die speziell dafür entwickelt wurden, um die Fähigkeit von AI-Modellen zurcommonsense-Reasoning und kompositionellen Verständnis zu testen. Es wurde in Zusammenarbeit mit Designern erstellt, die mit Text-to-Image-Systemen wie Midjourney und der DALL-E-Serie herausfordernde Bilder generierten – Szenarien, die natürlich schwer oder unmöglich zu erfassen sind:

Weitere Beispiele aus dem WHOOPS!-Dataset. Quelle: https://huggingface.co/datasets/nlphuji/whoops

Weitere Beispiele aus dem WHOOPS!-Dataset. Quelle: https://huggingface.co/datasets/nlphuji/whoops

Autor über maschinelles Lernen, Domänen-Spezialist in der menschlichen Bildsynthese. Ehemaliger Leiter der Forschungsinhalte bei Metaphysic.ai.