Vernetzen Sie sich mit uns

Künstliche Intelligenz

Ein Erkennungssystem für reine Bildsynthese-Frameworks wie DALL-E 2

mm

NEU Forschungsprojekte von der University of California in Berkeley bietet eine Methode, um zu bestimmen, ob die Ausgabe der neuen Generation von Bildsynthese-Frameworks – wie Open AIs – erfolgt DALL-E2, und Googles Imagen, und Parts – können als „nicht real“ erkannt werden, indem man die Geometrie, Schatten und Reflexionen untersucht, die in den synthetisierten Bildern erscheinen.

Bei der Untersuchung von Bildern, die durch Textaufforderungen in DALL-E 2 generiert wurden, haben die Forscher herausgefunden, dass trotz des beeindruckenden Realismus, zu dem die Architektur fähig ist, einige anhaltende Inkonsistenzen im Zusammenhang mit der Darstellung der globalen Perspektive, der Erzeugung und Anordnung von Schatten usw. auftreten insbesondere hinsichtlich der Darstellung reflektierter Objekte.

Das Papier sagt:

„[Geometrische] Strukturen, Schlagschatten und Reflexionen in verspiegelten Oberflächen stimmen nicht vollständig mit der erwarteten perspektivischen Geometrie natürlicher Szenen überein.“ Geometrische Strukturen und Schatten sind im Allgemeinen lokal konsistent, global jedoch inkonsistent.

„Reflexionen hingegen werden oft unplausibel dargestellt, vermutlich weil sie im Trainingsbilddatensatz weniger häufig vorkommen.“

Laut der neuen Studie ist das Fehlen konsistenter Schnittpunkte zwischen dem gerenderten Objekt und der Darstellung seiner Reflexion derzeit eine zuverlässige Möglichkeit, ein DALL-E 2-Bild zu erkennen. Quelle: https://arxiv.org/pdf/2206.14617.pdf

Laut der neuen Studie ist das Fehlen konsistenter Schnittpunkte zwischen dem gerenderten Objekt und der Darstellung seiner Reflexion derzeit eine zuverlässige Möglichkeit, ein DALL-E 2-Bild zu erkennen. Quelle: https://arxiv.org/pdf/2206.14617.pdf

Das Papier stellt einen frühen Ausflug in etwas dar, das sich möglicherweise zu einem bemerkenswerten Bereich in der Computer-Vision-Forschungsgemeinschaft entwickeln könnte – die Bildsynthese-Erkennung.

Seit dem Aufkommen von Deepfakes im Jahr 2017 Deepfake-Erkennung (hauptsächlich von Autoencoder Ausgabe von Paketen wie DeepFaceLab und Gesicht tauschen) ist zu einem geworden aktiv und wettbewerbsfähig akademischer Bereich, mit verschiedenen Artikeln und Methoden, die auf die sich entwickelnden „Tells“ synthetisierter Gesichter in echtem Videomaterial abzielen.

Bis zum jüngsten Aufkommen hyperskalierbarer Bilderzeugungssysteme war die Ausgabe von Texteingabesystemen wie z CLIP stellte keine Bedrohung für den Status quo der „Fotorealität“ dar. Die Autoren des neuen Papiers glauben, dass sich dies bald ändern wird und dass selbst die Inkonsistenzen, die sie in der DALL-E 2-Ausgabe entdeckt haben, möglicherweise keinen großen Einfluss auf das Täuschungspotenzial der ausgegebenen Bilder für den Betrachter haben.

Die Autoren geben an*:

„[Solche] Ausfälle haben für das menschliche visuelle System, das sich bei bestimmten geometrischen Urteilen, einschließlich Inkonsistenzen, als überraschend unfähig erwiesen hat, möglicherweise keine große Bedeutung Beleuchtung, Schatten, Reflexionen, Betrachtungspositionund Perspektivische Verzerrung.'

Schwindende Glaubwürdigkeit

Die erste forensische Untersuchung der DALL-E 2-Ausgabe durch die Autoren bezieht sich auf die perspektivische Projektion – die Art und Weise, wie die Positionierung gerader Kanten in nahegelegenen Objekten und Texturen gleichmäßig zu einem „Fluchtpunkt“ aufgelöst werden sollte.

Links lösen sich parallele Linien auf derselben Ebene zu einem gemeinsamen Fluchtpunkt auf; Rechts definieren mehrere Fluchtpunkte auf derselben und parallelen Ebene eine Fluchtlinie (rot dargestellt).

Links lösen sich parallele Linien auf derselben Ebene zu einem gemeinsamen Fluchtpunkt auf; Rechts definieren mehrere Fluchtpunkte auf derselben und parallelen Ebene eine Fluchtlinie (rot dargestellt).

Um die Konsistenz von DALL-E 2 in dieser Hinsicht zu testen, verwendeten die Autoren DALL-E 2, um 25 synthetisierte Bilder von Küchen zu generieren – einem vertrauten Raum, der selbst in gut ausgestatteten Wohnungen normalerweise so eng ist, dass er mehrere mögliche Fluchtpunkte für eine Person bietet Auswahl an Objekten und Texturen.

Untersuchen der Ausgabe der Eingabeaufforderung „ein Foto einer Küche mit Fliesenboden“, stellten die Forscher fest, dass die abgebildeten Objekte trotz einer insgesamt überzeugenden Darstellung in jedem Fall (abgesehen von einigen seltsamen, kleineren Artefakten, die nichts mit der Perspektive zu tun haben) nie richtig zusammenzulaufen scheinen.

Die Autoren stellen fest, dass die einzelnen Sätze paralleler Linien des Fliesenmusters zwar konsistent sind und sich an einem einzigen Fluchtpunkt (blau im Bild unten) schneiden, der Fluchtpunkt für die Arbeitsplatte (cyan) jedoch nicht mit den beiden Fluchtlinien (rot) übereinstimmt ) und der aus den Kacheln abgeleitete Fluchtpunkt.

Die Autoren stellen fest, dass sich der Cyan-Fluchtpunkt in die (rote) Fluchtlinie auflösen sollte, die durch die Fluchtpunkte der Bodenfliesen definiert wird, selbst wenn die Arbeitsplatte nicht parallel zu den Fliesen verläuft.

Das Papier sagt:

„Während die Perspektive in diesen Bildern – beeindruckenderweise – lokal konsistent ist, ist sie global nicht konsistent.“ „Dasselbe Muster wurde in jedem der 25 synthetisierten Küchenbilder gefunden.“

Schattenforensik

Wie jeder, der sich jemals mit Raytracing beschäftigt hat, weiß, gibt es auch in Schatten potenzielle Fluchtpunkte, die auf eine Beleuchtung aus einer oder mehreren Quellen hinweisen. Bei Außenschatten bei grellem Sonnenlicht würde man erwarten, dass sich die Schatten über alle Facetten eines Bildes gleichmäßig auf die einzige Lichtquelle (die Sonne) auflösen.

Wie beim vorherigen Experiment erstellten die Forscher 25 DALL-E 2-Bilder mit der Aufforderung „„Drei Würfel auf einem Bürgersteig, fotografiert an einem sonnigen Tag“, sowie weitere 25 mit der Eingabeaufforderung „„Drei Würfel auf einem Bürgersteig, fotografiert an einem bewölkten Tag“.

In der oberen Reihe zeigen Bilder, die von den Forschern erstellt wurden, „drei Würfel auf einem Bürgersteig, fotografiert an einem bewölkten Tag“; in der unteren Reihe Bilder, die aus der Eingabeaufforderung „Drei Würfel auf einem Gehweg, fotografiert an einem sonnigen Tag“ entstanden sind.

In der oberen Reihe zeigen Bilder, die von den Forschern erstellt wurden, „drei Würfel auf einem Bürgersteig, fotografiert an einem bewölkten Tag“; in der unteren Reihe Bilder, die aus der Eingabeaufforderung „Drei Würfel auf einem Gehweg, fotografiert an einem sonnigen Tag“ entstanden sind.

Die Forscher stellen fest, dass DALL-E 2 bei der Darstellung bewölkter Bedingungen in der Lage ist, die diffuseren damit verbundenen Schatten auf überzeugende und plausible Weise wiederzugeben, vielleicht nicht zuletzt, weil diese Art von Schatten in den Datensatzbildern, auf denen sie abgebildet sind, wahrscheinlich häufiger vorkommt Rahmen trainiert wurde.

Allerdings stimmten einige der „sonnigen“ Fotos nach Ansicht der Autoren nicht mit einer Szene überein, die von einer einzigen Lichtquelle beleuchtet wurde.

Für das obige Bild wurden die Generationen aus Gründen der Klarheit in Graustufen umgewandelt und zeigen jedes Objekt mit seiner eigenen „Sonne“.

Obwohl der durchschnittliche Betrachter solche Anomalien möglicherweise nicht erkennt, wiesen einige der erzeugten Bilder deutlichere Beispiele für „Schattenfehler“ auf:

Während einige der Schatten einfach an der falschen Stelle sind, entsprechen viele von ihnen interessanterweise der Art von visueller Diskrepanz, die bei der CGI-Modellierung entsteht, wenn die Abtastrate für ein virtuelles Licht zu niedrig ist.

Reflexionen in DALL-E 2

Die vernichtendsten Ergebnisse im Hinblick auf die forensische Analyse kamen, als die Autoren die Fähigkeit von DALL-E 2 testeten, stark reflektierende Oberflächen zu erzeugen, was auch bei CGI-Raytracing und anderen herkömmlichen Rendering-Algorithmen eine aufwändige Berechnung darstellt.

Für dieses Experiment erstellten die Autoren 25 DALL-E 2-Bilder mit der Aufforderung „ein Foto eines Spielzeugdinosauriers und sein Spiegelbild in einem Kosmetikspiegel“.

In allen Fällen, so berichten die Autoren, war das Spiegelbild des wiedergegebenen Spielzeugs in irgendeiner Weise vom Aussehen und der Disposition des „echten“ Spielzeugdinosauriers abgekoppelt. Die Autoren geben an, dass das Problem resistent gegen Variationen in der Textaufforderung war und dass es sich offenbar um eine grundlegende Schwäche des Systems handelt.

In einigen Fehlern scheint eine Logik zu liegen – das erste und dritte Beispiel in der oberen Reihe scheinen einen Dinosaurier zu zeigen dupliziert sehr gut, aber nicht gespiegelt.

Die Autoren kommentieren:

„Im Gegensatz zu den Schlagschatten und geometrischen Strukturen in den vorherigen Abschnitten hat DALL·E-2 Schwierigkeiten, plausible Reflexionen zu synthetisieren, vermutlich weil solche Reflexionen in seinem Trainingsbilddatensatz weniger häufig vorkommen.“

Störungen wie diese können in zukünftigen Text-zu-Bild-Modellen behoben werden, die in der Lage sind, die gesamte semantische Logik ihrer Ausgabe effektiver zu überprüfen und die in der Lage sein werden, Szenen, die bis zu einem gewissen Grad vorhanden waren, abstrakte physikalische Regeln aufzuerlegen aus wortrelevanten Merkmalen im latenten Raum des Systems zusammengesetzt.

Angesichts des wachsenden Trends zu immer größeren Synthesearchitekturen kommen die Autoren zu dem Schluss:

„[Es] könnte nur eine Frage der Zeit sein, bis Paint-by-Text-Synthese-Engines lernen, Bilder mit vollständiger perspektivischer Konsistenz wiederzugeben.“ Bis dahin könnten sich jedoch geometrische forensische Analysen bei der Analyse dieser Bilder als nützlich erweisen.“

 

* Meine Umwandlung der Inline-Zitate der Autoren in Hyperlinks.

Erstveröffentlichung am 30. Juni 2022.

Autor zum Thema maschinelles Lernen, Fachspezialist für die Synthese menschlicher Bilder. Ehemaliger Leiter für Forschungsinhalte bei Metaphysic.ai.
Persönliche Seite: martinanderson.ai
Kontakt: [E-Mail geschützt]
Twitter: @manders_ai