Andersons Blickwinkel
Ist DALL-E 2 nur “Dinge zusammenkleben” ohne ihre Beziehungen zu verstehen?

Eine neue Studie der Harvard University legt nahe, dass OpenAIs text-to-image-Framework DALL-E 2 erhebliche Schwierigkeiten hat, auch nur kinderleichte Beziehungen zwischen den Elementen, die es in synthetisierten Fotos kombiniert, wiederzugeben, trotz der atemberaubenden Sophistikation vieler seiner Ausgaben.
Die Forscher führten eine Benutzerstudie mit 169 Teilnehmern durch, die aus der Crowd stammten und mit DALL-E-2-Bildern basierend auf den grundlegendsten menschlichen Prinzipien der Beziehungssemantik konfrontiert wurden, zusammen mit den Text-Prompts, die sie erstellt hatten. Als sie gefragt wurden, ob die Prompts und die Bilder verwandt seien, wurden weniger als 22% der Bilder als relevant für ihre zugehörigen Prompts angesehen, in Bezug auf die sehr einfachen Beziehungen, die DALL-E 2 visualisieren sollte.

Ein Screenshot aus den durchgeführten Tests. Die Teilnehmer wurden aufgefordert, alle Bilder auszuwählen, die dem Prompt entsprachen. Quelle: https://arxiv.org/pdf/2208.00005.pdf
Die Ergebnisse legen auch nahe, dass DALL-Es scheinbare Fähigkeit, disparate Elemente zu verbinden, abnehmen kann, wenn diese Elemente weniger wahrscheinlich in den realen Trainingsdaten vorkommen, die das System antreiben.
Beispielsweise erhielten Bilder für den Prompt “Kind berührt eine Schüssel” eine Zustimmungsrate von 87% (d. h. die Teilnehmer klickten auf die meisten Bilder als relevant für den Prompt), während ähnlich photorealistische Renderings von “einem Affen, der eine Echse berührt” nur 11% Zustimmung erhielten:

DALL-E hat Schwierigkeiten, das unwahrscheinliche Ereignis eines ‘Affen, der eine Echse berührt’ darzustellen.
Im zweiten Beispiel bekommt DALL-E 2 häufig die Größe und sogar die Art falsch, vermutlich wegen eines Mangels an realen Bildern, die dieses Ereignis darstellen. Im Gegensatz dazu ist es vernünftig, eine hohe Anzahl von Trainingsfotos im Zusammenhang mit Kindern und Essen zu erwarten, und dass diese Subdomäne/Klasse gut entwickelt ist.
DALL-Es Schwierigkeit, wild kontrastierende Bild-elemente zu kombinieren, legt nahe, dass die Öffentlichkeit derzeit so sehr von den photorealistischen und interpretativen Fähigkeiten des Systems beeindruckt ist, dass sie kein kritisches Auge für Fälle entwickelt hat, in denen das System effektiv nur ein Element stark auf ein anderes “geklebt” hat, wie in diesen Beispielen von der offiziellen DALL-E-2-Website:

Kleben und Schneiden-Synthese, von der offiziellen DALL-E-2-Beispiel-Seite. Quelle: https://openai.com/dall-e-2/
Die neue Studie besagt*:
‘Relationales Verständnis ist ein grundlegender Bestandteil der menschlichen Intelligenz, der sich früh in der Entwicklung manifestiert und schnell und automatisch in der Wahrnehmung berechnet wird.
‘DALL-E 2s Schwierigkeit mit sogar grundlegenden räumlichen Beziehungen (wie in, on, under) legt nahe, dass es, was auch immer es gelernt hat, noch nicht die Art von Repräsentationen gelernt hat, die es Menschen ermöglichen, die Welt so flexibel und robust zu strukturieren.
‘Eine direkte Interpretation dieser Schwierigkeit ist, dass Systeme wie DALL-E 2 noch keine relationale Zusammensetzung haben.’
Die Autoren schlagen vor, dass textgesteuerte Bildgenerierungssysteme wie die DALL-E-Serie von Algorithmen profitieren könnten, die in der Robotik verwendet werden, die Identitäten und Beziehungen gleichzeitig modellieren, aufgrund der Notwendigkeit, dass der Agent tatsächlich mit der Umgebung interagiert, anstatt nur eine Mischung aus verschiedenen Elementen zu fabrizieren.
Eine solche Methode, die CLIPort genannt wird, verwendet den gleichen CLIP-Mechanismus, der als Qualitätsbewertungselement in DALL-E 2 dient:

CLIPort, eine 2021-Kollaboration zwischen der University of Washington und NVIDIA, verwendet CLIP in einem so praktischen Kontext, dass die auf ihm trainierten Systeme notwendigerweise ein Verständnis für physikalische Beziehungen entwickeln müssen. Quelle: https://arxiv.org/pdf/2109.12098.pdf
Die Autoren schlagen weiter vor, dass eine andere mögliche Verbesserung darin bestehen könnte, die Architektur von Bildsynthese-Systemen wie DALL-E so zu ändern, dass sie multiplikative Effekte in einer einzigen Rechenschicht berücksichtigen, um die Beziehungen auf eine Weise zu berechnen, die von den Informationsverarbeitungskapazitäten biologischer Systeme inspiriert ist.
Die neue Studie ist betitelt Testing Relational Understanding in Text-Guided Image Generation und stammt von Colin Conwell und Tomer D. Ullman vom Psychologischen Institut der Harvard University.
Jenseits der frühen Kritik
In einem Kommentar zur “Zauberei” hinter der Realität und Integrität von DALL-E 2s Ausgaben bemerken die Autoren frühere Arbeiten, die Mängel in DALL-E-ähnlichen generativen Bildsystemen gefunden haben.
Im Juni dieses Jahres stellte die University of California, Berkeley, fest, dass DALL-E Schwierigkeiten hat, Reflexionen und Schatten zu handhaben; im gleichen Monat untersuchte eine Studie aus Korea die “Einzigartigkeit” und Originalität von DALL-E-2-ähnlichen Ausgaben mit einem kritischen Auge; eine vorläufige Analyse von DALL-E-2-Bildern, kurz nach dem Launch, von der New York University und der University of Texas, fand verschiedene Probleme mit der Zusammensetzung und anderen wesentlichen Faktoren in DALL-E-2-Bildern; und im letzten Monat bot eine gemeinsame Arbeit zwischen der University of Illinois und dem Massachusetts Institute of Technology Vorschläge für architektonische Verbesserungen solcher Systeme in Bezug auf die Zusammensetzung.
Die Forscher bemerken weiter, dass DALL-E-Luminarien wie Aditya Ramesh die Probleme des Frameworks mit Bindung, relativer Größe, Text und anderen Herausforderungen anerkannt haben.
Die Entwickler hinter Googles rivalem Bildsynthese-System Imagen haben auch DrawBench vorgeschlagen, ein neues Vergleichssystem, das die Bildgenauigkeit über Frameworks mit verschiedenen Metriken misst.
Stattdessen schlagen die Autoren der neuen Studie vor, dass ein besseres Ergebnis erzielt werden könnte, indem man menschliche Schätzungen – anstatt algorithmischer Metriken – gegen die resultierenden Bilder stellt, um festzustellen, wo die Schwächen liegen und was getan werden könnte, um sie zu mildern.
Die Studie
Zu diesem Zweck basiert die neue Studie auf psychologischen Prinzipien und versucht, sich von dem aktuellen Interesse an Prompt-Engineering zurückzuziehen (was im Wesentlichen ein Eingeständnis der Mängel von DALL-E 2 oder einem vergleichbaren System ist), um die Grenzen zu untersuchen und möglicherweise anzugehen, die solche “Workarounds” notwendig machen.
Die Studie besagt:
‘Die vorliegende Arbeit konzentriert sich auf eine Reihe von 15 grundlegenden Beziehungen, die zuvor in der kognitiven, entwicklungspsychologischen oder linguistischen Literatur beschrieben, untersucht oder vorgeschlagen wurden. Die Reihe enthält sowohl grundlegende räumliche Beziehungen (z. B. ‘X auf Y’) als auch abstraktere agente Beziehungen (z. B. ‘X hilft Y’).
‘Die Prompts sind absichtlich einfach, ohne Attribut-Komplexität oder Ausgestaltung. Das bedeutet, dass wir anstelle eines Prompts wie ‘ein Esel und eine Ente spielen ein Spiel. Der Esel hält ein Seil an einem Ende, die Ente hält sich am anderen Ende fest. Der Esel hält das Seil im Maul. Eine Katze springt über das Seil’ ein Prompt wie ‘eine Schachtel auf einem Messer’ verwenden.
‘Die Einfachheit erfasst dennoch einen weiten Bereich von Beziehungen aus verschiedenen Subdomänen der menschlichen Psychologie und macht mögliche Modellfehler auffälliger und spezifischer.’
Für ihre Studie rekrutierten die Autoren 169 Teilnehmer von Prolific, alle in den USA ansässig, mit einem Durchschnittsalter von 33 Jahren und 59% weiblich.
Die Teilnehmer wurden 18 Bilder in einem 3×6-Raster mit dem Prompt am oberen Rand und einem Disclaimer am unteren Rand gezeigt, der angab, dass alle, einige oder keine der Bilder möglicherweise aus dem angezeigten Prompt generiert wurden, und wurden dann aufgefordert, die Bilder auszuwählen, die sie für relevant hielten.
Die den Teilnehmern präsentierten Bilder basierten auf linguistischer, entwicklungspsychologischer und kognitiver Literatur und umfassten eine Reihe von acht physischen und sieben “agente” Beziehungen (das wird gleich klar werden).
Physische Beziehungen
in, auf, unter, bedeckt, in der Nähe, verdeckt von, hängt über, und gebunden an.
Agente Beziehungen
schieben, ziehen, berühren, schlagen, treten, helfen, und behindern.
Alle diese Beziehungen wurden aus den zuvor genannten nicht-CS-Feldern der Forschung abgeleitet.
Zwölf Entitäten wurden so für die Prompts abgeleitet, mit sechs Objekten und sechs Agenten:
Objekte
Schachtel, Zylinder, Decke, Schüssel, Teetasse, und Messer.
Agenten
Mann, Frau, Kind, Roboter, Affe, und Echse.
(Die Forscher geben zu, dass die Aufnahme der Echse, kein Hauptbestandteil der trockenen soziologischen oder psychologischen Forschung, ein “Vergnügen” war)
Für jede Beziehung wurden fünf verschiedene Prompts erstellt, indem zwei Entitäten fünfmal zufällig ausgewählt wurden, was insgesamt 75 Prompts ergab, von denen jedes an DALL-E 2 übergeben und für jedes die anfänglichen 18 bereitgestellten Bilder verwendet wurden, ohne Variationen oder zweite Chancen.
Ergebnisse
Die Studie besagt*:
‘Die Teilnehmer berichteten im Durchschnitt über eine geringe Übereinstimmung zwischen DALL-E 2s Bildern und den Prompts, die zur Generierung verwendet wurden, mit einem Mittelwert von 22,2% [18,3, 26,6] über die 75 verschiedenen Prompts.
‘Agente Prompts, mit einem Mittelwert von 28,4% [22,8, 34,2] über 35 Prompts, erzeugten eine höhere Übereinstimmung als physische Prompts, mit einem Mittelwert von 16,9% [11,9, 23,0] über 40 Prompts.’

Ergebnisse der Studie. Punkte in Schwarz bezeichnen alle Prompts.
Um den Unterschied zwischen menschlicher und algorithmischer Wahrnehmung der Bilder zu vergleichen, führten die Forscher ihre Renderings durch OpenAIs Open-Source-ViT-L/14-CLIP-Framework aus. Bei der Durchschnittsbildung der Ergebnisse fanden sie eine “moderate Beziehung” zwischen den beiden Ergebnissätzen, was vielleicht überraschend ist, wenn man bedenkt, wie sehr CLIP selbst zur Generierung der Bilder beiträgt.

Ergebnisse des CLIP-(ViT-L/14)-Vergleichs gegen menschliche Antworten.
Die Forscher schlagen vor, dass andere Mechanismen innerhalb der Architektur, vielleicht in Kombination mit einem zufälligen Überwiegen (oder Mangel) von Daten im Trainingsset, für die Art und Weise verantwortlich sein könnten, wie CLIP DALL-Es Einschränkungen erkennen kann, ohne in allen Fällen etwas dagegen unternehmen zu können.
Die Autoren kommen zu dem Schluss, dass DALL-E 2 nur eine nominelle Fähigkeit hat, Bilder zu reproduzieren, die relationales Verständnis beinhalten, ein grundlegender Aspekt der menschlichen Intelligenz, der sich sehr früh entwickelt.
‘Die Vorstellung, dass Systeme wie DALL-E 2 keine Zusammensetzung haben, mag für jeden, der DALL-E 2s überzeugende Antworten auf Prompts wie ‘eine Cartoon-Figur eines Babymangold in einem Tutu, der einen Pudel spazieren führt’ gesehen hat, überraschend sein. Solche Prompts erzeugen oft eine sinnvolle Approximation eines zusammengesetzten Konzepts, mit allen Teilen des Prompts vorhanden und an den richtigen Stellen.
‘Zusammensetzung ist jedoch nicht nur die Fähigkeit, Dinge zusammenzukleben – auch Dinge, die man noch nie zuvor zusammen gesehen hat. Zusammensetzung erfordert ein Verständnis der Regeln, die Dinge zusammenbinden. Beziehungen sind solche Regeln.’
Mann beißt T-Rex
Meinung Wenn OpenAI eine größere Anzahl von Benutzern für DALL-E 2 öffnet, nachdem es kürzlich die Beta-Monetarisierung des Systems eingeführt hat, und da man nun für die meisten Generierungen bezahlen muss, können die Einschränkungen von DALL-E 2s relationalem Verständnis offensichtlicher werden, da jeder “fehlgeschlagene” Versuch ein finanzielles Gewicht hat und Rückerstattungen nicht möglich sind.
Diejenigen von uns, die eine Einladung ein wenig früher erhalten haben, hatten Zeit (und bis vor kurzem auch mehr Muße, um mit dem System zu experimentieren) und konnten einige der “Beziehungsfehler” beobachten, die DALL-E 2 erzeugen kann.
Beispielsweise ist es für einen Fan von Jurassic Park sehr schwierig, ein Bild zu erstellen, auf dem ein Dinosaurier eine Person jagt, obwohl das Konzept von “jagen” nicht in DALL-E 2s Zensursystem zu sein scheint und obwohl die lange Geschichte von Dinosaurier-Filmen reichlich Trainingsbeispiele (zumindest in Form von Trailern und Publicity-Shots) für diese ansonsten unmögliche Begegnung von Arten liefern sollte.

Eine typische DALL-E-2-Antwort auf den Prompt ‘Ein Farbfoto von einem T-Rex, der einen Mann auf einer Straße jagt’. Quelle: DALL-E 2
Ich habe festgestellt, dass die oben gezeigten Bilder typisch für Variationen des Prompts “[Dinosaurier] jagt [eine Person]” sind und dass keine Menge an Ausgestaltung im Prompt den T-Rex dazu bringen kann, tatsächlich zu gehorchen. In den ersten beiden Bildern jagt der Mann den T-Rex; im dritten nähert er sich ihm mit einer lässigen Missachtung der Sicherheit; und im letzten Bild joggt er parallel zum großen Tier. Bei etwa 10-15 Versuchen dieses Themas habe ich festgestellt, dass der Dinosaurier ähnlich “abgelenkt” ist.
Es könnte sein, dass die einzigen Trainingsdaten, auf die DALL-E 2 zugreifen konnte, in der Art von “Mann kämpft gegen Dinosaurier” lagen, von Publicity-Shots für ältere Filme wie One Million Years B.C. (1966), und dass Jeff Goldblums berühmte Flucht vor dem König der Raubtiere einfach ein Ausreißer in dieser kleinen Datenmenge ist.
* Meine Umwandlung der inline-Zitate der Autoren in Hyperlinks.
Erstveröffentlicht am 4. August 2022.













