Vernetzen Sie sich mit uns

KĂŒnstliche Intelligenz

Klebet DALL-E 2 nur Dinge zusammen, ohne ihre Beziehungen zu verstehen?

mm
„Eine Tasse auf einem Löffel“. Quelle: DALL-E 2.

Eine neue Forschungsarbeit der Harvard University legt nahe, dass das schlagzeilentrÀchtige Text-zu-Bild-Framework DALL-E 2 von OpenAI erhebliche Schwierigkeiten hat, selbst kindliche Beziehungen zwischen den Elementen, die es zu synthetisierten Fotos zusammensetzt, zu reproduzieren, trotz der erstaunlichen Raffinesse vieler davon seine Ausgabe.

Die Forscher fĂŒhrten eine Benutzerstudie mit 169 Crowdsourcing-Teilnehmern durch, denen DALL-E 2-Bilder prĂ€sentiert wurden, die auf den grundlegendsten menschlichen Prinzipien der Beziehungssemantik basierten, zusammen mit den Textaufforderungen, die sie erstellt hatten. Auf die Frage, ob die Aufforderungen und die Bilder zusammenhĂ€ngen, wurden weniger als 22 % der Bilder als relevant fĂŒr die zugehörigen Aufforderungen wahrgenommen, im Hinblick auf die sehr einfachen Beziehungen, die DALL-E 2 visualisieren sollte.

Ein Screenshot der fĂŒr das neue Papier durchgefĂŒhrten Versuche. Die Teilnehmer wurden beauftragt, alle Bilder auszuwĂ€hlen, die der Aufforderung entsprachen. Trotz des Haftungsausschlusses am unteren Rand der BenutzeroberflĂ€che wurden die Bilder in allen FĂ€llen, ohne dass die Teilnehmer es wussten, tatsĂ€chlich aus der angezeigten zugehörigen Eingabeaufforderung generiert. Quelle: https://arxiv.org/pdf/2208.00005.pdf

Ein Screenshot der fĂŒr das neue Papier durchgefĂŒhrten Versuche. Die Teilnehmer wurden beauftragt, alle Bilder auszuwĂ€hlen, die der Aufforderung entsprachen. Trotz des Haftungsausschlusses am unteren Rand der BenutzeroberflĂ€che wurden die Bilder in allen FĂ€llen, ohne dass die Teilnehmer es wussten, tatsĂ€chlich aus der angezeigten zugehörigen Eingabeaufforderung generiert. Quelle: https://arxiv.org/pdf/2208.00005.pdf

Die Ergebnisse deuten auch darauf hin, dass die offensichtliche FÀhigkeit von DALL-E, unterschiedliche Elemente zu verbinden, abnehmen könnte, da die Wahrscheinlichkeit sinkt, dass diese Elemente in den realen Trainingsdaten, die das System antreiben, vorkommen.

Beispielsweise erzielten Bilder fĂŒr die Aufforderung „Kind berĂŒhrt eine SchĂŒssel“ eine Zustimmungsrate von 87 % (d. h. die Teilnehmer klickten auf die meisten Bilder, die fĂŒr die Aufforderung relevant waren), wohingegen Ă€hnlich fotorealistische Darstellungen von „Ein Affe berĂŒhrt einen Leguan“ erzielt wurden nur 11 % Zustimmung:

DALL-E hat MĂŒhe, das unwahrscheinliche Ereignis „ein Affe, der einen Leguan berĂŒhrt“ darzustellen, wohl weil es im Trainingsset ungewöhnlich ist und wahrscheinlich nicht existiert.

DALL-E hat MĂŒhe, das unwahrscheinliche Ereignis „ein Affe, der einen Leguan berĂŒhrt“ darzustellen, wohl weil es im Trainingsset ungewöhnlich und wahrscheinlich gar nicht vorhanden ist.

Im zweiten Beispiel misst DALL-E 2 hĂ€ufig den Maßstab und sogar die Art, was vermutlich auf einen Mangel an Bildern aus der realen Welt zurĂŒckzufĂŒhren ist, die dieses Ereignis darstellen. Im Gegensatz dazu ist davon auszugehen, dass es eine große Anzahl an Schulungsfotos zum Thema Kinder und Essen gibt und dass diese UnterdomĂ€ne/Klasse gut entwickelt ist.

Die Schwierigkeit von DALL-E bei der GegenĂŒberstellung stark kontrastierender Bildelemente deutet darauf hin, dass die Öffentlichkeit derzeit von den fotorealistischen und umfassenden InterpretationsfĂ€higkeiten des Systems so geblendet ist, dass sie kein kritisches Auge fĂŒr FĂ€lle entwickelt hat, in denen das System ein Element praktisch nur stark an ein anderes „geklebt“ hat , wie in diesen Beispielen von der offiziellen DALL-E 2-Website:

Cut-and-Paste-Synthese aus den offiziellen Beispielen fĂŒr DALL-E 2. Quelle: https://openai.com/dall-e-2/

Cut-and-Paste-Synthese aus den offiziellen Beispielen fĂŒr DALL-E 2. Quelle: https://openai.com/dall-e-2/

Im neuen Papier heißt es*:

„Relationales VerstĂ€ndnis ist ein grundlegender Bestandteil der menschlichen Intelligenz, der sich manifestiert frĂŒh in der Entwicklungund wird schnell und automatisch berechnet in der Wahrnehmung.

Die Schwierigkeiten von „DALL-E 2“ selbst mit grundlegenden rĂ€umlichen Beziehungen (wie z in, on, fĂŒr) deutet darauf hin, dass es, was auch immer es gelernt hat, noch nicht die Art von Darstellungen gelernt hat, die es dem Menschen ermöglichen, die Welt so flexibel und robust zu strukturieren.

„Eine direkte Interpretation dieser Schwierigkeit ist, dass Systeme wie DALL-E 2 noch nicht ĂŒber relationale KompositionalitĂ€t verfĂŒgen.“

Die Autoren schlagen vor, dass textgesteuerte Bilderzeugungssysteme wie die DALL-E-Serie von der Nutzung von in der Robotik ĂŒblichen Algorithmen profitieren könnten, die IdentitĂ€ten und Beziehungen gleichzeitig modellieren, da der Agent tatsĂ€chlich mit der Umgebung interagieren muss, anstatt nur etwas zu fabrizieren eine Mischung aus verschiedenen Elementen.

Ein solcher Ansatz mit dem Titel CLIPort, verwendet dasselbe CLIP-Mechanismus das als QualitÀtsbewertungselement in DALL-E 2 dient:

CLIPort, eine Zusammenarbeit zwischen der University of Washington und NVIDIA im Jahr 2021, nutzt CLIP in einem so praktischen Kontext, dass die darauf trainierten Systeme notwendigerweise ein VerstĂ€ndnis fĂŒr physikalische ZusammenhĂ€nge entwickeln mĂŒssen, ein Motivator, der in DALL-E 2 fehlt und Ă€hnlich „fantastisch“ ist. Bildsynthese-Frameworks. Quelle: https://arxiv.org/pdf/2109.12098.pdf

CLIPort, eine Zusammenarbeit zwischen der University of Washington und NVIDIA im Jahr 2021, nutzt CLIP in einem so praktischen Kontext, dass die darauf trainierten Systeme notwendigerweise ein VerstĂ€ndnis fĂŒr physikalische ZusammenhĂ€nge entwickeln mĂŒssen, ein Motivator, der in DALL-E 2 fehlt und Ă€hnlich „fantastisch“ ist. Bildsynthese-Frameworks. Quelle: https://arxiv.org/pdf/2109.12098.pdf

Die Autoren schlagen außerdem vor, dass „ein weiteres plausibles Upgrade“ darin bestehen könnte, die Architektur von Bildsynthesesystemen wie DALL-E zu integrieren multiplikative Effekte in einer einzigen Rechenschicht, die die Berechnung von Beziehungen auf eine Weise ermöglicht, die von den InformationsverarbeitungskapazitĂ€ten von inspiriert ist und mit einander verheirateten Systeme.

Der neues Papier ist betitelt Testen des relationalen VerstÀndnisses bei der textgesteuerten Bildgenerierungund stammt von Colin Conwell und Tomer D. Ullman vom Department of Psychology der Harvard University.

Jenseits der frĂŒhen Kritik

Die Autoren kommentieren die „Taschenspielertricks“ hinter dem Realismus und der IntegritĂ€t der Ausgabe von DALL-E 2 und weisen auf frĂŒhere Arbeiten hin, bei denen MĂ€ngel in generativen Bildsystemen im DALL-E-Stil festgestellt wurden.

Im Juni dieses Jahres, UoC Berkeley bekannt die Schwierigkeiten, die DALL-E beim Umgang mit Reflexionen und Schatten hat; Im selben Monat untersuchte eine Studie aus Korea die „Einzigartigkeit“ und OriginalitĂ€t der Ausgabe im DALL-E 2-Stil mit kritischem Blick, Ein Voruntersuchung von DALL-E 2-Bildern, kurz nach dem Start, von der NYU und der University of Texas, fanden verschiedene Probleme mit der Komposition und anderen wesentlichen Faktoren in DALL-E 2-Bildern; und letzten Monat, eine gemeinsame Arbeit zwischen der University of Illinois und dem MIT bot VorschlĂ€ge fĂŒr architektonische Verbesserungen solcher Systeme im Hinblick auf die KompositionalitĂ€t an.

Die Forscher stellen außerdem fest, dass DALL-E-KoryphĂ€en wie Aditya Ramesh dies getan haben rĂ€umte die Probleme des Frameworks mit Bindung, relativer GrĂ¶ĂŸe, Text und anderen Herausforderungen.

Auch die Entwickler von Googles konkurrierendem Bildsynthesesystem Imagen haben einen Vorschlag gemacht DrawBank, ein neuartiges Vergleichssystem, das die Bildgenauigkeit ĂŒber Frameworks hinweg mit unterschiedlichen Metriken misst.

Stattdessen schlagen die Autoren des neuen Papiers vor, dass ein besseres Ergebnis erzielt werden könnte, wenn man menschliche EinschĂ€tzungen – und nicht interne, algorithmische Metriken – mit den resultierenden Bildern vergleicht, um herauszufinden, wo die SchwĂ€chen liegen und was getan werden könnte, um sie zu mildern.

Die Studie

Zu diesem Zweck basiert der Ansatz des neuen Projekts auf psychologischen Prinzipien und versucht, sich vom Strom zurĂŒckzuziehen Anstieg des Interesses in schnelles Engineering (was in der Tat ein ZugestĂ€ndnis an die MĂ€ngel von DALL-E 2 oder einem vergleichbaren System darstellt), um die EinschrĂ€nkungen zu untersuchen und möglicherweise anzugehen, die solche „Problemumgehungen“ erforderlich machen.

Das Papier sagt:

„Die aktuelle Arbeit konzentriert sich auf eine Reihe von 15 grundlegenden Beziehungen, die zuvor in der kognitiven, entwicklungsbezogenen oder linguistischen Literatur beschrieben, untersucht oder vorgeschlagen wurden.“ Die Menge enthĂ€lt sowohl begrĂŒndete rĂ€umliche Beziehungen (z. B. „X auf Y“) als auch abstraktere Agentenbeziehungen (z. B. „X hilft Y“).

„Die Eingabeaufforderungen sind bewusst einfach, ohne AttributkomplexitĂ€t oder Ausarbeitung.“ Das heißt, anstelle einer Aufforderung wie „Ein Esel und ein Oktopus spielen ein Spiel.“ An einem Ende hĂ€lt der Esel ein Seil, am anderen hĂ€lt sich der Oktopus fest. Der Esel hĂ€lt das Seil im Maul. „Eine Katze springt ĂŒber das Seil“, wir verwenden „eine Kiste auf einem Messer“.

„Die Einfachheit erfasst immer noch ein breites Spektrum an Beziehungen aus verschiedenen Teilbereichen der menschlichen Psychologie und macht potenzielle Modellfehler auffĂ€lliger und spezifischer.“

FĂŒr ihre Studie rekrutierten die Autoren 169 Teilnehmer von Prolific, alle mit Sitz in den USA, mit einem Durchschnittsalter von 33 Jahren und 59 % Frauen.

Den Teilnehmern wurden 18 Bilder gezeigt, die in einem 3×6-Raster angeordnet waren, mit der Eingabeaufforderung oben und einem Haftungsausschluss unten, der besagte, dass alle, einige oder keine der Bilder möglicherweise aus der angezeigten Eingabeaufforderung generiert wurden, und wurden dann dazu aufgefordert WĂ€hlen Sie die Bilder aus, von denen sie glauben, dass sie auf diese Weise zusammenhĂ€ngen.

Die den Individuen prĂ€sentierten Bilder basierten auf sprachlicher, entwicklungsbezogener und kognitiver Literatur und umfassten eine Reihe von acht physischen und sieben „agentischen“ Beziehungen (dies wird gleich klar werden).

Körperliche Beziehungen
in, auf, unter, bedeckend, nahe, verdeckt durch, hÀngend, und gebunden.

Agentenbeziehungen
schieben, ziehen, berĂŒhren, schlagen, treten, helfen, und behindernd.

Alle diese Beziehungen wurden aus den zuvor genannten Nicht-CS-Studienbereichen abgeleitet.

Auf diese Weise wurden zwölf EntitÀten zur Verwendung in den Eingabeaufforderungen abgeleitet, mit sechs Objekten und sechs Agenten:

Objekte
Schachtel, Zylinder, Decke, SchĂŒssel, Teetasse, und Messer.

Makler
Mann, Frau, Kind, Roboter, Affe, und Leguan.

(Die Forscher geben zu, dass die Einbeziehung des Leguans, der kein Hauptbestandteil der trockenen soziologischen oder psychologischen Forschung ist, „ein VergnĂŒgen“ war.)

FĂŒr jede Beziehung wurden fĂŒnf verschiedene Eingabeaufforderungen erstellt, indem zwei EntitĂ€ten fĂŒnfmal zufĂ€llig ausgewĂ€hlt wurden, was insgesamt 75 Eingabeaufforderungen ergab, von denen jede an DALL-E 2 ĂŒbermittelt wurde und fĂŒr die jeweils die ursprĂŒnglich 18 bereitgestellten Bilder ohne Variationen verwendet wurden oder zweite Chancen erlaubt.

Ergebnisse

In dem Papier heißt es*:

„Die Teilnehmer gaben im Durchschnitt eine geringe Übereinstimmung zwischen den Bildern von DALL-E 2 und den Eingabeaufforderungen an, die zu ihrer Erstellung verwendet wurden, mit einem Mittelwert von 22.2 % [18.3, 26.6] bei den 75 verschiedenen Eingabeaufforderungen.“

„Agentische Eingabeaufforderungen erzeugten mit einem Mittelwert von 28.4 % [22.8, 34.2] bei 35 Eingabeaufforderungen eine höhere Zustimmung als physische Eingabeaufforderungen mit einem Mittelwert von 16.9 % [11.9, 23.0] bei 40 Eingabeaufforderungen.“

Ergebnisse der Studie. Punkte in Schwarz kennzeichnen alle Eingabeaufforderungen, wobei jeder Punkt eine einzelne Eingabeaufforderung ist, und die Farbe gliedert sich danach, ob es sich bei dem Eingabeaufforderungssubjekt um einen Agenten oder ein physisches Objekt handelte.

Ergebnisse der Studie. Punkte in Schwarz kennzeichnen alle Eingabeaufforderungen, wobei jeder Punkt eine einzelne Eingabeaufforderung ist, und die Farbe gliedert sich danach, ob es sich bei dem Eingabeaufforderungssubjekt um einen Agenten oder ein physisches Objekt handelte.

Um den Unterschied zwischen menschlicher und algorithmischer Wahrnehmung der Bilder zu vergleichen, ließen die Forscher ihre Renderings ĂŒber OpenAIs Open Source laufen ViT-L/14 CLIP-basiertes Framework. Beim Mitteln der Ergebnisse stellten sie einen „mĂ€ĂŸigen Zusammenhang“ zwischen den beiden ErgebnissĂ€tzen fest, was vielleicht ĂŒberraschend ist, wenn man bedenkt, inwieweit CLIP selbst bei der Generierung der Bilder hilft.

Ergebnisse des CLIP (ViT-L/14)-Vergleichs mit menschlichen Reaktionen.

Ergebnisse des CLIP (ViT-L/14)-Vergleichs mit menschlichen Reaktionen.

Die Forscher vermuten, dass andere Mechanismen innerhalb der Architektur, möglicherweise kombiniert mit einem zufĂ€lligen Überwiegen (oder Fehlen) von Daten im Trainingssatz, dafĂŒr verantwortlich sein könnten, dass CLIP die EinschrĂ€nkungen von DALL-E erkennen kann, ohne in jedem Fall etwas tun zu können viel ĂŒber das Problem.

Die Autoren kommen zu dem Schluss, dass DALL-E 2, wenn ĂŒberhaupt, nur eine fiktive FĂ€higkeit besitzt, Bilder zu reproduzieren, die relationales VerstĂ€ndnis beinhalten, eine grundlegende Facette der menschlichen Intelligenz, die sich in uns sehr frĂŒh entwickelt.

„Die Vorstellung, dass Systeme wie DALL-E 2 nicht ĂŒber KompositionalitĂ€t verfĂŒgen, dĂŒrfte jeden ĂŒberraschen, der die auffallend vernĂŒnftigen Reaktionen von DALL-E 2 auf Aufforderungen wie „ein Cartoon eines Daikon-Rettichbabys in einem Tutu, das mit einem Pudel geht“ gesehen hat.“ Aufforderungen wie diese erzeugen oft eine sinnvolle AnnĂ€herung an ein kompositorisches Konzept, wobei alle Teile der Aufforderungen vorhanden sind und an den richtigen Stellen vorhanden sind.

„KompositionalitĂ€t ist jedoch nicht nur die FĂ€higkeit, Dinge zusammenzufĂŒgen – auch Dinge, die man vielleicht noch nie zuvor zusammen beobachtet hat.“ KompositionalitĂ€t erfordert ein VerstĂ€ndnis der Ohne eine erfahrene Medienplanung zur Festlegung von Regeln und Strategien beschleunigt der programmatische Medieneinkauf einfach die Rate der verschwenderischen Ausgaben. die Dinge zusammenhalten. Beziehungen sind solche Regeln.'

Mann beißt T-Rex

Meinung Da OpenAI a umfasst grĂ¶ĂŸere Anzahl von Benutzern Nach der jĂŒngsten Beta-Monetarisierung von DALL-E 2 und da man nun fĂŒr die meisten Generationen bezahlen muss, werden die MĂ€ngel im relationalen VerstĂ€ndnis von DALL-E 2 möglicherweise deutlicher, da jeder „fehlgeschlagene“ Versuch ein finanzielles Gewicht hat. und RĂŒckerstattungen sind nicht möglich.

Diejenigen von uns, die etwas frĂŒher eine Einladung erhalten haben, hatten Zeit (und bis vor Kurzem auch mehr Muße, mit dem System herumzuspielen), um einige der „Beziehungsstörungen“ zu beobachten, die DALL-E 2 verursachen kann.

Zum Beispiel fĂŒr a Jurassic Park Fan, es ist sehr schwierig, in DALL-E 2 einen Dinosaurier dazu zu bringen, eine Person zu jagen, auch wenn das Konzept der „Jagd“ in DALL-E 2 nicht vorkommt Zensursystem, und obwohl die lange Geschichte von Dinosaurierfilmen sollte reichlich Trainingsbeispiele (zumindest in Form von Trailern und Werbeaufnahmen) fĂŒr diese ansonsten unmögliche Artenbegegnung liefern.

Eine typische DALL-E 2-Antwort auf die Aufforderung „Ein Farbfoto eines T-Rex, der einen Mann eine Straße entlang jagt“. Quelle: DALL-E 2

Eine typische DALL-E 2-Antwort auf die Aufforderung „Ein Farbfoto eines T-Rex, der einen Mann eine Straße entlang jagt“. Quelle: DALL-E 2

Ich habe festgestellt, dass die Bilder oben typisch fĂŒr Variationen davon sind „[Dinosaurier] jagt [eine Person]“ Prompt-Design, und dass keine noch so große Ausarbeitung des Prompts dazu fĂŒhren kann, dass der T-Rex tatsĂ€chlich den Anforderungen entspricht. Auf dem ersten und zweiten Foto jagt der Mann (mehr oder weniger) den T-Rex; im dritten Fall mit einer beilĂ€ufigen Missachtung der Sicherheit; und im letzten Bild scheinbar parallel zum großen Tier joggen. Bei etwa 10 bis 15 Versuchen zu diesem Thema habe ich festgestellt, dass der Dinosaurier Ă€hnlich „abgelenkt“ ist.

Es könnte sein, dass die einzigen Trainingsdaten, auf die DALL-E 2 zugreifen konnte, in der Zeile waren „Mann kĂ€mpft gegen Dinosaurier“, von Werbeaufnahmen fĂŒr Ă€ltere Filme wie z Eine Million Jahre v (1966) und das von Jeff Goldblum berĂŒhmter Flug vom König der Raubtiere ist einfach ein Ausreißer in dieser kleinen Datentranche.

 

* Meine Umwandlung der Inline-Zitate der Autoren in Hyperlinks.

Erstveröffentlichung am 4. August 2022.

Autor zum Thema maschinelles Lernen, Fachspezialist fĂŒr die Synthese menschlicher Bilder. Ehemaliger Leiter fĂŒr Forschungsinhalte bei Metaphysic.ai.
Persönliche Seite: martinanderson.ai
Kontakt: [E-Mail geschĂŒtzt]
Twitter: @manders_ai