Künstliche Intelligenz
UniTune: Google’s Alternative Neural Image Editing Technique

Google Research, es scheint, greift textbasiertes Bildbearbeiten von mehreren Seiten an und wartet wahrscheinlich ab, was “ankommt”. Heiß auf die Veröffentlichung seiner Imagic-Paper in dieser Woche, hat der Suchgigant ein weiteres latentes Diffusions-basiertes Verfahren zur Durchführung von ansonsten unmöglichen AI-basierten Bildbearbeitungen über Textbefehle vorgeschlagen, diesmal genannt UniTune.
Basierend auf den Beispielen, die in der neuen Arbeit des Projekts gegeben sind, hat UniTune einen außergewöhnlichen Grad an Disentanglement von semantischer Pose und Idee von tatsächlichem Bildinhalt erreicht:

UniTune’s command of semantic composition is outstanding. Note how in the uppermost row of pictures, the faces of the two people have not been distorted by the extraordinary transformation on the rest of the source image (right). Source: https://arxiv.org/pdf/2210.09477.pdf
Wie Stable Diffusion-Fans inzwischen gelernt haben, kann die Anwendung von Bearbeitungen auf Teilbereiche eines Bildes ohne negative Auswirkungen auf den Rest des Bildes eine schwierige, manchmal unmögliche Operation sein. Obwohl beliebte Distributionen wie AUTOMATIC1111 Masken für lokale und eingeschränkte Bearbeitungen erstellen können, ist der Prozess mühsam und häufig unvorhersehbar.
Die offensichtliche Antwort, zumindest für einen Computer-Vision-Praktiker, ist, eine Schicht von semantischer Segmentierung einzufügen, die in der Lage ist, Objekte in einem Bild ohne Benutzereingriff zu erkennen und zu isolieren, und tatsächlich gibt es in letzter Zeit mehrere neue Initiativen entlang dieser Denkrichtung.
Eine weitere Möglichkeit für die Verwaltung von chaotischen und verwickelten neuronalen Bildbearbeitungsoperationen ist, OpenAI’s einflussreiches Contrastive Language-Image Pre-training (CLIP)-Modul zu nutzen, das im Herzen von latenten Diffusionsmodellen wie DALL-E 2 und Stable Diffusion liegt, um als Filter an dem Punkt zu wirken, an dem ein Text-Bild-Modell bereit ist, eine interpretierte Darstellung an den Benutzer zurückzusenden. In diesem Kontext sollte CLIP als Wächter und Qualitätskontrollmodul wirken und fehlerhafte oder ungeeignete Darstellungen ablehnen. Dies wird in Kürze umgesetzt (Discord-Link) bei Stability.ai’s DreamStudio API-getriebener Schnittstelle.
Allerdings ist CLIP in einem solchen Szenario sowohl der Übeltäter als auch die Lösung (da es im Wesentlichen auch die Art und Weise beeinflusst hat, wie das Bild entwickelt wurde), und da die Hardware-Anforderungen die verfügbaren Ressourcen eines Endbenutzers übersteigen können, ist dieser Ansatz möglicherweise nicht ideal.
Komprimierte Sprache
Das vorgeschlagene UniTune “feinjustiert” ein bestehendes Diffusionsmodell – in diesem Fall Google’s eigenes Imagen, obwohl die Forscher angeben, dass die Methode mit anderen latenten Diffusionsarchitekturen kompatibel ist – so dass ein einzigartiger Token injiziert wird, der durch die Aufnahme in einen Textbefehl aufgerufen werden kann.
Auf den ersten Blick klingt dies wie Google DreamBooth, derzeit eine Obsession unter Stable Diffusion-Fans und -Entwicklern, der in weniger als einer Stunde neue Charaktere oder Objekte in einen bestehenden Checkpoint injizieren kann, basierend auf einer Handvoll Quellbilder; oder wie Textual Inversion, der “Sidecar”-Dateien für einen Checkpoint erstellt, die dann so behandelt werden, als wären sie ursprünglich im Modell trainiert worden, und die Vorteile der eigenen umfangreichen Ressourcen des Modells nutzen kann, indem es den Textklassifizierer modifiziert, was zu einer winzigen Datei (im Vergleich zu den mindestens 2 GB geschnittenen Checkpoints von DreamBooth) führt.
Tatsächlich behaupten die Forscher, UniTune habe beide Ansätze abgelehnt. Sie fanden heraus, dass Textual Inversion zu viele wichtige Details ausließ, während DreamBooth ‘schlechter abschnitt und länger’ als die Lösung, die sie schließlich wählten, funktionierte.
Trotzdem nutzt UniTune den gleichen eingeschlossenen semantischen “Metaprompt”-Ansatz wie DreamBooth, mit trainierten Änderungen, die durch einzigartige Wörter aufgerufen werden, die vom Trainer ausgewählt werden und nicht mit irgendwelchen Begriffen kollidieren, die derzeit in einem sorgfältig trainierten öffentlichen Release-Modell existieren.
‘Um den Bearbeitungsvorgang durchzuführen, sampeln wir die feinjustierten Modelle mit dem Prompt “[rare_tokens] edit_prompt” (z.B. “beikkpic zwei Hunde in einem Restaurant” oder “beikkpic ein Minion”).’
Der Prozess
Der UniTune-Methode wird im Wesentlichen das Originalbild durch ein Diffusionsmodell mit einer Reihe von Anweisungen geschickt, wie es modifiziert werden soll, unter Verwendung der umfangreichen Repositorien verfügbarer Daten, die im Modell trainiert wurden. Im Effekt können Sie dies jetzt mit Stable Diffusions img2img-Funktionalität tun – aber nicht ohne das Verzerren oder Ändern der Teile des Bildes, die Sie unbedingt erhalten möchten.
Während des UniTune-Prozesses wird das System feinjustiert, was bedeutet, dass UniTune das Modell zwingt, das Training wieder aufzunehmen, wobei die meisten seiner Schichten unfrozen sind (siehe unten). In den meisten Fällen wird die Feinjustierung die allgemeinen Verlust-Werte eines hart erarbeiteten Hochleistungsmodells zugunsten des Einblasens oder Verfeinerns eines anderen Aspekts, der erstellt oder verbessert werden soll, senken.
Allerdings scheint es, dass das Modell, das bearbeitet wird, obwohl es mehrere Gigabyte oder mehr wiegen kann, als verderbliche Kollateralschale behandelt wird und am Ende des Prozesses weggeworfen wird, nachdem es ein einzelnes Ziel verfolgt hat. Diese Art von Datenmenge wird für DreamBooth-Fans, deren eigene Modelle, selbst wenn sie geschnitten werden, nicht weniger als 2 GB pro Thema sind, zu einem täglichen Speicherproblem.
‘In der “Prompt-to-Prompt”-Einstellung fanden wir, dass eine Technik, die wir Prompt-Guidance nennen, besonders hilfreich ist, um Treue und Ausdrucksvermögen zu justieren. ‘
‘Prompt-Guidance ist ähnlich wie Classifier-Free-Guidance, außer dass der Baseline ein anderer Prompt ist und nicht das unbedingte Modell. Dies leitet das Modell in Richtung der Differenz zwischen den beiden Prompts.’
Allerdings war Prompt-Guidance, so die Autoren, nur gelegentlich erforderlich, wenn CFG nicht in der Lage war, das gewünschte Ergebnis zu erzielen.
Eine weitere neuartige Sampling-Technik, die während der Entwicklung von UniTune entdeckt wurde, war Interpolation, bei der Bereiche des Bildes so unterschiedlich sind, dass sowohl das Original- als auch das geänderte Bild sehr ähnlich in der Zusammensetzung sind, was eine naivere Interpolation ermöglicht.

Interpolation kann die höheren Anstrengungen von UniTune redundant machen, wenn die zu transformierenden Bereiche diskret und gut abgegrenzt sind.
Die Autoren schlagen vor, dass Interpolation möglicherweise so gut funktionieren könnte, dass sie für eine große Anzahl von Ziel-Quellbildern als Standard-Einstellung verwendet werden könnte und beobachten auch, dass sie die Fähigkeit hat, außergewöhnliche Transformationen in Fällen durchzuführen, in denen komplexe Überlappungen nicht durch intensivere Methoden verhandelt werden müssen.
UniTune kann lokale Bearbeitungen mit oder ohne Bearbeitungsmasken durchführen, aber kann auch einseitig entscheiden, wo Bearbeitungen platziert werden, mit einer ungewöhnlichen Kombination aus interpretativer Kraft und robuster Essentialisierung der Quell-Eingabedaten:

In dem obersten Bild in der zweiten Spalte hat UniTune, das mit der Aufgabe betraut wurde, einen ‘roten Zug im Hintergrund’ einzufügen, diesen an einer angemessenen und authentischen Position platziert. Beachten Sie in den anderen Beispielen, wie die semantische Integrität zum Quellbild erhalten bleibt, selbst inmitten außergewöhnlicher Änderungen im Pixelinhalt und den Kernstilen der Bilder.
Latenz
Obwohl die erste Iteration eines neuen Systems langsam sein wird und obwohl es möglich ist, dass entweder die Gemeinschaft oder das corporate Engagement (es ist normalerweise nicht beides) das System letztendlich beschleunigen und optimieren wird, führen sowohl UniTune als auch Imagic einige ziemlich große maschinelle Lernmanöver durch, um diese erstaunlichen Bearbeitungen zu erstellen, und es ist fraglich, inwieweit ein so ressourcenintensiver Prozess jemals auf den häuslichen Gebrauch heruntergeskaliert werden könnte, anstatt auf API-getriebenen Zugriff (obwohl Letzterer für Google möglicherweise wünschenswerter ist).
Im Moment beträgt die Round-Trip-Zeit von der Eingabe zum Ergebnis etwa 3 Minuten auf einem T4-GPU, mit etwa 30 Sekunden extra für die Inferenz (wie bei jeder Inferenz-Routine). Die Autoren räumen ein, dass dies eine hohe Latenz ist und kaum als “interaktiv” qualifiziert, aber sie bemerken auch, dass das Modell nach der initialen Feinjustierung für weitere Bearbeitungen verfügbar bleibt, bis der Benutzer mit dem Prozess fertig ist, was die pro-Bearbeitungszeit verkürzt.
Erstveröffentlicht am 21. Oktober 2022.















