Andersons Blickwinkel
Verbesserung der Genauigkeit von KI-Bildbearbeitung

Obwohl Adobes Firefly latentes Diffusionsmodell (LDM) wahrscheinlich eines der besten derzeit verfügbaren ist, werden Photoshop-Benutzer, die seine generativen Funktionen ausprobiert haben, feststellen, dass es nicht in der Lage ist, bestehende Bilder leicht zu bearbeiten – stattdessen ersetzt es den vom Benutzer ausgewählten Bereich vollständig durch Bildinhalte, die auf dem Textprompt des Benutzers basieren (obwohl Firefly sehr gut darin ist, den generierten Abschnitt in den Kontext des Bildes zu integrieren).
In der aktuellen Beta-Version kann Photoshop zumindest eine Referenzbild als teilweisen Bildprompt verwenden, was Adobes Flaggschiff-Produkt auf das Funktionsniveau bringt, das Stable Diffusion-Benutzer bereits seit über zwei Jahren genießen, dank externer Frameworks wie Controlnet:

Die aktuelle Beta von Adobe Photoshop ermöglicht die Verwendung von Referenzbildern bei der Generierung neuer Inhalte innerhalb einer Auswahl – obwohl es derzeit ein Glücksspiel ist.
Dies verdeutlicht ein offenes Problem in der Bildsyntheseforschung – die Schwierigkeit, die Diffusionsmodelle haben, bestehende Bilder ohne Umsetzung einer vollständigen “Neuvorstellung” der vom Benutzer angegebenen Auswahl zu bearbeiten.

Obwohl diese diffusionsbasierte Inpainting den Textprompt des Benutzers befolgt, erfindet sie das Quellbildmaterial vollständig neu, ohne die ursprüngliche Bildberücksichtigung (außer durch das Mischen der neuen Generierung mit der Umgebung). Source: https://arxiv.org/pdf/2502.20376
Dieses Problem tritt auf, weil LDMs Bilder durch iteratives Rauschunterdrücken generieren, wobei jeder Schritt des Prozesses auf den Textprompt des Benutzers konditioniert ist. Mit dem Textprompt-Inhalt, der in Einbettungstoken umgewandelt wird, und mit einem hyperskaligen Modell wie Stable Diffusion oder Flux, das Hunderttausende (oder Millionen) von nahezu übereinstimmenden Einbettungen im Zusammenhang mit dem Prompt enthält, hat der Prozess eine berechnete bedingte Verteilung, auf die er abzielt; und jeder Schritt, der unternommen wird, ist ein Schritt in Richtung dieser “bedingten Verteilungsziel”.
So ist es bei Text-to-Image – ein Szenario, in dem der Benutzer “das Beste hofft”, da es keine Möglichkeit gibt, genau zu sagen, wie die Generierung aussehen wird.
Stattdessen haben viele versucht, die leistungsstarke generative Kapazität eines LDMs zu nutzen, um bestehende Bilder zu bearbeiten – was ein Balanceakt zwischen Treue und Flexibilität erfordert.
Wenn ein Bild durch Methoden wie DDIM-Inversion in den latenten Raum des Modells projiziert wird, besteht das Ziel darin, das Original so genau wie möglich wiederzuerlangen, während gleichzeitig sinnvolle Bearbeitungen ermöglicht werden. Das Problem ist, dass das Bild, je genauer es rekonstruiert wird, desto mehr das Modell seiner ursprünglichen Struktur folgt, was größere Änderungen schwierig macht.

Ebenso wie viele andere diffusionsbasierte Bildbearbeitungsframeworks, die in den letzten Jahren vorgeschlagen wurden, hat die Renoise-Architektur Schwierigkeiten, irgendeine echte Änderung am Erscheinungsbild des Bildes vorzunehmen, mit nur einem oberflächlichen Hinweis auf eine Fliege, die am Hals der Katze erscheint.
Andererseits, wenn der Prozess der Bearbeitbarkeit Priorität einräumt, lockert das Modell seinen Griff auf das Original, was es einfacher macht, Änderungen einzuführen – aber auf Kosten der Gesamtkonsistenz mit dem Quellbild:

Mission erfüllt – aber es ist eine Transformation und keine Anpassung für die meisten AI-basierten Bildbearbeitungsframeworks.
Da es sich um ein Problem handelt, das sogar Adobes erhebliche Ressourcen Schwierigkeiten bereitet, können wir vernünftigerweise annehmen, dass die Herausforderung bemerkenswert ist und möglicherweise keine leichten Lösungen zulässt, wenn überhaupt.
Enges Invertieren
Daher haben die Beispiele in einer neuen Veröffentlichung, die diese Woche veröffentlicht wurde, meine Aufmerksamkeit erregt, da die Arbeit eine wertvolle und bemerkenswerte Verbesserung des aktuellen Standes der Technik in diesem Bereich bietet, indem sie in der Lage ist, subtile und raffinierte Bearbeitungen auf Bilder anzuwenden, die in den latenten Raum eines Modells projiziert werden – ohne dass die Bearbeitungen entweder unbedeutend oder das ursprüngliche Bildinhalt im Quellbild überwältigen:

Mit engem Invertieren, das auf bestehende Inversionsmethoden angewendet wird, wird die Quellselektion auf eine viel feinere Weise berücksichtigt, und die Transformationen entsprechen dem ursprünglichen Material, anstatt es zu überschreiben.
LDM-Hobbys und -Praktiker können diese Art von Ergebnis erkennen, da viel davon in einem komplexen Workflow mit externen Systemen wie Controlnet und IP-Adapter erstellt werden kann.
Tatsächlich nutzt die neue Methode – genannt enges Invertieren – tatsächlich IP-Adapter sowie ein spezielles Gesichtsmodell für menschliche Darstellungen.

Aus dem ursprünglichen IP-Adapter-Papier von 2023, Beispiele für die Erstellung geeigneter Bearbeitungen des Quellmaterials. Quelle: https://arxiv.org/pdf/2308.06721
Die bemerkenswerte Leistung des engen Invertierens besteht darin, komplexe Techniken in eine einzige Drop-in-Modus zu verfahren, die auf bestehende Systeme angewendet werden kann, einschließlich vieler der beliebtesten LDM-Verteilungen.
Naturgemäß bedeutet dies, dass Tight Inversion (TI), wie die Nebensysteme, die es nutzt, das Quellbild als Konditionierungsfaktor für seine eigene bearbeitete Version verwendet, anstatt sich ausschließlich auf genaue Textprompts zu verlassen:

Weitere Beispiele für die Fähigkeit von Tight Inversion, wirklich gemischte Bearbeitungen auf Quellmaterial anzuwenden.
Obwohl die Autoren zugeben, dass ihr Ansatz nicht frei von der traditionellen und anhaltenden Spannung zwischen Treue und Bearbeitbarkeit in diffusionsbasierten Bildbearbeitungstechniken ist, berichten sie über Ergebnisse auf dem aktuellen Stand der Technik, wenn sie TI in bestehende Systeme injizieren, im Vergleich zur Baseline-Leistung.
Die neue Arbeit trägt den Titel Enges Invertieren: Bildkonditioniertes Invertieren für reale Bildbearbeitung und stammt von fünf Forschern der Tel Aviv University und Snap Research.
Methode
Zunächst wird ein großes Sprachmodell (LLM) verwendet, um einen Satz von verschiedenen Textprompts zu generieren, aus denen ein Bild generiert wird. Dann wird die oben genannte DDIM-Inversion auf jedes Bild mit drei Textbedingungen angewendet: dem Textprompt, der zum Generieren des Bildes verwendet wird; einer verkürzten Version desselben; und einem leeren (leeren) Prompt.
Mit dem invertierten Rauschen, das aus diesen Prozessen zurückgegeben wird, werden die Bilder erneut mit dem gleichen Zustand und ohne Klassifizierungsleitfaden (CFG) regeneriert.

DDIM-Inversionspunkte über verschiedene Metriken mit variierenden Prompt-Einstellungen.
Wie wir aus dem obigen Graphen ersehen können, verbessern sich die Punkte über verschiedene Metriken mit zunehmender Textlänge. Die verwendeten Metriken waren Peak Signal-to-Rausch-Verhältnis (PSNR); L2-Abstand; Strukturelle Ähnlichkeitsindex (SSIM); und Gelernte wahrgenommene Bildpatch-Ähnlichkeit (LPIPS).
Bildbewusst
Effektiv ändert Tight Inversion, wie ein Wirtsdiffusionsmodell reale Bilder bearbeitet, indem es den Inversionsprozess auf das Bild selbst konditioniert, anstatt sich ausschließlich auf Textprompts zu verlassen.
Normalerweise erfordert die Inversion eines Bildes in den Rauschraum eines Diffusionsmodells die Schätzung des Startrauschens, das, wenn es entrauscht wird, das Eingabebild rekonstruiert. Standardmethoden verwenden einen Textprompt, um diesen Prozess zu leiten; aber ein unvollkommener Prompt kann zu Fehlern führen, wodurch Details verloren gehen oder Strukturen geändert werden.
Tight Inversion verwendet stattdessen IP-Adapter, um visuelle Informationen in das Modell zu speisen, sodass es das Bild mit größerer Genauigkeit rekonstruiert, das Quellbild in Konditionierungstoken umwandelt und es in die Inversionspipeline projiziert.
Diese Parameter sind bearbeitbar: Die Erhöhung des Einflusses des Quellbildes macht die Rekonstruktion fast perfekt, während die Verringerung es ermöglicht, kreativere Änderungen vorzunehmen. Dies macht Tight Inversion nützlich für sowohl subtile Modifikationen, wie z. B. die Änderung der Farbe eines Hemdes, als auch für größere Bearbeitungen, wie z. B. das Austauschen von Objekten – ohne die üblichen Nebeneffekte anderer Inversionsmethoden, wie z. B. den Verlust feiner Details oder unerwartete Anomalien im Hintergrundinhalt.
Die Autoren stellen fest:
‘Wir stellen fest, dass Tight Inversion leicht in vorherige Inversionsmethoden (z. B. Edit Friendly DDPM, ReNoise) integriert werden kann, indem [das native Diffusionskern für das IP-Adapter-Modell ersetzt wird], und Tight Inversion verbessert diese Methoden konsistent in Bezug auf Rekonstruktion und Bearbeitbarkeit.’
Daten und Tests
Die Forscher bewerteten TI auf seine Fähigkeit, reale Quellbilder zu rekonstruieren und zu bearbeiten. Alle Experimente verwendeten Stable Diffusion XL mit einem DDIM-Planer, wie im ursprünglichen Stable-Diffusion-Papier beschrieben; und alle Tests verwendeten 50 Ent-rausch-Schritte bei einem Standard-Leitfaden-Skala von 7,5.
Für Bildkonditionierung wurde IP-Adapter-plus sdxl vit-h verwendet. Für Few-Step-Tests verwendeten die Forscher SDXL-Turbo mit einem Euler-Planer und führten auch Experimente mit FLUX.1-dev durch, wobei sie das Modell in letzterem Fall auf PuLID-Flux konditionierten, unter Verwendung von RF-Inversion bei 28 Schritten.
PulID wurde nur in Fällen verwendet, die menschliche Gesichter enthielten, da dies der Bereich ist, für den PulID trainiert wurde – und obwohl es bemerkenswert ist, dass ein spezialisiertes Subsystem für diese eine mögliche Prompt-Art verwendet wird, deutet unser übermäßiges Interesse an der Generierung von menschlichen Gesichtern darauf hin, dass die alleinige Verwendung der breiteren Gewichte eines Grundmodells wie Stable Diffusion möglicherweise nicht den Standards entspricht, die wir für diese spezifische Aufgabe fordern.
Rekonstruktions-Tests wurden für qualitative und quantitative Bewertung durchgeführt. Im folgenden Bild sehen wir qualitative Beispiele für DDIM-Inversion:

Qualitative Ergebnisse für DDIM-Inversion. Jede Zeile zeigt ein hochdetailliertes Bild neben seinen rekonstruierten Versionen, wobei jeder Schritt bei der Inversion und Ent-rauschung zunehmend präzisere Bedingungen verwendet. Wenn die Konditionierung genauer wird, verbessert sich die Rekonstruktionsqualität. Die rechte Spalte zeigt die besten Ergebnisse, bei denen das Originalbild selbst als Bedingung verwendet wird, um die höchste Treue zu erreichen. CFG wurde zu keinem Zeitpunkt verwendet. Bitte beachten Sie die Quelldokumentation für bessere Auflösung und Details.
Das Papier besagt:
‘Diese Beispiele verdeutlichen, dass die Konditionierung des Inversionsprozesses auf einem Bild die Rekonstruktion in hochdetaillierten Bereichen erheblich verbessert.
‘Bemerkenswerterweise rekonstruiert unsere Methode im dritten Beispiel [des Bildes unten] erfolgreich das Tattoo auf dem Rücken des rechten Boxers. Darüber hinaus wird die Pose des Boxers genauer erhalten, und das Tattoo auf dem Bein wird sichtbar.’

Weitere qualitative Ergebnisse für DDIM-Inversion. Deskriptive Bedingungen verbessern DDIM-Inversion, wobei Bildkonditionierung Text übertrifft, insbesondere bei komplexen Bildern.
Die Autoren testeten auch Tight Inversion als Drop-in-Modul für bestehende Systeme, indem sie die modifizierten Versionen gegen ihre Baseline-Leistung testeten.
Die drei getesteten Systeme waren die oben genannte DDIM-Inversion und RF-Inversion; sowie ReNoise, die einige Autoren mit dem Papier teilt, das hier diskutiert wird. Da DDIM-Ergebnisse keine Schwierigkeiten haben, 100%ige Rekonstruktion zu erzielen, konzentrierten sich die Forscher nur auf die Bearbeitbarkeit.
(Die qualitativen Ergebnisbilder sind in einer Weise formatiert, die es schwierig macht, sie hier wiederzugeben, daher verweisen wir den Leser auf die Quell-PDF für umfassendere Abdeckung und bessere Auflösung, ungeachtet dessen, dass einige Auswahlmöglichkeiten unten aufgeführt sind)

Links, qualitative Rekonstruktionsergebnisse für Tight Inversion mit SDXL. Rechts, Rekonstruktion mit Flux. Die Anordnung dieser Ergebnisse in der veröffentlichten Arbeit macht es schwierig, sie hier wiederzugeben, daher verweisen wir den Leser auf die Quell-PDF für einen wahren Eindruck der erzielten Unterschiede.
Hier kommentieren die Autoren:
‘Wie abgebildet, verbessert Tight Inversion konsistent die Rekonstruktion, wenn es mit bestehenden Methoden integriert wird. Zum Beispiel rekonstruiert unsere Methode den Handlauf im linken Beispiel und den Mann mit dem blauen Hemd im rechten Beispiel [in Abbildung 5 des Papiers] genau.’
Die Autoren testeten auch das System quantitativ. Im Einklang mit vorherigen Arbeiten verwendeten sie den Validierungssatz von MS-COCO und bemerken, dass die Ergebnisse (siehe unten) die Rekonstruktion über alle Metriken für alle Methoden verbesserten.

Vergleich der Metriken für die Leistung der Systeme mit und ohne Tight Inversion.
Als nächstes testeten die Autoren die Fähigkeit des Systems, Fotos zu bearbeiten, indem sie es gegen Baseline-Versionen von vorherigen Ansätzen prompt2prompt; Edit Friendly DDPM; LED-ITS++; und RF-Inversion testeten.
Unten sind einige der qualitativen Ergebnisse für SDXL und Flux aufgeführt (und wir verweisen den Leser auf die ziemlich komprimierte Anordnung des ursprünglichen Papiers für weitere Beispiele).

Auswahl aus den umfangreichen qualitativen Ergebnissen (ziemlich verwirrend) über das Papier verteilt. Wir verweisen den Leser auf die Quell-PDF für verbesserte Auflösung und sinnvolle Klarheit.
Die Autoren behaupten, dass Tight Inversion konsistent besser als bestehende Inversionsmethoden abschneidet, indem es eine bessere Balance zwischen Rekonstruktion und Bearbeitbarkeit schafft. Standardmethoden wie DDIM-Inversion und ReNoise können ein Bild gut rekonstruieren, aber das Papier besagt, dass sie oft Schwierigkeiten haben, feine Details zu erhalten, wenn Bearbeitungen angewendet werden.
Im Gegensatz dazu nutzt Tight Inversion Bildkonditionierung, um die Ausgabe des Modells enger an das Original zu binden, wodurch unerwünschte Verzerrungen vermieden werden. Die Autoren behaupten, dass selbst wenn konkurrierende Ansätze Rekonstruktionen erzeugen, die aussehen, als seien sie genau, die Einführung von Bearbeitungen oft zu Artefakten oder strukturellen Inkonsistenzen führt, und dass Tight Inversion diese Probleme mildert.
Schließlich wurden quantitative Ergebnisse durch die Bewertung von Tight Inversion gegen die MagicBrush-Benchmark erzielt, unter Verwendung von DDIM-Inversion und LEDITS++, gemessen mit CLIP Sim.

Quantitative Vergleiche von Tight Inversion gegen die MagicBrush-Benchmark.
Die Autoren schließen:
‘In beiden Graphen ist der Kompromiss zwischen Bildbewahrung und Anpassung an die Zielbearbeitung klar zu erkennen. Tight Inversion bietet eine bessere Kontrolle über diesen Kompromiss und bewahrt das Eingabebild besser, während es gleichzeitig mit der Bearbeitung übereinstimmt [Prompt].
‘Beachten Sie, dass eine CLIP-Ähnlichkeit von über 0,3 zwischen einem Bild und einem Textprompt eine plausible Übereinstimmung zwischen dem Bild und dem Prompt anzeigt.’
Schlussfolgerung
Obwohl es sich nicht um einen “Durchbruch” in einer der größten Herausforderungen in der LDM-basierten Bildsynthese handelt, konsolidiert Tight Inversion eine Reihe von mühsamen Nebenansätzen in eine einheitliche Methode der AI-basierten Bildbearbeitung.
Obwohl die Spannung zwischen Bearbeitbarkeit und Treue nicht verschwunden ist, ist sie unter dieser Methode deutlich reduziert, laut den präsentierten Ergebnissen. Angesichts der Tatsache, dass die zentrale Herausforderung, die diese Arbeit anspricht, möglicherweise letztendlich unüberwindbar ist, wenn sie auf ihre eigenen Bedingungen behandelt wird (anstatt über LDM-basierte Architekturen in zukünftigen Systemen hinauszugehen), stellt Tight Inversion eine willkommene inkrementelle Verbesserung des aktuellen Standes der Technik dar.
Erstveröffentlicht am Freitag, dem 28. Februar 2025












