Angolo di Anderson
Migliorare l’accuratezza della modifica di immagini AI

Sebbene il modello di diffusione latente (LDM) di Adobe Firefly sia probabilmente uno dei migliori attualmente disponibili, gli utenti di Photoshop che hanno provato le sue funzionalità generative avranno notato che non è in grado di modificare facilmente le immagini esistenti – invece sostituisce completamente l’area selezionata dall’utente con immagini basate sul prompt di testo dell’utente (sebbene Firefly sia abile nell’integrare la sezione generata risultante nel contesto dell’immagine).
Nella versione beta attuale, Photoshop può almeno incorporare un’immagine di riferimento come prompt parziale di immagine, che porta il prodotto flagship di Adobe allo stesso livello di funzionalità di cui gli utenti di Stable Diffusion hanno goduto per oltre due anni, grazie a framework di terze parti come Controlnet:

La versione beta attuale di Adobe Photoshop consente l’uso di immagini di riferimento quando si generano nuovi contenuti all’interno di una selezione – sebbene sia un affare aleatorio al momento.
Ciò illustra un problema aperto nella ricerca sulla sintesi di immagini – la difficoltà che i modelli di diffusione hanno nel modificare le immagini esistenti senza implementare una completa “ri-immaginazione” della selezione indicata dall’utente.

Sebbene questo inpaint basato su diffusione obbedisca al prompt dell’utente, reinventa completamente la materia originale senza tenere in considerazione l’immagine originale (ad eccezione del fatto di fondere la nuova generazione con l’ambiente).
Questo problema si verifica perché i LDM generano immagini attraverso la denoising iterativa, dove ogni fase del processo è condizionata dal prompt di testo fornito dall’utente. Con il contenuto del prompt di testo convertito in token di embedding, e con un modello iperscalabile come Stable Diffusion o Flux che contiene centinaia di migliaia (o milioni) di embedding quasi corrispondenti al prompt, il processo ha una distribuzione condizionale calcolata da raggiungere; e ogni passo è un passo verso questa “distribuzione condizionale target”.
Quindi, è il testo per immagine – uno scenario in cui l’utente “spera per il meglio”, poiché non c’è modo di sapere esattamente cosa sarà la generazione.
Invece, molti hanno cercato di utilizzare la potente capacità generativa di un LDM per modificare le immagini esistenti – ma ciò richiede un equilibrio tra fedeltà e flessibilità.
Quando un’immagine viene proiettata nello spazio latente del modello mediante metodi come l’inversione DDIM, l’obiettivo è quello di recuperare l’originale il più fedelmente possibile, consentendo comunque modifiche significative.

In comune con molti altri framework di editing di immagini basati su diffusione proposti negli ultimi anni, l’architettura Renoise ha difficoltà a fare qualsiasi reale cambiamento nell’aspetto dell’immagine, con solo un’indicazione superficiale di un papillon che appare alla base della gola del gatto.
D’altra parte, se il processo dà priorità alla modificabilità, il modello allenta la sua presa sull’originale, rendendolo più facile introdurre cambiamenti – ma a scapito della coerenza complessiva con l’immagine originale:

Missione compiuta – ma è una trasformazione piuttosto che un aggiustamento, per la maggior parte dei framework di editing di immagini basati su AI.
Poiché è un problema che anche le considerevoli risorse di Adobe stanno lottando per affrontare, allora possiamo ragionevolmente considerare che la sfida è notevole e potrebbe non avere soluzioni facili, se mai.
Inversione stretta
Pertanto, gli esempi in un nuovo articolo pubblicato questa settimana hanno attirato la mia attenzione, poiché il lavoro offre un miglioramento degno di nota e utile rispetto allo stato attuale dell’arte in questo settore, dimostrando la capacità di applicare modifiche sottili e raffinate alle immagini proiettate nello spazio latente di un modello – senza che le modifiche siano insignificanti o travolgano il contenuto originale dell’immagine originale:

Con l’inversione stretta applicata ai metodi di inversione esistenti, la selezione originale è considerata in modo molto più granulare e le trasformazioni si conformano al materiale originale invece di sovrascriverlo.
Gli appassionati e i pratici di LDM possono riconoscere questo tipo di risultato, poiché gran parte di esso può essere creato in un flusso di lavoro complesso utilizzando sistemi esterni come Controlnet e IP-Adapter.
In effetti, il nuovo metodo – chiamato Inversione stretta – sfrutta effettivamente IP-Adapter, insieme a un modello dedicato per rappresentazioni umane.

Dall’articolo originale del 2023 su IP-Adapter, esempi di creazione di modifiche adeguate al materiale originale. Fonte: https://arxiv.org/pdf/2308.06721
Il risultato significativo dell’inversione stretta, quindi, è quello di aver proceduralizzato tecniche complesse in una modalità di plug-in unica che può essere applicata ai sistemi esistenti, comprese molte delle distribuzioni LDM più popolari.
Naturalmente, ciò significa che l’inversione stretta (TI), come i sistemi ausiliari che sfrutta, utilizza l’immagine originale come fattore di condizionamento per la sua versione modificata, invece di affidarsi solo a prompt di testo accurati:

Ulteriori esempi della capacità dell’inversione stretta di applicare modifiche veramente fuse al materiale originale.
Sebbene gli autori concedano che il loro approccio non è libero dal tradizionale e continuo tensione tra fedeltà e modificabilità nelle tecniche di editing di immagini basate su diffusione, segnalano risultati di stato dell’arte quando iniettano TI nei sistemi esistenti, rispetto alla prestazione di base.
Il nuovo lavoro è intitolato Inversione stretta: inversione condizionata dall’immagine per editing di immagini reali, e proviene da cinque ricercatori dell’Università di Tel Aviv e Snap Research.
Metodo
Inizialmente, un modello linguistico grande (LLM) viene utilizzato per generare un set di prompt di testo variati da cui un’immagine è generata. Quindi, l’inversione DDIM sopracitata viene applicata a ogni immagine con tre condizioni di testo: il prompt di testo utilizzato per generare l’immagine; una versione abbreviata dello stesso; e un prompt vuoto (null).
Con il rumore invertito restituito da questi processi, le immagini vengono rigenerate con la stessa condizione, e senza guida del classificatore gratuito (CFG).

Punteggi di inversione DDIM su vari metriche con impostazioni di prompt variate.
Come possiamo vedere dal grafico sopra, i punteggi su vari metriche sono migliorati con la lunghezza del testo aumentata. Le metriche utilizzate sono state Rapporto di segnale a rumore di picco (PSNR); distanza L2; Indice di similarità strutturale (SSIM); e Similarità di patch di immagine percepita appresa (LPIPS).
Immagine-cosciente
Effettivamente, l’inversione stretta cambia il modo in cui un modello di diffusione host modifica le immagini reali condizionando il processo di inversione sull’immagine stessa invece di affidarsi solo al testo.
Normalmente, invertire un’immagine nello spazio del rumore di un modello di diffusione richiede la stima del rumore iniziale che, quando denoised, ricostruisce l’input. I metodi standard utilizzano un prompt di testo per guidare questo processo; ma un prompt imperfetto può portare a errori, perdendo dettagli o alterando strutture.
L’inversione stretta utilizza invece IP Adapter per alimentare le informazioni visive nel modello, in modo che ricostruisca l’immagine con maggiore accuratezza, convertendo le immagini originarie in token di condizionamento e proiettandole nel pipeline di inversione.
Questi parametri sono modificabili: aumentare l’influenza dell’immagine originale rende la ricostruzione quasi perfetta, mentre ridurla consente modifiche più creative. Ciò rende l’inversione stretta utile sia per modifiche sottili, come cambiare il colore di una maglia, sia per modifiche più significative, come scambiare oggetti – senza gli effetti collaterali comuni di altri metodi di inversione, come la perdita di dettagli fini o aberrazioni inattese nel contenuto di sfondo.
Gli autori affermano:
‘Notiamo che l’inversione stretta può essere facilmente integrata con metodi di inversione precedenti (ad esempio, Edit Friendly DDPM, ReNoise) [sostituendo il core di diffusione nativo con il modello modificato da IP Adapter], [e] l’inversione stretta migliora costantemente tali metodi in termini di ricostruzione ed editabilità.’
Dati e test
I ricercatori hanno valutato TI sulla sua capacità di ricostruire e modificare immagini del mondo reale. Tutti gli esperimenti hanno utilizzato Stable Diffusion XL con un programma DDIM come descritto nel articolo originale su Stable Diffusion; e tutti i test hanno utilizzato 50 passi di denoising al valore di guida predefinito di 7,5.
Per la condizionamento dell’immagine, IP-Adapter-plus sdxl vit-h è stato utilizzato. Per i test a pochi passi, i ricercatori hanno utilizzato SDXL-Turbo con un programma Euler, e hanno anche condotto esperimenti con FLUX.1-dev, condizionando il modello nel caso di PuLID-Flux, utilizzando RF-Inversion a 28 passi.
PulID è stato utilizzato solo nei casi che presentavano volti umani, poiché questo è il dominio per cui PulID è stato addestrato – e mentre è degno di nota che un sottosistema specializzato venga utilizzato per questo tipo di prompt, il nostro interesse eccessivo per la generazione di volti umani suggerisce che affidarsi solo ai pesi più ampi di un modello di base come Stable Diffusion potrebbe non essere adeguato agli standard che richiediamo per questo compito specifico.
I test di ricostruzione sono stati eseguiti per la valutazione qualitativa e quantitativa. Nell’immagine seguente, vediamo esempi qualitativi per l’inversione DDIM:

Risultati qualitativi per l’inversione DDIM. Ogni riga mostra un’immagine molto dettagliata accanto alle sue versioni ricostruite, con ogni passo che utilizza condizioni progressivamente più precise durante l’inversione e la denoising. Man mano che la condizionamento diventa più preciso, la qualità della ricostruzione migliora. La colonna più a destra dimostra i migliori risultati, dove l’immagine originale stessa viene utilizzata come condizione, raggiungendo la fedeltà più alta. CFG non è stato utilizzato in nessuna fase. Si prega di fare riferimento al documento originale per una migliore risoluzione e dettaglio.
Il documento afferma:
‘Questi esempi evidenziano che condizionare il processo di inversione su un’immagine migliora notevolmente la ricostruzione in aree molto dettagliate.
‘In particolare, nel terzo esempio di [l’immagine seguente], il nostro metodo ricostruisce con successo il tatuaggio sulla schiena del pugile di destra. Inoltre, la posizione della gamba del pugile è più fedelmente preservata e il tatuaggio sulla gamba diventa visibile.’

Ulteriori risultati qualitativi per l’inversione DDIM. Le condizioni descrittive migliorano l’inversione DDIM, con il condizionamento dell’immagine che supera il testo, specialmente su immagini complesse.
Gli autori hanno anche testato l’inversione stretta come modulo di drop-in per sistemi esistenti, confrontandolo con le prestazioni di base.
I tre sistemi testati sono stati l’inversione DDIM e RF-Inversion; e anche ReNoise, che condivide alcuni autori con l’articolo in discussione.
(I risultati qualitativi delle immagini sono formattati in un modo che è difficile da riprodurre qui, quindi ci riferiamo al lettore al PDF originale per una copertura più completa e una chiarezza più significativa)

A sinistra, risultati qualitativi di ricostruzione per l’inversione stretta con SDXL. A destra, ricostruzione con Flux. La disposizione di questi risultati nel lavoro pubblicato rende difficile riprodurli qui, quindi si prega di fare riferimento al PDF originale per un’impressione più vera delle differenze ottenute.
Qui gli autori commentano:
‘Come illustrato, integrare l’inversione stretta con metodi esistenti migliora costantemente la ricostruzione. Ad esempio, il nostro metodo ricostruisce con precisione la ringhiera a sinistra e l’uomo con la camicia blu a destra [nella figura 5 del documento].’
Gli autori hanno anche testato il sistema quantitativamente. In linea con lavori precedenti, hanno utilizzato il set di convalida di MS-COCO, e notano che i risultati (illustrati di seguito) hanno migliorato la ricostruzione in tutte le metriche per tutti i metodi.

Confronto dei metrici per le prestazioni dei sistemi con e senza inversione stretta.
Successivamente, gli autori hanno testato la capacità del sistema di modificare le foto, confrontandolo con le versioni di base di approcci precedenti prompt2prompt; Edit Friendly DDPM; LED-ITS++; e RF-Inversion.
Sono mostrati di seguito una selezione dei risultati qualitativi del documento per SDXL e Flux (e ci riferiamo al lettore al layout piuttosto compresso del documento originale per ulteriori esempi).

Selezioni dai risultati qualitativi disseminati nel documento. Ci riferiamo al lettore al PDF originale per una risoluzione migliorata e una chiarezza più significativa.
Gli autori sostengono che l’inversione stretta supera costantemente le tecniche di inversione esistenti, raggiungendo un miglior equilibrio tra ricostruzione ed editabilità. I metodi standard come l’inversione DDIM e ReNoise possono recuperare un’immagine bene, il documento afferma che spesso lottano per preservare i dettagli fini quando vengono applicate le modifiche.
Al contrario, l’inversione stretta sfrutta il condizionamento dell’immagine per ancorare l’output del modello più da vicino all’originale, prevenendo distorsioni indesiderate. Gli autori sostengono che anche quando gli approcci concorrenti producono ricostruzioni che appaiono accurate, l’introduzione di modifiche spesso porta a artefatti o incoerenze strutturali, e che l’inversione stretta mitiga questi problemi.
Infine, i risultati quantitativi sono stati ottenuti valutando l’inversione stretta contro il benchmark MagicBrush, utilizzando l’inversione DDIM e LEDITS++, misurati con CLIP Sim.

Confronti quantitativi dell’inversione stretta contro il benchmark MagicBrush.
Gli autori concludono:
‘In entrambi i grafici, il compromesso tra la conservazione dell’immagine e l’aderenza alla modifica di destinazione è chiaramente osservato. L’inversione stretta fornisce un miglior controllo su questo compromesso e conserva meglio l’immagine di input, allineandosi comunque con la modifica [prompt]. ‘
‘Nota che una similarità CLIP di oltre 0,3 tra un’immagine e un prompt di testo indica un allineamento plausibile tra l’immagine e il prompt.’
Conclusione
Sebbene non rappresenti una “rottura” in una delle sfide più spinose nella sintesi di immagini basata su LDM, l’inversione stretta consolida un certo numero di approcci ausiliari onerosi in un metodo unificato di editing di immagini basato su AI.
Sebbene la tensione tra editabilità e fedeltà non sia scomparsa con questo metodo, è notevolmente ridotta, secondo i risultati presentati. Considerando che la sfida centrale che questo lavoro affronta potrebbe rivelarsi in ultima analisi intractabile se affrontata con i propri termini (piuttosto che guardare oltre le architetture basate su LDM in sistemi futuri), l’inversione stretta rappresenta un gradito miglioramento incrementale nello stato dell’arte.
Pubblicato per la prima volta venerdì 28 febbraio 2025












