Intelligenza artificiale

HD-Painter: Inpainting di Immagini ad Alta Risoluzione con Modelli di Diffusione

Pubblicato il 13 febbraio 2024

Aggiornato il 22 maggio 2026

Kunal Kejriwal

HD-Painter : High Resolution Text-Guided Image Inpainting with Diffusion Models

I modelli di diffusione hanno senza dubbio rivoluzionato l’industria dell’AI e dell’ML, con le loro applicazioni in tempo reale che sono diventate una parte integrante della nostra vita quotidiana. Dopo che i modelli di testo-immagine hanno dimostrato le loro capacità notevoli, le tecniche di manipolazione di immagini basate sulla diffusione, come la generazione controllabile, la sintesi di immagini personalizzate, la modifica di immagini a livello di oggetto, le variazioni condizionate da prompt e la modifica, sono emerse come argomenti di ricerca caldi a causa delle loro applicazioni nell’industria della visione computerizzata.

Tuttavia, nonostante le loro capacità impressionanti e i risultati eccezionali, i framework di testo-immagine, in particolare i framework di inpainting di testo-immagine, hanno ancora potenziali aree di sviluppo. Queste includono la capacità di comprendere le scene globali, specialmente quando si denoisa l’immagine in alti passaggi di diffusione. Per affrontare questo problema, i ricercatori hanno introdotto HD-Painter, un framework completamente senza addestramento che segue accuratamente le istruzioni del prompt e si scala a un inpainting di immagini ad alta risoluzione in modo coerente. Il framework HD-Painter impiega un livello di attenzione introvertita consapevole del prompt (PAIntA), che sfrutta le informazioni del prompt per migliorare i punteggi di auto-attenzione, risultando in una generazione di allineamento del testo migliore.

Per migliorare ulteriormente la coerenza del prompt, il modello HD-Painter introduce un approccio di guida dei punteggi di attenzione di ripeso (RASG). Questo approccio integra una strategia di campionamento post-hoc nella forma generale del componente DDIM in modo impeccabile, prevenendo spostamenti latenti fuori distribuzione. Inoltre, il framework HD-Painter presenta una tecnica di super-risoluzione specializzata per l’inpainting, che gli consente di estendersi a scale più grandi e di completare le regioni mancanti nell’immagine con risoluzioni fino a 2K.

HD-Painter: Inpainting di Immagini Guidato da Testo

I modelli di diffusione di testo-immagine sono stati senza dubbio un argomento significativo nell’industria dell’AI e dell’ML negli ultimi mesi, con modelli che dimostrano capacità impressionanti in tempo reale in vari applicazioni pratiche. I modelli di generazione di immagini da testo pre-addestrati come DALL-E, Imagen e Stable Diffusion hanno dimostrato la loro idoneità per il completamento di immagini unendo le regioni non conosciute denoised (generate) con le regioni conosciute diffuse durante il processo di diffusione inversa. Nonostante producano output visivamente attraenti e ben armonizzati, i modelli esistenti lottano per comprendere la scena globale, in particolare sotto il processo di denoising ad alto passo di diffusione. Modificando i modelli di diffusione di testo-immagine pre-addestrati per incorporare informazioni di contesto aggiuntive, possono essere adattati per il completamento di immagini guidato da testo.

Inoltre, all’interno dei modelli di diffusione, l’inpainting guidato da testo e il completamento di immagini guidato da testo sono aree di interesse principale per i ricercatori. Questo interesse è guidato dal fatto che i modelli di inpainting guidati da testo possono generare contenuto in regioni specifiche di un’immagine di input in base a prompt testuali, portando a potenziali applicazioni come il ritocco di regioni specifiche di immagini, la modifica di attributi di soggetto come colori o abbigliamento, e l’aggiunta o la sostituzione di oggetti. In sintesi, i modelli di diffusione di testo-immagine hanno recentemente raggiunto un successo senza precedenti, grazie alle loro capacità di generazione eccezionalmente realistiche e visivamente attraenti.

Tuttavia, la maggior parte dei framework esistenti dimostra una negligenza del prompt in due scenari. Il primo è la dominanza dello sfondo quando il modello completa la regione sconosciuta ignorando il prompt nello sfondo, mentre il secondo scenario è la dominanza dell’oggetto vicino quando il modello propaga gli oggetti della regione conosciuta alla regione sconosciuta utilizzando la probabilità di contesto visivo piuttosto che il prompt di input. È possibile che entrambi questi problemi siano il risultato della capacità del modello di interpretare il prompt testuale in modo accurato o di mescolarlo con le informazioni di contesto ottenute dalla regione conosciuta.

Per affrontare questi ostacoli, il framework HD-Painter introduce il livello di attenzione introvertita consapevole del prompt (PAIntA), che utilizza le informazioni del prompt per migliorare i punteggi di auto-atenzione, risultando in una generazione di allineamento del testo migliore. PAIntA utilizza la condizionamento testuale dato per migliorare il punteggio di auto-atenzione con l’obiettivo di ridurre l’impatto delle informazioni non pertinenti al prompt dalla regione dell’immagine e, allo stesso tempo, aumentare il contributo dei pixel conosciuti allineati con il prompt. Per migliorare ulteriormente l’allineamento del testo dei risultati generati, il framework HD-Painter implementa un metodo di guida post-hoc che sfrutta i punteggi di cross-attenzione. Tuttavia, l’implementazione del meccanismo di guida post-hoc standard potrebbe causare spostamenti fuori distribuzione a causa del termine di gradiente aggiuntivo nell’equazione di diffusione. Gli spostamenti fuori distribuzione porteranno infine a una degradazione della qualità del risultato generato. Per affrontare questo ostacolo, il framework HD-Painter implementa un meccanismo di guida dei punteggi di attenzione di ripeso (RASG), un metodo che integra una strategia di campionamento post-hoc nella forma generale del componente DDIM in modo impeccabile. Ciò consente al framework di generare risultati di inpainting visivamente plausibili guidando il campione verso i latenti allineati con il prompt e controllandoli nel loro dominio di addestramento.

Sfruttando sia il componente RASH che il componente PAIntA nella sua architettura, il framework HD-Painter ha un vantaggio significativo rispetto ai modelli di inpainting e di diffusione di testo-immagine esistenti, inclusi quelli di stato dell’arte, poiché riesce a risolvere il problema esistente della negligenza del prompt. Inoltre, sia il componente RASH che il componente PAIntA offrono una funzionalità plug-and-play, consentendo loro di essere compatibili con i modelli di inpainting basati sulla diffusione per affrontare le sfide menzionate sopra. Inoltre, implementando una tecnologia di blending time-iterativo e sfruttando le capacità dei modelli di diffusione ad alta risoluzione, la pipeline HD-Painter può operare efficacemente per l’inpainting di immagini fino a una risoluzione di 2K.

Per riassumere, il framework HD-Painter mira a fare i seguenti contributi nel campo:

Mira a risolvere il problema della negligenza del prompt e della dominanza dell’oggetto vicino sperimentati dai framework di inpainting di testo-immagine guidato implementando il livello di attenzione introvertita consapevole del prompt (PAIntA) nella sua architettura.
Mira a migliorare l’allineamento del testo dei risultati generati implementando il livello di guida dei punteggi di attenzione di ripeso (RASG) nella sua architettura, che consente al framework HD-Painter di eseguire un campionamento guidato post-hoc mentre evita gli spostamenti fuori distribuzione.
Mira a progettare una pipeline di completamento di immagini guidato da testo senza addestramento efficace in grado di superare i framework esistenti di stato dell’arte, utilizzando la semplice ma efficace tecnica di super-risoluzione specializzata per l’inpainting per eseguire l’inpainting di immagini guidato da testo fino a una risoluzione di 2K.

HD-Painter: Metodologia e Architettura

Prima di esaminare l’architettura, è vitale comprendere i tre concetti fondamentali che costituiscono la base del framework HD-Painter: Inpainting di Immagini, Guida Post-Hoc nei Framework di Diffusione, e Blocchi Architettonici Specifici per l’Inpainting.

L’inpainting di immagini è un approccio che mira a riempire le regioni mancanti all’interno di un’immagine mentre assicura l’appeal visivo dell’immagine generata. I framework di apprendimento profondo tradizionali hanno implementato metodi che utilizzavano regioni conosciute per propagare caratteristiche profonde. Tuttavia, l’introduzione dei modelli di diffusione ha portato all’evoluzione dei modelli di inpainting, in particolare dei framework di inpainting di testo-immagine guidato. Tradizionalmente, un modello di diffusione di testo-immagine pre-addestrato sostituisce la regione non mascherata del latente utilizzando la versione rumorosa della regione conosciuta durante il processo di campionamento. Sebbene questo approccio funzioni fino a un certo punto, degrada notevolmente la qualità del risultato generato poiché la rete di denoising vede solo la versione rumorosa della regione conosciuta. Per affrontare questo ostacolo, alcuni approcci hanno mirato ad adattare il modello di diffusione di testo-immagine pre-addestrato per raggiungere l’inpainting di immagini guidato da testo. Implementando questo approccio, il framework è in grado di generare una maschera casuale tramite concatenazione poiché il modello può condizionare la rete di denoising sulla regione non mascherata.

Proseguendo, i modelli di apprendimento profondo tradizionali hanno implementato strati di progettazione speciali per l’inpainting efficiente, con alcuni framework in grado di estrarre informazioni in modo efficace e produrre immagini visivamente attraenti introducendo strati di attenzione contestuale nella loro architettura per ridurre le esigenze computazionali pesanti dell’auto-attenzione per l’inpainting di alta qualità. Alcuni framework hanno anche aggiunto uno strato di attenzione contestuale nella loro architettura per ridurre le esigenze computazionali pesanti dell’auto-atenzione per l’inpainting di alta qualità.

Infine, i metodi di guida post-hoc sono metodi di campionamento di diffusione inversa che guidano la previsione del latente del passo successivo verso un obiettivo di minimizzazione di una funzione specifica. I metodi di guida post-hoc sono di grande aiuto quando si tratta di generare contenuto visivo, specialmente in presenza di vincoli aggiuntivi. Tuttavia, i metodi di guida post-hoc hanno un grande svantaggio: sono noti per causare degradazioni della qualità dell’immagine poiché tendono a spostare il processo di generazione del latente attraverso un termine di gradiente.

Passando all’architettura del framework HD-Painter, il framework formula innanzitutto il problema di completamento di immagini guidato da testo e introduce due modelli di diffusione, ovvero la Diffusione Stabile e la Diffusione Stabile. Il modello HD-Painter introduce quindi i blocchi PAIntA e RASG e, infine, arriviamo alla tecnica di super-risoluzione specifica per l’inpainting.

Diffusione Stabile e Inpainting Stabile

La Diffusione Stabile è un modello di diffusione che opera all’interno dello spazio latente di un autoencoder. Per la sintesi di testo-immagine, il framework di Diffusione Stabile implementa un prompt testuale per guidare il processo. La funzione di guida ha una struttura simile all’architettura UNet e le layer di cross-attenzione la condizionano sui prompt testuali. Inoltre, il modello di Diffusione Stabile può eseguire l’inpainting di immagini con alcune modifiche e adattamenti. Per farlo, le caratteristiche dell’immagine mascherata generate dall’encoder vengono concatenate con la maschera binaria ridimensionata ai latenti. Il tensore risultante viene quindi immesso nell’architettura UNet per ottenere il rumore stimato. Il framework inizializza quindi i filtri convoluzionali aggiunti con zeri, mentre il resto dell’architettura UNet viene inizializzato utilizzando i checkpoint pre-addestrati del modello di Diffusione Stabile.

La figura sopra mostra la panoramica del framework HD-Painter, composto da due fasi. Nella prima fase, il framework HD-Painter implementa l’inpainting di immagini guidato da testo, mentre nella seconda fase, il modello esegue l’inpainting di super-risoluzione dell’output. Per riempire le regioni mancanti e mantenere la coerenza con il prompt di input, il modello prende un modello di diffusione di inpainting pre-addestrato, sostituisce i layer di auto-atenzione con layer PAIntA e implementa il meccanismo RASG per eseguire un processo di diffusione inversa. Il modello decodifica quindi il latente stimato finale, risultando in un’immagine inpaintata. Il framework HD-Painter implementa quindi il modello di diffusione stabile per eseguire l’inpainting dell’immagine originale, e implementa il processo di diffusione inverso del framework di Diffusione Stabile condizionato sull’immagine di input a bassa risoluzione. Il modello combina le previsioni denoise con la codifica dell’immagine originale nella regione conosciuta dopo ogni passo e deriva il latente successivo. Infine, il modello decodifica il latente e implementa il blending di Poisson per evitare artefatti di bordo.

Attenzione Introvertita Consapevole del Prompt o PAIntA

I modelli di inpainting esistenti, come la Diffusione Stabile, tendono a fare affidamento più sul contesto visivo intorno all’area di inpainting e ignorare i prompt di input dell’utente. Sulla base dell’esperienza dell’utente, questo problema può essere categorizzato in due classi: la dominanza dell’oggetto vicino e la dominanza dello sfondo. Il problema della dominanza del contesto visivo sulle informazioni del prompt potrebbe essere il risultato della natura spaziale e priva di prompt dei layer di auto-atenzione. Per affrontare questo problema, il framework HD-Painter introduce l’Attenzione Introvertita Consapevole del Prompt o PAIntA, che utilizza le matrici di cross-attenzione e una maschera di inpainting per controllare l’output dei layer di auto-atenzione nella regione sconosciuta.

Il componente di Attenzione Introvertita Consapevole del Prompt applica innanzitutto layer di proiezione per ottenere la chiave, i valori e le query, insieme alla matrice di similarità. Il modello regola quindi il punteggio di attenzione dei pixel conosciuti per mitigare l’influenza forte della regione conosciuta sulla regione sconosciuta e definisce una nuova matrice di similarità sfruttando il prompt testuale.

Guida dei Punteggi di Attenzione di Ripeso o RASG

Il framework HD-Painter adotta un metodo di guida di campionamento post-hoc per migliorare ulteriormente l’allineamento della generazione con i prompt testuali. Insieme a una funzione obiettivo, l’approccio di guida post-hoc mira a sfruttare le proprietà di segmentazione a vocabolario aperto dei layer di cross-attenzione. Tuttavia, questo approccio di guida post-hoc standard potrebbe spostare il dominio del latente di diffusione, degradando la qualità dell’immagine generata. Per affrontare questo problema, il modello HD-Painter implementa il meccanismo di guida dei punteggi di attenzione di ripeso o RASG, un metodo che introduce un meccanismo di ripeso del gradiente, risultando nella preservazione del dominio del latente.

HD-Painter: Esperimenti e Risultati

Per analizzare le sue prestazioni, il framework HD-Painter viene confrontato con i modelli di stato dell’arte attuali, tra cui la Diffusione Stabile, GLIDE e BLD o Diffusione Latente Miscelata, su 10000 campioni casuali in cui il prompt viene selezionato come etichetta della maschera dell’istanza selezionata.

Come si può osservare, il framework HD-Painter supera i framework esistenti in tre metriche diverse con un margine significativo, in particolare il miglioramento di 1,5 punti nella metrica CLIP e la differenza nel punteggio di accuratezza generata di circa il 10% rispetto ai metodi di stato dell’arte.

Proseguendo, la figura seguente mostra il confronto qualitativo del framework HD-Painter con altri framework di inpainting. Come si può osservare, gli altri modelli di base ricostruiscono le regioni mancanti dell’immagine come una continuazione degli oggetti della regione conosciuta, ignorando i prompt, o generano uno sfondo. D’altra parte, il framework HD-Painter è in grado di generare gli oggetti di destinazione con successo grazie all’implementazione dei componenti PAIntA e RASG nella sua architettura.

Pensieri Finali

In questo articolo, abbiamo parlato del framework HD-Painter, un approccio di inpainting di immagini ad alta risoluzione guidato da testo senza addestramento che affronta le sfide sperimentate dai framework di inpainting esistenti, tra cui la negligenza del prompt e la dominanza dell’oggetto vicino e dello sfondo. Il framework HD-Painter implementa un livello di attenzione introvertita consapevole del prompt (PAIntA) che utilizza le informazioni del prompt per migliorare i punteggi di auto-atenzione, risultando in una generazione di allineamento del testo migliore.

Per migliorare ulteriormente la coerenza del prompt, il modello HD-Painter introduce un approccio di guida dei punteggi di attenzione di ripeso (RASG) che integra una strategia di campionamento post-hoc nella forma generale del componente DDIM in modo impeccabile per prevenire spostamenti latenti fuori distribuzione. Inoltre, il framework HD-Painter introduce una tecnica di super-risoluzione specializzata per l’inpainting che consente di estendere a scale più grandi e di completare le regioni mancanti nell’immagine con risoluzioni fino a 2K.