Connect with us

Intelligenza artificiale

HD-Painter: Inpainting di Immagini ad Alta Risoluzione con Modelli di Diffusione Guidati da Testo

mm
HD-Painter : High Resolution Text-Guided Image Inpainting with Diffusion Models

I modelli di diffusione hanno senza dubbio rivoluzionato l’industria dell’AI e dell’ML, con le loro applicazioni in tempo reale che sono diventate una parte integrante della nostra vita quotidiana. Dopo che i modelli di testo-immagine hanno dimostrato le loro notevoli capacità, le tecniche di manipolazione di immagini basate sulla diffusione, come la generazione controllabile, la sintesi di immagini specializzate e personalizzate, la modifica di immagini a livello di oggetto, le variazioni condizionate da prompt e la modifica, sono emerse come argomenti di ricerca caldi a causa delle loro applicazioni nell’industria della visione artificiale.

Tuttavia, nonostante le loro impressionanti capacità e risultati eccezionali, i framework di testo-immagine, in particolare i framework di inpainting di testo-immagine, ancora hanno aree di potenziale sviluppo. Queste includono la capacità di comprendere le scene globali, specialmente quando si denoisce l’immagine in alti passaggi di diffusione. Per affrontare questo problema, i ricercatori hanno introdotto HD-Painter, un framework completamente senza addestramento che segue accuratamente le istruzioni del prompt e si scala a un inpainting di immagini ad alta risoluzione in modo coerente. Il framework HD-Painter impiega un livello di attenzione introspettiva consapevole del prompt (PAIntA), che sfrutta le informazioni del prompt per migliorare i punteggi di auto-attenzione, risultando in una migliore generazione di allineamento del testo.

Per migliorare ulteriormente la coerenza del prompt, il modello HD-Painter introduce un approccio di guida dei punteggi di attenzione di ripesamento (RASG). Questo approccio integra una strategia di campionamento post-hoc nella forma generale del componente DDIM in modo trasparente, prevenendo spostamenti latenti fuori distribuzione. Inoltre, il framework HD-Painter presenta una tecnica di super-risoluzione specializzata per l’inpainting, che gli consente di estendersi a scale più grandi e di completare le regioni mancanti nell’immagine con risoluzioni fino a 2K.

HD-Painter: Inpainting di Immagini Guidato da Testo

I modelli di diffusione di testo-immagine sono stati senza dubbio un argomento significativo nell’industria dell’AI e dell’ML negli ultimi mesi, con modelli che dimostrano impressionanti capacità in tempo reale in vari applicazioni pratiche. I modelli di generazione di immagini da testo pre-addestrati come DALL-E, Imagen e Stable Diffusion hanno mostrato la loro idoneità per il completamento di immagini unendo le regioni non conosciute denoisate con le regioni conosciute diffuse durante il processo di diffusione inversa. Nonostante producano output visivamente attraenti e ben armonizzati, i modelli esistenti lottano per comprendere la scena globale, specialmente sotto il processo di denoisazione con alto passo di diffusione. Modificando i modelli di diffusione di testo-immagine pre-addestrati per incorporare informazioni di contesto aggiuntive, possono essere adattati per il completamento di immagini guidato da testo.

Inoltre, all’interno dei modelli di diffusione, l’inpainting guidato da testo e il completamento di immagini guidato da testo sono aree di grande interesse per i ricercatori. Questo interesse è motivato dal fatto che i modelli di inpainting guidati da testo possono generare contenuto in regioni specifiche di un’immagine di input in base a prompt testuali, portando a potenziali applicazioni come il ritocco di regioni specifiche di immagini, la modifica di attributi di soggetti come colori o abbigliamento e l’aggiunta o la sostituzione di oggetti. In sintesi, i modelli di diffusione di testo-immagine hanno recentemente raggiunto un successo senza precedenti, grazie alle loro capacità di generazione eccezionalmente realistiche e visivamente attraenti.

Tuttavia, la maggior parte dei framework esistenti dimostra una negligenza del prompt in due scenari. Il primo è la dominanza dello sfondo quando il modello completa la regione sconosciuta ignorando il prompt nello sfondo, mentre il secondo scenario è la dominanza degli oggetti vicini quando il modello propaga gli oggetti della regione conosciuta alla regione sconosciuta utilizzando la probabilità di contesto visivo piuttosto che il prompt di input. È possibile che entrambi questi problemi siano il risultato della capacità del modello di inpainting di diffusione vanilla di interpretare il prompt testuale in modo accurato o di mescolarlo con le informazioni di contesto ottenute dalla regione conosciuta.

Per affrontare questi ostacoli, il framework HD-Painter introduce il livello di attenzione introspettiva consapevole del prompt (PAIntA), che utilizza le informazioni del prompt per migliorare i punteggi di auto-attenzione, risultando in una migliore generazione di allineamento del testo. PAIntA utilizza la condizionamento testuale fornito per migliorare il punteggio di auto-attenzione con l’obiettivo di ridurre l’impatto delle informazioni non rilevanti del prompt dalla regione dell’immagine e allo stesso tempo aumentare il contributo dei pixel conosciuti allineati con il prompt. Per migliorare ulteriormente l’allineamento del testo dei risultati generati, il framework HD-Painter implementa un metodo di guida post-hoc che sfrutta i punteggi di cross-attenzione. Tuttavia, l’implementazione del meccanismo di guida post-hoc vanilla potrebbe causare spostamenti di distribuzione fuori dalla distribuzione a causa del termine di gradiente aggiuntivo nell’equazione di diffusione. Lo spostamento di distribuzione fuori dalla distribuzione alla fine risulterà in un degrado della qualità del output generato. Per affrontare questo ostacolo, il framework HD-Painter implementa un meccanismo di guida dei punteggi di attenzione di ripesamento (RASG), un metodo che integra una strategia di campionamento post-hoc nella forma generale del componente DDIM in modo trasparente. Ciò consente al framework di generare risultati di inpainting visivamente plausibili guidando il campione verso i latenti allineati con il prompt e controllandoli nel loro dominio di addestramento.

Sfruttando entrambi i componenti RASH e PAIntA nella sua architettura, il framework HD-Painter mantiene un vantaggio significativo rispetto ai framework esistenti, inclusi quelli di stato dell’arte, di inpainting e di diffusione di testo-immagine, poiché risolve il problema esistente di negligenza del prompt. Inoltre, entrambi i componenti RASH e PAIntA offrono funzionalità plug-and-play, consentendo loro di essere compatibili con i modelli di inpainting basati sulla diffusione per affrontare le sfide menzionate sopra. Inoltre, implementando una tecnologia di blending time-iterativa e sfruttando le capacità dei modelli di diffusione ad alta risoluzione, la pipeline HD-Painter può operare efficacemente per un inpainting di risoluzione fino a 2K.

In sintesi, il framework HD-Painter mira a fare i seguenti contributi nel campo:

  1. Mira a risolvere il problema di negligenza del prompt dei framework di inpainting di testo-immagine, inclusi la dominanza dello sfondo e la dominanza degli oggetti vicini, implementando il livello di attenzione introspettiva consapevole del prompt (PAIntA) nella sua architettura.
  2. Mira a migliorare l’allineamento del testo dell’output implementando il livello di guida dei punteggi di attenzione di ripesamento (RASG) nella sua architettura, che consente al framework HD-Painter di eseguire un campionamento guidato post-hoc mentre prevenire spostamenti di distribuzione fuori dalla distribuzione.
  3. Per progettare una pipeline di completamento di immagini guidato da testo senza addestramento efficace in grado di superare i framework esistenti di stato dell’arte, e utilizzando la semplice ma efficace tecnica di super-risoluzione specializzata per l’inpainting per eseguire un inpainting di immagini guidato da testo fino a una risoluzione di 2K.

HD-Painter: Metodologia e Architettura

Prima di esaminare l’architettura, è fondamentale comprendere i tre concetti fondamentali che costituiscono la base del framework HD-Painter: Inpainting di Immagini, Guida Post-Hoc nei Framework di Diffusione, e Blocchi Architettonici Specifici per l’Inpainting.

L’inpainting di immagini è un approccio che mira a riempire le regioni mancanti all’interno di un’immagine mentre assicura l’attrattiva visiva dell’immagine generata. I framework di apprendimento profondo tradizionali hanno implementato metodi che utilizzavano le regioni conosciute per propagare funzionalità profonde. Tuttavia, l’introduzione dei modelli di diffusione ha portato all’evoluzione dei modelli di inpainting, specialmente i framework di inpainting di testo-immagine guidato da testo. Tradizionalmente, un modello di diffusione di testo-immagine pre-addestrato sostituisce la regione non mascherata del latente utilizzando la versione rumorosa della regione conosciuta durante il processo di campionamento. Sebbene questo approccio funzioni fino a un certo punto, degrada notevolmente la qualità dell’output generato poiché la rete di denoisazione vede solo la versione rumorosa della regione conosciuta. Per affrontare questo ostacolo, alcuni approcci hanno mirato a adattare il modello di diffusione di testo-immagine pre-addestrato per raggiungere l’inpainting di immagini guidato da testo. Implementando questo approccio, il framework è in grado di generare un mascheramento casuale tramite concatenazione poiché il modello è in grado di condizionare la rete di denoisazione sulla regione non mascherata.

Proseguendo, i modelli di apprendimento profondo tradizionali hanno implementato livelli di progettazione speciale per l’inpainting efficiente, con alcuni framework in grado di estrarre informazioni in modo efficace e produrre immagini visivamente attraenti introducendo livelli di convoluzione speciali per gestire le regioni conosciute dell’immagine. Alcuni framework hanno anche aggiunto un livello di attenzione contestuale nella loro architettura per ridurre le esigenze computazionali pesanti e non desiderate di tutta l’auto-attenzione per l’inpainting di alta qualità.

Infine, i metodi di guida post-hoc sono metodi di campionamento di diffusione inversa che guidano la previsione del latente del passo successivo verso un obiettivo di minimizzazione di una funzione. I metodi di guida post-hoc sono di grande aiuto quando si tratta di generare contenuto visivo, specialmente in presenza di vincoli aggiuntivi. Tuttavia, i metodi di guida post-hoc hanno un grande svantaggio: sono noti per causare degradi della qualità dell’immagine poiché tendono a spostare il processo di generazione del latente con un termine di gradiente.

Passando all’architettura del framework HD-Painter, il framework formula prima il problema di completamento di immagini guidato da testo e introduce due modelli di diffusione, ovvero Stable Inpainting e Stable Diffusion. Il modello HD-Painter introduce quindi i blocchi PAIntA e RASG e, infine, arriva alla tecnica di super-risoluzione specifica per l’inpainting.

Stable Diffusion e Stable Inpainting

Stable Diffusion è un modello di diffusione che opera all’interno dello spazio latente di un autoencoder. Per la sintesi di testo-immagine, il framework Stable Diffusion implementa un prompt testuale per guidare il processo. La funzione di guida ha una struttura simile all’architettura UNet e i livelli di cross-attenzione la condizionano sui prompt testuali. Inoltre, il modello Stable Diffusion può eseguire l’inpainting di immagini con alcune modifiche e adattamenti. Per raggiungere ciò, le funzionalità dell’immagine mascherata generate dal codificatore vengono concatenate con la maschera binaria ridimensionata ai latenti. Il tensore risultante viene quindi immesso nell’architettura UNet per ottenere il rumore stimato. Il framework quindi inizializza i filtri convoluzionali nuovamente aggiunti con zeri, mentre il resto dell’UNet viene inizializzato utilizzando checkpoint pre-addestrati del modello Stable Diffusion.

La figura sopra mostra la panoramica del framework HD-Painter, composto da due fasi. Nella prima fase, il framework HD-Painter implementa l’inpainting di immagini guidato da testo, mentre nella seconda fase, il modello esegue un inpainting di super-risoluzione dell’output. Per riempire le regioni mancanti e rimanere coerente con il prompt di input, il modello prende un modello di diffusione di inpainting pre-addestrato, sostituisce i livelli di auto-attenzione con livelli PAIntA e implementa il meccanismo RASG per eseguire un processo di diffusione inversa. Il modello decodifica quindi il latente stimato finale, risultando in un’immagine inpaintata. HD-Painter implementa quindi il modello di super-stable diffusion per inpaintare l’immagine di dimensioni originali e implementa il processo di diffusione inversa del framework Stable Diffusion condizionato sull’immagine di input a bassa risoluzione. Il modello combina le previsioni denoisate con la codifica dell’immagine originale nella regione conosciuta dopo ogni passo e deriva il latente successivo. Infine, il modello decodifica il latente e implementa il blending di Poisson per evitare artefatti di bordo.

Attenzione Introspettiva Consapevole del Prompt o PAIntA

I modelli di inpainting esistenti come Stable Inpainting tendono a fare affidamento più sul contesto visivo intorno all’area di inpainting e ignorare i prompt di input dell’utente. Sulla base dell’esperienza dell’utente, questo problema può essere categorizzato in due classi: la dominanza degli oggetti vicini e la dominanza dello sfondo. Il problema della dominanza del contesto visivo sul prompt di input potrebbe essere il risultato della natura solo-spaziale e senza prompt dei livelli di auto-atenzione. Per affrontare questo problema, il framework HD-Painter introduce l’attenzione introspettiva consapevole del prompt (PAIntA), che utilizza matrici di cross-attenzione e una maschera di inpainting per controllare l’output dei livelli di auto-atenzione nella regione sconosciuta.

Il componente di attenzione introspettiva consapevole del prompt applica prima livelli di proiezione per ottenere le chiavi, i valori e le query, insieme alla matrice di similarità. Il modello quindi regola il punteggio di attenzione dei pixel conosciuti per mitigare l’influenza forte della regione conosciuta sulla regione sconosciuta e definisce una nuova matrice di similarità sfruttando il prompt testuale.

Guida dei Punteggi di Attenzione di Ripesamento o RASG

Il framework HD-Painter adotta un approccio di campionamento guidato post-hoc per migliorare ulteriormente l’allineamento della generazione con i prompt testuali. Insieme a una funzione obiettivo, l’approccio di campionamento guidato post-hoc mira a sfruttare le proprietà di segmentazione a vocabolario aperto dei livelli di cross-attenzione. Tuttavia, questo approccio di guida post-hoc vanilla ha il potenziale di spostare il dominio del latente di diffusione, che potrebbe degradare la qualità dell’immagine generata. Per affrontare questo problema, il modello HD-Painter implementa il meccanismo di guida dei punteggi di attenzione di ripesamento (RASG), che introduce un meccanismo di ripesamento del gradiente, risultando nella preservazione del dominio del latente.

HD-Painter: Esperimenti e Risultati

Per analizzare le sue prestazioni, il framework HD-Painter viene confrontato con i modelli di stato dell’arte attuali, inclusi Stable Inpainting, GLIDE e BLD o Blended Latent Diffusion, su 10000 campioni casuali in cui il prompt viene selezionato come etichetta della maschera dell’istanza selezionata.

Come può essere osservato, il framework HD-Painter supera i framework esistenti su tre metriche diverse con un margine significativo, specialmente il miglioramento di 1,5 punti sulla metrica CLIP e la differenza nel punteggio di accuratezza generata di circa il 10% rispetto ad altri metodi di stato dell’arte.

Proseguendo, la figura seguente mostra il confronto qualitativo del framework HD-Painter con altri framework di inpainting. Come può essere osservato, altri modelli di base o modelli di stato dell’arte ricostruiscono le regioni mancanti nell’immagine come una continuazione degli oggetti della regione conosciuta ignorando i prompt o generano uno sfondo. D’altra parte, il framework HD-Painter è in grado di generare gli oggetti di destinazione con successo grazie all’implementazione dei componenti PAIntA e RASG nella sua architettura.

Pensieri Finali

In questo articolo, abbiamo parlato di HD-Painter, un approccio di inpainting di immagini ad alta risoluzione guidato da testo senza addestramento che affronta le sfide sperimentate dai framework di inpainting esistenti, inclusa la negligenza del prompt e la dominanza degli oggetti vicini e dello sfondo. Il framework HD-Painter implementa un livello di attenzione introspettiva consapevole del prompt (PAIntA) che utilizza le informazioni del prompt per migliorare i punteggi di auto-atenzione, risultando in una migliore generazione di allineamento del testo.

Per migliorare ulteriormente la coerenza del prompt, il modello HD-Painter introduce un approccio di guida dei punteggi di attenzione di ripesamento (RASG) che integra una strategia di campionamento post-hoc nella forma generale del componente DDIM in modo trasparente per prevenire spostamenti di distribuzione fuori dalla distribuzione. Inoltre, il framework HD-Painter introduce una tecnica di super-risoluzione specializzata per l’inpainting che consente di estendere a scale più grandi e di completare le regioni mancanti nell’immagine con risoluzioni fino a 2K.

Un ingegnere per professione, uno scrittore per passione. Kunal è uno scrittore tecnico con un profondo amore e comprensione di AI e ML, dedicato a semplificare concetti complessi in questi campi attraverso la sua documentazione coinvolgente e informativa.