Intelligenza Artificiale
HD-Painter: Inpainting di immagini guidato da testo ad alta risoluzione con modelli di diffusione

Modelli di diffusione hanno senza dubbio rivoluzionato il settore dell’intelligenza artificiale e del machine learning, con le loro applicazioni in tempo reale diventate parte integrante della nostra vita quotidiana. Dopo che i modelli testo-immagine hanno mostrato le loro notevoli capacità , le tecniche di manipolazione delle immagini basate sulla diffusione, come la generazione controllabile, la sintesi di immagini specializzata e personalizzata, l'editing di immagini a livello di oggetto, le variazioni condizionate dal prompt e l'editing, sono emerse come argomenti di ricerca caldi a causa alle loro applicazioni nel settore della visione artificiale.
Tuttavia, nonostante le loro impressionanti capacità e i risultati eccezionali, i framework testo-immagine, in particolare i framework di pittura testo-immagine, hanno ancora potenziali aree di sviluppo. Questi includono la capacità di comprendere scene globali, soprattutto quando si elimina il rumore dell'immagine in fasi temporali ad alta diffusione. Affrontando questo problema, i ricercatori hanno introdotto HD-Painter, un framework completamente esente da formazione che segue accuratamente istruzioni tempestive e si adatta in modo coerente all'inpainting di immagini ad alta risoluzione. Il framework HD-Painter utilizza un livello PAIntA (Prompt Aware Introverted Attention), che sfrutta le informazioni tempestive per migliorare i punteggi di auto-attenzione, con conseguente migliore generazione di allineamento del testo.
Per migliorare ulteriormente la coerenza del prompt, il modello HD-Painter introduce un approccio RASG (Reweighting Attention Score Guidance). Questo approccio integra perfettamente una strategia di campionamento post-hoc nella forma generale della componente DDIM, prevenendo spostamenti latenti fuori distribuzione. Inoltre, il framework HD-Painter presenta una tecnica specializzata di super-risoluzione personalizzata per l'inpainting, che gli consente di estendersi su scale più grandi e completare le regioni mancanti nell'immagine con risoluzioni fino a 2K.
HD-Painter: Inpainting di immagini guidato dal testo
I modelli di diffusione da testo a immagine sono stati infatti un argomento significativo nel settore dell’intelligenza artificiale e del machine learning negli ultimi mesi, con modelli che hanno dimostrato impressionanti capacità in tempo reale in varie applicazioni pratiche. Modelli di generazione di testo-immagine pre-addestrati come DALL-E, Imagen e Stable Diffusion hanno dimostrato la loro idoneità per il completamento dell'immagine unendo regioni sconosciute denoizzate (generate) con regioni conosciute diffuse durante il processo di diffusione all'indietro. Nonostante producano risultati visivamente accattivanti e ben armonizzati, i modelli esistenti faticano a comprendere la scena globale, in particolare nell’ambito del processo di denoising a passo temporale ad alta diffusione. Modificando i modelli di diffusione testo-immagine pre-addestrati per incorporare ulteriori informazioni di contesto, è possibile ottimizzarli per il completamento dell'immagine guidato dal testo.
Inoltre, all'interno dei modelli di diffusione, l'inpainting guidato dal testo e il completamento delle immagini guidate dal testo sono le principali aree di interesse per i ricercatori. Questo interesse è guidato dal fatto che i modelli di pitturazione guidati da testo possono generare contenuto in regioni specifiche di un'immagine di input in base a suggerimenti testuali, portando a potenziali applicazioni come il ritocco di regioni specifiche dell'immagine, la modifica di attributi del soggetto come colori o vestiti e l'aggiunta o sostituzione degli oggetti. In sintesi, i modelli di diffusione testo-immagine hanno recentemente ottenuto un successo senza precedenti, grazie alle loro capacità di generazione eccezionalmente realistiche e visivamente accattivanti.
Tuttavia, la maggior parte dei quadri esistenti dimostra un rapido abbandono in due scenari. Il primo è Dominanza dello sfondo quando il modello completa la regione sconosciuta ignorando il prompt in background mentre lo è il secondo scenario dominanza degli oggetti vicini quando il modello propaga gli oggetti della regione nota nella regione sconosciuta utilizzando la verosimiglianza del contesto visivo anziché il prompt di input. È possibile che entrambi questi problemi possano essere il risultato della capacità della diffusione della pittura vanilla di interpretare accuratamente il suggerimento testuale o di mescolarlo con le informazioni contestuali ottenute dalla regione conosciuta.
Per affrontare questi ostacoli, il framework HD-Painter introduce il livello Prompt Aware Introverted Attention o PAIntA, che utilizza informazioni tempestive per migliorare i punteggi di auto-attenzione che alla fine si traducono in una migliore generazione di allineamento del testo. PAIntA utilizza il condizionamento testuale dato per migliorare il attenzione a se stessi punteggio con l'obiettivo di ridurre l'impatto delle informazioni rilevanti non richieste dalla regione dell'immagine e allo stesso tempo aumentare il contributo dei pixel noti allineati con il suggerimento. Per migliorare ulteriormente l'allineamento del testo dei risultati generati, il framework HD-Painter implementa un metodo di guida post-hoc che sfrutta i punteggi di attenzione incrociata. Tuttavia, l’implementazione del meccanismo di guida post-hoc standard potrebbe causare spostamenti fuori distribuzione a causa del termine gradiente aggiuntivo nell’equazione di diffusione. Lo spostamento fuori distribuzione alla fine si tradurrà in un degrado della qualità dell’output generato. Per affrontare questo ostacolo, il framework HD-Painter implementa una Reweighting Attention Score Guidance o RASG, un metodo che integra perfettamente una strategia di campionamento post-hoc nella forma generale del componente DDIM. Consente al framework di generare risultati di inpainting visivamente plausibili guidando il campione verso i latenti allineati al prompt e contenendoli nel loro dominio addestrato.
Implementando sia i componenti RASH che PAIntA nella sua architettura, il framework HD-Painter presenta un vantaggio significativo rispetto ai modelli esistenti, inclusi lo stato dell'arte, l'inpainting e i modelli di diffusione da testo a immagine, perché riesce a risolvere il problema esistente di tempestivo abbandono. Inoltre, sia i componenti RASH che PAIntA offrono funzionalità plug and play, che consentono loro di essere compatibili con i modelli di diffusione a base di verniciatura per affrontare le sfide sopra menzionate. Inoltre, implementando una tecnologia di fusione iterativa nel tempo e sfruttando le capacità di modelli di diffusione ad alta risoluzione, la pipeline HD-Painter può funzionare in modo efficace per l'inpainting con risoluzione fino a 2K.
Per riassumere, HD-Painter mira a fornire i seguenti contributi nel campo:
- Mira a risolvere il problema della pronta negligenza dello sfondo e della dominanza degli oggetti vicini sperimentati dai framework di pittura di immagini guidate da testo implementando il livello Prompt Aware Introverted Attention o PAIntA nella sua architettura.
- Mira a migliorare l'allineamento del testo dell'output implementando il livello RASG o Reweighting Attention Score Guidance nella sua architettura che consente al framework HD-Painter di eseguire un campionamento guidato post-hoc prevenendo distribuzioni fuori turno.
- Progettare un'efficace pipeline di completamento delle immagini guidate da testo senza formazione in grado di sovraperformare i framework all'avanguardia esistenti e utilizzare il semplice ma efficace framework a super risoluzione specializzato nell'inpainting per eseguire l'inpainting di immagini guidate da testo fino a una risoluzione di 2K.
HD-Painter: metodo e architettura
Prima di dare un'occhiata all'architettura, è fondamentale comprendere i tre concetti fondamentali che costituiscono le fondamenta del framework HD-Painter: Inpainting di immagini, guida post-hoc nei quadri di diffusione, e Riverniciatura di blocchi architettonici specifici.
Image Inpainting è un approccio che mira a riempire le regioni mancanti all'interno di un'immagine garantendo al contempo l'impatto visivo dell'immagine generata. I framework tradizionali di deep learning implementavano metodi che utilizzavano regioni conosciute per propagare funzionalità profonde. Tuttavia, l'introduzione di modelli di diffusione ha portato all'evoluzione dei modelli di inpainting, in particolare dei quadri di inpainting di immagini guidate da testo. Tradizionalmente, un modello di diffusione testo-immagine pre-addestrato sostituisce la regione non mascherata della regione latente utilizzando la versione disturbata della regione nota durante il processo di campionamento. Sebbene questo approccio funzioni in una certa misura, degrada significativamente la qualità dell'output generato poiché la rete di denoising vede solo la versione disturbata della regione nota. Per affrontare questo ostacolo, alcuni approcci miravano a mettere a punto il modello testo-immagine pre-addestrato per ottenere l'integrazione dell'immagine guidata dal testo. Implementando questo approccio, il framework è in grado di generare una maschera casuale tramite concatenazione poiché il modello è in grado di condizionare il framework di denoising sulla regione non mascherata.
Andando avanti, i tradizionali modelli di deep learning hanno implementato speciali livelli di progettazione per un efficiente re-painting con alcuni framework in grado di estrarre informazioni in modo efficace e produrre immagini visivamente accattivanti introducendo speciali livelli di convoluzione per gestire le regioni note dell'immagine. Alcuni framework hanno persino aggiunto un livello di attenzione contestuale nella loro architettura per ridurre i pesanti requisiti computazionali indesiderati di tutta l'attenzione per tutti per un'inpainting di alta qualità .
Infine, i metodi di guida post-hoc sono metodi di campionamento a diffusione all'indietro che guidano la previsione latente del passaggio successivo verso un particolare obiettivo di minimizzazione della funzione. I metodi di guida post-hoc sono di grande aiuto quando si tratta di generare contenuti visivi, soprattutto in presenza di vincoli aggiuntivi. Tuttavia, i metodi di guida post-hoc presentano un grave inconveniente: è noto che provocano degradi della qualità dell'immagine poiché tendono a spostare il processo di generazione latente di un termine di gradiente.
Venendo all'architettura di HD-Painter, il framework formula innanzitutto il problema del completamento dell'immagine guidata dal testo, quindi introduce due modelli di diffusione ovvero Stable Inpainting e Diffusione stabile. Il modello HD-Painter introduce quindi i blocchi PAIntA e RASG, e infine arriviamo alla tecnica di super risoluzione specifica per l'inpainting.
Diffusione stabile e pitturazione stabile
La diffusione stabile è un modello di diffusione che opera all'interno dello spazio latente di un autoencoder. Per la sintesi da testo a immagine, il framework Stable Diffusion implementa un prompt testuale per guidare il processo. La funzione di guida ha una struttura simile all'architettura UNet, e gli strati di attenzione incrociata la condizionano ai suggerimenti testuali. Inoltre, il modello Diffusione Stabile può eseguire l'inpainting dell'immagine con alcune modifiche e ottimizzazioni. Per ottenere ciò, le caratteristiche dell'immagine mascherata generata dal codificatore vengono concatenate con la maschera binaria ridimensionata ai latenti. Il tensore risultante viene quindi immesso nell'architettura UNet per ottenere il rumore stimato. Il framework quindi inizializza i filtri convoluzionali appena aggiunti con zeri mentre il resto dell'UNet viene inizializzato utilizzando checkpoint preaddestrati dal modello Stable Diffusion.
La figura sopra mostra la panoramica del framework HD-Painter costituito da due fasi. Nella prima fase, il framework HD-Painter implementa la pittura di immagini guidata dal testo mentre nella seconda fase, il modello dipinge una super-risoluzione specifica dell'output. Per riempire le regioni di missione e rimanere coerente con il prompt di input, il modello prende un modello di diffusione inpainting pre-addestrato, sostituisce gli strati di autoattenzione con strati PAIntA e implementa il meccanismo RASG per eseguire un processo di diffusione all'indietro. Il modello quindi decodifica la stima finale latente risultando in un'immagine dipinta. HD-Painter implementa quindi il modello di diffusione super stabile per ridipingere l'immagine di dimensioni originali e implementa il processo di diffusione all'indietro del framework Stable Diffusion condizionato sull'immagine di input a bassa risoluzione. Il modello fonde le previsioni denoizzate con la codifica dell'immagine originale dopo ogni passaggio nella regione nota e deriva la successiva latente. Infine, il modello decodifica il latente e implementa la fusione di Poisson per evitare artefatti ai bordi.
Prompt Attenzione Introversa Consapevole o PAIntA
I modelli di re-painting esistenti come Stable Inpainting tendono a fare più affidamento sul contesto visivo attorno all'area di re-painting e ignorano le richieste di input dell'utente. Sulla base dell'esperienza dell'utente, questo problema può essere classificato in due classi: dominanza degli oggetti vicini e dominanza dello sfondo. Il problema della dominanza del contesto visivo sui suggerimenti di input potrebbe essere il risultato della natura esclusivamente spaziale e priva di suggerimenti degli strati di autoattenzione. Per affrontare questo problema, il framework HD-Painter introduce il Prompt Aware Introverted Attention o PAIntA che utilizza matrici di attenzione incrociata e una maschera di pittura per controllare l'output degli strati di auto-attenzione nella regione sconosciuta.
Il componente Attenzione introversa tempestiva e consapevole applica innanzitutto i livelli di proiezione per ottenere la chiave, i valori e le query insieme alla matrice di somiglianza. Il modello quindi regola il punteggio di attenzione dei pixel noti per mitigare la forte influenza della regione nota sulla regione sconosciuta e definisce una nuova matrice di somiglianza sfruttando il suggerimento testuale.
Riponderazione della guida al punteggio di attenzione o RASG
Il framework HD-Painter adotta un metodo di guida al campionamento post-hoc per migliorare ulteriormente l'allineamento della generazione con le istruzioni testuali. Insieme a una funzione oggettiva, l'approccio di guida al campionamento post-hoc mira a sfruttare le proprietà di segmentazione del vocabolario aperto degli strati di attenzione incrociata. Tuttavia, questo approccio di guida post-hoc vanilla ha il potenziale per spostare il dominio di diffusione latente che potrebbe degradare la qualità dell'immagine generata. Per affrontare questo problema, il modello HD-Painter implementa il meccanismo Reweighting Attention Score Guidance o RASG che introduce un meccanismo di riponderazione del gradiente con conseguente conservazione del dominio latente.
HD-Painter: esperimenti e risultati
Per analizzarne le prestazioni, il framework HD-Painter viene confrontato con gli attuali modelli all'avanguardia tra cui Stable Inpainting, GLIDE e BLD o Blended Latent Diffusion su 10000 campioni casuali in cui il prompt viene selezionato come etichetta della maschera dell'istanza selezionata.
Come si può osservare, il framework HD-Painter supera i framework esistenti su tre diversi parametri con un margine significativo, in particolare il miglioramento di 1.5 punti sul parametro CLIP e la differenza nel punteggio di precisione generato di circa il 10% rispetto ad altri metodi all'avanguardia .
Andando avanti, la figura seguente mostra il confronto qualitativo del framework HD-Painter con altri framework di inpainting. Come si può osservare, altri modelli di base ricostruiscono le regioni mancanti nell'immagine come continuazione degli oggetti regione nota ignorando le istruzioni oppure generano uno sfondo. D'altra parte, il framework HD-Painter è in grado di generare con successo gli oggetti target grazie all'implementazione dei componenti PAIntA e RASG nella sua architettura.
Considerazioni finali
In questo articolo, abbiamo parlato di HD-Painter, un approccio formativo di inpainting ad alta risoluzione guidato da testo libero che affronta le sfide incontrate dai framework di inpainting esistenti, tra cui la rapida negligenza e la dominanza degli oggetti vicini e sullo sfondo. Il framework HD-Painter implementa un livello Prompt Aware Introverted Attention o PAIntA, che utilizza informazioni tempestive per migliorare i punteggi di auto-attenzione che alla fine si traducono in una migliore generazione di allineamento del testo.
Per migliorare ulteriormente la coerenza del prompt, il modello HD-Painter introduce un approccio RASG o Reweighting Attention Score Guidance che integra una strategia di campionamento post-hoc nella forma generale del componente DDIM senza soluzione di continuità per prevenire spostamenti latenti fuori distribuzione. Inoltre, il framework HD-Painter introduce una tecnica specializzata di super-risoluzione personalizzata per l'inpainting che si traduce in un'estensione su scale più grandi e consente al framework HD-Painter di completare le regioni mancanti nell'immagine con una risoluzione fino a 2K.