Seguici sui social

Intelligenza Artificiale

InstantID: generazione zero-shot di preservazione dell'identità in pochi secondi

mm

La tecnologia di generazione di immagini basata sull'intelligenza artificiale ha assistito a una crescita notevole negli ultimi anni da quando sono entrati in scena modelli di diffusione di testo in immagini di grandi dimensioni come DALL-E, GLIDE, Stable Diffusion, Imagen e altri. Nonostante il fatto che i modelli di intelligenza artificiale per la generazione di immagini abbiano un'architettura e metodi di addestramento unici, condividono tutti un punto focale comune: la generazione di immagini personalizzate che mira a creare immagini con ID del personaggio, soggetto e stile coerenti sulla base di immagini di riferimento. Grazie alle loro notevoli capacità generative, i moderni framework AI per la generazione di immagini hanno trovato applicazioni in campi quali l'animazione delle immagini, la realtà virtuale, l'e-commerce, i ritratti AI e altro ancora. Tuttavia, nonostante le loro notevoli capacità generative, questi framework condividono tutti un ostacolo comune: la maggior parte di essi non è in grado di generare immagini personalizzate preservando i delicati dettagli dell’identità degli oggetti umani. 

Generare immagini personalizzate preservando dettagli complessi è di fondamentale importanza soprattutto nelle attività di identità facciale umana che richiedono un elevato standard di fedeltà e dettaglio e semantica sfumata rispetto alle attività generali di generazione di immagini di oggetti che si concentrano principalmente su trame e colori a grana grossa. Inoltre, negli ultimi anni i framework di sintesi di immagini personalizzate come LoRA, DreamBooth, Textual Inversion e altri hanno fatto progressi in modo significativo. Tuttavia, i modelli di intelligenza artificiale generativa di immagini personalizzate non sono ancora perfetti per l’implementazione in scenari del mondo reale poiché hanno requisiti di archiviazione elevati, richiedono più immagini di riferimento e spesso richiedono un lungo processo di messa a punto. D'altra parte, sebbene i metodi esistenti basati sull'incorporamento di ID richiedano solo un singolo riferimento diretto, o non sono compatibili con i modelli pre-addestrati disponibili al pubblico, oppure richiedono un processo di messa a punto eccessivo su numerosi parametri, oppure non riescono a mantenere elevati fedeltà al volto. 

Per affrontare queste sfide e migliorare ulteriormente le capacità di generazione di immagini, in questo articolo parleremo di InstantID, una soluzione basata su modello di diffusione per la generazione di immagini. InstantID è un modulo plug and play che gestisce abilmente la generazione e la personalizzazione delle immagini in vari stili con una sola immagine di riferimento e garantisce inoltre un'alta fedeltà. Lo scopo principale di questo articolo è fornire ai nostri lettori una comprensione approfondita delle basi tecniche e dei componenti del framework InstantID poiché daremo uno sguardo dettagliato all'architettura del modello, al processo di formazione e agli scenari applicativi. Quindi iniziamo.

InstantID: generazione di immagini che preservano l'identità Zero-Shot


L'emergere di modelli di diffusione del testo in immagine ha contribuito in modo significativo al progresso della tecnologia di generazione delle immagini. Lo scopo principale di questi modelli è la generazione personalizzata e personale e la creazione di immagini con soggetto, stile e ID del personaggio coerenti utilizzando una o più immagini di riferimento. La capacità di questi framework di creare immagini coerenti ha creato potenziali applicazioni in diversi settori tra cui l'animazione di immagini, la generazione di ritratti tramite intelligenza artificiale, l'e-commerce, la realtà virtuale e aumentata e molto altro. 

Tuttavia, nonostante le loro notevoli capacità, questi sistemi devono affrontare una sfida fondamentale: spesso hanno difficoltà a generare immagini personalizzate che preservino accuratamente gli intricati dettagli dei soggetti umani. Vale la pena notare che generare immagini personalizzate con dettagli intrinseci è un compito impegnativo poiché l’identità facciale umana richiede un grado più elevato di fedeltà e dettaglio insieme a una semantica più avanzata rispetto a oggetti o stili generali che si concentrano principalmente su colori o trame a grana grossa. I modelli testo-immagine esistenti dipendono da descrizioni testuali dettagliate e faticano a raggiungere una forte rilevanza semantica per la generazione di immagini personalizzate. Inoltre, alcuni grandi framework di testo e immagine pre-addestrati aggiungono controlli di condizionamento spaziale per migliorare la controllabilità, facilitando il controllo strutturale a grana fine utilizzando elementi come pose del corpo, mappe di profondità, schizzi disegnati dall'utente, mappe di segmentazione semantica e altro ancora. Tuttavia, nonostante queste aggiunte e miglioramenti, questi framework sono in grado di raggiungere solo una fedeltà parziale dell'immagine generata rispetto all'immagine di riferimento. 

Per superare questi ostacoli, il framework InstantID si concentra sulla sintesi istantanea delle immagini che preserva l'identità e tenta di colmare il divario tra efficienza e alta fedeltà introducendo un semplice modulo plug and play che consente al framework di gestire la personalizzazione dell'immagine utilizzando solo una singola immagine facciale. pur mantenendo un'alta fedeltà. Inoltre, per preservare l'identità facciale dall'immagine di riferimento, il framework InstantID implementa un nuovo codificatore di volti che conserva i dettagli intricati dell'immagine aggiungendo condizioni spaziali deboli e semantiche forti che guidano il processo di generazione dell'immagine incorporando suggerimenti testuali, immagine di riferimento e immagine facciale . 

Esistono tre caratteristiche distintive che separano il framework InstantID dai framework esistenti per la generazione di testo e immagini. 

  • Compatibilità e collegabilità: invece di addestrare sui parametri completi del framework UNet, il framework InstantID si concentra sull'addestramento di un adattatore leggero. Di conseguenza, il framework InstantID è compatibile e collegabile con i modelli pre-addestrati esistenti. 
  • Senza accordatura: La metodologia del framework InstantID elimina la necessità di messa a punto poiché necessita di una sola propagazione in avanti per l'inferenza, rendendo il modello altamente pratico ed economico per la messa a punto. 
  • Prestazioni superiori: Il framework InstantID dimostra elevata flessibilità e fedeltà poiché è in grado di fornire prestazioni all'avanguardia utilizzando una sola immagine di riferimento, paragonabile ai metodi basati sull'addestramento che si basano su più immagini di riferimento. 

Nel complesso, i contributi del framework InstantID possono essere classificati nei seguenti punti. 

  1. Il framework InstantID è un metodo di adattamento innovativo che preserva l'ID per modelli di diffusione di testo-immagine pre-addestrati con l'obiettivo di colmare il divario tra efficienza e fedeltà. 
  2. Il framework InstantID è compatibile e collegabile con modelli personalizzati ottimizzati che utilizzano lo stesso modello di diffusione nella sua architettura consentendo la conservazione dell'ID in modelli pre-addestrati senza alcun costo aggiuntivo. 

InstantID: metodologia e architettura

Come accennato in precedenza, il framework InstantID è un adattatore leggero ed efficiente che fornisce modelli di diffusione di testo-immagine pre-addestrati con funzionalità di conservazione dell'ID senza sforzo. 

Parlando dell'architettura, il framework InstantID è costruito sopra Modello di diffusione stabile, rinomato per la sua capacità di eseguire il processo di diffusione con elevata efficienza computazionale in uno spazio latente a bassa dimensione invece che nello spazio dei pixel con un codificatore automatico. Per un'immagine di input, il codificatore prima mappa l'immagine su una rappresentazione latente con fattore di downsampling e dimensioni latenti. Inoltre, per eliminare il rumore da un rumore distribuito normalmente con rumore latente, condizione e passo temporale corrente, il processo di diffusione adotta un componente UNet di rimozione del rumore. La condizione è l'incorporamento di prompt testuali generati utilizzando un componente codificatore di testo CLIP pre-addestrato. 

Inoltre, il framework InstantID utilizza anche un componente ControlNet che è in grado di aggiungere il controllo spaziale a un modello di diffusione pre-addestrato come sua condizione, estendendosi ben oltre le tradizionali capacità dei prompt testuali. Il componente ControlNet integra inoltre l'architettura UNet dal framework Stable Diffusion utilizzando una replica addestrata del componente UNet. La replica del componente UNet presenta strati a convoluzione zero all'interno dei blocchi centrali e dei blocchi encoder. Nonostante le somiglianze, il componente ControlNet si distingue dal modello Stable Diffusion; entrambi differiscono per quest'ultima voce residua. Il componente ControlNet codifica le informazioni sulle condizioni spaziali come pose, mappe di profondità, schizzi e altro aggiungendo i residui al blocco UNet, quindi incorpora questi residui nella rete originale. 

Il framework InstantID trae ispirazione anche da IP-Adapter o Image Prompt Adapter che introduce un nuovo approccio per ottenere funzionalità di prompt delle immagini che funzionano parallelamente ai prompt testuali senza richiedere di modificare il testo originale nei modelli di immagine. Il componente IP-Adapter impiega inoltre un'esclusiva strategia di attenzione incrociata disaccoppiata che utilizza ulteriori livelli di attenzione incrociata per incorporare le caratteristiche dell'immagine lasciando invariati gli altri parametri. 

Metodologia

Per darti una breve panoramica, il framework InstantID mira a generare immagini personalizzate con stili o pose diversi utilizzando una sola immagine ID di riferimento ad alta fedeltà. La figura seguente fornisce brevemente una panoramica del framework InstantID. 

Come si può osservare, il framework InstantID ha tre componenti essenziali:

  1. Un componente di incorporamento dell'ID che acquisisce informazioni semantiche affidabili sulle caratteristiche facciali nell'immagine. 
  2. Un modulo leggero adottato con una componente di attenzione incrociata disaccoppiata per facilitare l'uso di un'immagine come suggerimento visivo. 
  3. Un componente IdentityNet che codifica le caratteristiche dettagliate dell'immagine di riferimento utilizzando un controllo spaziale aggiuntivo. 

Incorporamento dell'ID

A differenza dei metodi esistenti come FaceStudio, PhotoMaker, IP-Adapter e altri che si basano su un codificatore di immagini CLIP pre-addestrato per estrarre istruzioni visive, il framework InstantID si concentra su una maggiore fedeltà e dettagli semantici più forti nell'attività di conservazione dell'ID. Vale la pena notare che i limiti intrinseci del componente CLIP risiedono principalmente nel suo processo di addestramento su dati debolmente allineati, il che significa che le funzionalità codificate del codificatore CLIP catturano principalmente informazioni semantiche ampie e ambigue come colori, stile e composizione. Sebbene queste funzionalità possano fungere da supplemento generale agli incorporamenti di testo, non sono adatte per compiti precisi di conservazione dell'identità che pongono molta enfasi su una semantica forte e un'alta fedeltà. Inoltre, recenti ricerche sui modelli di rappresentazione del volto, in particolare sul riconoscimento facciale, hanno dimostrato l'efficienza della rappresentazione del volto in compiti complessi, tra cui la ricostruzione e il riconoscimento facciale. Basandosi su ciò, il framework InstantID mira a sfruttare un modello di volto pre-addestrato per rilevare ed estrarre gli incorporamenti di Face ID dall'immagine di riferimento, guidando il modello per la generazione dell'immagine. 

Adattatore immagine

La capacità di modelli di diffusione di testo-immagine pre-addestrati nelle attività con suggerimenti tramite immagini migliora significativamente i suggerimenti di testo, soprattutto per gli scenari che non possono essere descritti adeguatamente dai suggerimenti di testo. Il framework InstantID adotta una strategia simile a quella utilizzata dal modello IP-Adapter per la richiesta di immagini, che introduce un modulo adattivo leggero accoppiato con un componente di attenzione incrociata disaccoppiato per supportare le immagini come richieste di input. Tuttavia, contrariamente agli incorporamenti CLIP grossolanamente allineati, il framework InstantID diverge impiegando incorporamenti ID come richiesto dall'immagine nel tentativo di ottenere un'integrazione tempestiva semanticamente ricca e più sfumata. 

IdentityNet

Sebbene i metodi esistenti siano in grado di integrare i prompt delle immagini con i prompt di testo, il framework InstantID sostiene che questi metodi migliorano solo le funzionalità a grana grossa con un livello di integrazione insufficiente per la generazione di immagini che preservano l'ID. Inoltre, l'aggiunta di token di immagine e testo nei livelli di attenzione incrociata tende direttamente a indebolire il controllo dei token di testo e un tentativo di migliorare la forza dei token di immagine potrebbe comportare la compromissione delle capacità dei token di testo nelle attività di modifica. Per contrastare queste sfide, il framework InstantID opta per ControlNet, un metodo alternativo di incorporamento di funzionalità che utilizza le informazioni spaziali come input per il modulo controllabile, consentendogli di mantenere la coerenza con le impostazioni UNet nei modelli di diffusione. 

Il framework InstantID apporta due modifiche alla tradizionale architettura ControlNet: per gli input condizionali, il framework InstantID opta per 5 punti chiave facciali invece dei punti chiave facciali OpenPose a grana fine. In secondo luogo, il framework InstantID utilizza incorporamenti di ID anziché istruzioni di testo come condizioni per i livelli di attenzione incrociata nell'architettura ControlNet. 

Formazione e inferenza

Durante la fase di training, il framework InstantID ottimizza i parametri di IdentityNet e Image Adapter congelando i parametri del modello di diffusione pre-addestrato. L'intera pipeline InstantID viene addestrata su coppie immagine-testo che presentano soggetti umani e utilizza un obiettivo di formazione simile a quello utilizzato nel framework di diffusione stabile con condizioni di immagine specifiche per l'attività. Il punto forte del metodo di addestramento InstantID è la separazione tra i livelli di attenzione incrociata dell'immagine e del testo all'interno dell'adattatore del prompt dell'immagine, una scelta che consente al framework InstantID di regolare i pesi di queste condizioni dell'immagine in modo flessibile e indipendente, garantendo così un approccio più mirato e controllato. processo di inferenza e formazione. 

InstantID: esperimenti e risultati

Il framework InstantID implementa la Stable Diffusion e la addestra su LAION-Face, un set di dati open source su larga scala composto da oltre 50 milioni di coppie immagine-testo. Inoltre, il framework InstantID raccoglie oltre 10 milioni di immagini umane con automazioni generate automaticamente dal modello BLIP2 per migliorare ulteriormente la qualità della generazione delle immagini. Il framework InstantID si concentra principalmente sulle immagini di una sola persona e utilizza un modello di volto pre-addestrato per rilevare ed estrarre incorporamenti di Face ID da immagini umane e, invece di addestrare i set di dati di volti ritagliati, addestra le immagini umane originali. Inoltre, durante l'addestramento, il framework InstantID congela il modello testo-immagine pre-addestrato e aggiorna solo i parametri di IdentityNet e Image Adapter. 

Generazione di sole immagini

Il modello InstantID utilizza un prompt vuoto per guidare il processo di generazione dell'immagine utilizzando solo l'immagine di riferimento e i risultati senza i prompt sono illustrati nell'immagine seguente. 

La generazione di "Empty Prompt", come dimostrato nell'immagine sopra, dimostra la capacità del framework InstantID di mantenere in modo robusto caratteristiche facciali semantiche come identità, età ed espressione. Tuttavia, vale la pena notare che l'utilizzo di prompt vuoti potrebbe non essere in grado di replicare accuratamente i risultati su altri semantici come il genere. Inoltre, nell'immagine sopra, le colonne da 2 a 4 utilizzano un'immagine e un prompt e, come si può vedere, l'immagine generata non mostra alcun degrado nelle capacità di controllo del testo e garantisce inoltre la coerenza dell'identità. Infine, le colonne da 5 a 9 utilizzano un'immagine, un prompt e un controllo spaziale, dimostrando la compatibilità del modello con modelli di controllo spaziale pre-addestrati consentendo al modello InstantID di introdurre in modo flessibile controlli spaziali utilizzando un componente ControlNet pre-addestrato. 

Vale anche la pena notare che il numero di immagini di riferimento ha un impatto significativo sull'immagine generata, come dimostrato nell'immagine sopra. Sebbene il framework InstantID sia in grado di fornire buoni risultati utilizzando una singola immagine di riferimento, più immagini di riferimento producono un'immagine di qualità migliore poiché il framework InstantID utilizza la media media degli incorporamenti di ID come prompt dell'immagine. Andando avanti, è essenziale confrontare il framework InstantID con i metodi precedenti che generano immagini personalizzate utilizzando un'unica immagine di riferimento. La figura seguente confronta i risultati generati dal framework InstantID e i modelli all'avanguardia esistenti per la generazione di immagini personalizzate a riferimento singolo. 

Come si può vedere, il framework InstantID è in grado di preservare le caratteristiche facciali grazie all'incorporamento dell'ID che trasporta intrinsecamente ricche informazioni semantiche, come identità, età e sesso. Si potrebbe dire con certezza che il framework InstantID supera i framework esistenti nella generazione di immagini personalizzate poiché è in grado di preservare l'identità umana mantenendo il controllo e la flessibilità stilistica. 

Considerazioni finali

In questo articolo abbiamo parlato di InstantID, una soluzione basata su modello di diffusione per la generazione di immagini. InstantID è un modulo plug and play che gestisce abilmente la generazione e la personalizzazione delle immagini in vari stili con una sola immagine di riferimento e garantisce inoltre un'alta fedeltà. Il framework InstantID si concentra sulla sintesi istantanea delle immagini che preserva l'identità e tenta di colmare il divario tra efficienza e alta fedeltà introducendo un semplice modulo plug and play che consente al framework di gestire la personalizzazione dell'immagine utilizzando una sola immagine facciale mantenendo l'alta fedeltà.