mozzicone EasyPhoto: il tuo generatore di foto AI personale - Unite.AI
Seguici sui social

Intelligenza Artificiale

EasyPhoto: il tuo generatore di foto AI personale

mm
aggiornato on
EasyPhoto: il tuo generatore di ritratti AI personale

Diffusione stabile Web User Interface, o SD-WebUI, è un progetto completo per modelli di diffusione stabile che utilizza la libreria Gradio per fornire un'interfaccia browser. Oggi parleremo di EasyPhoto, un innovativo plug-in WebUI che consente agli utenti finali di generare ritratti e immagini AI. Il plug-in EasyPhoto WebUI crea ritratti AI utilizzando vari modelli, supportando diversi stili di foto e molteplici modifiche. Inoltre, per migliorare ulteriormente le capacità di EasyPhoto, gli utenti possono generare immagini utilizzando il modello SDXL per risultati più soddisfacenti, accurati e diversificati. Cominciamo.

Un'introduzione a EasyPhoto e alla diffusione stabile

Il framework Stable Diffusion è un framework di generazione basato sulla diffusione popolare e robusto utilizzato dagli sviluppatori per generare immagini realistiche basate sulle descrizioni del testo di input. Grazie alle sue capacità, il framework Stable Diffusion vanta un'ampia gamma di applicazioni, tra cui l'outpainting dell'immagine, l'inpainting dell'immagine e la traduzione da immagine a immagine. La Stable Diffusion Web UI, o SD-WebUI, si distingue come una delle applicazioni più popolari e conosciute di questo framework. È dotato di un'interfaccia browser basata sulla libreria Gradio, che fornisce un'interfaccia interattiva e intuitiva per i modelli di diffusione stabile. Per migliorare ulteriormente il controllo e l'usabilità nella generazione di immagini, SD-WebUI integra numerose applicazioni di diffusione stabile.

Grazie alla comodità offerta dal framework SD-WebUI, gli sviluppatori del framework EasyPhoto hanno deciso di crearlo come plugin web piuttosto che come applicazione a tutti gli effetti. A differenza dei metodi esistenti che spesso soffrono di perdita di identità o introducono caratteristiche non realistiche nelle immagini, il framework EasyPhoto sfrutta le capacità immagine per immagine dei modelli di diffusione stabile per produrre immagini accurate e realistiche. Gli utenti possono installare facilmente il framework EasyPhoto come estensione all'interno della WebUI, migliorando la facilità d'uso e l'accessibilità a una gamma più ampia di utenti. Il framework EasyPhoto consente agli utenti di generare file guidati dall'identità, di alta qualità e ritratti realistici dell'intelligenza artificiale che assomigliano molto all'identità di input.

Innanzitutto, il framework EasyPhoto chiede agli utenti di creare il proprio doppelganger digitale caricando alcune immagini per addestrare online un modello LoRA o di adattamento di basso rango del volto. Il framework LoRA mette a punto rapidamente i modelli di diffusione facendo uso della tecnologia di adattamento di basso rango. Questo processo consente al modello basato di comprendere le informazioni sull'ID di utenti specifici. I modelli addestrati vengono quindi uniti e integrati nel modello di diffusione stabile di base per l'interferenza. Inoltre, durante il processo di interferenza, il modello utilizza modelli di diffusione stabili nel tentativo di ridipingere le regioni facciali nel modello di interferenza, e la somiglianza tra le immagini di input e quelle di output viene verificata utilizzando le varie unità ControlNet. 

Il framework EasyPhoto implementa inoltre un processo di diffusione in due fasi per affrontare potenziali problemi come artefatti di confine e perdita di identità, garantendo così che le immagini generate riducano al minimo le incoerenze visive mantenendo l'identità dell'utente. Inoltre, la pipeline di interferenza nel framework EasyPhoto non si limita solo alla generazione di ritratti, ma può anche essere utilizzata per generare tutto ciò che è correlato all'ID dell'utente. Ciò implica che una volta addestrato il Modello LoRA per un particolare ID, è possibile generare un'ampia gamma di immagini AI e quindi può avere applicazioni diffuse, comprese le prove virtuali. 

Per riassumere, il framework EasyPhoto

  1. Propone un nuovo approccio per addestrare il modello LoRA incorporando più modelli LoRA per mantenere la fedeltà facciale delle immagini generate. 
  2. Utilizza vari metodi di apprendimento per rinforzo per ottimizzare i modelli LoRA per i premi dell'identità facciale che aiutano ulteriormente a migliorare la somiglianza delle identità tra le immagini di addestramento e i risultati generati. 
  3. Propone un processo di diffusione basato su inpaint a doppio stadio che mira a generare foto AI con elevata estetica e somiglianza. 

EasyPhoto: Architettura e Formazione

La figura seguente mostra il processo di formazione del framework AI EasyPhoto. 

Come si può vedere, il framework chiede innanzitutto agli utenti di inserire le immagini di addestramento, quindi esegue il rilevamento dei volti per rilevare le posizioni dei volti. Una volta che il framework rileva il volto, ritaglia l'immagine di input utilizzando un rapporto specifico predefinito che si concentra esclusivamente sulla regione del viso. Il framework implementa quindi un modello di abbellimento della pelle e di rilevamento della salienza per ottenere un'immagine di training del viso pulita e chiara. Questi due modelli svolgono un ruolo cruciale nel migliorare la qualità visiva del volto e garantiscono inoltre che le informazioni di sfondo siano state rimosse e che l'immagine di training contenga prevalentemente il volto. Infine, il framework utilizza queste immagini elaborate e richieste di input per addestrare il modello LoRA, dotandolo così della capacità di comprendere le caratteristiche facciali specifiche dell'utente in modo più efficace e accurato. 

Inoltre, durante la fase di addestramento, il framework include una fase critica di convalida, in cui il framework calcola il divario del Face ID tra l'immagine di input dell'utente e l'immagine di verifica generata dal modello LoRA addestrato. La fase di validazione è un processo fondamentale che svolge un ruolo chiave nel raggiungimento della fusione dei modelli LoRA, garantendo in ultima analisi che il quadro LoRA addestrato si trasforma in un doppelganger o in un'accurata rappresentazione digitale dell'utente. Inoltre, l'immagine di verifica con il punteggio face_id ottimale verrà selezionata come immagine face_id e questa immagine face_id verrà quindi utilizzata per migliorare la somiglianza dell'identità della generazione di interferenza. 

Andando avanti, sulla base del processo di insieme, il quadro addestra i modelli LoRA con la stima della probabilità come obiettivo primario, mentre preservare la somiglianza dell’identità facciale è l’obiettivo a valle. Per affrontare questo problema, il framework EasyPhoto utilizza tecniche di apprendimento per rinforzo per ottimizzare direttamente l'obiettivo a valle. Di conseguenza, le caratteristiche facciali apprese dai modelli LoRA mostrano un miglioramento che porta a una maggiore somiglianza tra i risultati generati dal modello e dimostra anche la generalizzazione tra i modelli. 

Processo di interferenza

La figura seguente mostra il processo di interferenza per un ID utente individuale nel framework EasyPhoto ed è divisa in tre parti

  • Preelaborazione del volto per ottenere il riferimento ControlNet e l'immagine degli ingressi preelaborata. 
  • Prima diffusione che aiuta a generare risultati grossolani che assomigliano all'input dell'utente. 
  • Seconda diffusione che corregge gli artefatti dei confini, rendendo così le immagini più precise e più realistiche. 

Per l'input, il framework accetta un'immagine face_id (generata durante la convalida dell'addestramento utilizzando il punteggio face_id ottimale) e un modello di interferenza. L'output è un ritratto altamente dettagliato, accurato e realistico dell'utente e ricorda molto l'identità e l'aspetto unico dell'utente sulla base del modello di deduzione. Diamo uno sguardo dettagliato a questi processi.

Preprocesso del volto

Un modo per generare un ritratto AI basato su un modello di interferenza senza ragionamento cosciente è utilizzare il modello SD per dipingere la regione facciale nel modello di interferenza. Inoltre, l'aggiunta del framework ControlNet al processo non solo migliora la conservazione dell'identità dell'utente, ma migliora anche la somiglianza tra le immagini generate. Tuttavia, l'utilizzo diretto di ControlNet per l'inpainting regionale può introdurre potenziali problemi che potrebbero includere

  • Incoerenza tra l'input e l'immagine generata: È evidente che i punti chiave nell'immagine modello non sono compatibili con i punti chiave nell'immagine face_id, motivo per cui l'utilizzo di ControlNet con l'immagine face_id come riferimento può portare ad alcune incoerenze nell'output. 
  • Difetti nella regione Inpaint: Mascherare una regione e poi ridipingerla con una nuova faccia potrebbe portare a difetti evidenti, soprattutto lungo il confine di ridipintura, che non solo influiranno sull'autenticità dell'immagine generata, ma influenzeranno anche negativamente il realismo dell'immagine. 
  • Perdita di identità da parte della rete di controllo: Poiché il processo di addestramento non utilizza il framework ControlNet, l'utilizzo di ControlNet durante la fase di interferenza potrebbe influire sulla capacità dei modelli LoRA addestrati di preservare l'identità dell'ID utente immesso. 

Per affrontare le problematiche sopra menzionate, il framework EasyPhoto propone tre procedure. 

  • Allinea e incolla: Utilizzando un algoritmo di incollamento del volto, il framework EasyPhoto mira ad affrontare il problema della mancata corrispondenza tra i punti di riferimento facciali tra l'ID del volto e il modello. Innanzitutto, il modello calcola i punti di riferimento facciali di face_id e dell'immagine modello, dopodiché il modello determina la matrice di trasformazione affine che verrà utilizzata per allineare i punti di riferimento facciali dell'immagine modello con l'immagine face_id. L'immagine risultante conserva gli stessi punti di riferimento dell'immagine face_id e si allinea anche con l'immagine modello. 
  • Fusibile facciale: Face Fuse è un approccio innovativo utilizzato per correggere gli artefatti di confine risultanti dall'inserimento della maschera e prevede la rettifica degli artefatti utilizzando il framework ControlNet. Il metodo consente al framework EasyPhoto di garantire la conservazione di bordi armoniosi e quindi di guidare in definitiva il processo di generazione dell'immagine. L'algoritmo di fusione del volto fonde ulteriormente l'immagine roop (ground Truth User Images) e il modello, consentendo all'immagine fusa risultante di mostrare una migliore stabilizzazione dei confini del bordo, che porta quindi a un output migliorato durante la prima fase di diffusione. 
  • Convalida guidata ControlNet: Poiché i modelli LoRA non sono stati addestrati utilizzando il framework ControlNet, il suo utilizzo durante il processo di inferenza potrebbe influire sulla capacità del modello LoRA di preservare le identità. Al fine di migliorare le capacità di generalizzazione di EasyPhoto, il framework considera l'influenza del framework ControlNet e incorpora modelli LoRA di diverse fasi. 

Prima diffusione

La prima fase di diffusione utilizza l'immagine modello per generare un'immagine con un ID univoco che assomiglia all'ID utente immesso. L'immagine di input è una fusione dell'immagine di input dell'utente e dell'immagine modello, mentre la maschera facciale calibrata è la maschera di input. Per aumentare ulteriormente il controllo sulla generazione delle immagini, il framework EasyPhoto integra tre unità ControlNet in cui la prima unità ControlNet si concentra sul controllo delle immagini fuse, la seconda unità ControlNet controlla i colori dell'immagine fusa e l'unità ControlNet finale è l'openpose (controllo della posa umana di più persone in tempo reale) dell'immagine sostituita che contiene non solo la struttura facciale dell'immagine modello, ma anche l'identità facciale dell'utente.

Seconda diffusione

Nella seconda fase di diffusione, gli artefatti vicino al confine del viso vengono perfezionati e messi a punto, oltre a fornire agli utenti la flessibilità di mascherare una regione specifica nell'immagine nel tentativo di migliorare l'efficacia della generazione all'interno di quell'area dedicata. In questa fase, il framework fonde l'immagine di output ottenuta dal primo stadio di diffusione con l'immagine roop o il risultato dell'immagine dell'utente, generando così l'immagine di input per il secondo stadio di diffusione. Nel complesso, la seconda fase di diffusione svolge un ruolo cruciale nel migliorare la qualità complessiva e i dettagli dell'immagine generata. 

ID multiutente

Uno dei punti salienti di EasyPhoto è il supporto per la generazione di ID utente multipli e la figura seguente mostra la pipeline del processo di interferenza per ID multiutente nel framework EasyPhoto. 

Per fornire supporto per la generazione di ID multiutente, il framework EasyPhoto esegue prima il rilevamento dei volti sul modello di interferenza. Questi modelli di interferenza vengono quindi suddivisi in numerose maschere, in cui ciascuna maschera contiene solo un volto e il resto dell'immagine è mascherato in bianco, suddividendo così la generazione di ID multiutente in un semplice compito di generazione di ID utente individuali. Una volta che il framework ha generato le immagini dell'ID utente, queste immagini vengono unite nel modello di inferenza, facilitando così una perfetta integrazione delle immagini del modello con le immagini generate, che alla fine si traduce in un'immagine di alta qualità. 

Esperimenti e risultati

Ora che abbiamo compreso il framework EasyPhoto, è giunto il momento di esplorare le prestazioni del framework EasyPhoto. 

L'immagine sopra è generata dal plugin EasyPhoto e utilizza un modello SD basato su Stile per la generazione dell'immagine. Come si può osservare, le immagini generate sembrano realistiche e abbastanza accurate. 

L'immagine aggiunta sopra è generata dal framework EasyPhoto utilizzando un modello SD basato su Comic Style. Come si può vedere, le foto comiche e le foto realistiche sembrano abbastanza realistiche e assomigliano molto all'immagine di input sulla base delle richieste o dei requisiti dell'utente. 

L'immagine aggiunta di seguito è stata generata dal framework EasyPhoto utilizzando un modello Multi-Persona. Come si può vedere chiaramente, le immagini generate sono chiare, accurate e assomigliano all'immagine originale. 

Con l'aiuto di EasyPhoto, gli utenti possono ora generare un'ampia gamma di ritratti AI o generare più ID utente utilizzando modelli conservati o utilizzare il modello SD per generare modelli di inferenza. Le immagini aggiunte sopra dimostrano la capacità del framework EasyPhoto di produrre immagini AI diverse e di alta qualità.

Conclusione

In questo articolo abbiamo parlato di EasyPhoto, a nuovo plugin WebUI che consente agli utenti finali di generare ritratti e immagini AI. Il plug-in EasyPhoto WebUI genera ritratti AI utilizzando modelli arbitrari e le attuali implicazioni di EasyPhoto WebUI supportano diversi stili di foto e molteplici modifiche. Inoltre, per migliorare ulteriormente le capacità di EasyPhoto, gli utenti hanno la flessibilità di generare immagini utilizzando il modello SDXL per generare immagini più soddisfacenti, accurate e diversificate. Il framework EasyPhoto utilizza un modello base di diffusione stabile accoppiato con un modello LoRA preaddestrato che produce output di immagini di alta qualità.

Ti interessano i generatori di immagini? Forniamo anche un elenco dei I migliori generatori di colpi alla testa AI e la I migliori generatori di immagini AI che sono facili da usare e non richiedono competenze tecniche.

"Un ingegnere di professione, uno scrittore a memoria". Kunal è uno scrittore tecnico con un profondo amore e comprensione di AI e ML, dedito a semplificare concetti complessi in questi campi attraverso la sua documentazione coinvolgente e informativa.