Connect with us

EasyPhoto: Il Tuo Generatore di Foto AI Personale

Intelligenza artificiale

EasyPhoto: Il Tuo Generatore di Foto AI Personale

mm
EasyPhoto : Your Personal AI Portrait Generator

Stable Diffusion Web User Interface, o SD-WebUI, è un progetto comprensivo per i modelli Stable Diffusion che utilizza la libreria Gradio per fornire un’interfaccia del browser. Oggi, parleremo di EasyPhoto, un innovativo plugin WebUI che consente agli utenti finali di generare ritratti e immagini AI. Il plugin WebUI EasyPhoto crea ritratti AI utilizzando modelli arbitrari, supportando diversi stili di foto e molteplici modifiche. Inoltre, per migliorare ulteriormente le capacità di EasyPhoto, gli utenti possono generare immagini utilizzando il modello SDXL per risultati più soddisfacenti, accurati e diversi. Iniziamo.

Introduzione a EasyPhoto e Stable Diffusion

Il framework Stable Diffusion è un popolare e robusto framework di generazione basato sulla diffusione utilizzato dagli sviluppatori per generare immagini realistiche in base a descrizioni di testo di input. Grazie alle sue capacità, il framework Stable Diffusion vanta una vasta gamma di applicazioni, tra cui outpainting di immagini, inpainting di immagini e traduzione di immagine in immagine. La Stable Diffusion Web UI, o SD-WebUI, si distingue come una delle applicazioni più popolari e note di questo framework. Presenta un’interfaccia del browser costruita sulla libreria Gradio, fornendo un’interfaccia interattiva e user-friendly per i modelli Stable Diffusion. Per migliorare ulteriormente il controllo e l’usabilità nella generazione di immagini, la SD-WebUI integra numerose applicazioni Stable Diffusion.

Grazie alla convenienza offerta dal framework SD-WebUI, gli sviluppatori del framework EasyPhoto hanno deciso di crearlo come plugin Web anziché come un’applicazione completa. A differenza dei metodi esistenti che spesso soffrono di perdita di identità o introducono caratteristiche irrealistiche nelle immagini, il framework EasyPhoto sfrutta le capacità di immagine-in-immagine dei modelli Stable Diffusion per produrre immagini accurate e realistiche. Gli utenti possono facilmente installare il framework EasyPhoto come estensione all’interno della WebUI, migliorando l’usabilità e l’accessibilità per un’ampia gamma di utenti. Il framework EasyPhoto consente agli utenti di generare ritratti AI guidati dall’identità, di alta qualità e realistici che assomigliano da vicino all’identità e all’aspetto unico dell’utente.

Innanzitutto, il framework EasyPhoto chiede agli utenti di creare il loro doppio digitale caricando alcune immagini per addestrare un modello di adattamento di basso rango (LoRA) online. Il framework LoRA addestra rapidamente i modelli di diffusione utilizzando la tecnologia di adattamento di basso rango. Questo processo consente al modello di base di comprendere le informazioni di identità degli utenti specifici. I modelli addestrati vengono quindi fusi e integrati nel modello di base Stable Diffusion per l’interferenza. Inoltre, durante il processo di interferenza, il modello utilizza i modelli di diffusione stabile per riprodurre le regioni facciali nel modello di interferenza e la somiglianza tra le immagini di input e di output viene verificata utilizzando le varie unità ControlNet.

Il framework EasyPhoto utilizza anche un processo di diffusione a due stadi per affrontare potenziali problemi come gli artifact di bordo e la perdita di identità, assicurando così che le immagini generate minimizzino le incoerenze visive mantenendo l’identità dell’utente. Inoltre, il pipeline di interferenza nel framework EasyPhoto non è limitato solo alla generazione di ritratti, ma può anche essere utilizzato per generare qualsiasi cosa sia legata all’ID dell’utente. Ciò significa che una volta addestrato il modello LoRA per un ID specifico, è possibile generare una vasta gamma di immagini AI e quindi può avere applicazioni diffuse, tra cui prove virtuali.

Per riassumere, il framework EasyPhoto

  1. Propone un approccio innovativo per addestrare il modello LoRA incorporando più modelli LoRA per mantenere la fedeltà facciale delle immagini generate.
  2. Utilizza vari metodi di apprendimento per rinforzo per ottimizzare i modelli LoRA per ricompense di identità facciale che aiutano ulteriormente a migliorare la somiglianza delle identità tra le immagini di addestramento e i risultati generati.
  3. Propone un processo di diffusione a due stadi basato sull’inpainting che mira a generare foto AI con alta estetica e somiglianza.

EasyPhoto: Architettura e Addestramento

La figura seguente illustra il processo di addestramento del framework AI EasyPhoto.

Come si può vedere, il framework chiede agli utenti di immettere le immagini di addestramento e quindi esegue la rilevazione del viso per rilevare la posizione del viso. Una volta rilevato il viso, il framework ritaglia l’immagine di input utilizzando un rapporto predefinito che si concentra solo sulla regione facciale. Il framework utilizza quindi un modello di abbellimento della pelle e un modello di rilevamento della salienza per ottenere un’immagine di addestramento del viso pulita e chiara. Questi due modelli svolgono un ruolo cruciale nel migliorare la qualità visiva del viso e assicurarsi che le informazioni di sfondo siano state rimosse e l’immagine di addestramento contenga principalmente il viso. Infine, il framework utilizza queste immagini elaborate e i prompt di input per addestrare il modello LoRA, dotandolo così della capacità di comprendere meglio e più precisamente le caratteristiche facciali specifiche dell’utente.

Inoltre, durante la fase di addestramento, il framework include un passaggio di convalida critico, in cui il framework calcola il divario di identità del viso tra l’immagine di input dell’utente e l’immagine di verifica generata dal modello LoRA addestrato. Il passaggio di convalida è un processo fondamentale che svolge un ruolo chiave nel raggiungere la fusione dei modelli LoRA, assicurando così che il modello LoRA addestrato si trasformi in un doppio digitale, o in una rappresentazione digitale accurata dell’utente. Inoltre, l’immagine di verifica con il punteggio di identità del viso ottimale verrà selezionata come immagine di identità del viso e questa immagine di identità del viso verrà utilizzata per migliorare la somiglianza di identità della generazione di interferenza.

Proseguendo, in base al processo di ensemble, il framework addestra i modelli LoRA con la stima della probabilità come obiettivo principale, mentre la conservazione della somiglianza dell’identità facciale è l’obiettivo downstream. Per affrontare questo problema, il framework EasyPhoto utilizza tecniche di apprendimento per rinforzo per ottimizzare direttamente l’obiettivo downstream.Di conseguenza, le caratteristiche facciali apprese dai modelli LoRA mostrano un miglioramento che porta a una maggiore somiglianza tra i risultati generati dal modello e dimostra anche una generalizzazione tra i modelli.

Processo di Interferenza

La figura seguente illustra il processo di interferenza per un ID utente individuale nel framework EasyPhoto e si divide in tre parti

  • Pre-elaborazione del viso per ottenere il riferimento ControlNet e l’immagine di input pre-elaborata.
  • Prima diffusione che aiuta a generare risultati grezzi che assomigliano all’input dell’utente.
  • Seconda diffusione che corregge gli artifact di bordo, rendendo le immagini più accurate e realistiche.

Per l’input, il framework utilizza un’immagine di identità del viso (generata durante la convalida dell’addestramento utilizzando il punteggio di identità del viso ottimale) e un modello di interferenza. L’output è un ritratto di alta qualità e realistico dell’utente, che assomiglia da vicino all’identità e all’aspetto unico dell’utente in base al modello di interferenza. Analizziamo più da vicino questi processi.

Pre-elaborazione del viso

Un modo per generare un ritratto AI in base a un modello di interferenza senza ragionamento consapevole è utilizzare il modello SD per inpaint la regione del viso nel modello di interferenza. Inoltre, aggiungere il framework ControlNet al processo non solo migliora la conservazione dell’identità dell’utente, ma anche la somiglianza tra le immagini generate. Tuttavia, utilizzare ControlNet direttamente per l’inpainting regionale può introdurre potenziali problemi che possono includere

  • Incoerenza tra l’immagine di input e l’immagine generata: È evidente che i punti chiave nell’immagine del modello non sono compatibili con i punti chiave nell’immagine di identità del viso, il che significa che utilizzare ControlNet con l’immagine di identità del viso come riferimento può portare a alcune incoerenze nell’output.
  • Defetti nella regione di inpaint: Mascherare una regione e poi inpaintarla con un nuovo viso può portare a difetti evidenti, soprattutto lungo il bordo di inpaint che non solo impatterà sull’autenticità dell’immagine generata, ma anche sulla realismo dell’immagine.
  • Perdita di identità da Control Net: Poiché il processo di addestramento non utilizza il framework ControlNet, utilizzare ControlNet durante la fase di interferenza può influire sulla capacità dei modelli LoRA addestrati di conservare l’identità dell’utente.

Per affrontare i problemi menzionati sopra, il framework EasyPhoto propone tre procedure.

  • Incolla e attacca: Utilizzando un algoritmo di incolla del viso, il framework EasyPhoto mira a risolvere il problema di mismatch tra i punti di riferimento del viso tra l’immagine di identità del viso e il modello. Innanzitutto, il modello calcola i punti di riferimento del viso dell’immagine di identità del viso e dell’immagine del modello, dopo di che il modello determina la matrice di trasformazione affine che verrà utilizzata per allineare i punti di riferimento del viso dell’immagine del modello con l’immagine di identità del viso. L’immagine risultante mantiene gli stessi punti di riferimento dell’immagine di identità del viso e si allinea anche con l’immagine del modello.
  • Fusione del viso: La fusione del viso è un approccio innovativo utilizzato per correggere gli artifact di bordo che sono il risultato dell’inpainting della maschera e coinvolge la rettificazione degli artifact utilizzando il framework ControlNet. Il metodo consente al framework EasyPhoto di assicurare la conservazione di bordi armoniosi e quindi guidare il processo di generazione di immagini. L’algoritmo di fusione del viso fonde inoltre l’immagine di sfondo (immagini dell’utente) e il modello, consentendo all’immagine risultante di esibire una migliore stabilizzazione dei bordi, che a sua volta porta a un output migliorato durante la prima fase di diffusione.
  • Convalida guidata da ControlNet: Poiché i modelli LoRA non sono stati addestrati utilizzando il framework ControlNet, utilizzare ControlNet durante il processo di inferenza potrebbe influire sulla capacità del modello LoRA di conservare le identità. Per migliorare le capacità di generalizzazione di EasyPhoto, il framework considera l’influenza del framework ControlNet e incorpora modelli LoRA da diverse fasi.

Prima diffusione

La prima fase di diffusione utilizza l’immagine del modello per generare un’immagine con un ID unico che assomiglia all’ID dell’utente. L’immagine di input è una fusione dell’immagine di input dell’utente e dell’immagine del modello, mentre la maschera del viso calibrata è la maschera di input. Per aumentare ulteriormente il controllo sulla generazione di immagini, il framework EasyPhoto integra tre unità ControlNet, dove la prima unità ControlNet si concentra sul controllo delle immagini fuse, la seconda unità ControlNet controlla i colori dell’immagine fusa e l’ultima unità ControlNet è l’openpose (controllo della posa umana in tempo reale) dell’immagine sostituita, che non contiene solo la struttura facciale dell’immagine del modello, ma anche l’identità facciale dell’utente.

Seconda diffusione

Nella seconda fase di diffusione, gli artifact vicino al bordo del viso vengono raffinati e perfezionati, fornendo agli utenti anche la flessibilità di mascherare una regione specifica nell’immagine per migliorare l’efficacia della generazione all’interno di quell’area dedicata. In questa fase, il framework fonde l’immagine di output ottenuta dalla prima fase di diffusione con l’immagine di sfondo o il risultato dell’immagine dell’utente, generando così l’immagine di input per la seconda fase di diffusione. Nel complesso, la seconda fase di diffusione svolge un ruolo cruciale nel migliorare la qualità generale e i dettagli dell’immagine generata.

Multi ID utente

Una delle caratteristiche salienti di EasyPhoto è il supporto per la generazione di multi ID utente e la figura seguente illustra il pipeline del processo di interferenza per multi ID utente nel framework EasyPhoto.

Per supportare la generazione di multi ID utente, il framework EasyPhoto esegue innanzitutto la rilevazione del viso sul modello di interferenza. Questi modelli di interferenza vengono quindi suddivisi in numerose maschere, dove ogni maschera contiene solo un viso e il resto dell’immagine è mascherato in bianco, rompendo così la generazione di multi ID utente in un semplice compito di generazione di ID utente individuali. Una volta che il framework genera le immagini di ID utente, queste vengono fuse nel modello di interferenza, facilitando così un’integrazione senza soluzione di continuità del modello con le immagini generate, che alla fine risulta in un’immagine di alta qualità.

Esperimenti e Risultati

Ora che abbiamo una comprensione del framework EasyPhoto, è il momento di esplorare le prestazioni del framework EasyPhoto.

L’immagine sopra è generata dal plugin EasyPhoto e utilizza un modello SD basato su stile per la generazione di immagini. Come si può osservare, le immagini generate appaiono realistiche e sono abbastanza accurate.

L’immagine aggiunta sopra è generata dal framework EasyPhoto utilizzando un modello SD basato su stile da fumetto. Come si può vedere, le foto a fumetto e le foto realistiche appaiono molto realistiche e assomigliano da vicino all’immagine di input in base ai prompt o ai requisiti dell’utente.

L’immagine aggiunta sotto è stata generata dal framework EasyPhoto utilizzando un modello multi-persona. Come si può vedere chiaramente, le immagini generate sono chiare, accurate e assomigliano all’immagine originale.

Con l’aiuto di EasyPhoto, gli utenti possono ora generare una vasta gamma di ritratti AI, o generare multi ID utente utilizzando modelli preservati, o utilizzare il modello SD per generare modelli di interferenza. Le immagini aggiunte sopra dimostrano la capacità del framework EasyPhoto nel produrre immagini AI diverse e di alta qualità.

Conclusione

In questo articolo, abbiamo parlato di EasyPhoto, un nuovo plugin WebUI che consente agli utenti finali di generare ritratti e immagini AI. Il plugin WebUI EasyPhoto genera ritratti AI utilizzando modelli arbitrari e il supporto attuale del plugin WebUI EasyPhoto include diversi stili di foto e molteplici modifiche. Inoltre, per migliorare ulteriormente le capacità di EasyPhoto, gli utenti hanno la flessibilità di generare immagini utilizzando il modello SDXL per generare immagini più soddisfacenti, accurate e diverse. Il framework EasyPhoto utilizza un modello di base di diffusione stabile accoppiato con un modello LoRA pre-addestrato che produce output di immagini di alta qualità.

Interessati ai generatori di immagini? Forniamo anche un elenco dei migliori generatori di headshot AI e dei migliori generatori di arte AI che sono facili da usare e non richiedono competenze tecniche.

Un ingegnere per professione, uno scrittore per passione. Kunal è uno scrittore tecnico con un profondo amore e comprensione di AI e ML, dedicato a semplificare concetti complessi in questi campi attraverso la sua documentazione coinvolgente e informativa.