mozzicone Modifica di oggetti assistita dall'intelligenza artificiale con "Cancella e sostituisci" di Imagic e Runway di Google - Unite.AI
Seguici sui social

Intelligenza Artificiale

Modifica di oggetti assistita dall'intelligenza artificiale con "Cancella e sostituisci" di Imagic e Runway di Google

mm
aggiornato on

Questa settimana due nuovi, ma contrastanti, algoritmi grafici guidati dall'intelligenza artificiale offrono nuovi modi agli utenti finali per apportare modifiche altamente granulari ed efficaci agli oggetti nelle foto.

Il primo è Immaginario, di Google Research, in associazione con l'Israel's Institute of Technology e il Weizmann Institute of Science. Imagic offre un editing di oggetti condizionato dal testo e a grana fine tramite la messa a punto dei modelli di diffusione.

Cambia ciò che ti piace e lascia il resto: Imagic promette modifiche granulari solo delle parti che desideri modificare. Fonte: https://arxiv.org/pdf/2210.09276.pdf

Cambia ciò che ti piace e lascia il resto: Imagic promette modifiche granulari solo delle parti che desideri modificare. Fonte: https://arxiv.org/pdf/2210.09276.pdf

Chiunque abbia mai provato a modificare un solo elemento in un re-rendering di Stable Diffusion saprà fin troppo bene che per ogni modifica riuscita, il sistema cambierà cinque cose che ti sono piaciute così com'erano. È un difetto che attualmente ha molti dei più talentuosi appassionati di SD che si spostano costantemente tra Stable Diffusion e Photoshop, per correggere questo tipo di "danno collaterale". Solo da questo punto di vista, i risultati di Imagic sembrano notevoli.

Al momento in cui scrivo, a Imagic manca ancora anche un video promozionale e, visto quello di Google atteggiamento circospetto al rilascio di strumenti di sintesi delle immagini illimitati, non è chiaro fino a che punto, se del caso, avremo la possibilità di testare il sistema.

La seconda offerta è quella di Runway ML, piuttosto più accessibile Cancella e sostituisci impianto, A nuova funzione nella sezione "AI Magic Tools" della sua suite esclusivamente online di utilità per effetti visivi basate sull'apprendimento automatico.

Funzionalità Erase and Replace di Runway ML, già vista in anteprima per un sistema di editing text-to-video. Fonte: https://www.youtube.com/watch?v=41Qb58ZPO60

Funzionalità Erase and Replace di Runway ML, già vista in anteprima per un sistema di editing text-to-video. Fonte: https://www.youtube.com/watch?v=41Qb58ZPO60

Diamo prima un'occhiata all'uscita di Runway.

Cancella e sostituisci

Come Imagic, Erase and Replace si occupa esclusivamente di immagini fisse, anche se Runway ha in anteprima la stessa funzionalità in una soluzione di editing da testo a video che non è ancora stata rilasciata:

Sebbene chiunque possa provare il nuovo Cancella e sostituisci sulle immagini, la versione video non è ancora disponibile al pubblico. Fonte: https://twitter.com/runwayml/status/1568220303808991232

Sebbene chiunque possa provare il nuovo Cancella e sostituisci sulle immagini, la versione video non è ancora disponibile al pubblico. Fonte: https://twitter.com/runwayml/status/1568220303808991232

Sebbene Runway ML non abbia rilasciato dettagli sulle tecnologie alla base di Erase and Replace, la velocità con cui è possibile sostituire una pianta domestica con un busto ragionevolmente convincente di Ronald Reagan suggerisce che un modello di diffusione come Stable Diffusion (o, molto meno probabile, un licenziato DALL-E 2) è il motore che sta reinventando l'oggetto di tua scelta in Erase and Replace.

Sostituire una pianta domestica con un busto di The Gipper non è così veloce, ma è abbastanza veloce. Fonte: https://app.runwayml.com/

Sostituire una pianta domestica con un busto di The Gipper non è così veloce, ma è abbastanza veloce. Fonte: https://app.runwayml.com/

Il sistema ha alcune restrizioni di tipo DALL-E 2: le immagini o il testo che contrassegnano i filtri Cancella e Sostituisci attiveranno un avviso sulla possibile sospensione dell'account in caso di ulteriori infrazioni. Termini e Condizioni per DALL-E 2 .

Molti dei risultati mancano dei tipici spigoli della diffusione stabile. Runway ML sono investitori e partner di ricerca in SD, ed è possibile che abbiano addestrato un modello proprietario superiore ai pesi checkpoint 1.4 open source con cui il resto di noi sta attualmente lottando (poiché molti altri gruppi di sviluppo, hobbisti e professionisti, stanno attualmente addestrando o perfezionando modelli a diffusione stabile).

Sostituire un tavolo domestico con un "tavolo fatto di ghiaccio" in Erase and Replace di Runway ML.

Sostituire un tavolo domestico con un "tavolo fatto di ghiaccio" in Erase and Replace di Runway ML.

Come con Imagic (vedi sotto), Erase and Replace è 'orientato agli oggetti', per così dire: non puoi semplicemente cancellare una parte 'vuota' dell'immagine e dipingerla con il risultato del tuo prompt di testo; in quello scenario, il sistema traccerà semplicemente l'oggetto apparente più vicino lungo la linea di vista della maschera (come un muro o un televisore) e vi applicherà la trasformazione.

Come indica il nome, non puoi inserire oggetti nello spazio vuoto in Cancella e sostituisci. Qui, uno sforzo per evocare il più famoso dei signori dei Sith si traduce in uno strano murale relativo a Vader sulla TV, all'incirca dove è stata disegnata l'area di "sostituzione".

Come indica il nome, non puoi inserire oggetti nello spazio vuoto in Cancella e sostituisci. Qui, uno sforzo per evocare il più famoso dei signori dei Sith si traduce in uno strano murale relativo a Vader sulla TV, all'incirca dove è stata disegnata l'area di "sostituzione".

È difficile dire se Erase and Replace sia evasivo riguardo all'uso di immagini protette da copyright (che sono ancora ampiamente ostacolate, anche se con successo variabile, in DALL-E 2), o se il modello utilizzato nel motore di rendering back-end non è ottimizzato per quel genere di cose.

Il "Mural of Nicole Kidman" leggermente NSFW indica che il modello (presumibilmente) basato sulla diffusione a portata di mano manca del precedente rifiuto sistematico di DALL-E 2 di rendere volti realistici o contenuti audaci, mentre i risultati per i tentativi di dimostrare opere protette da copyright vanno dall'ambiguo ('xenomorfo') all'assurdo ('il trono di ferro'). Riquadro in basso a destra, l'immagine sorgente.

Il "Mural of Nicole Kidman" leggermente NSFW indica che il modello (presumibilmente) basato sulla diffusione a portata di mano manca del precedente rifiuto sistematico di DALL-E 2 di rendere volti realistici o contenuti audaci, mentre i risultati per i tentativi di dimostrare opere protette da copyright vanno dall'ambiguo ('xenomorfo') all'assurdo ('il trono di ferro'). Riquadro in basso a destra, l'immagine sorgente.

Sarebbe interessante sapere quali metodi usa Erase and Replace per isolare gli oggetti che è in grado di sostituire. Presumibilmente l'immagine sta attraversando qualche derivazione di CLIP, con gli elementi discreti individuati dal riconoscimento dell'oggetto e dalla successiva segmentazione semantica. Nessuna di queste operazioni funziona altrettanto bene in un'installazione comune o in giardino di Diffusione Stabile.

Ma niente è perfetto: a volte il sistema sembra cancellare e non sostituire, anche quando (come abbiamo visto nell'immagine sopra), il meccanismo di rendering sottostante sa sicuramente cosa significa un messaggio di testo. In questo caso, risulta impossibile trasformare un tavolino da caffè in uno xenomorfo, anzi, il tavolo semplicemente scompare.

Un'iterazione più spaventosa di "Where's Waldo", poiché Erase and Replace non riesce a produrre un alieno.

Un'iterazione più spaventosa di "Where's Waldo", poiché Erase and Replace non riesce a produrre un alieno.

Cancella e sostituisci sembra essere un efficace sistema di sostituzione degli oggetti, con un eccellente re-painting. Tuttavia, non può modificare gli oggetti percepiti esistenti, ma solo sostituirli. Modificare effettivamente il contenuto dell'immagine esistente senza compromettere il materiale ambientale è senza dubbio un compito molto più difficile, legato alla lunga lotta del settore della ricerca sulla visione artificiale verso sbrogliamento nei vari spazi latenti dei quadri popolari.

Immaginario

È un compito che Imagic affronta. IL nuovo documento offre numerosi esempi di modifiche che modificano con successo singoli aspetti di una foto lasciando intatto il resto dell'immagine.

In Imagic, le immagini modificate non soffrono dei caratteristici stiramenti, distorsioni e "indovinazioni di occlusione" caratteristiche dei burattini deepfake, che utilizzano priori limitati derivati ​​da una singola immagine.

In Imagic, le immagini modificate non soffrono dei caratteristici stiramenti, distorsioni e "indovinazioni di occlusione" caratteristiche dei burattini deepfake, che utilizzano priori limitati derivati ​​da una singola immagine.

Il sistema utilizza un processo in tre fasi: ottimizzazione dell'incorporamento del testo; messa a punto del modello; e, infine, la generazione dell'immagine modificata.

Imagic codifica il prompt del testo di destinazione per recuperare l'incorporamento del testo iniziale, quindi ottimizza il risultato per ottenere l'immagine di input. Successivamente, il modello generativo viene messo a punto sull'immagine sorgente, aggiungendo una serie di parametri, prima di essere sottoposto all'interpolazione richiesta.

Imagic codifica il prompt del testo di destinazione per recuperare l'incorporamento del testo iniziale, quindi ottimizza il risultato per ottenere l'immagine di input. Successivamente, il modello generativo viene messo a punto sull'immagine sorgente, aggiungendo una serie di parametri, prima di essere sottoposto all'interpolazione richiesta.

Non sorprende che il framework sia basato su quello di Google Immagine architettura text-to-video, sebbene i ricercatori affermino che i principi del sistema sono ampiamente applicabili ai modelli di diffusione latente.

Imagen utilizza un'architettura a tre livelli, piuttosto che l'array a sette livelli utilizzato per l'azienda più recente iterazione da testo a video del software. I tre distinti moduli comprendono un modello di diffusione generativa operante a una risoluzione di 64x64px; un modello a super risoluzione che ingrandisce questo output a 256x256px; e un ulteriore modello a super risoluzione per portare l'output fino alla risoluzione 1024 × 1024.

Imagic interviene nella prima fase di questo processo, ottimizzando l'incorporamento del testo richiesto nella fase 64px su un ottimizzatore Adam a un tasso di apprendimento statico di 0.0001.

Una master class in districamento: quegli utenti finali che hanno tentato di cambiare qualcosa di semplice come il colore di un oggetto renderizzato in un modello di diffusione, GAN o NeRF sapranno quanto sia importante che Imagic possa eseguire tali trasformazioni senza "strapparsi" ' la consistenza del resto dell'immagine.

Una master class in districamento: quegli utenti finali che hanno tentato di cambiare qualcosa di semplice come il colore di un oggetto renderizzato in un modello di diffusione, GAN o NeRF sapranno quanto sia importante che Imagic possa eseguire tali trasformazioni senza "strapparsi" ' la consistenza del resto dell'immagine.

La regolazione fine avviene quindi sul modello base di Imagen, per 1500 passaggi per immagine di input, condizionata dall'incorporamento rivisto. Allo stesso tempo, il livello secondario 64px>256px viene ottimizzato in parallelo sull'immagine condizionata. I ricercatori notano che un'ottimizzazione simile per il livello finale 256px>1024px ha "poco o nessun effetto" sui risultati finali, e quindi non l'hanno implementata.

Il documento afferma che il processo di ottimizzazione richiede circa otto minuti per ogni immagine su gemello TPUV4 patatine fritte. Il rendering finale avviene nel core Imagen sotto il file Schema di campionamento DDIM.

In comune con processi di messa a punto simili per Google Dream Booth, gli incorporamenti risultanti possono inoltre essere utilizzati per potenziare la stilizzazione, nonché modifiche fotorealistiche che contengono informazioni tratte dal database sottostante più ampio che alimenta Imagen (poiché, come mostra la prima colonna in basso, le immagini di origine non hanno alcun contenuto necessario per effettuare queste trasformazioni).

Il movimento e le modifiche fotorealistici flessibili possono essere ottenuti tramite Imagic, mentre i codici derivati ​​e districati ottenuti nel processo possono essere facilmente utilizzati per l'output stilizzato.

Il movimento e le modifiche fotorealistici flessibili possono essere ottenuti tramite Imagic, mentre i codici derivati ​​e districati ottenuti nel processo possono essere facilmente utilizzati per l'output stilizzato.

I ricercatori hanno confrontato Imagic con i lavori precedenti SDModifica, un approccio basato su GAN dal 2021, una collaborazione tra la Stanford University e la Carnegie Mellon University; E Testo2Live, una collaborazione, da aprile 2022, tra il Weizmann Institute of Science e NVIDIA.

Un confronto visivo tra Imagic, SDEdit e Text2Live.

Un confronto visivo tra Imagic, SDEdit e Text2Live.

È chiaro che i primi approcci stanno lottando, ma nella fila inferiore, che comporta l'introduzione di un massiccio cambio di posa, gli operatori storici non riescono a riconfigurare completamente il materiale originale, rispetto a un notevole successo di Imagic.

I requisiti di risorse di Imagic e il tempo di addestramento per immagine, sebbene brevi rispetto agli standard di tali attività, ne fanno un'inclusione improbabile in un'applicazione di modifica delle immagini locale su personal computer e non è chiaro fino a che punto il processo di messa a punto potrebbe essere ridotto ai livelli dei consumatori.

Così com'è, Imagic è un'offerta impressionante che è più adatta alle API: un ambiente con cui Google Research, poco criticato per quanto riguarda la facilitazione del deepfaking, potrebbe comunque essere più a suo agio.

 

Pubblicato per la prima volta il 18 ottobre 2022.