Intelligenza Artificiale
Modifica di oggetti assistita dall'intelligenza artificiale con "Cancella e sostituisci" di Imagic e Runway di Google
Questa settimana due nuovi, ma contrastanti, algoritmi grafici guidati dall'intelligenza artificiale offrono nuovi modi agli utenti finali per apportare modifiche altamente granulari ed efficaci agli oggetti nelle foto.
Il primo è Immaginario, di Google Research, in associazione con l'Israel's Institute of Technology e il Weizmann Institute of Science. Imagic offre un editing di oggetti condizionato dal testo e a grana fine tramite la messa a punto dei modelli di diffusione.
Chiunque abbia mai provato a modificare un solo elemento in un re-rendering di Stable Diffusion saprà fin troppo bene che per ogni modifica riuscita, il sistema cambierà cinque cose che ti sono piaciute così com'erano. È un difetto che attualmente ha molti dei più talentuosi appassionati di SD che si spostano costantemente tra Stable Diffusion e Photoshop, per correggere questo tipo di "danno collaterale". Solo da questo punto di vista, i risultati di Imagic sembrano notevoli.
Al momento in cui scrivo, a Imagic manca ancora anche un video promozionale e, visto quello di Google atteggiamento circospetto al rilascio di strumenti di sintesi delle immagini illimitati, non è chiaro fino a che punto, se del caso, avremo la possibilità di testare il sistema.
La seconda offerta è quella di Runway ML, piuttosto più accessibile Cancella e sostituisci impianto, A nuova funzione nella sezione "AI Magic Tools" della sua suite esclusivamente online di utilità per effetti visivi basate sull'apprendimento automatico.
Diamo prima un'occhiata all'uscita di Runway.
Cancella e sostituisci
Come Imagic, Erase and Replace si occupa esclusivamente di immagini fisse, anche se Runway ha in anteprima la stessa funzionalità in una soluzione di editing da testo a video che non è ancora stata rilasciata:
Sebbene Runway ML non abbia rilasciato dettagli sulle tecnologie alla base di Erase and Replace, la velocità con cui è possibile sostituire una pianta domestica con un busto ragionevolmente convincente di Ronald Reagan suggerisce che un modello di diffusione come Stable Diffusion (o, molto meno probabile, un licenziato DALL-E 2) è il motore che sta reinventando l'oggetto di tua scelta in Erase and Replace.
Il sistema ha alcune restrizioni di tipo DALL-E 2: le immagini o il testo che contrassegnano i filtri Cancella e Sostituisci attiveranno un avviso sulla possibile sospensione dell'account in caso di ulteriori infrazioni. Termini e Condizioni per DALL-E 2 .
Molti dei risultati mancano dei tipici spigoli della diffusione stabile. Runway ML sono investitori e partner di ricerca in SD, ed è possibile che abbiano addestrato un modello proprietario superiore ai pesi checkpoint 1.4 open source con cui il resto di noi sta attualmente lottando (poiché molti altri gruppi di sviluppo, hobbisti e professionisti, stanno attualmente addestrando o perfezionando modelli a diffusione stabile).
Come con Imagic (vedi sotto), Erase and Replace è 'orientato agli oggetti', per così dire: non puoi semplicemente cancellare una parte 'vuota' dell'immagine e dipingerla con il risultato del tuo prompt di testo; in quello scenario, il sistema traccerà semplicemente l'oggetto apparente più vicino lungo la linea di vista della maschera (come un muro o un televisore) e vi applicherà la trasformazione.
È difficile dire se Erase and Replace sia evasivo riguardo all'uso di immagini protette da copyright (che sono ancora ampiamente ostacolate, anche se con successo variabile, in DALL-E 2), o se il modello utilizzato nel motore di rendering back-end non è ottimizzato per quel genere di cose.
Sarebbe interessante sapere quali metodi usa Erase and Replace per isolare gli oggetti che è in grado di sostituire. Presumibilmente l'immagine sta attraversando qualche derivazione di CLIP, con gli elementi discreti individuati dal riconoscimento dell'oggetto e dalla successiva segmentazione semantica. Nessuna di queste operazioni funziona altrettanto bene in un'installazione comune o in giardino di Diffusione Stabile.
Ma niente è perfetto: a volte il sistema sembra cancellare e non sostituire, anche quando (come abbiamo visto nell'immagine sopra), il meccanismo di rendering sottostante sa sicuramente cosa significa un messaggio di testo. In questo caso, risulta impossibile trasformare un tavolino da caffè in uno xenomorfo, anzi, il tavolo semplicemente scompare.
Cancella e sostituisci sembra essere un efficace sistema di sostituzione degli oggetti, con un eccellente re-painting. Tuttavia, non può modificare gli oggetti percepiti esistenti, ma solo sostituirli. Modificare effettivamente il contenuto dell'immagine esistente senza compromettere il materiale ambientale è senza dubbio un compito molto più difficile, legato alla lunga lotta del settore della ricerca sulla visione artificiale verso sbrogliamento nei vari spazi latenti dei quadri popolari.
Immaginario
È un compito che Imagic affronta. IL nuovo documento offre numerosi esempi di modifiche che modificano con successo singoli aspetti di una foto lasciando intatto il resto dell'immagine.
Il sistema utilizza un processo in tre fasi: ottimizzazione dell'incorporamento del testo; messa a punto del modello; e, infine, la generazione dell'immagine modificata.
Non sorprende che il framework sia basato su quello di Google Immagine architettura text-to-video, sebbene i ricercatori affermino che i principi del sistema sono ampiamente applicabili ai modelli di diffusione latente.
Imagen utilizza un'architettura a tre livelli, piuttosto che l'array a sette livelli utilizzato per l'azienda più recente iterazione da testo a video del software. I tre distinti moduli comprendono un modello di diffusione generativa operante a una risoluzione di 64x64px; un modello a super risoluzione che ingrandisce questo output a 256x256px; e un ulteriore modello a super risoluzione per portare l'output fino alla risoluzione 1024 × 1024.
Imagic interviene nella prima fase di questo processo, ottimizzando l'incorporamento del testo richiesto nella fase 64px su un ottimizzatore Adam a un tasso di apprendimento statico di 0.0001.
La regolazione fine avviene quindi sul modello base di Imagen, per 1500 passaggi per immagine di input, condizionata dall'incorporamento rivisto. Allo stesso tempo, il livello secondario 64px>256px viene ottimizzato in parallelo sull'immagine condizionata. I ricercatori notano che un'ottimizzazione simile per il livello finale 256px>1024px ha "poco o nessun effetto" sui risultati finali, e quindi non l'hanno implementata.
Il documento afferma che il processo di ottimizzazione richiede circa otto minuti per ogni immagine su gemello TPUV4 patatine fritte. Il rendering finale avviene nel core Imagen sotto il file Schema di campionamento DDIM.
In comune con processi di messa a punto simili per Google Dream Booth, gli incorporamenti risultanti possono inoltre essere utilizzati per potenziare la stilizzazione, nonché modifiche fotorealistiche che contengono informazioni tratte dal database sottostante più ampio che alimenta Imagen (poiché, come mostra la prima colonna in basso, le immagini di origine non hanno alcun contenuto necessario per effettuare queste trasformazioni).
I ricercatori hanno confrontato Imagic con i lavori precedenti SDModifica, un approccio basato su GAN dal 2021, una collaborazione tra la Stanford University e la Carnegie Mellon University; E Testo2Live, una collaborazione, da aprile 2022, tra il Weizmann Institute of Science e NVIDIA.
È chiaro che i primi approcci stanno lottando, ma nella fila inferiore, che comporta l'introduzione di un massiccio cambio di posa, gli operatori storici non riescono a riconfigurare completamente il materiale originale, rispetto a un notevole successo di Imagic.
I requisiti di risorse di Imagic e il tempo di addestramento per immagine, sebbene brevi rispetto agli standard di tali attività, ne fanno un'inclusione improbabile in un'applicazione di modifica delle immagini locale su personal computer e non è chiaro fino a che punto il processo di messa a punto potrebbe essere ridotto ai livelli dei consumatori.
Così com'è, Imagic è un'offerta impressionante che è più adatta alle API: un ambiente con cui Google Research, poco criticato per quanto riguarda la facilitazione del deepfaking, potrebbe comunque essere più a suo agio.
Pubblicato per la prima volta il 18 ottobre 2022.