taló El model de difusió eDiffi de NVIDIA permet "pintar amb paraules" i molt més - Unite.AI
Connecteu-vos amb nosaltres

Intel·ligència Artificial

El model de difusió eDiffi de NVIDIA permet "pintar amb paraules" i molt més

mm
actualitzat on

Intentar fer composicions precises amb models d'imatge generativa de difusió latent com ara Difusió estable pot ser com pasturar gats; Els mateixos poders imaginatius i interpretatius que permeten al sistema crear detalls extraordinaris i reunir imatges extraordinàries a partir d'indicacions de text relativament senzilles també són difícil d'apagar quan busqueu un control a nivell de Photoshop sobre la generació d'imatges.

Ara, un nou enfocament de la investigació de NVIDIA, titulat difusió conjunta d'imatges (eDiffi), utilitza una barreja de múltiples mètodes d'incorporació i interpretació (en lloc del mateix mètode durant tot el pipeline) per permetre un nivell molt més gran de control sobre el contingut generat. A l'exemple següent, veiem un usuari pintant elements on cada color representa una sola paraula d'una sol·licitud de text:

"Pintar amb paraules" és una de les dues noves capacitats del model de difusió eDiffi de NVIDIA. Cada color pintat representa una paraula de l'indicador (vegeu que apareixen a l'esquerra durant la generació) i el color de l'àrea aplicat consistirà només en aquest element. Vegeu al final de l'article el vídeo oficial incrustat, amb més exemples i una millor resolució. Font: https://www.youtube.com/watch?v=k6cOx9YjHJc

"Pintar amb paraules" és una de les dues noves capacitats del model de difusió eDiffi de NVIDIA. Cada color pintat representa una paraula de l'indicador (vegeu que apareixen a l'esquerra durant la generació) i el color de l'àrea aplicat consistirà només en aquest element. Vegeu el vídeo font (oficial) per obtenir més exemples i una millor resolució a https://www.youtube.com/watch?v=k6cOx9YjHJc

Efectivament, això és "pintar amb màscares", i inverteix la iparadigma npainting a Stable Diffusion, que es basa en arreglar imatges trencades o insatisfactòries, o ampliar imatges que també podrien tenir la mida desitjada en primer lloc.

Aquí, en canvi, els marges de la pintura pintada representen els límits aproximats permesos d'un sol element únic d'un sol concepte, cosa que permet a l'usuari establir la mida final del llenç des del principi i, a continuació, afegir elements discretament.

Exemples del nou document. Font: https://arxiv.org/pdf/2211.01324.pdf

Exemples del nou document. Font: https://arxiv.org/pdf/2211.01324.pdf

Els mètodes variats que s'utilitzen a eDiffi també signifiquen que el sistema fa un treball molt millor d'incloure tots els elements en indicacions llargues i detallades, mentre que Stable Diffusion i DALL-E 2 d'OpenAI tendeixen a prioritzar determinades parts de la indicació, depenent de la data d'hora. Les paraules objectiu apareixen a la sol·licitud, o en altres factors, com ara la dificultat potencial per desenredar els diferents elements necessaris per a una composició completa però completa (respecte a la sol·licitud de text):

Del document: eDiffi és capaç d'iterar més a fons a través de l'indicador fins que s'hagi representat el màxim nombre possible d'elements. Tot i que els resultats millorats per a eDiffi (columna més a la dreta) són escollits de manera correcta, també ho són les imatges de comparació de Stable Diffusion i DALL-E 2.

Del document: eDiffi és capaç d'iterar més a fons a través de l'indicador fins que s'hagi representat el màxim nombre possible d'elements. Tot i que els resultats millorats per a eDiffi (columna més a la dreta) són escollits de manera correcta, també ho són les imatges de comparació de Stable Diffusion i DALL-E 2.

A més, l'ús d'un dispositiu dedicat T5 El codificador de text a text significa que eDiffi és capaç de fer un text en anglès comprensible, ja sigui sol·licitat de manera abstracta des d'un indicador (és a dir, la imatge conté text de [x]) o demanat explícitament (és a dir la samarreta diu "Nvidia Rocks"):

El processament de text a text dedicat a eDiffi significa que el text es pot representar textualment a les imatges, en lloc d'executar-se només a través d'una capa interpretativa de text a imatge que altera la sortida.

El processament de text a text dedicat a eDiffi significa que el text es pot representar textualment a les imatges, en lloc d'executar-se només a través d'una capa interpretativa de text a imatge que altera la sortida.

Un altre complement del nou marc és que també és possible proporcionar una sola imatge com a indicació d'estil, en lloc de necessitar entrenar un model DreamBooth o una incrustació textual en diversos exemples d'un gènere o estil.

La transferència d'estil es pot aplicar des d'una imatge de referència a un missatge de text a imatge, o fins i tot un missatge d'imatge a imatge.

La transferència d'estil es pot aplicar des d'una imatge de referència a un missatge de text a imatge, o fins i tot un missatge d'imatge a imatge.

El nou document es titula eDiffi: models de difusió de text a imatge amb un conjunt d'experts denoisersi

El codificador de text T5

L'ús del T. de GoogleTransformador de transferència d'ext a text (T5) és l'element fonamental en els resultats millorats demostrats a eDiffi. La canalització mitjana de difusió latent se centra en l'associació entre les imatges entrenades i els subtítols que les acompanyaven quan es van eliminar d'Internet (o si es van ajustar manualment més tard, tot i que aquesta és una intervenció cara i, per tant, poc freqüent).

Del document de juliol de 2020 per a T5: transformacions basades en text, que poden ajudar el flux de treball d'imatges generatives a eDiffi (i, potencialment, altres models de difusió latent). Font: https://arxiv.org/pdf/1910.10683.pdf

Del document de juliol de 2020 per a T5: transformacions basades en text, que poden ajudar el flux de treball d'imatges generatives a eDiffi (i, potencialment, altres models de difusió latent). Font: https://arxiv.org/pdf/1910.10683.pdf

Reformulant el text d'origen i executant el mòdul T5, es poden obtenir associacions i representacions més exactes de les que es van formar en el model originalment, gairebé semblants a post facto etiquetatge manual, amb una major especificitat i aplicabilitat a les estipulacions de l'avís de text sol·licitat.

Els autors expliquen:

"En la majoria de treballs existents sobre models de difusió, el model de reducció de soroll es comparteix a tots els nivells de soroll i la dinàmica temporal es representa mitjançant una incrustació de temps simple que s'alimenta al model de reducció de soroll mitjançant una xarxa MLP. Argumentem que la complexa dinàmica temporal de la difusió de soroll no es pot aprendre de les dades de manera eficaç mitjançant un model compartit amb una capacitat limitada.

“En canvi, proposem augmentar la capacitat del model de denoising introduint un conjunt de denoiser experts; cada denoiser expert és un model de reducció de soroll especialitzat per a una gamma particular de [nivells] de soroll. D'aquesta manera, podem augmentar la capacitat del model sense frenar el mostreig, ja que la complexitat computacional d'avaluar [l'element processat] a cada nivell de soroll segueix sent la mateixa.'

Flux de treball conceptual per a eDiffi.

Flux de treball conceptual per a eDiffi.

L'existent CLIP Els mòduls de codificació inclosos a DALL-E 2 i Stable Diffusion també són capaços de trobar interpretacions alternatives d'imatge per al text relacionat amb l'entrada de l'usuari. No obstant això, s'entrenen amb informació similar al model original i no s'utilitzen com a capa interpretativa separada de la mateixa manera que T5 està a eDiffi.

Els autors afirmen que eDiffi és la primera vegada que s'incorporen tant un codificador T5 com un codificador CLIP en un sol pipeline:

"Com que aquests dos codificadors estan entrenats amb objectius diferents, les seves incrustacions afavoreixen formacions d'imatges diferents amb el mateix text d'entrada. Tot i que les incrustacions de text CLIP ajuden a determinar l'aspecte global de les imatges generades, les sortides solen perdre els detalls detallats del text.

"En canvi, les imatges generades només amb les incrustacions de text T5 reflecteixen millor els objectes individuals descrits al text, però el seu aspecte global és menys precís. El fet d'utilitzar-los conjuntament produeix els millors resultats de generació d'imatges en el nostre model.'

Interrompre i augmentar el procés de difusió

El document assenyala que un model de difusió latent típic començarà el viatge del soroll pur a una imatge basant-se únicament en el text en les primeres etapes de la generació.

Quan el soroll es resol en una mena de disseny aproximat que representa la descripció a la sol·licitud de text, la faceta guiada pel text del procés s'allunya essencialment i la resta del procés es desplaça cap a augmentar les característiques visuals.

Això vol dir que qualsevol element que no s'hagi resolt en l'etapa naixent de la interpretació del soroll guiat pel text és difícil d'injectar posteriorment a la imatge, perquè els dos processos (de text a disseny i de disseny a imatge) es superposen relativament poc. , i el disseny bàsic està bastant enredat en el moment en què arriba al procés d'augment de la imatge.

Del document: els mapes d'atenció de diverses parts de la canonada a mesura que madura el procés de soroll>imatge. Podem veure la forta caiguda de la influència CLIP de la imatge a la fila inferior, mentre que T5 continua influenciant la imatge molt més en el procés de renderització.

Del document: els mapes d'atenció de diverses parts de la canonada a mesura que madura el procés de soroll>imatge. Podem veure la forta caiguda de la influència CLIP de la imatge a la fila inferior, mentre que T5 continua influenciant la imatge molt més en el procés de renderització.

Potencial professional

Els exemples de la pàgina del projecte i del vídeo de YouTube se centren en la generació d'imatges boniques i tàstiques per als memes. Com és habitual, la investigació de NVIDIA està minimitzant el potencial de la seva última innovació per millorar els fluxos de treball fotorealistes o VFX, així com el seu potencial per millorar les imatges i els vídeos deepfake.

En els exemples, un usuari novell o aficionat dibuixa contorns aproximats de la ubicació de l'element específic, mentre que en un flux de treball VFX més sistemàtic, podria ser possible utilitzar eDiffi per interpretar diversos fotogrames d'un element de vídeo mitjançant text a imatge, en el qual els contorns són molt precisos i es basen, per exemple, en xifres on el fons s'ha eliminat mitjançant una pantalla verda o mètodes algorítmics.

Runway ML ja proporciona rotoscòpia basada en IA. En aquest exemple, la "pantalla verda" al voltant del subjecte representa la capa alfa, mentre que l'extracció s'ha realitzat mitjançant aprenentatge automàtic en lloc de l'eliminació algorítmica d'un fons de pantalla verda del món real. Font: https://twitter.com/runwayml/status/1330978385028374529

Runway ML ja proporciona rotoscòpia basada en IA. En aquest exemple, la "pantalla verda" al voltant del subjecte representa la capa alfa, mentre que l'extracció s'ha realitzat mitjançant aprenentatge automàtic en lloc de l'eliminació algorítmica d'un fons de pantalla verda del món real. Font: https://twitter.com/runwayml/status/1330978385028374529

Utilitzant un entrenat DreamBooth personatge i una canalització d'imatge a imatge amb eDiffi, és potencialment possible començar a clavar un dels errors de qualsevol model de difusió latent: estabilitat temporal. En aquest cas, tant els marges de la imatge imposada com el contingut de la imatge estarien "preflotats" contra el llenç de l'usuari, amb continuïtat temporal del contingut representat (és a dir, convertir un practicant de Tai-txi del món real en un robot). ) proporcionat mitjançant l'ús d'un model DreamBooth bloquejat que ha "memoritzat" les seves dades d'entrenament: dolent per a la interpretabilitat, excel·lent per a la reproductibilitat, la fidelitat i la continuïtat.

Mètode, dades i proves

El document afirma que el model eDiffi es va entrenar en "una col·lecció de conjunts de dades públics i propietaris", molt filtrats per un model CLIP prèviament entrenat, per tal d'eliminar imatges susceptibles de reduir la puntuació estètica general de la sortida. El conjunt d'imatges filtrades final inclou "uns mil milions" de parells de text-imatge. La mida de les imatges entrenades es descriu com "el costat més curt superior a 64 píxels".

Es van entrenar diversos models per al procés, amb els models base i de superresolució Adam W optimitzador a una taxa d'aprenentatge de 0.0001, amb una caiguda de pes de 0.01 i amb una mida de lot formidable de 2048.

El model base es va entrenar amb 256 GPU NVIDIA A100 i els dos models de superresolució en 128 NVIDIA A100 GPU per a cada model.

El sistema es basava en el propi de NVIDIA Imaginari Biblioteca PyTorch. COCO i els conjunts de dades del genoma visual es van utilitzar per a l'avaluació, encara que no s'inclouen als models finals MS-COCO la variant específica utilitzada per a la prova. Es van provar sistemes rivals PROGRAMA, Fes una escena, DALL-E2, Difusió estable, i els dos sistemes de síntesi d'imatges de Google, Imatge i Partit.

D'acord amb similar anterior treballar, zero-shot FID-30K s'ha utilitzat com a mètrica d'avaluació. Sota el FID-30K, s'extreuen aleatòriament 30,000 subtítols del conjunt de validació COCO (és a dir, no les imatges o el text utilitzats a l'entrenament), que després es van utilitzar com a missatges de text per sintetitzar imatges.

La distància inicial de Frechet (FIDA continuació, es va calcular entre les imatges de veritat generades i de terra, a més de registrar la puntuació CLIP de les imatges generades.

Resultats de les proves FID zero-shot contra els enfocaments actuals d'última generació del conjunt de dades de validació COCO 2014, amb resultats més baixos millor.

Resultats de les proves FID zero-shot contra els enfocaments actuals d'última generació del conjunt de dades de validació COCO 2014, amb resultats més baixos millor.

En els resultats, eDiffi va poder obtenir la puntuació més baixa (millor) en FID de tir zero fins i tot contra sistemes amb un nombre molt més elevat de paràmetres, com els 20 milions de paràmetres de Parti, en comparació amb els 9.1 milions de paràmetres del més alt. model eDiffi especificat entrenat per a les proves.

Conclusió

L'eDiffi de NVIDIA representa una alternativa benvinguda a simplement afegir quantitats cada cop més grans de dades i complexitat als sistemes existents, en lloc d'utilitzar un enfocament més intel·ligent i en capes d'alguns dels obstacles més espinosos relacionats amb l'entrellat i la no-editabilitat en els sistemes d'imatge generativa de difusió latent.

Ja hi ha discussió als subreddits i Discords de Stable Diffusion d'incorporar directament qualsevol codi que pugui estar disponible per a eDiffi, o bé tornar a posar en escena els principis que hi ha darrere en una implementació separada. El nou gasoducte, però, és tan radicalment diferent, que constituiria un nombre complet de canvis de versió per a SD, eliminant certa compatibilitat enrere, tot i que oferint la possibilitat de nivells de control molt millorats sobre les imatges sintetitzades finals, sense sacrificar el captivador. poders imaginatius de difusió latent.

 

Publicat per primera vegada el 3 de novembre de 2022.