tunggul Modél Difusi eDiffi NVIDIA Ngidinan 'Lukisan Kalayan Kecap' sareng seueur deui - Unite.AI
Connect with kami

Kacerdasan buatan

Modél Difusi eDiffi NVIDIA Ngidinan 'Lukisan Kalayan Kecap' sareng seueur deui

mm
diropéa on

Nyobian ngadamel komposisi anu tepat sareng model gambar generatif difusi laten sapertos Difusi Stabil bisa jiga ngangon ucing; Kakuatan imajinatif sareng interpretasi anu sami anu ngamungkinkeun sistem nyiptakeun detil anu luar biasa sareng nyauran gambar anu luar biasa tina ajakan téks anu saderhana ogé. hésé dipareuman nalika anjeun milarian kontrol tingkat Photoshop dina generasi gambar.

Ayeuna, pendekatan anyar tina panalungtikan NVIDIA, judulna difusi ensemble pikeun gambar (eDiffi), ngagunakeun campuran sababaraha embedding jeung métode interpretive (tinimbang metoda sarua kabeh jalan ngaliwatan pipa nu) pikeun ngidinan pikeun tingkat jauh leuwih gede kontrol ngaliwatan eusi dihasilkeun. Dina conto di handap, urang ningali elemen lukisan pamaké dimana unggal warna ngagambarkeun hiji kecap tina ajakan téks:

'Ngalukis nganggo kecap' mangrupikeun salah sahiji tina dua kamampuan novél dina modél difusi eDiffi NVIDIA. Unggal warna daubed ngagambarkeun kecap tina ajakan (tingali aranjeunna nembongan di kénca salila generasi), sarta warna wewengkon dilarapkeun ngan bakal diwangun ku unsur éta. Tingali tungtung tulisan pikeun pidéo resmi anu dipasang, kalayan seueur conto sareng résolusi anu langkung saé. Sumber: https://www.youtube.com/watch?v=k6cOx9YjHJc

'Ngalukis nganggo kecap' mangrupikeun salah sahiji tina dua kamampuan novél dina modél difusi eDiffi NVIDIA. Unggal warna daubed ngagambarkeun kecap tina ajakan (tingali aranjeunna nembongan di kénca salila generasi), sarta warna wewengkon dilarapkeun ngan bakal diwangun ku unsur éta. Tempo sumber (resmi) video pikeun leuwih conto jeung resolusi hadé di https://www.youtube.com/watch?v=k6cOx9YjHJc

Éféktif ieu 'ngalukis jeung masker', sarta reverses nu iparadigma ngalukis dina Difusi Stabil, anu dumasar kana ngalereskeun gambar anu rusak atanapi henteu nyugemakeun, atanapi ngalegaan gambar anu ogé tiasa janten ukuran anu dipikahoyong dina mimitina.

Di dieu, gantina, margins tina daub dicét ngagambarkeun wates perkiraan diidinan ngan hiji unsur unik tina konsép tunggal, sahingga pamaké pikeun nyetel ukuran kanvas final ti outset, lajeng discretely nambahkeun elemen.

Conto tina makalah anyar. Sumber: https://arxiv.org/pdf/2211.01324.pdf

Conto tina makalah anyar. Sumber: https://arxiv.org/pdf/2211.01324.pdf

Métode variegated anu dianggo dina eDiffi ogé hartosna yén sistem ngalakukeun padamelan anu langkung saé pikeun ngalebetkeun unggal unsur dina paréntah anu panjang sareng rinci, sedengkeun Stable Diffusion sareng OpenAI's DALL-E 2 condong ngaprioritaskeun bagian-bagian anu tangtu tina ajakan, gumantung kana kumaha awal na. kecap udagan muncul dina ajakan, atawa dina faktor séjén, kayaning poténsi kasulitan dina pisahkeun rupa-rupa elemen diperlukeun pikeun komposisi lengkep tapi komprehensif (nu aya kaitannana ka téks-prompt):

Ti kertas: eDiffi sanggup iterating leuwih tuntas ngaliwatan ajakan nepi ka jumlah maksimum mungkin tina elemen geus rendered. Sanaos hasil anu ningkat pikeun eDiffi (kolom paling katuhu) dipilih céri, ogé gambar ngabandingkeun tina Stable Diffusion sareng DALL-E 2.

Ti kertas: eDiffi sanggup iterating leuwih tuntas ngaliwatan ajakan nepi ka jumlah maksimum mungkin tina elemen geus rendered. Sanaos hasil anu ningkat pikeun eDiffi (kolom paling katuhu) dipilih céri, ogé gambar ngabandingkeun tina Stable Diffusion sareng DALL-E 2.

Sajaba ti, pamakéan a dedicated T5 text-to-text encoder ngandung harti yén eDiffi sanggup nyieun téks basa Inggris anu kaharti, boh sacara abstrak dipénta tina prompt (ie gambar ngandung sababaraha téks [x]) atanapi dipénta sacara eksplisit (ie kaos oblong nyebutkeun 'Nvidia Rocks'):

Ngolah téks-ka-téks khusus dina eDiffi hartosna téks tiasa didamel verbatim dina gambar, sanés ngan ukur dijalankeun ngaliwatan lapisan interpretasi téks-to-gambar tibatan ngalembarkeun kaluaran.

Ngolah téks-ka-téks khusus dina eDiffi hartosna téks tiasa didamel verbatim dina gambar, sanés ngan ukur dijalankeun ngaliwatan lapisan interpretasi téks-to-gambar tibatan ngalembarkeun kaluaran.

Filip satuluyna pikeun kerangka anyar nyaéta kamungkinan ogé nyayogikeun gambar tunggal salaku ajakan gaya, tinimbang kedah ngalatih modél DreamBooth atanapi nampilkeun tékstual dina sababaraha conto genre atanapi gaya.

Transfer gaya tiasa diterapkeun tina gambar rujukan ka ajakan téks-ka-gambar, atanapi malah ajakan gambar-ka-gambar.

Transfer gaya tiasa diterapkeun tina gambar rujukan ka ajakan téks-ka-gambar, atanapi malah ajakan gambar-ka-gambar.

nu kertas anyar judulna eDiffi: Modél Difusi Téks-ka-Gambar sareng Ensemble Ahli Denoisers, sarta

Encoder Téks T5

Pamakéan Google TTransformer Transfer Ext-to-Téks (T5) nyaéta unsur pivotal dina hasil ningkat ditémbongkeun dina eDiffi. Pipa difusi laten rata-rata dipuseurkeun kana asosiasi antara gambar anu dilatih sareng caption anu marengan aranjeunna nalika aranjeunna dicabut tina internét (atanapi disaluyukeun sacara manual engké, sanaos ieu mangrupikeun intervensi anu mahal sareng jarang).

Ti makalah Juli 2020 pikeun T5 - transformasi dumasar-téks, anu tiasa ngabantosan alur kerja gambar generatif dina eDiffi (sareng, berpotensi, modél difusi laten sanés). Sumber: https://arxiv.org/pdf/1910.10683.pdf

Ti makalah Juli 2020 pikeun T5 - transformasi dumasar-téks, anu tiasa ngabantosan alur kerja gambar generatif dina eDiffi (sareng, berpotensi, modél difusi laten sanés). Sumber: https://arxiv.org/pdf/1910.10683.pdf

Ku rephrasing téks sumber jeung ngajalankeun modul T5, asosiasi jeung representasi leuwih pasti bisa dimeunangkeun ti nu dilatih kana model asalna, ampir sarua jeung kanyataan pos panyiri manual, kalawan spésifisitas gede tur applicability kana stipulations tina dipénta téks- ajakan.

Panulis ngajelaskeun:

'Dina kalolobaan karya anu aya dina modél difusi, modél denoising dibagikeun ka sadaya tingkatan noise, sareng dinamika temporal diwakilan nganggo émbedding waktos saderhana anu disayogikeun ka modél denoising via jaringan MLP. Kami ngabantah yén dinamika temporal kompléks tina difusi denoising moal tiasa diajar tina data sacara efektif ngagunakeun modél anu dibagi kalayan kapasitas terbatas.

'Sabalikna, urang ngajukeun pikeun skala up kapasitas model denoising ku ngawanohkeun hiji ensemble of denoisers ahli; unggal ahli denoiser mangrupakeun model denoising husus pikeun rentang nu tangtu noise [tingkat]. Ku cara ieu, urang bisa ningkatkeun kapasitas model tanpa slowing turun sampling saprak pajeulitna komputasi evaluating [unsur olahan] dina unggal tingkat noise tetep sarua.'

Alur kerja konseptual pikeun eDiffi.

Alur kerja konseptual pikeun eDiffi.

Nu tos aya KLIP modul encoding kaasup dina DALL-E 2 sarta Stabil Difusi ogé sanggup manggihan interpretasi gambar alternatif pikeun téks nu patali jeung input pamaké. Sanajan kitu aranjeunna dilatih dina informasi sarupa model aslina, sarta teu dipaké salaku lapisan interpretive misah dina cara nu T5 aya dina eDiffi.

Panulis nyatakeun yén eDiffi mangrupikeun pertama kalina yén T5 sareng encoder CLIP parantos dilebetkeun kana pipa tunggal:

'Kusabab dua encoder ieu dilatih kalayan tujuan anu béda, émbeddings aranjeunna langkung milih formasi gambar anu béda sareng téks input anu sami. Bari embeddings téks CLIP mantuan nangtukeun tampilan global tina gambar dihasilkeun, outputs condong sono detil rupa-grained dina téks.

Kontras, gambar dihasilkeun ku embeddings téks T5 nyalira hadé ngagambarkeun objék individu dijelaskeun dina téks, tapi penampilan global maranéhanana kurang akurat. Ngagunakeun éta babarengan ngahasilkeun hasil gambar-generasi pangalusna dina model urang.'

Ngaganggu sareng Ngaronjatkeun Prosés Difusi

Tulisan éta nyatakeun yén modél difusi laten anu biasa bakal ngamimitian perjalanan tina bising murni ka gambar ku ngan ukur ngandelkeun téks dina tahap awal generasi.

Nalika noise ngabéréskeun kana sababaraha jinis perenah kasar anu ngagambarkeun pedaran dina téks-prompt, facet anu dipandu téks tina prosés dasarna turun, sareng sésa prosés ngageser ka arah ngagedekeun fitur visual.

Ieu ngandung harti yén unsur naon waé anu henteu direngsekeun dina tahap nascent tina interpretasi sora anu dipandu téks hese nyuntikkeun kana gambar engké, sabab dua prosés (téks-ka-layout, sareng perenah-ka-gambar) gaduh tumpang tindihna sakedik. , Jeung perenah dasar rada entangled ku waktu eta anjog di prosés augmentation gambar.

Ti kertas: peta perhatian sagala rupa bagian tina pipa sakumaha noise>prosés gambar matures. Urang bisa ningali seukeut serelek-off dina pangaruh CLIP gambar di baris handap, bari T5 terus pangaruh gambar leuwih jauh kana prosés Rendering.

Ti kertas: peta perhatian sagala rupa bagian tina pipa sakumaha noise>prosés gambar matures. Urang bisa ningali seukeut serelek-off dina pangaruh CLIP gambar di baris handap, bari T5 terus pangaruh gambar leuwih jauh kana prosés Rendering.

Poténsi profésional

Conto dina halaman proyék sareng pusat pidéo YouTube ngeunaan generasi gambar lucu meme-tastic anu ramah PR. Sakumaha biasa, panilitian NVIDIA nuju ngirangan poténsi inovasi pang anyarna pikeun ningkatkeun alur kerja fotoréalistis atanapi VFX, ogé poténsial pikeun ningkatkeun gambar sareng pidéo palsu.

Dina conto, pamaké novice atawa amatir scribbles outlines kasar tina panempatan pikeun elemen husus, sedengkeun dina workflow VFX leuwih sistematis, éta bisa jadi mungkin ngagunakeun eDiffi pikeun napsirkeun sababaraha pigura tina unsur video ngagunakeun téks-to-gambar, wherein outlines pisan tepat, sarta dumasar kana, misalna inohong dimana tukang geus turun kaluar ngaliwatan layar héjo atawa métode algorithmic.

Runway ML parantos nyayogikeun rotoscoping berbasis AI. Dina conto ieu, 'layar héjo' sabudeureun subjek ngagambarkeun lapisan alfa, bari ékstraksi geus dilakonan ngaliwatan learning mesin tinimbang panyabutan algorithmic tina latar tukang layar héjo dunya nyata. Sumber: https://twitter.com/runwayml/status/1330978385028374529

Runway ML parantos nyayogikeun rotoscoping berbasis AI. Dina conto ieu, 'layar héjo' sabudeureun subjek ngagambarkeun lapisan alfa, bari ékstraksi geus dilakonan ngaliwatan learning mesin tinimbang panyabutan algorithmic tina latar tukang layar héjo dunya nyata. Sumber: https://twitter.com/runwayml/status/1330978385028374529

Ngagunakeun dilatih bilik impian karakter sareng saluran pipa gambar-ka-gambar sareng eDiffi, kamungkinan kamungkinan pikeun ngamimitian nangkep salah sahiji bugbears tina sagala model difusi laten: stabilitas temporal. Dina kasus sapertos kitu, duanana margins gambar ditumpukeun sarta eusi gambar bakal 'pre-floated' ngalawan kanvas pamaké, kalawan continuity temporal tina eusi rendered (ie ngarobah praktisi Tai Chi dunya nyata jadi robot. ) disayogikeun ku ngagunakeun modél DreamBooth anu dikonci anu parantos 'ngapalkeun' data pelatihanna - goréng pikeun interpretasi, saé pikeun réproduksibilitas, kasatiaan sareng kontinuitas.

Métode, Data jeung Tés

Tulisan nyatakeun yén modél eDiffi dilatih dina 'kumpulan kumpulan data umum sareng proprietary', disaring pisan ku modél CLIP anu tos dilatih, supados ngaleungitkeun gambar anu kamungkinan nurunkeun skor éstétika umum tina kaluaran. Set gambar anu disaring terakhir ngandung 'kira-kira samilyar' pasangan gambar-téks. Ukuran gambar dilatih digambarkeun salaku kalawan 'sisi shortest gede ti 64 piksel'.

Sajumlah modél dilatih pikeun prosésna, sareng modél dasar sareng résolusi super dilatih AdamW optimizer dina laju diajar 0.0001, kalayan buruk beurat 0.01, sareng dina ukuran bets anu hebat 2048.

Model dasarna dilatih dina 256 NVIDIA A100 GPUs, sareng dua model super-resolusi dina 128 NVIDIA. A100 GPUs pikeun tiap model.

Sistim ieu dumasar kana NVIDIA urang sorangan Ngabayangkeun perpustakaan PyTorch. coco jeung Visual Génom datasets dipaké pikeun evaluasi, sanajan teu kaasup dina model final, kalawan MS-COCO varian husus dipaké pikeun nguji. Sistem rival diuji éta GLIDE, Jieun-A-Adegan, DALL-E2, Difusi Stabil, sareng dua sistem sintésis gambar Google, Imagen jeung Partéi.

Luyu jeung sarupa saencanana pagawean, enol-shot FID-30K dipaké salaku métrik evaluasi. Dina FID-30K, 30,000 captions diekstrak sacara acak tina set validasi COCO (nyaéta sanés gambar atanapi téks anu dianggo dina pelatihan), anu teras dianggo salaku ajakan téks pikeun nyintésis gambar.

Jarak Inception Frechet (FID) antara gambar bebeneran dihasilkeun sarta taneuh lajeng diitung, salian ti ngarekam skor CLIP pikeun gambar dihasilkeun.

Hasil tina tes FID nol-shot ngalawan pendekatan state-of-the-art ayeuna dina dataset validasi COCO 2014, kalawan hasil nu leuwih handap hadé.

Hasil tina tes FID nol-shot ngalawan pendekatan state-of-the-art ayeuna dina dataset validasi COCO 2014, kalawan hasil nu leuwih handap hadé.

Hasilna, eDiffi tiasa nampi skor panghandapna (pangsaéna) dina FID nol-shot sanajan ngalawan sistem kalayan jumlah parameter anu langkung ageung, sapertos 20 milyar parameter Parti, dibandingkeun sareng 9.1 milyar parameter dina pangluhurna- model eDiffi specced dilatih pikeun tés.

kacindekan

NVIDIA's eDiffi ngagambarkeun alternatif wilujeng sumping pikeun ngan saukur nambihan jumlah data anu langkung ageung sareng pajeulitna kana sistem anu tos aya, tibatan nganggo pendekatan anu langkung cerdas sareng berlapis pikeun sababaraha halangan anu paling parah anu aya hubunganana sareng henteu tiasa diédit dina sistem gambar generatif difusi laten.

Parantos aya diskusi dina subreddits Stable Diffusion sareng Discords boh langsung ngalebetkeun kode naon waé anu tiasa disayogikeun pikeun eDiffi, atanapi anu sanés ngémutan deui prinsip anu aya dina palaksanaan anu misah. Jalur pipa anyar, kumaha ogé, béda pisan, éta bakal janten sajumlah vérsi parobihan pikeun SD, ngaleungitkeun sababaraha kasaluyuan mundur, sanaos nawiskeun kamungkinan tingkat kontrol anu ningkat pisan kana gambar anu disintésis akhir, tanpa ngorbankeun anu pikaresepeun. kakuatan imajinatif difusi laten.

 

Mimiti diterbitkeun 3 Nopémber 2022.