cung Modeli eDiffi Diffusion i NVIDIA lejon 'Pikturimin me fjalë' dhe më shumë - Unite.AI
Lidhu me ne

Inteligjenca artificiale

Modeli i difuzionit eDiffi i NVIDIA lejon 'Pikturimin me fjalë' dhe më shumë

mm
Përditësuar on

Përpjekja për të bërë kompozime precize me modele të imazhit gjenerues të difuzionit latent si p.sh Difuzion i qëndrueshëm mund të jetë si macet e tufave; po të njëjtat fuqi imagjinative dhe interpretuese që i mundësojnë sistemit të krijojë detaje të jashtëzakonshme dhe të mbledhë imazhe të jashtëzakonshme nga tekste relativisht të thjeshta. vështirë për t'u fikur kur jeni duke kërkuar për kontroll të nivelit të Photoshop-it mbi një gjenerim imazhi.

Tani, një qasje e re nga kërkimi NVIDIA, i titulluar difuzion i ansamblit për imazhe (eDiffi), përdor një përzierje të metodave të shumta të përfshirjes dhe interpretimit (në vend të së njëjtës metodë gjatë gjithë rrugës) për të lejuar një nivel shumë më të madh të kontrollit mbi përmbajtjen e krijuar. Në shembullin e mëposhtëm, ne shohim një përdorues që pikturon elemente ku çdo ngjyrë përfaqëson një fjalë të vetme nga një kërkesë teksti:

'Pikturimi me fjalë' është një nga dy aftësitë e reja në modelin e Diffi Diffi të NVIDIA-s. Çdo ngjyrë e lyer përfaqëson një fjalë nga prompti (shihni ato të shfaqen në të majtë gjatë gjenerimit) dhe ngjyra e zonës e aplikuar do të përbëhet vetëm nga ai element. Shihni fundin e artikullit për videon zyrtare të ngulitur, me më shumë shembuj dhe rezolucion më të mirë. Burimi: https://www.youtube.com/watch?v=k6cOx9YjHJc

'Pikturimi me fjalë' është një nga dy aftësitë e reja në modelin e Diffi Diffi të NVIDIA-s. Çdo ngjyrë e lyer përfaqëson një fjalë nga prompti (shihni ato të shfaqen në të majtë gjatë gjenerimit) dhe ngjyra e zonës e aplikuar do të përbëhet vetëm nga ai element. Shihni videon burimore (zyrtare) për më shumë shembuj dhe zgjidhje më të mirë në https://www.youtube.com/watch?v=k6cOx9YjHJc

Në fakt kjo është 'pikturë me maska' dhe e kthen mbrapsht inparadigma e pikturës në Difuzion të qëndrueshëm, i cili bazohet në fiksimin e imazheve të thyera ose të pakënaqshme, ose në zgjerimin e imazheve që mund të kishin qenë gjithashtu madhësia e dëshiruar në radhë të parë.

Këtu, në vend të kësaj, skajet e llaçit të pikturuar përfaqësojnë kufijtë e përafërt të lejuar të vetëm një elementi unik nga një koncept i vetëm, duke i lejuar përdoruesit të vendosë madhësinë përfundimtare të kanavacës që nga fillimi dhe më pas të shtojë elementë në mënyrë diskrete.

Shembuj nga letra e re. Burimi: https://arxiv.org/pdf/2211.01324.pdf

Shembuj nga letra e re. Burimi: https://arxiv.org/pdf/2211.01324.pdf

Metodat e larmishme të përdorura në eDiffi nënkuptojnë gjithashtu se sistemi bën një punë shumë më të mirë për të përfshirë çdo element në kërkesat e gjata dhe të detajuara, ndërsa Stable Diffusion dhe DALL-E 2 i OpenAI priren të japin përparësi në pjesë të caktuara të kërkesës, në varësi qoftë se sa herët Fjalët e synuara shfaqen në prompt, ose në faktorë të tjerë, siç është vështirësia e mundshme në zbërthimin e elementeve të ndryshëm të nevojshëm për një përbërje të plotë, por gjithëpërfshirëse (në lidhje me tekstin-prompt):

Nga punimi: eDiffi është në gjendje të përsëritet më në detaje përmes promptit derisa të jepet numri maksimal i mundshëm i elementeve. Megjithëse rezultatet e përmirësuara për eDiffi (kolona në pjesën më të djathtë) janë zgjedhur nga qershia, po ashtu janë edhe imazhet e krahasimit nga Stable Diffusion dhe DALL-E 2.

Nga punimi: eDiffi është në gjendje të përsëritet më në detaje përmes promptit derisa të jepet numri maksimal i mundshëm i elementeve. Megjithëse rezultatet e përmirësuara për eDiffi (kolona në pjesën më të djathtë) janë zgjedhur nga qershia, po ashtu janë edhe imazhet e krahasimit nga Stable Diffusion dhe DALL-E 2.

Përveç kësaj, përdorimi i një dedikuar T5 kodues tekst-në-tekst do të thotë që eDiffi është në gjendje të japë tekst të kuptueshëm në anglisht, qoftë i kërkuar në mënyrë abstrakte nga një kërkesë (p.sh. imazhi përmban një tekst prej [x]) ose kërkohet në mënyrë eksplicite (d.m.th bluza thotë "Nvidia Rocks"):

Përpunimi i përkushtuar tekst-në-tekst në eDiffi do të thotë që teksti mund të përkthehet fjalë për fjalë në imazhe, në vend që të ekzekutohet vetëm përmes një shtrese interpretuese tekst-në-imazh, në vend që të ngatërrojë daljen.

Përpunimi i përkushtuar tekst-në-tekst në eDiffi do të thotë që teksti mund të përkthehet fjalë për fjalë në imazhe, në vend që të ekzekutohet vetëm përmes një shtrese interpretuese tekst-në-imazh, në vend që të ngatërrojë daljen.

Një plotësim tjetër i kornizës së re është se është gjithashtu e mundur të sigurohet një imazh i vetëm si një kërkesë stili, në vend që të nevojitet të trajnohet një model DreamBooth ose një ngulitje tekstuale në shembuj të shumtë të një zhanri ose stil.

Transferimi i stilit mund të aplikohet nga një imazh referencë në një kërkesë tekst-në-imazh, apo edhe një kërkesë nga imazhi në imazh.

Transferimi i stilit mund të aplikohet nga një imazh referencë në një kërkesë tekst-në-imazh, apo edhe një kërkesë nga imazhi në imazh.

La letër e re titullohet eDiffi: Modele të shpërndarjes tekst-në-imazh me një ansambël denoisers ekspertëshdhe

Koduesi i tekstit T5

Përdorimi i T-së së GoogleTransformatori i Transferimit nga teksti në tekst (T5) është elementi kryesor në rezultatet e përmirësuara të demonstruara në eDiffi. Mesatarja e gazsjellësit të difuzionit latent përqendrohet në lidhjen midis imazheve të trajnuara dhe titrave që i shoqëruan kur ato u fshinë nga interneti (ose rregullohen manualisht më vonë, megjithëse kjo është një ndërhyrje e shtrenjtë dhe për këtë arsye e rrallë).

Nga dokumenti i korrikut 2020 për T5 - transformimet e bazuara në tekst, të cilat mund të ndihmojnë rrjedhën e punës gjeneruese të imazhit në eDiffi (dhe, potencialisht, modele të tjera të difuzionit latent). Burimi: https://arxiv.org/pdf/1910.10683.pdf

Nga dokumenti i korrikut 2020 për T5 - transformimet e bazuara në tekst, të cilat mund të ndihmojnë rrjedhën e punës gjeneruese të imazhit në eDiffi (dhe, potencialisht, modele të tjera të difuzionit latent). Burimi: https://arxiv.org/pdf/1910.10683.pdf

Duke riformuluar tekstin burimor dhe duke ekzekutuar modulin T5, mund të merren shoqata dhe përfaqësime më të sakta sesa ishin trajnuar në model fillimisht, pothuajse të ngjashme me post fakt etiketim manual, me specifikë dhe zbatueshmëri më të madhe ndaj përcaktimeve të tekstit të kërkuar.

Autorët shpjegojnë:

"Në shumicën e punimeve ekzistuese në modelet e difuzionit, modeli i denoising ndahet në të gjitha nivelet e zhurmës, dhe dinamika e përkohshme përfaqësohet duke përdorur një embedding të thjeshtë kohor që i jepet modelit të denoisimit nëpërmjet një rrjeti MLP. Ne argumentojmë se dinamika komplekse kohore e difuzionit të denoisimit mund të mos mësohet nga të dhënat në mënyrë efektive duke përdorur një model të përbashkët me një kapacitet të kufizuar.

'Në vend të kësaj, ne propozojmë të rrisim kapacitetin e modelit të denoising duke prezantuar një ansambël denoisers ekspertë; çdo denoizer ekspert është një model denoising i specializuar për një gamë të caktuar zhurmash [nivele]. Në këtë mënyrë, ne mund të rrisim kapacitetin e modelit pa ngadalësuar marrjen e mostrave pasi kompleksiteti llogaritës i vlerësimit të [elementit të përpunuar] në çdo nivel zhurme mbetet i njëjtë.'

Rrjedha konceptuale e punës për eDiffi.

Rrjedha konceptuale e punës për eDiffi.

Ekzistuese KLIP Modulet e kodimit të përfshira në DALL-E 2 dhe Stable Diffusion janë gjithashtu në gjendje të gjejnë interpretime alternative të imazhit për tekstin që lidhet me hyrjen e përdoruesit. Megjithatë, ata janë trajnuar për informacion të ngjashëm me modelin origjinal dhe nuk përdoren si një shtresë e veçantë interpretuese në mënyrën se si është T5 në eDiffi.

Autorët thonë se eDiffi është hera e parë që si një kodues T5 ashtu edhe një CLIP janë përfshirë në një tubacion të vetëm:

Meqenëse këta dy kodues janë të trajnuar me objektiva të ndryshëm, futjet e tyre favorizojnë formimin e imazheve të ndryshme me të njëjtin tekst hyrës. Ndërsa futjet e tekstit CLIP ndihmojnë në përcaktimin e pamjes globale të imazheve të krijuara, rezultatet priren të humbasin detajet e hollësishme në tekst.

Në të kundërt, imazhet e krijuara vetëm me ngulitje të tekstit T5 pasqyrojnë më mirë objektet individuale të përshkruara në tekst, por pamja e tyre globale është më pak e saktë. Përdorimi i tyre së bashku prodhon rezultatet më të mira të gjenerimit të imazhit në modelin tonë.'

Ndërprerja dhe Shtimi i Procesit të Difuzionit

Gazeta vëren se një model tipik i difuzionit latent do të fillojë udhëtimin nga zhurma e pastër në një imazh duke u mbështetur vetëm në tekst në fazat e hershme të gjenerimit.

Kur zhurma zgjidhet në një lloj paraqitjeje të përafërt që përfaqëson përshkrimin në kërkesën e tekstit, aspekti i procesit i drejtuar nga teksti në thelb largohet dhe pjesa e mbetur e procesit zhvendoset drejt shtimit të veçorive vizuale.

Kjo do të thotë se çdo element që nuk u zgjidh në fazën fillestare të interpretimit të zhurmës së drejtuar nga teksti, është i vështirë për t'u injektuar në imazh më vonë, sepse të dy proceset (tekst në paraqitje dhe paraqitje në imazh) kanë relativisht pak mbivendosje. , dhe faqosja bazë është mjaft e ngatërruar nga koha kur arrin në procesin e shtimit të imazhit.

Nga letra: hartat e vëmendjes së pjesëve të ndryshme të tubacionit ndërsa procesi i zhurmës>imazhit maturohet. Ne mund të shohim rënien e mprehtë në ndikimin CLIP të imazhit në rreshtin e poshtëm, ndërsa T5 vazhdon të ndikojë në imazh shumë më tej në procesin e renderimit.

Nga letra: hartat e vëmendjes së pjesëve të ndryshme të tubacionit ndërsa procesi i zhurmës>imazhit maturohet. Ne mund të shohim rënien e mprehtë në ndikimin CLIP të imazhit në rreshtin e poshtëm, ndërsa T5 vazhdon të ndikojë në imazh shumë më tej në procesin e renderimit.

Potenciali profesional

Shembujt në faqen e projektit dhe videot në YouTube përqendrohen në gjenerimin e imazheve të lezetshme meme-tastike miqësore me PR. Si zakonisht, hulumtimi i NVIDIA po zvogëlon potencialin e inovacionit të saj më të fundit për të përmirësuar flukset e punës fotorealiste ose VFX, si dhe potencialin e tij për përmirësimin e imazheve dhe videove të falsifikuara të thella.

Në shembujt, një përdorues fillestar ose amator shkarravit skica të përafërta të vendosjes për elementin specifik, ndërsa në një rrjedhë pune më sistematike VFX, mund të jetë e mundur të përdoret eDiffi për të interpretuar korniza të shumta të një elementi video duke përdorur tekst-në-imazh, ku skicat janë shumë të sakta dhe bazohen, për shembull, në figurat ku sfondi është hequr nëpërmjet ekranit jeshil ose metodave algoritmike.

Runway ML tashmë ofron rotoskopim të bazuar në AI. Në këtë shembull, 'ekrani jeshil' rreth subjektit përfaqëson shtresën alfa, ndërsa nxjerrja është kryer nëpërmjet mësimit të makinerive në vend të heqjes algoritmike të një sfondi të ekranit jeshil të botës reale. Burimi: https://twitter.com/runwayml/status/1330978385028374529

Runway ML tashmë ofron rotoskopim të bazuar në AI. Në këtë shembull, 'ekrani jeshil' rreth subjektit përfaqëson shtresën alfa, ndërsa nxjerrja është realizuar nëpërmjet mësimit të makinerive në vend të heqjes algoritmike të një sfondi të ekranit jeshil të botës reale. Burimi: https://twitter.com/runwayml/status/1330978385028374529

Duke përdorur një të trajnuar kabinë e ëndrrave personazhi dhe një tubacion imazh-për-imazh me eDiffi, është potencialisht e mundur të filloni të gjurmoni një nga penguesit e Ndonjë modeli i difuzionit latent: stabiliteti kohor. Në një rast të tillë, si kufijtë e imazhit të imponuar ashtu edhe përmbajtja e imazhit do të 'lundroheshin paraprakisht' kundër kanavacës së përdoruesit, me vazhdimësi të përkohshme të përmbajtjes së dhënë (dmth. duke e kthyer një praktikues të Tai Chi-t në një robot. ) sigurohet nga përdorimi i një modeli DreamBooth të mbyllur, i cili ka 'memorizuar' të dhënat e tij të trajnimit - i keq për interpretueshmërinë, i shkëlqyeshëm për riprodhueshmëri, besnikëri dhe vazhdimësi.

Metoda, të dhënat dhe testet

Punimi thotë se modeli eDiffi është trajnuar mbi 'një koleksion të të dhënave publike dhe të pronarit', të filtruar shumë nga një model CLIP i trajnuar paraprakisht, në mënyrë që të heqë imazhet që mund të ulin rezultatin e përgjithshëm estetik të prodhimit. Kompleti përfundimtar i imazheve të filtruara përfshin 'rreth një miliard' çifte tekst-imazh. Madhësia e imazheve të trajnuara përshkruhet si me 'ana më e shkurtër më e madhe se 64 piksele'.

Një numër modelesh u trajnuan për këtë proces, me modele bazë dhe super-rezolucion të trajnuar AdamW optimizues me një normë mësimi prej 0.0001, me një rënie të peshës prej 0.01 dhe me një madhësi të frikshme grupi prej 2048.

Modeli bazë është trajnuar në 256 GPU NVIDIA A100, dhe dy modelet me super-rezolucion në 128 NVIDIA A100 GPU për çdo model.

Sistemi bazohej në sistemin NVIDIA Imagjinuar Biblioteka PyTorch. Coco dhe grupet e të dhënave Visual Genome janë përdorur për vlerësim, megjithëse nuk janë përfshirë në modelet përfundimtare, me MS-COCO varianti specifik i përdorur për testim. Sistemet rivale të testuara ishin Kaloj, Krijimi i një skene, DALL-E2, Difuzion i qëndrueshëm, dhe dy sistemet e sintezës së imazhit të Google, Imazh U nis.

Në përputhje me të ngjashme paraprak punë, zero-shot FID-30K është përdorur si metrikë vlerësimi. Nën FID-30K, 30,000 tituj nxirren në mënyrë të rastësishme nga grupi i vlefshmërisë COCO (dmth. jo imazhet ose teksti i përdorur në trajnim), të cilat më pas u përdorën si tekst-instruksione për sintetizimin e imazheve.

Distanca fillestare e Frechet (FID) midis imazheve të vërteta të krijuara dhe tokësore u llogarit më pas, përveç regjistrimit të rezultatit CLIP për imazhet e krijuara.

Rezultatet nga testet zero-shot FID kundrejt qasjeve aktuale më të fundit në grupin e të dhënave të vërtetimit COCO 2014, me rezultate më të ulëta më të mira.

Rezultatet nga testet zero-shot FID kundrejt qasjeve aktuale më të fundit në grupin e të dhënave të vërtetimit COCO 2014, me rezultate më të ulëta më të mira.

Në rezultate, eDiffi ishte në gjendje të merrte rezultatin më të ulët (më të mirë) në FID me goditje zero edhe kundër sistemeve me një numër shumë më të lartë parametrash, siç janë 20 miliardë parametrat e Partisë, krahasuar me 9.1 miliardë parametrat në parametrat më të lartë. modeli i specifikuar eDiffi i trajnuar për testet.

Përfundim

EDiffi i NVIDIA përfaqëson një alternativë të mirëseardhur për thjesht shtimin e sasive gjithnjë e më të mëdha të të dhënave dhe kompleksitetit në sistemet ekzistuese, në vend të kësaj duke përdorur një qasje më inteligjente dhe të shtresuar për disa nga pengesat më të mprehta që lidhen me ndërthurjen dhe moseditueshmërinë në sistemet e imazhit gjenerues me difuzion latent.

Tashmë ka një diskutim në nënreditat e Difuzionit të Qëndrueshëm dhe Mosmarrëveshjet për përfshirjen e drejtpërdrejtë të çdo kodi që mund të vihet në dispozicion për eDiffi, ose për të ri-inskenuar parimet pas tij në një zbatim të veçantë. Gazsjellësi i ri, megjithatë, është kaq rrënjësisht i ndryshëm, saqë do të përbënte një numër të tërë ndryshimi të versionit për SD, duke hequr njëfarë përputhshmërie të prapambetur, megjithëse ofron mundësinë e niveleve shumë të përmirësuara të kontrollit mbi imazhet e sintetizuara përfundimtare, pa sakrifikuar magjepsjen. fuqitë imagjinative të difuzionit latent.

 

Botuar për herë të parë më 3 nëntor 2022.