Umělá inteligence

Model eDiffi Diffusion NVIDIA umožňuje „malování slovy“ a další

aktualizováno on 9. prosince 2022

Pokus o vytvoření přesných kompozic pomocí latentních difúzních generativních obrazových modelů, jako je např Stabilní difúze mohou být jako pastevecké kočky; úplně stejné imaginativní a interpretační schopnosti, které umožňují systému vytvářet mimořádné detaily a vyvolávat mimořádné obrazy z relativně jednoduchých textových pokynů, jsou také obtížné vypnout když hledáte kontrolu nad generováním obrázků na úrovni Photoshopu.

Nyní nový přístup z výzkumu NVIDIA s názvem souborová difúze pro obrázky (eDiffi), používá směs více metod vkládání a interpretace (spíše než stejnou metodu v celém kanálu), aby umožnila mnohem větší úroveň kontroly nad generovaným obsahem. V příkladu níže vidíme, jak uživatel maluje prvky, kde každá barva představuje jedno slovo z textové výzvy:

„Malování slovy“ je jednou ze dvou nových schopností v modelu difúze eDiffi společnosti NVIDIA. Každá mazaná barva představuje slovo z výzvy (zobrazí se vlevo během generování) a použitá barva oblasti bude sestávat pouze z tohoto prvku. Více příkladů a lepší rozlišení viz zdrojové (oficiální) video na https://www.youtube.com/watch?v=k6cOx9YjHJc

Ve skutečnosti je to „malování s maskami“ a obrací iparadigma malby ve Stable Diffusion, který je založen na opravě poškozených nebo nevyhovujících obrázků nebo na rozšíření obrázků, které by také mohly mít požadovanou velikost.

Okraje malované mazanice zde místo toho představují povolené přibližné hranice pouze jednoho jedinečného prvku z jednoho konceptu, což umožňuje uživateli nastavit konečnou velikost plátna od začátku a poté diskrétně přidávat prvky.

Příklady z nového listu. Zdroj: https://arxiv.org/pdf/2211.01324.pdf

Pestré metody používané v eDiffi také znamenají, že systém odvádí mnohem lepší práci při začlenění každého prvku do dlouhých a podrobných výzev, zatímco Stable Diffusion a DALL-E 2 od OpenAI mají tendenci upřednostňovat určité části výzvy, v závislosti na tom, jak brzy cílová slova se objevují ve výzvě nebo na základě jiných faktorů, jako je potenciální obtížnost rozuzlení různých prvků nezbytných pro kompletní, ale komplexní (s ohledem na textovou výzvu) kompozici:

Z článku: eDiffi je schopen důkladněji iterovat výzvu, dokud nebude vykreslen maximální možný počet prvků. I když vylepšené výsledky pro eDiffi (sloupec úplně vpravo) jsou čerstvě vybrané, stejně jako srovnávací obrázky ze Stable Diffusion a DALL-E 2.

Kromě toho použití vyhrazené T5 kodér text-to-text znamená, že eDiffi je schopen vykreslit srozumitelný anglický text, buď abstraktně požadovaný z výzvy (tj. obrázek obsahuje nějaký text [x]) nebo výslovně požadováno (tj na tričku je nápis 'Nvidia Rocks'):

Vyhrazené zpracování textu na text v eDiffi znamená, že text lze vykreslit doslovně v obrázcích, místo toho, aby byl spouštěn pouze prostřednictvím interpretační vrstvy textu na obrázek, než aby se výstup pozměnil.

Další vychytávkou nového rámce je to, že je také možné poskytnout jeden obrázek jako stylovou výzvu, místo abyste museli trénovat model DreamBooth nebo textové vkládání do více příkladů žánru nebo styl.

Přenos stylu lze použít z referenčního obrázku na výzvu k převodu textu na obrázek nebo dokonce výzvu k převodu z obrázku na obrázek.

Projekt nový papír je s názvem eDiffi: Modely šíření textu do obrázku se souborem expertních odšumovačů, a

Textový kodér T5

Použití TExt-to-Text Transfer Transformer (T5) je klíčovým prvkem ve zlepšených výsledcích demonstrovaných v eDiffi. Průměrný kanál latentní difúze se soustředí na spojení mezi trénovanými obrázky a titulky, které je doprovázely, když byly seškrábány z internetu (nebo byly ručně upraveny později, i když jde o drahý, a proto vzácný zásah).

Z dokumentu z července 2020 pro T5 – textové transformace, které mohou pomoci generativnímu pracovnímu postupu s obrázky v eDiffi (a potenciálně i v dalších modelech latentní difúze). Zdroj: https://arxiv.org/pdf/1910.10683.pdf

Přeformulováním zdrojového textu a spuštěním modulu T5 lze získat přesnější asociace a reprezentace, než jaké byly původně natrénovány do modelu, téměř jako post fakt ruční označování, s větší přesností a použitelností na ustanovení požadované textové výzvy.

Autoři vysvětlují:

„Ve většině existujících prací na difúzních modelech je model potlačení šumu sdílen napříč všemi úrovněmi šumu a časová dynamika je reprezentována pomocí jednoduchého časového vkládání, které je přiváděno do modelu potlačení šumu prostřednictvím sítě MLP. Tvrdíme, že komplexní časovou dynamiku difúze odšumování nelze efektivně naučit z dat pomocí sdíleného modelu s omezenou kapacitou.

„Namísto toho navrhujeme rozšířit kapacitu modelu odšumování zavedením souboru expertních odšumovačů; každý expertní odšumovač je odšumovacím modelem specializovaným pro určitý rozsah hluku [hladiny]. Tímto způsobem můžeme zvýšit kapacitu modelu bez zpomalení vzorkování, protože výpočetní složitost vyhodnocení [zpracovávaného prvku] na každé úrovni šumu zůstává stejná.“

Koncepční pracovní postup pro eDiffi.

Existující CLIP kódovací moduly obsažené v DALL-E 2 a Stable Diffusion jsou také schopny najít alternativní interpretace obrázků pro text související s uživatelským vstupem. Jsou však trénovány na podobných informacích jako původní model a nejsou používány jako samostatná interpretační vrstva tak, jako je T5 v eDiffi.

Autoři uvádějí, že eDiffi je poprvé, co byl kodér T5 i CLIP začleněn do jednoho kanálu:

„Protože jsou tyto dva kodéry cvičeny s různými cíli, jejich vložení upřednostňuje formace různých obrázků se stejným vstupním textem. Zatímco vkládání textu CLIP pomáhá určit globální vzhled generovaných obrázků, výstupy mají tendenci postrádat jemné detaily v textu.

„Naproti tomu obrázky generované samotným vložením textu T5 lépe odrážejí jednotlivé objekty popsané v textu, ale jejich celkový vzhled je méně přesný. Jejich společné použití přináší nejlepší výsledky při generování obrazu v našem modelu.“

Přerušení a rozšíření procesu difúze

Článek poznamenává, že typický model latentní difúze začne cestu od čistého šumu k obrazu tím, že se bude v raných fázích generace spoléhat pouze na text.

Když se šum rozloží na jakési hrubé rozvržení představující popis v textové výzvě, textově řízená stránka procesu v podstatě odpadne a zbytek procesu se posune směrem k rozšíření vizuálních prvků.

To znamená, že jakýkoli prvek, který nebyl vyřešen v počáteční fázi interpretace šumu řízeného textem, je obtížné později vložit do obrazu, protože tyto dva procesy (text-to-layout a layout-to-image) se relativně málo překrývají. a základní rozvržení je docela zamotané v době, kdy dorazí k procesu zvětšování obrazu.

Z příspěvku: mapy pozornosti různých částí potrubí, jak proces šum>obraz dozrává. V dolní řadě můžeme vidět prudký pokles vlivu CLIP obrázku, zatímco T5 pokračuje v ovlivňování obrázku mnohem dále do procesu vykreslování.

Profesionální potenciál

Příklady na stránce projektu a videu na YouTube jsou zaměřeny na generování roztomilých obrázků, které jsou vhodné pro PR. Výzkum společnosti NVIDIA jako obvykle bagatelizuje potenciál své nejnovější inovace pro zlepšení fotorealistických nebo VFX pracovních postupů, stejně jako její potenciál pro zlepšení deepfake snímků a videa.

V příkladech začínající nebo amatérský uživatel čmárá hrubé obrysy umístění pro konkrétní prvek, zatímco v systematičtějším pracovním postupu VFX by mohlo být možné použít eDiffi k interpretaci více snímků prvku videa pomocí převodu textu na obrázek, přičemž obrysy jsou velmi přesné a založené například na obrazcích, kde bylo pozadí vypuštěno pomocí zelené obrazovky nebo algoritmických metod.

Runway ML již poskytuje rotoskopování založené na umělé inteligenci. V tomto příkladu „zelená obrazovka“ kolem předmětu představuje vrstvu alfa, zatímco extrakce byla provedena pomocí strojového učení spíše než pomocí algoritmického odstranění pozadí zelené obrazovky v reálném světě. Zdroj: https://twitter.com/runwayml/status/1330978385028374529

Pomocí vyškoleného stánek snů charakter a propojení mezi obrázky a eDiffi, je potenciálně možné začít odhalovat jeden z bugbears žádný model latentní difúze: časová stabilita. V takovém případě by okraje vnuceného obrázku i obsah obrázku byly „předběžně umístěny“ na uživatelské plátno s časovou kontinuitou vykresleného obsahu (tj. proměnit skutečného cvičence Tai Chi v robota ) poskytované pomocí uzamčeného modelu DreamBooth, který si „zapamatoval“ svá trénovací data – špatná pro interpretovatelnost, skvělá pro reprodukovatelnost, věrnost a kontinuitu.

Metoda, data a testy

Dokument uvádí, že model eDiffi byl trénován na „sbírce veřejných a proprietárních datových sad“, silně filtrovaných předem trénovaným modelem CLIP, aby se odstranily obrázky, které pravděpodobně sníží obecné estetické skóre výstupu. Finální filtrovaná sada obrázků obsahuje „asi jednu miliardu“ párů text-obrázek. Velikost trénovaných obrázků je popsána jako „nejkratší strana větší než 64 pixelů“.

Pro tento proces byla trénována řada modelů se základním i superrozlišovacím modelem AdamW optimalizátor při rychlosti učení 0.0001, s úbytkem hmotnosti 0.01 a při impozantní velikosti dávky 2048.

Základní model byl trénován na 256 GPU NVIDIA A100 a dva modely s vysokým rozlišením na 128 NVIDIA. A100 GPU pro každý model.

Systém byl založen na vlastním systému NVIDIA Představivost Knihovna PyTorch. Kokos Pro hodnocení byly použity datové sady vizuálního genomu, i když nebyly zahrnuty do finálních modelů, s MS-COCO konkrétní varianta použitá pro testování. Byly testovány konkurenční systémy KLOUZAT, Make-A-Scene, DALL-E2, Stabilní difúzea dva systémy syntézy obrázků Google, Obraz a večírek.

V souladu s podobným před práce, zero-shot FID-30K byla použita jako hodnotící metrika. V rámci FID-30K je z validační sady COCO náhodně extrahováno 30,000 XNUMX titulků (tj. nikoli obrázky nebo text použitý při školení), které byly poté použity jako textové výzvy pro syntézu obrázků.

Frechetova počáteční vzdálenost (FID) mezi vygenerovanými a základními pravdivými obrazy byl poté vypočítán, navíc k zaznamenání CLIP skóre pro generované obrazy.

Výsledky z testů zero-shot FID oproti současným nejmodernějším přístupům na ověřovací datové sadě COCO 2014 s lepšími nižšími výsledky.

Ve výsledcích bylo eDiffi schopno získat nejnižší (nejlepší) skóre na zero-shot FID i proti systémům s mnohem vyšším počtem parametrů, jako je 20 miliard parametrů Parti, ve srovnání s 9.1 miliardami parametrů v nejvyšších Specifikovaný model eDiffi vyškolený pro testy.

Proč investovat do čističky vzduchu?

eDiffi od NVIDIA představuje vítanou alternativu k pouhému přidávání většího a většího množství dat a složitosti do stávajících systémů, místo toho používá inteligentnější a vrstvený přístup k některým z nejpalčivějších překážek souvisejících s propletením a neupravitelností v systémech generativních obrazů s latentní difúzí.

Na stránkách Stable Diffusion subreddits a Discords se již diskutuje o tom, že buď přímo začleníte jakýkoli kód, který může být zpřístupněn pro eDiffi, nebo převedete principy, které za ním stojí, do samostatné implementace. Nový kanál je však tak radikálně odlišný, že by představoval celý počet verzí změn pro SD, čímž by upustil od určité zpětné kompatibility, i když nabízí možnost výrazně vylepšené úrovně kontroly nad konečnými syntetizovanými obrázky, aniž by obětoval podmanivé imaginativní schopnosti latentní difúze.

Poprvé publikováno 3. listopadu 2022.