výhonek UniTune: Alternativní technika úpravy neuronových obrázků společnosti Google – Unite.AI
Spojte se s námi

Umělá inteligence

UniTune: Alternativní technika úpravy neuronových obrázků společnosti Google

mm
aktualizováno on

Google Research, jak se zdá, útočí na textové úpravy obrázků z mnoha front a pravděpodobně čeká, co „zabere“. Žhavý po stopě jeho vydání tento týden Imagický papír, vyhledávací gigant navrhl další metodu založenou na latentní difúzi provádění jinak nemožných úprav obrázků pomocí AI pomocí textových příkazů, tentokrát nazvanou UniTune.

Na základě příkladů uvedených v projektu nový papírUniTune dosáhl mimořádného stupně rozpletení sémantické pózy a myšlenky ze skutečného obsahu tvrdého obrázku:

Ovládání sémantické kompozice UniTune je vynikající. Všimněte si, že v horní řadě obrázků nebyly tváře dvou lidí zdeformovány mimořádnou transformací na zbytku zdrojového obrázku (vpravo). Zdroj: https://arxiv.org/pdf/2210.09477.pdf

Ovládání sémantické kompozice UniTune je vynikající. Všimněte si, že v horní řadě obrázků nebyly tváře dvou lidí zdeformovány mimořádnou transformací na zbytku zdrojového obrázku (vpravo). Zdroj: https://arxiv.org/pdf/2210.09477.pdf

Jak fanoušci Stable Diffusion již poznali, použití úprav na dílčí části obrázku bez nepříznivého ovlivnění zbytku obrázku může být složitá, někdy nemožná operace. Ačkoli populární distribuce jako např AUTOMATIC 1111 může vytvářet masky pro místní a omezené úpravy, proces je klikatý a často nepředvídatelný.

Zřejmá odpověď, alespoň pro odborníka na počítačové vidění, je vložit vrstvu sémantická segmentace který je schopen rozpoznat a izolovat objekty v obraze bez zásahu uživatele, a skutečně, v poslední době se v tomto směru objevilo několik nových iniciativ.

Další možnost pro uzamčení chaotických a zamotaných operací neurálních úprav obrazu je využití vlivného předškolního výcviku kontrastního jazyka a obrazu od OpenAI (CLIP) modul, který je jádrem modelů latentní difúze, jako je DALL-E 2 a Stable Diffusion, aby fungoval jako filtr v okamžiku, kdy je model převodu textu na obrázek připraven odeslat interpretovaný render zpět uživateli. . V tomto kontextu by měl CLIP fungovat jako kontrolní modul a modul kontroly kvality, který odmítne deformované nebo jinak nevhodné rendery. Tohle je chystá se zřídit (Discord link) na Stability.ai's DreamStudio API-řízený portál.

Protože je však v takovém scénáři pravděpodobně CLIP viníkem i řešením (protože v podstatě také informoval o způsobu, jakým byl obraz vyvinut), a protože hardwarové požadavky mohou přesáhnout to, co bude pravděpodobně lokálně dostupné koncovému uživateli, tento přístup nemusí být ideální.

komprimovaný jazyk

Navrhovaný UniTune místo toho „dolaďuje“ existující model difúze – v tomto případě vlastní Imagen společnosti Google, i když výzkumníci uvádějí, že metoda je kompatibilní s jinými architekturami latentní difúze – tak, že se do něj vloží jedinečný token, který lze svolat. jeho zahrnutím do textové výzvy.

V nominální hodnotě to zní jako Google stánek snů, v současné době posedlost mezi fanoušky a vývojáři Stable Diffusion, která dokáže vložit nové postavy nebo předměty do existujícího kontrolního bodu, často za méně než hodinu, na základě pouhé hrstky zdrojových obrázků; nebo jinak jako Textová inverze, který vytváří soubory „sidecar“ pro kontrolní bod, s nimiž se pak zachází, jako by byly původně natrénovány do modelu, a může využívat obrovské vlastní zdroje modelu úpravou jeho textového klasifikátoru, což vede k malému souboru (ve srovnání s minimálně 2 GB ořezaných kontrolních bodů DreamBooth).

Ve skutečnosti, jak tvrdí výzkumníci, UniTune odmítla oba tyto přístupy. Zjistili, že Textual Inversion vynechal příliš mnoho důležitých detailů, zatímco DreamBooth "došlo k horšímu výkonu a trvalo déle" než řešení, na kterém se nakonec dohodli.

Nicméně UniTune používá stejný zapouzdřený sémantický 'metaprompt' přístup jako DreamBooth, s natrénovanými změnami vyvolanými jedinečnými slovy zvolenými školitelem, která nebudou v rozporu s žádnými termíny, které v současnosti existují v pracně trénovaném modelu veřejné verze.

'Abychom provedli operaci úprav, navzorkujeme doladěné modely s výzvou „[rare_tokens] edit_prompt“ (např. „beikkpic dva psi v restauraci“ nebo „beikkpic a minion“).'

Proces

I když je záhadné, proč by měly dva téměř totožné papíry, pokud jde o jejich koncovou funkčnost, dorazit od Googlu ve stejný týden, navzdory velkému množství podobností mezi těmito dvěma iniciativami existuje alespoň jeden jasný rozdíl mezi UniTune a Imagic – posledně jmenovaný používá „nekomprimované“ výzvy v přirozeném jazyce k vedení operací úprav obrázků, zatímco UniTune trénuje jedinečné tokeny stylu DreamBooth.

Pokud jste tedy editovali pomocí Imagic a chtěli byste provést transformaci této povahy…

Z článku UniTune – UniTune se staví proti oblíbenému konkurenčnímu neuronovému editačnímu rámci společnosti Google, SDEdit. Výsledky UniTune jsou zcela vpravo, zatímco odhadovaná maska ​​je vidět na druhém obrázku zleva.

Z článku UniTune – UniTune se staví proti oblíbenému konkurenčnímu neuronovému editačnímu rámci společnosti Google, SDEdit. Výsledky UniTune jsou zcela vpravo, zatímco odhadovaná maska ​​je vidět na druhém obrázku zleva.

.. v Imagic byste zadali 'třetí osoba, sedící v pozadí, jako roztomilé chlupaté monstrum'.

Ekvivalentní příkaz UniTune by byl 'Chlap vzadu jako [x]', Kde x je jakékoli podivné a jedinečné slovo, které bylo spojeno s dobře vyškoleným konceptem spojeným s postavou chlupatého monstra.

Zatímco řada obrázků je vložena do DreamBooth nebo Textual Inversion se záměrem vytvořit abstrakci ve stylu deepfake, kterou lze ovládat v mnoha pozicích, UniTune i Imagic místo toho vloží do systému jeden obrázek – původní, nedotčený obrázek.

Je to podobné způsobu, jakým fungovalo mnoho editačních nástrojů založených na GAN v posledních několika letech – převodem vstupního obrazu na latentní kódy v latentním prostoru GAN a následným adresováním těchto kódů a jejich odesláním do jiných částí latentního prostoru. prostor pro modifikaci (tj. vložení obrázku mladého tmavovlasého člověka a jeho projekce prostřednictvím latentních kódů spojených se „starým“ nebo „blondýnem“ atd.).

Výsledky v difúzním modelu a touto metodou jsou však ve srovnání překvapivě přesné a mnohem méně nejednoznačné:

Proces jemného ladění

Metoda UniTune v podstatě posílá původní obrázek přes difúzní model se sadou instrukcí, jak by měl být modifikován, pomocí rozsáhlých úložišť dostupných dat natrénovaných do modelu. Ve skutečnosti to můžete udělat právě teď se Stable Diffusion's img2img funkčnost – ale ne bez deformace nebo nějaké změny částí obrázku, které byste si přáli zachovat.

Během procesu UniTune je systém jemné laděníd, což znamená, že UniTune nutí model k obnovení tréninku, přičemž většina jeho vrstev není zmrazena (viz níže). Ve většině případů jemné doladění overal naplní obecný ztrátové hodnoty těžce vydobytého vysoce výkonného modelu ve prospěch vstřikování nebo zdokonalování nějakého jiného aspektu, který má být vytvořen nebo vylepšen.

U UniTune se však zdá, že modelová kopie, na které se pracuje, i když může vážit několik gigabajtů nebo více, bude považována za „slupku“ na jedno použití a na konci procesu vyřazena, protože sloužila jedinému cíli. Tento druh příležitostného objemu dat se stává každodenní krizí úložiště pro fanoušky DreamBooth, jejichž vlastní modely, i když jsou oříznuté, nemají méně než 2 GB na předmět.

Stejně jako u Imagic se hlavní ladění v UniTune vyskytuje na spodních dvou ze tří vrstev v Imagenu (základ 64px, 64px>256px a 256px>1024px). Na rozdíl od Imagic vědci vidí určitou potenciální hodnotu v optimalizaci ladění také pro tuto poslední a největší vrstvu s vysokým rozlišením (ačkoli to ještě nezkusili).

Pro nejnižší 64px vrstvu je model během trénování vychýlen směrem k základnímu obrázku, přičemž do systému je dodáváno více duplicitních párů obrázku/textu pro 128 iterací při velikosti dávky 4 a s Adafactor jako ztrátová funkce, pracující s rychlostí učení 0.0001. Ačkoli kodér T5 během tohoto jemného ladění zamrzne samotný, zamrzne také během primárního tréninku Imagen

Výše uvedená operace se poté opakuje pro vrstvu 64>256px za použití stejného postupu pro zesílení šumu použitého v původním tréninku Imagen.

Vzorkování

Existuje mnoho možných metod vzorkování, pomocí kterých lze provedené změny vyvolat z jemně vyladěného modelu, včetně klasifikátoru Free Guidance (CFG), opora také Stable Diffusion. CFG v zásadě definuje, do jaké míry může model „následovat svou představivost“ a zkoumat možnosti vykreslování – nebo při nižších nastaveních rozsah, v jakém by se měl držet vstupních zdrojových dat a provádět méně rozsáhlé nebo dramatické změny. .

Stejně jako Textual Inversion (o něco méně s DreamBooth, UniTune je přístupný použití odlišných grafických stylů na originální obrázky, stejně jako více fotorealistických úprav.

Stejně jako Textual Inversion (o něco méně u DreamBooth) je UniTune přístupný použití odlišných grafických stylů na originální obrázky, stejně jako více fotorealistických úprav.

Výzkumníci také experimentovali SDEdit„technika „pozdního startu“, kdy je systém vybízen k zachování původních detailů tím, že je od počátku jen částečně „šum“, ale spíše zachovává své základní vlastnosti. Ačkoli to vědci použili pouze na nejnižší z vrstev (64px), věří, že by to mohla být užitečná doplňková technika vzorkování v budoucnu.

Výzkumníci také využili prompt-to-prompt jako další textově založená technika pro úpravu modelu:

„V nastavení „Prompt to prompt“ jsme zjistili, že technika, kterou nazýváme Prompt Guidance, je zvláště užitečná pro vyladění věrnosti a expresivity.

„Navádění po výzvě je podobné navádění bez klasifikátoru s tím rozdílem, že základní linie je jiná výzva namísto nepodmíněného modelu. To vede model směrem k deltě mezi dvěma výzvami.'

Prompt-to-prompt v UniTune, efektivně izolující oblasti, které je třeba změnit.

Prompt-to-prompt v UniTune, efektivně izolující oblasti, které je třeba změnit.

Autoři však uvádějí, že rychlé vedení bylo potřeba pouze příležitostně v případech, kdy CFG nedosáhla požadovaného výsledku.

Dalším novým vzorkovacím přístupem, se kterým jsme se setkali během vývoje UniTune, byl interpolace, kde jsou oblasti obrazu dostatečně odlišné, že jak původní, tak pozměněný obraz mají velmi podobnou kompozici, což umožňuje použít „naivnější“ interpolaci.

Interpolace může učinit procesy s vyšším úsilím UniTune nadbytečnými v případech, kdy jsou oblasti, které mají být transformovány, diskrétní a dobře ohraničené.

Interpolace může učinit procesy s vyšším úsilím UniTune nadbytečnými v případech, kdy jsou oblasti, které mají být transformovány, diskrétní a dobře ohraničené.

Autoři navrhují, že interpolace by mohla potenciálně fungovat tak dobře, pro velké množství cílových zdrojových obrázků, že by mohla být použita jako výchozí nastavení, a také pozorují, že má schopnost provádět mimořádné transformace v případech, kdy složité okluze nefungují. je třeba vyjednávat intenzivnějšími metodami.

UniTune může provádět místní úpravy s maskami úprav nebo bez nich, ale může se také jednostranně rozhodnout, kam umístit úpravy, s neobvyklou kombinací interpretační síly a robustní esencializací zdrojových vstupních dat:

Na horním obrázku ve druhém sloupci UniTune, pověřený vložením „červeného vlaku do pozadí“, jej umístil na vhodné a autentické místo. Všimněte si v dalších příkladech, jak je zachována sémantická integrita zdrojového obrazu i uprostřed mimořádných změn v obsahu pixelů a základních stylech obrázků.

Na horním obrázku ve druhém sloupci UniTune, pověřený vložením „červeného vlaku do pozadí“, jej umístil na vhodné a autentické místo. Všimněte si v dalších příkladech, jak je zachována sémantická integrita zdrojového obrazu i uprostřed mimořádných změn v obsahu pixelů a základních stylech obrázků.

Latence

Ačkoli první iterace jakéhokoli nového systému bude pomalá a ačkoli je možné, že zapojení komunity nebo firemní závazek (obvykle to není obojí) nakonec zrychlí a optimalizuje rutinu náročná na zdroje, UniTune i Imagic poměrně velké manévry strojového učení za účelem vytvoření těchto úžasných úprav a je otázkou, do jaké míry by se takový proces náročný na zdroje vůbec mohl zmenšit na domácí použití, spíše než na přístup řízený API (ačkoli druhý může být pro Google žádoucí ).

V současné době je zpáteční cesta od vstupu k výsledku asi 3 minuty na GPU T4, s přibližně 30 sekundami navíc pro vyvození (jako v jakékoli rutině odvození). Autoři připouštějí, že se jedná o vysokou latenci a stěží se kvalifikuje jako „interaktivní“, ale také poznamenávají, že model zůstává dostupný pro další úpravy, jakmile je zpočátku vyladěn, dokud uživatel nedokončí proces, což zkracuje čas na jednotlivé úpravy. .

 

Poprvé publikováno 21. října 2022.

Autor o strojovém učení, umělé inteligenci a velkých datech.
Osobní stránky: martinanderson.ai
Kontakt: [chráněno e-mailem]
Twitter: @manders_ai