Umelá inteligencia

UniTune: Alternatívna technika úpravy neurónových obrázkov spoločnosti Google

Aktualizované on Decembra 9, 2022

Zdá sa, že Google Research útočí na textové úpravy obrázkov z viacerých frontov a pravdepodobne čaká, čo „zaberie“. Horúce po stopách tohtotýždňového vydania Imagický papier, vyhľadávací gigant navrhol dodatočnú metódu založenú na latentnej difúzii vykonávania inak nemožných úprav obrázkov založených na AI prostredníctvom textových príkazov, tentoraz tzv. UniTune.

Na základe príkladov uvedených v projekte nového papiera, UniTune dosiahol mimoriadny stupeň rozuzlenie sémantickej pózy a myšlienky zo skutočného obsahu tvrdého obrázka:

Ovládanie sémantickej kompozície UniTune je vynikajúce. Všimnite si, že v hornom rade obrázkov neboli tváre dvoch ľudí zdeformované mimoriadnou transformáciou na zvyšku zdrojového obrázka (vpravo). Zdroj: https://arxiv.org/pdf/2210.09477.pdf

Ako sa fanúšikovia Stable Diffusion už naučili, aplikovanie úprav na čiastočné časti obrázka bez toho, aby sa nepriaznivo zmenilo zvyšok obrázka, môže byť zložitá, niekedy nemožná operácia. Aj keď populárne distribúcie ako napr AUTOMATIC1111 môže vytvárať masky pre miestne a obmedzené úpravy, proces je kľukatý a často nepredvídateľný.

Zjavnou odpoveďou, aspoň pre odborníka na počítačové videnie, je vložiť vrstvu sémantickej segmentácii ktorý je schopný rozpoznať a izolovať objekty v obraze bez zásahu používateľa a skutočne, v poslednej dobe sa v tomto smere objavilo niekoľko nových iniciatív.

Ďalšie možnosť na uzamknutie chaotických a zamotaných operácií úpravy neurónových obrázkov je využitie vplyvného predtréningu kontrastného jazyka a obrázkov OpenAI (CLIP) modul, ktorý je jadrom modelov latentnej difúzie, ako sú DALL-E 2 a Stable Diffusion, aby fungoval ako filter v bode, v ktorom je model prevodu textu na obrázok pripravený odoslať interpretovaný render späť používateľovi. . V tomto kontexte by CLIP mal pôsobiť ako kontrolný modul a modul kontroly kvality, ktorý odmieta deformované alebo inak nevhodné omietky. Toto je o zriadení (Discord link) na portáli DreamStudio API-riadený Stability.ai.

Keďže však CLIP je v takomto scenári pravdepodobne vinníkom aj riešením (pretože v podstate informovalo aj o spôsobe, akým sa obraz vyvinul), a keďže hardvérové požiadavky môžu presiahnuť to, čo je pravdepodobne lokálne dostupné pre koncového používateľa, tento prístup nemusí byť ideálny.

Komprimovaný jazyk

Navrhovaný UniTune namiesto toho „dolaďuje“ existujúci model difúzie – v tomto prípade vlastný Imagen spoločnosti Google, aj keď výskumníci uvádzajú, že metóda je kompatibilná s inými architektúrami latentnej difúzie – takže sa do nej vloží jedinečný token, ktorý možno vyvolať. jeho zahrnutím do textovej výzvy.

V nominálnej hodnote to znie ako Google stánok snov, v súčasnosti posadnutosť medzi fanúšikmi a vývojármi Stable Diffusion, ktorá dokáže vložiť nové postavy alebo predmety do existujúceho kontrolného bodu, často za menej ako hodinu, na základe hŕstky zdrojových obrázkov; alebo inak ako Textová inverzia, ktorý vytvára súbory „sidecar“ pre kontrolný bod, s ktorými sa potom zaobchádza, ako keby boli pôvodne natrénované na model, a môže využívať obrovské vlastné zdroje modelu úpravou jeho textového klasifikátora, výsledkom čoho je malý súbor (v porovnaní s minimálne 2 GB orezaných kontrolných bodov DreamBooth).

V skutočnosti vedci tvrdia, že UniTune odmietla oba tieto prístupy. Zistili, že Textual Inversion vynechalo príliš veľa dôležitých detailov, zatiaľ čo DreamBooth „došlo k horšiemu a trvalo dlhšie“ než riešenie, na ktorom sa nakoniec dohodli.

Napriek tomu UniTune používa rovnaký zapuzdrený sémantický „metapromptný“ prístup ako DreamBooth, s trénovanými zmenami vyvolanými jedinečnými slovami zvolenými školiteľom, ktoré nebudú v rozpore so žiadnymi termínmi, ktoré v súčasnosti existujú v pracne trénovanom modeli verejného vydania.

'Aby sme vykonali operáciu úprav, navzorkujeme doladené modely s výzvou „[rare_tokens] edit_prompt“ (napr. „beikkpic dvaja psi v reštaurácii“ alebo „beikkpic a minion“).'

Proces

Aj keď je záhadou, prečo by dva takmer identické papiere, čo sa týka ich konečnej funkčnosti, mali prísť od Googlu v ten istý týždeň, napriek obrovskému množstvu podobností medzi týmito dvoma iniciatívami existuje aspoň jeden jasný rozdiel medzi UniTune a Imagic – druhý používa výzvy v „nekomprimovanom“ prirodzenom jazyku na vedenie operácií úpravy obrázkov, zatiaľ čo UniTune trénuje jedinečné tokeny štýlu DreamBooth.

Preto, ak ste upravovali pomocou Imagic a chceli by ste vykonať transformáciu tohto charakteru...

Z článku UniTune – UniTune sa stavia proti obľúbenému konkurenčnému neurónovému editačnému rámcu spoločnosti Google, SDEdit. Výsledky UniTune sú úplne vpravo, zatiaľ čo odhadovaná maska je viditeľná na druhom obrázku zľava.

.. v Imagic by ste zadali 'tretia osoba, sediaca v pozadí, ako roztomilé chlpaté monštrum'.

Ekvivalentný príkaz UniTune by bol „Chlap vzadu ako [x]“, Kde x je akékoľvek zvláštne a jedinečné slovo spojené s dobre vyškoleným konceptom spojeným s charakterom chlpatého monštra.

Zatiaľ čo do DreamBooth alebo Textual Inversion sa vkladá množstvo obrázkov so zámerom vytvoriť abstrakciu v štýle deepfake, ktorú možno prikázať do mnohých pozícií, UniTune aj Imagic namiesto toho vložia do systému jeden obrázok – pôvodný, nedotknutý obrázok.

Je to podobné spôsobu, akým fungovali mnohé editačné nástroje založené na GAN v posledných rokoch – konvertovaním vstupného obrazu na latentné kódy v latentnom priestore GAN a následným adresovaním týchto kódov a ich odoslaním do iných častí latentného priestoru. priestor na modifikáciu (tj vloženie obrázku mladého tmavovlasého človeka a jeho premietnutie cez latentné kódy spojené so „starým“ alebo „blondýnom“ atď.).

Výsledky v difúznom modeli a pri tejto metóde sú však pri porovnaní prekvapivo presné a oveľa menej nejednoznačné:

Proces jemného ladenia

Metóda UniTune v podstate posiela pôvodný obrázok cez difúzny model so súborom inštrukcií, ako by sa mal upraviť, pomocou rozsiahlych úložísk dostupných údajov natrénovaných do modelu. V skutočnosti to môžete urobiť práve teraz so Stable Diffusion's img2img funkčnosť – ale nie bez deformácie alebo zmeny častí obrázka, ktoré by ste si radšej ponechali.

Počas procesu UniTune je systém doladiťd, čo znamená, že UniTune núti model obnoviť tréning, pričom väčšina jeho vrstiev nie je zmrazená (pozri nižšie). Vo väčšine prípadov jemné doladenie overal naplní všeobecný hodnoty strát ťažko vydobytého vysokovýkonného modelu v prospech zavedenia alebo vylepšenia nejakého iného aspektu, ktorý sa má vytvoriť alebo zlepšiť.

V prípade UniTune sa však zdá, že modelová kópia, na ktorej sa pracuje, hoci môže vážiť niekoľko gigabajtov alebo viac, sa bude považovať za jednorazovú „plevu“ kolaterálu a na konci procesu sa zahodí, pretože slúžila jedinému cieľu. Tento druh neformálneho množstva dát sa stáva každodennou krízou ukladania pre fanúšikov DreamBooth, ktorých vlastné modely, aj keď sú orezané, nemajú menej ako 2 GB na predmet.

Rovnako ako v prípade Imagic, hlavné ladenie v UniTune prebieha na spodných dvoch z troch vrstiev v Imagen (základ 64px, 64px>256px a 256px>1024px). Na rozdiel od Imagic výskumníci vidia určitú potenciálnu hodnotu v optimalizácii ladenia aj pre túto poslednú a najväčšiu vrstvu s vysokým rozlíšením (hoci sa o to ešte nepokúsili).

Pre najnižšiu 64px vrstvu je model počas tréningu skreslený smerom k základnému obrázku, pričom do systému sa vkladajú viaceré duplicitné páry obrázkov/textov pre 128 iterácií pri veľkosti dávky 4 a s Adafactor ako stratová funkcia, pracujúca s rýchlosťou učenia 0.0001. Hoci kódovač T5 samotný je zmrazený počas tohto jemného ladenia, je tiež zmrazený počas primárneho tréningu Imagen

Vyššie uvedená operácia sa potom zopakuje pre vrstvu 64>256px s použitím rovnakého postupu na zvýšenie šumu, aký sa použil v pôvodnom tréningu Imagen.

vzorkovanie

Existuje mnoho možných metód vzorkovania, pomocou ktorých možno z jemne vyladeného modelu získať vykonané zmeny, vrátane bezplatnej navigácie klasifikátora (CFG), základom aj stabilnej difúzie. CFG v podstate definuje mieru, do akej môže model „nasledovať svoju predstavivosť“ a preskúmať možnosti vykresľovania – alebo pri nižších nastaveniach rozsah, v akom by sa mal držať vstupných zdrojových údajov a robiť menej rozsiahle alebo dramatické zmeny. .

Podobne ako Textual Inversion (o niečo menej s DreamBooth, UniTune je prístupný na použitie odlišných grafických štýlov na originálne obrázky, ako aj na fotorealistickejšie úpravy.

Podobne ako Textual Inversion (o niečo menej s DreamBooth), aj UniTune je prístupný na použitie odlišných grafických štýlov na originálne obrázky, ako aj na fotorealistickejšie úpravy.

Výskumníci tiež experimentovali SDEditTechnika „neskorého štartu“, pri ktorej je systém povzbudzovaný k zachovaniu pôvodných detailov tým, že je od začiatku iba čiastočne „šumový“, ale skôr zachováva svoje základné charakteristiky. Hoci to výskumníci použili iba na najnižšej z vrstiev (64px), veria, že by to mohla byť užitočná doplnková technika odberu vzoriek v budúcnosti.

Výskumníci tiež využili prompt-to-prompt ako dodatočná textová technika na úpravu modelu:

„V nastavení „Prompt to prompt“ sme zistili, že technika, ktorú nazývame Prompt Guidance, je obzvlášť užitočná na vyladenie vernosti a expresivity.

„Výzvové navádzanie je podobné ako bezpodmienečné navádzanie s výnimkou toho, že základná línia je iná výzva namiesto nepodmieneného modelu. Toto vedie model smerom k delte medzi dvoma výzvami.'

Výzva k výzve v UniTune, efektívne izoluje oblasti, ktoré sa majú zmeniť.

Autori však uvádzajú, že rýchle usmernenie bolo potrebné len príležitostne v prípadoch, keď CFG nedosiahla požadovaný výsledok.

Ďalší nový prístup k vzorkovaniu, s ktorým sme sa stretli počas vývoja UniTune, bol interpolácia, kde sú oblasti obrázka dostatočne odlišné, že pôvodný aj zmenený obrázok majú veľmi podobné zloženie, čo umožňuje použiť „naivnejšiu“ interpoláciu.

Interpolácia môže spôsobiť, že procesy UniTune s vyššou námahou budú nadbytočné v prípadoch, keď sú oblasti, ktoré sa majú transformovať, diskrétne a dobre ohraničené.

Autori naznačujú, že interpolácia by mohla potenciálne fungovať tak dobre, pre veľký počet cieľových zdrojových obrázkov, že by sa dala použiť ako predvolené nastavenie, a tiež pozorujú, že má schopnosť vykonávať mimoriadne transformácie v prípadoch, keď zložité oklúzie nefungujú. je potrebné vyjednávať intenzívnejšími metódami.

UniTune môže vykonávať lokálne úpravy s maskami úprav alebo bez nich, ale môže sa tiež jednostranne rozhodnúť, kam umiestniť úpravy, s nezvyčajnou kombináciou interpretačnej sily a robustnej esencializácie zdrojových vstupných údajov:

Na najvrchnejšom obrázku v druhom stĺpci UniTune, ktorý má za úlohu vložiť „červený vlak do pozadia“, ho umiestnil na vhodné a autentické miesto. Všimnite si v ďalších príkladoch, ako je zachovaná sémantická integrita zdrojového obrázka aj uprostred mimoriadnych zmien v obsahu pixelov a základných štýlov obrázkov.

latencia

Hoci prvá iterácia akéhokoľvek nového systému bude pomalá a hoci je možné, že zapojenie komunity alebo firemný záväzok (zvyčajne to nie je oboje) nakoniec urýchli a optimalizuje rutinu náročnú na zdroje, UniTune aj Imagic vykonávajú určité Ide o pomerne veľké manévre strojového učenia na vytvorenie týchto úžasných úprav a je otázne, do akej miery by sa takýto proces náročný na zdroje vôbec mohol zmenšiť na domáce použitie, a nie na prístup riadený API (hoci ten druhý môže byť pre Google vhodnejší ).

V súčasnosti je spiatočná cesta od vstupu k výsledku asi 3 minúty na GPU T4, s približne 30 sekundami navyše na odvodenie (podľa akejkoľvek rutiny odvodenia). Autori pripúšťajú, že ide o vysokú latenciu a sotva sa kvalifikuje ako „interaktívny“, ale tiež poznamenávajú, že model zostáva k dispozícii na ďalšie úpravy po počiatočnom vyladení, kým používateľ nedokončí proces, čo skracuje čas na jednotlivé úpravy. .

Prvýkrát uverejnené 21. októbra 2022.