Umelá inteligencia

Úpravy objektov za pomoci AI pomocou aplikácií Google Imagic a Runway „Erase and Replace“

Aktualizované on Decembra 9, 2022

Tento týždeň dva nové, ale kontrastné grafické algoritmy poháňané AI ponúkajú koncovým používateľom nové spôsoby, ako vykonávať veľmi podrobné a efektívne zmeny objektov na fotografiách.

Prvý z nich je Imagické, z Google Research v spolupráci s Izraelským technologickým inštitútom a Weizmannovým vedeckým inštitútom. Imagic ponúka textovo podmienené, jemnozrnné úpravy objektov prostredníctvom jemného ladenia modelov difúzie.

Zmeňte, čo sa vám páči, a zvyšok nechajte – Imagic sľubuje podrobné úpravy iba častí, ktoré chcete zmeniť. Zdroj: https://arxiv.org/pdf/2210.09276.pdf

Každý, kto sa niekedy pokúsil zmeniť iba jeden prvok v re-renderi Stable Diffusion, bude veľmi dobre vedieť, že pri každej úspešnej úprave systém zmení päť vecí, ktoré sa vám páčili, presne tak, ako boli. Je to nedostatok, kvôli ktorému v súčasnosti mnohí z najtalentovanejších SD nadšencov neustále prechádzajú medzi Stable Diffusion a Photoshopom, aby napravili tento druh „vedľajšieho poškodenia“. Už len z tohto hľadiska sa zdá, že úspechy Imagicu sú pozoruhodné.

V čase písania článku Imagic ešte nemá ani propagačné video a vzhľadom na Google obozretný postoj na uvoľnenie neobmedzených nástrojov na syntézu obrazu, nie je isté, do akej miery, ak vôbec, dostaneme možnosť otestovať systém.

Druhou ponukou je Runway ML skôr prístupnejšia Vymazať a nahradiť zariadenie, a Nová funkcia v sekcii „AI Magic Tools“ exkluzívnej online sady vizuálnych efektov založených na strojovom učení.

Funkcia Erase and Replace od Runway ML, ktorú už bolo možné vidieť v ukážke systému na úpravu textu na video. Zdroj: https://www.youtube.com/watch?v=41Qb58ZPO60

Najprv sa pozrime na výstup na Runway.

Vymazať a nahradiť

Rovnako ako Imagic, aj Erase and Replace sa zaoberá výlučne statickými obrázkami, hoci Runway áno zobrazilo rovnaká funkcia v riešení na úpravu textu na video, ktoré ešte nebolo vydané:

Hoci každý môže vyskúšať nové Vymazať a nahradiť na obrázkoch, verzia videa zatiaľ nie je verejne dostupná. Zdroj: https://twitter.com/runwayml/status/1568220303808991232

Hoci Runway ML nezverejnila podrobnosti o technológiách vymazania a nahradenia, rýchlosť, akou môžete nahradiť izbovú rastlinu primerane presvedčivou bustou Ronalda Reagana, naznačuje, že difúzny model, ako je Stable Diffusion (alebo oveľa menej pravdepodobné, licencovaný DALL-E 2) je motor, ktorý znovu objavuje objekt podľa vášho výberu v hre Vymazať a nahradiť.

Nahradenie izbovej rastliny bustou The Gipper nie je také rýchle ako toto, ale je to dosť rýchle. Zdroj: https://app.runwayml.com/

Systém má určité obmedzenia typu DALL-E 2 – obrázky alebo text, ktoré označia filtre Erase a Replace, spustia varovanie o možnom pozastavení účtu v prípade ďalších porušení – prakticky štandardný klon prebiehajúceho OpenAI. Politiky pre DALL-E 2 .

Mnohým výsledkom chýbajú typické drsné hrany stabilnej difúzie. Runway ML sú investori a výskumných partnerov v SD a je možné, že vytrénovali proprietárny model, ktorý je lepší ako váhy kontrolných bodov s otvoreným zdrojom 1.4, s ktorými my ostatní v súčasnosti zápasíme (keďže mnohé iné vývojové skupiny, nadšencov aj profesionálov, v súčasnosti trénujú alebo dolaďujú modely stabilnej difúzie).

Nahradenie domáceho stola za „stôl vyrobený z ľadu“ v Runway ML's Erase and Replace.

Rovnako ako v prípade Imagic (pozri nižšie), Erase and Replace je „objektovo orientovaný“ – nemôžete len vymazať „prázdnu“ časť obrázka a vymaľovať ju výsledkom vašej textovej výzvy; v tomto scenári bude systém jednoducho sledovať najbližší zjavný objekt pozdĺž zorného poľa masky (ako je stena alebo televízor) a tam aplikuje transformáciu.

Ako už názov napovedá, nemôžete vkladať objekty do prázdneho priestoru v časti Vymazať a nahradiť. Tu snaha privolať najslávnejšieho zo sithských lordov vedie k zvláštnej nástennej maľbe súvisiacej s Vaderom na TV, zhruba tam, kde bola nakreslená oblasť „nahradiť“.

Je ťažké povedať, či je Erase and Replace vyhýbavý, pokiaľ ide o použitie obrázkov chránených autorskými právami (ktoré sú stále vo veľkej miere blokované, aj keď s rôznym úspechom, v DALL-E 2), alebo či model používaný v backendovom renderovacom engine jednoducho nie je optimalizovaný na takéto veci.

Mierne NSFW „Mural of Nicole Kidman“ naznačuje, že (pravdepodobne) model založený na difúzii postráda bývalé systematické odmietanie DALL-E 2 vykresľovania realistických tvárí alebo obsahu pre dospelých, zatiaľ čo výsledky pokusov o preukázanie diel chránených autorskými právami sa pohybujú od nejednoznačných („xenomorf“) až po absurdné („železný trón“). Vložiť vpravo dole, zdrojový obrázok.

Mierne NSFW „Mural of Nicole Kidman“ naznačuje, že (pravdepodobne) model založený na difúzii postráda predchádzajúce systematické odmietanie DALL-E 2 vykresľovania realistických tvárí alebo obsahu pre dospelých, zatiaľ čo výsledky pokusov o preukázanie diel chránených autorskými právami sa pohybujú od nejednoznačných („xenomorf“) až po absurdné („železný trón“). Vložiť vpravo dole, zdrojový obrázok.

Bolo by zaujímavé vedieť, aké metódy Erase and Replace používa na izoláciu objektov, ktoré je schopný nahradiť. Pravdepodobne obraz prechádza nejakým odvodením CLIPs diskrétnymi položkami, ktoré sú oddelené rozpoznávaním objektov a následnou sémantickou segmentáciou. Žiadna z týchto operácií nefunguje tak dobre v bežnej alebo záhradnej inštalácii Stabilnej difúzie.

Ale nič nie je dokonalé – niekedy sa zdá, že systém vymaže a nenahradí, aj keď (ako sme videli na obrázku vyššie), základný mechanizmus vykresľovania rozhodne vie, čo textová výzva znamená. V tomto prípade je nemožné premeniť konferenčný stolík na xenomorfa – stolík skôr zmizne.

Desivejšia iterácia „Where's Waldo“, pretože Erase and Replace nedokáže vytvoriť mimozemšťana.

Erase and Replace sa javí ako efektívny systém nahrádzania objektov s vynikajúcim maľovaním. Nemôže však upravovať existujúce vnímané objekty, ale iba ich nahradiť. Skutočne zmeniť existujúci obrazový obsah bez ohrozenia okolitého materiálu je pravdepodobne oveľa ťažšia úloha, ktorá súvisí s dlhým bojom sektora výskumu počítačového videnia smerom k rozuzlenie v rôznych latentných priestoroch populárnych rámcov.

Imagické

Je to úloha, ktorú Imagic rieši. The nového papiera ponúka množstvo príkladov úprav, ktoré úspešne upravia jednotlivé aspekty fotografie, pričom zvyšok obrázka zostane nedotknutý.

V Imagic, upravené obrázky netrpia charakteristickým rozťahovaním, skreslením a „uhádnutím oklúzie“ charakteristickým pre hlboké falošné bábkové divadlo, ktoré využíva obmedzené priori odvodené z jedného obrázka.

Systém využíva trojstupňový proces – optimalizácia vkladania textu; jemné ladenie modelu; a nakoniec generovanie upraveného obrazu.

Imagic zakóduje cieľovú textovú výzvu na získanie počiatočného vloženia textu a potom optimalizuje výsledok, aby získal vstupný obrázok. Potom sa generatívny model jemne doladí na zdrojový obrázok, pridá sa rad parametrov a potom sa podrobí požadovanej interpolácii.

Imagic zakóduje cieľovú textovú výzvu, aby získal počiatočné vloženie textu, a potom optimalizuje výsledok, aby získal vstupný obrázok. Potom sa generatívny model jemne doladí na zdrojový obrázok, pridá sa rad parametrov a potom sa podrobí požadovanej interpolácii.

Nie je prekvapením, že rámec je založený na systéme Google Obraz architektúra text-to-video, hoci výskumníci uvádzajú, že princípy systému sú široko použiteľné na modely latentnej difúzie.

Imagen používa skôr trojvrstvovú architektúru než sedemvrstvové pole používané pre novšie verzie spoločnosti iterácia textu na video softvéru. Tri odlišné moduly zahŕňajú generatívny difúzny model pracujúci v rozlíšení 64x64px; model v super rozlíšení, ktorý zväčší tento výstup na 256 x 256 pixelov; a dodatočný model s vysokým rozlíšením, ktorý umožňuje výstup až do rozlíšenia 1024 × 1024.

Imagic zasahuje v najskoršom štádiu tohto procesu a optimalizuje vkladanie požadovaného textu vo fáze 64 pixelov na optimalizátore Adam pri statickej rýchlosti učenia 0.0001.

Majstrovská trieda v rozuzlení: tí koncoví používatelia, ktorí sa pokúsili zmeniť niečo také jednoduché, ako je farba renderovaného objektu v difúznom, GAN alebo NeRF modeli, budú vedieť, aké dôležité je, že Imagic dokáže vykonávať takéto transformácie bez „roztrhnutia“. “ konzistencia zvyšku obrázka.

Jemné ladenie potom prebieha na základnom modeli Imagen, pre 1500 krokov na vstupný obrázok, podmienené upraveným vložením. Zároveň sa na podmienenom obrázku paralelne optimalizuje sekundárna vrstva 64px>256px. Výskumníci poznamenávajú, že podobná optimalizácia pre finálnu vrstvu 256px>1024px má „malý až žiadny vplyv“ na konečné výsledky, a preto ju neimplementovali.

Dokument uvádza, že proces optimalizácie trvá približne osem minút pre každý obrázok na dvojčatách TPUV4 lupienky. Finálne vykreslenie prebieha v jadre Imagen pod Schéma vzorkovania DDIM.

Spoločné s podobnými procesmi dolaďovania pre Google stánok snov, výsledné vloženia možno dodatočne použiť na podporu štylizácie, ako aj fotorealistických úprav, ktoré obsahujú informácie čerpané zo širšej základnej databázy poháňajúcej Imagen (keďže, ako ukazuje prvý stĺpec nižšie, zdrojové obrázky nemajú žiadny obsah potrebný na to, aby tieto transformácie).

Flexibilný fotoreálny pohyb a úpravy je možné vyvolať pomocou Imagic, zatiaľ čo odvodené a rozmotané kódy získané v procese možno rovnako ľahko použiť na štylizovaný výstup.

Vedci porovnávali Imagic s predchádzajúcimi prácami SDEdit, prístup založený na GAN od roku 2021, spolupráca medzi Stanfordskou univerzitou a Carnegie Mellon University; a Text2Live, spolupráca, od apríla 2022, medzi Weizmann Institute of Science a NVIDIA.

Vizuálne porovnanie medzi Imagic, SDEdit a Text2Live.

Je jasné, že prvé prístupy majú problémy, ale v spodnom rade, ktorý zahŕňa masívnu zmenu pozície, úradujúci zlyhávajú v úplnej zmene zdrojového materiálu v porovnaní s pozoruhodným úspechom od Imagic.

Požiadavky Imagic na zdroje a čas školenia na jeden obrázok, hoci sú podľa štandardov takýchto činností krátke, z neho robia nepravdepodobné zahrnutie do lokálnej aplikácie na úpravu obrázkov na osobných počítačoch – a nie je jasné, do akej miery by mohol byť proces jemného dolaďovania zredukované na spotrebiteľskú úroveň.

V súčasnosti je Imagic pôsobivou ponukou, ktorá je vhodnejšia pre API – prostredie Google Research, ktoré je kritizované v súvislosti s uľahčovaním deepfakingu, môže byť v každom prípade najpohodlnejšie.

Prvýkrát uverejnené 18. októbra 2022.

Súvisiace témy:Google syntéza obrazu nvidia výskum

Nasledujúci

Jedinečné riešenie dvojitého významu DALL-E 2

Nenechajte si ujsť

GOTCHA – CAPTCHA systém pre živé Deepfakes

Martin Anderson

Autor o strojovom učení, umelej inteligencii a veľkých dátach.
Osobná stránka: martinanderson.ai
Kontakt: [chránené e-mailom]
Twitter: @manders_ai

Spojte sa.AI

Úpravy objektov za pomoci AI pomocou aplikácií Google Imagic a Runway „Erase and Replace“

Umelá inteligencia

Úpravy objektov za pomoci AI pomocou aplikácií Google Imagic a Runway „Erase and Replace“

Obsah

Vymazať a nahradiť

Imagické

Spojte sa.AI

Úpravy objektov za pomoci AI pomocou aplikácií Google Imagic a Runway „Erase and Replace“

Obsah

Vymazať a nahradiť

Imagické

Možno budete chcieť