Umělá inteligence

AI Image Matting, který rozumí scénám

aktualizováno on 9. prosince 2022

V doplňkovém dokumentu doprovázejícím vydání DVD v roce 2003 Cizinec³ (1992), legenda vizuálních efektů Richard Edlund s hrůzou vzpomínal na „sumo zápas“ fotochemické extrakce matu, který dominoval práci s vizuálními efekty mezi pozdní 1930s a koncem 1980. let 1990. století. Edlund popsal povahu tohoto procesu jako „sumo wrestling“ ve srovnání s technikami digitálního modrého/zeleného plátna, které se ujaly na počátku XNUMX. vrátil k metafoře od).

Vyjmutí prvku v popředí (jako je osoba nebo model vesmírné lodi) z pozadí, aby bylo možné vyříznutý obrázek skládat do desky pozadí, bylo původně dosaženo filmováním objektu v popředí proti jednotnému modrému nebo zelenému pozadí.

Náročné procesy fotochemické extrakce pro VFX snímek od ILM pro „Návrat Jediho“ (1983). Zdroj: https://www.youtube.com/watch?v=qwMLOjqPmbQ

Ve výsledném záběru by se barva pozadí následně izolovala chemicky a použila by se jako šablona pro dotisk objektu v popředí (nebo osoby) v optická tiskárna jako „plovoucí“ objekt v jinak průhledné filmové cele.

Tento proces byl znám jako překrytí barevnou separací (CSO) – i když tento termín by se nakonec stal více spojován s surovou látkou 'Klíčování' video efekty v nízkorozpočtovém televizním výstupu 1970. a 1980. let, kterých bylo dosaženo spíše analogovými než chemickými nebo digitálními prostředky.

Ukázka Color Separation Overlay v roce 1970 pro britskou dětskou show 'Blue Peter'. Zdroj: https://www.bbc.co.uk/archive/blue_peter_noakes_CSO/zwb9vwx

V každém případě, ať už jde o filmové nebo video prvky, poté bylo možné extrahovaný záznam vložit do jakéhokoli jiného záznamu.

I když je Disney výrazně dražší a proprietární proces sodík-pára (která konkrétně zvýraznila žlutou barvu a byla také použitý pro horor Alfreda Hitchcocka z roku 1963 Ptáci) poskytla lepší rozlišení a ostřejší maty, fotochemická extrakce zůstala pracná a nespolehlivá.

Vlastní proces extrakce sodíkových par společnosti Disney vyžadoval pozadí poblíž žlutého konce spektra. Zde je Angela Lansbury zavěšena na drátech během výroby sekvence s VFX pro 'Bedknobs and Broomsticks' (1971). Zdroj

Beyond Digital Matting

V 1990. letech minulého století se digitální revoluce zbavila chemikálií, ale nepotřeba zelených obrazovek. Nyní bylo možné odstranit zelené (nebo jakoukoli barvu) pozadí pouhým vyhledáním pixelů v tolerančním rozsahu této barvy v softwaru pro úpravu pixelů, jako je Photoshop, a v nové generaci sad pro skládání videa, které dokázaly automaticky klíčovat. barevná pozadí. Téměř přes noc, šedesát let optického polygrafického průmyslu byly zapsány do historie.

Posledních deset let výzkumu počítačového vidění s akcelerací GPU přináší extrakci matu do třetího věku a zadává výzkumníkům úkol vyvinout systémy, které dokážou extrahovat vysoce kvalitní maty bez potřeby zelených obrazovek. V samotném Arxivu jsou články týkající se inovací v extrakci popředí založené na strojovém učení týdenní funkcí.

Uvedení nás do obrazu

Toto ohnisko akademického a průmyslového zájmu o extrakci AI již ovlivnilo spotřebitelský prostor: hrubé, ale funkční implementace jsou nám všem známé ve formě zoom a Skype filtry, které mohou ve videokonferenčních hovorech nahradit pozadí našeho obývacího pokoje tropickými ostrovy atd.

Nejlepší maty však stále vyžadují zelenou obrazovku Zoom zaznamenán minulou středu.

Vlevo, muž před zeleným plátnem, s dobře vytaženými vlasy pomocí funkce Virtuální pozadí Zoomu. Vlevo, žena před normální domácí scénou, s vlasy extrahovanými algoritmicky, méně přesně a s vyššími výpočetními nároky. Zdroj: https://support.zoom.us/hc/en-us/articles/210707503-Changing-your-Virtual-Background-image

Vlevo, muž před zeleným plátnem, s dobře vytaženými vlasy pomocí funkce Virtuální pozadí Zoomu. Správně, žena před normální domácí scénou, s vlasy extrahovanými algoritmicky, méně přesně a s vyššími výpočetními nároky. Zdroj: https://support.zoom.us/hc/en-us/articles/210707503-Changing-your-Virtual-Background-image

A další příspěvek z platformy Zoom Support varuje, že extrakce nezelené obrazovky také vyžaduje větší výpočetní výkon v snímacím zařízení.

Potřeba to vystřihnout

Zlepšení kvality, přenositelnosti a úspory zdrojů pro systémy pro extrakci matného povrchu „v přírodě“ (tj. izolování lidí bez potřeby zelených obrazovek) jsou relevantní pro mnohem více odvětví a činností, než jsou jen filtry pro videokonference.

Pro vývoj datové sady nabízí vylepšené rozpoznávání obličeje, celé hlavy a celého těla možnost zajistit, aby se cizí prvky pozadí necvičily do modelů počítačového vidění lidských subjektů; přesnější izolace by se výrazně zlepšila sémantická segmentace techniky určené k rozlišení a asimilaci domén (tj 'kočka', 'osoba', 'loď'), a zlepšit Běda a transformátorsystémy založené na syntéze obrazu, jako je nový OpenAI DALL-E2; a lepší extrakční algoritmy by snížily potřebu drahého manuálu rotoskopování v nákladných VFX potrubích.

Ve skutečnosti, nadvláda multimodální Metodologie (obvykle text/obrázek), kde je doména jako „kočka“ zakódována jako obrázek i s přidruženými textovými odkazy, již proniká do zpracování obrázků. Jedním nedávným příkladem je Text2Live architektura, která využívá multimodální (text/obrázkový) trénink k vytváření videí, mimo jiné s nesčetnými dalšími možnostmi, křišťálové labutě a skleněné žirafy.

Scene-Aware AI Matting

Značná část výzkumu automatického matování založeného na umělé inteligenci se zaměřila na rozpoznání hranic a vyhodnocení seskupení na základě pixelů uvnitř snímku nebo videa. Nový výzkum z Číny však nabízí extrakční potrubí, které pomocí pákového efektu zlepšuje vymezení a kvalitu matu textové popisy scény (multimodální přístup, který se v posledních 3-4 letech prosadil v sektoru výzkumu počítačového vidění), tvrdící, že se v mnoha ohledech zlepšil oproti dřívějším metodám.

Příklad extrakce SPG-IM (poslední obrázek vpravo dole) ve srovnání s předchozími konkurenčními metodami. Zdroj: https://arxiv.org/pdf/2204.09276.pdf

Výzvou pro subsektor extrakčního výzkumu je vytvořit pracovní postupy, které vyžadují naprosté minimum ručních poznámek a lidského zásahu – v ideálním případě žádný. Kromě dopadů na náklady výzkumníci nového článku pozorují, že anotace a manuální segmentace prováděné externími crowdworkery napříč různými kulturami mohou způsobit, že obrázky budou označeny nebo dokonce segmentovány různými způsoby, což vede k nekonzistentním a neuspokojivým algoritmům.

Jedním z příkladů je subjektivní výklad toho, co definuje „objekt v popředí“:

Z nového článku: předchozí metody LFM a MODNet („GT“ znamená Ground Truth, „ideální“ výsledek často dosahovaný ručně nebo nealgoritmickými metodami), mají různé a různě účinné pojetí obsahu popředí, zatímco nové Metoda SPG-IM efektivněji vymezuje „blízký obsah“ prostřednictvím kontextu scény.

Z nového článku: předchozí metody L.F.M. a MODNet („GT“ znamená Ground Truth, „ideální“ výsledek často dosahovaný manuálně nebo nealgoritmickými metodami), mají různé a různě efektivní pojetí obsahu v popředí, zatímco nová metoda SPG-IM efektivněji vymezuje „blízký obsah“. prostřednictvím kontextu scény.

K vyřešení tohoto problému výzkumníci vyvinuli dvoustupňové potrubí s názvem Matování obrazu řízeného vnímáním situace (SPG-IM). Dvoustupňová architektura kodéru/dekodéru zahrnuje situační percepční destilaci (SPD) a situační percepci řízené matování (SPGM).

Architektura SPG-IM.

Za prvé, SPD předtrénuje transformace vizuálních prvků na textové a generuje titulky odpovídající jejich přidruženým obrázkům. Poté je umožněna predikce masky popředí připojením potrubí k románu předpověď význačnosti technika.

Poté SPGM vygeneruje odhadovaný alfa podklad na základě vstupního surového RGB obrazu a vygenerované masky získané v prvním modulu.

Cílem je situační navádění vnímání, přičemž systém má kontextové chápání toho, z čeho se obrázek skládá, což mu umožňuje zarámovat – například – výzvu extrahovat složité vlasy z pozadí proti známým charakteristikám takového specifického úkolu.

V níže uvedeném příkladu SPG-IM chápe, že šňůry jsou vlastní „padáku“, kde MODNet tyto detaily nezachovává a nedefinuje. Podobně výše je v MODNet svévolně ztracena kompletní struktura zařízení hřiště.

V níže uvedeném příkladu SPG-IM chápe, že šňůry jsou vlastní „padáku“, kde MODNet nedokáže zachovat a definovat tyto detaily. Podobně výše je v MODNet svévolně ztracena kompletní struktura zařízení hřiště.

Nový papír je s názvem Matování obrazu řízeného vnímáním situacea pochází od výzkumníků z OPPO Research Institute, PicUp.ai a Xmotors.

Inteligentní automatické rohože

SPG-IM také nabízí zpřesňující síť Adaptive Focal Transformation (AFT), která dokáže zpracovávat místní detaily a globální kontext odděleně, což usnadňuje „inteligentní podklady“.

Pochopení kontextu scény, v tomto případě „dívky s koněm“, může potenciálně usnadnit extrakci popředí než předchozí metody.

Článek uvádí:

„Věříme, že vizuální reprezentace od vizuálního k textovému úkolu, např titulky obrazu, zaměřte se na sémanticky komplexnější signály mezi a)objektem a b)objektem a okolním prostředím, abyste vytvořili popisy, které mohou pokrýt jak globální informace, tak místní detaily. Navíc ve srovnání s nákladnou pixelovou anotací obrazového matování lze textové štítky masivně sbírat za velmi nízké náklady.“

Obor architektury SPD je společně předškolen s University of Michigan's VirTex textový dekodér založený na transformátoru, který se učí vizuální reprezentace ze sémanticky hustých titulků.

VirTex společně trénuje ConvNet a Transformers pomocí obrazových titulků a přenáší získané poznatky do následných úloh vidění, jako je detekce objektů. Zdroj: https://arxiv.org/pdf/2006.06666.pdf

Kromě jiných testů a ablačních studií vědci testovali SPG-IM oproti stavu techniky trimapametody založené na Deep Image Matting (Ne), IndexNet, Kontextové matování obrázku (CAM), řízená kontextová pozornost (GCA) FBAa sémantické mapování obrázků (ANO).

Jiné předchozí testované rámce zahrnovaly přístupy bez trimap L.F.M., HAttMatting, a MODNet. Pro spravedlivé srovnání byly testovací metody upraveny na základě různých metodologií; tam, kde kód nebyl k dispozici, byly techniky článku reprodukovány z popsané architektury.

Nový list uvádí:

„Náš SPG-IM převyšuje všechny konkurenční metody bez trimap ([LFM], [HAttMatting] a [MODNet]) s velkým náskokem. Mezitím náš model také ukazuje pozoruhodnou převahu nad nejmodernějšími (SOTA) metodami založenými na trimapách a naváděných maskou, pokud jde o všechny čtyři metriky napříč veřejnými datovými sadami (tj. Composition-1K, Distinction-646 a Human -2K) a náš benchmark Multi-Object-1K.“

A pokračuje:

„Je zřejmé, že naše metoda zachovává jemné detaily (např. místa konečků vlasů, průhledné textury a hranice) bez vedení trimapy. Navíc ve srovnání s jinými konkurenčními modely bez trimap si naše SPG-IM může zachovat lepší globální sémantickou úplnost.“