Umělá inteligence
AI Image Matting, který rozumí scénám
V doplňkovém dokumentu doprovázejícím vydání DVD v roce 2003 Cizinec3 (1992), legenda vizuálních efektů Richard Edlund s hrůzou vzpomínal na „sumo zápas“ fotochemické extrakce matu, který dominoval práci s vizuálními efekty mezi pozdní 1930s a koncem 1980. let 1990. století. Edlund popsal povahu tohoto procesu jako „sumo wrestling“ ve srovnání s technikami digitálního modrého/zeleného plátna, které se ujaly na počátku XNUMX. vrátil k metafoře od).
Vyjmutí prvku v popředí (jako je osoba nebo model vesmírné lodi) z pozadí, aby bylo možné vyříznutý obrázek skládat do desky pozadí, bylo původně dosaženo filmováním objektu v popředí proti jednotnému modrému nebo zelenému pozadí.
Ve výsledném záběru by se barva pozadí následně izolovala chemicky a použila by se jako šablona pro dotisk objektu v popředí (nebo osoby) v optická tiskárna jako „plovoucí“ objekt v jinak průhledné filmové cele.
Tento proces byl znám jako překrytí barevnou separací (CSO) – i když tento termín by se nakonec stal více spojován s surovou látkou 'Klíčování' video efekty v nízkorozpočtovém televizním výstupu 1970. a 1980. let, kterých bylo dosaženo spíše analogovými než chemickými nebo digitálními prostředky.
V každém případě, ať už jde o filmové nebo video prvky, poté bylo možné extrahovaný záznam vložit do jakéhokoli jiného záznamu.
I když je Disney výrazně dražší a proprietární proces sodík-pára (která konkrétně zvýraznila žlutou barvu a byla také použitý pro horor Alfreda Hitchcocka z roku 1963 Ptáci) poskytla lepší rozlišení a ostřejší maty, fotochemická extrakce zůstala pracná a nespolehlivá.
Beyond Digital Matting
V 1990. letech minulého století se digitální revoluce zbavila chemikálií, ale nepotřeba zelených obrazovek. Nyní bylo možné odstranit zelené (nebo jakoukoli barvu) pozadí pouhým vyhledáním pixelů v tolerančním rozsahu této barvy v softwaru pro úpravu pixelů, jako je Photoshop, a v nové generaci sad pro skládání videa, které dokázaly automaticky klíčovat. barevná pozadí. Téměř přes noc, šedesát let optického polygrafického průmyslu byly zapsány do historie.
Posledních deset let výzkumu počítačového vidění s akcelerací GPU přináší extrakci matu do třetího věku a zadává výzkumníkům úkol vyvinout systémy, které dokážou extrahovat vysoce kvalitní maty bez potřeby zelených obrazovek. V samotném Arxivu jsou články týkající se inovací v extrakci popředí založené na strojovém učení týdenní funkcí.
Uvedení nás do obrazu
Toto ohnisko akademického a průmyslového zájmu o extrakci AI již ovlivnilo spotřebitelský prostor: hrubé, ale funkční implementace jsou nám všem známé ve formě zoom a Skype filtry, které mohou ve videokonferenčních hovorech nahradit pozadí našeho obývacího pokoje tropickými ostrovy atd.
Nejlepší maty však stále vyžadují zelenou obrazovku Zoom zaznamenán minulou středu.
A další příspěvek z platformy Zoom Support varuje, že extrakce nezelené obrazovky také vyžaduje větší výpočetní výkon v snímacím zařízení.
Potřeba to vystřihnout
Zlepšení kvality, přenositelnosti a úspory zdrojů pro systémy pro extrakci matného povrchu „v přírodě“ (tj. izolování lidí bez potřeby zelených obrazovek) jsou relevantní pro mnohem více odvětví a činností, než jsou jen filtry pro videokonference.
Pro vývoj datové sady nabízí vylepšené rozpoznávání obličeje, celé hlavy a celého těla možnost zajistit, aby se cizí prvky pozadí necvičily do modelů počítačového vidění lidských subjektů; přesnější izolace by se výrazně zlepšila sémantická segmentace techniky určené k rozlišení a asimilaci domén (tj 'kočka', 'osoba', 'loď'), a zlepšit Běda a transformátorsystémy založené na syntéze obrazu, jako je nový OpenAI DALL-E2; a lepší extrakční algoritmy by snížily potřebu drahého manuálu rotoskopování v nákladných VFX potrubích.
Ve skutečnosti, nadvláda multimodální Metodologie (obvykle text/obrázek), kde je doména jako „kočka“ zakódována jako obrázek i s přidruženými textovými odkazy, již proniká do zpracování obrázků. Jedním nedávným příkladem je Text2Live architektura, která využívá multimodální (text/obrázkový) trénink k vytváření videí, mimo jiné s nesčetnými dalšími možnostmi, křišťálové labutě a skleněné žirafy.
Scene-Aware AI Matting
Značná část výzkumu automatického matování založeného na umělé inteligenci se zaměřila na rozpoznání hranic a vyhodnocení seskupení na základě pixelů uvnitř snímku nebo videa. Nový výzkum z Číny však nabízí extrakční potrubí, které pomocí pákového efektu zlepšuje vymezení a kvalitu matu textové popisy scény (multimodální přístup, který se v posledních 3-4 letech prosadil v sektoru výzkumu počítačového vidění), tvrdící, že se v mnoha ohledech zlepšil oproti dřívějším metodám.
Výzvou pro subsektor extrakčního výzkumu je vytvořit pracovní postupy, které vyžadují naprosté minimum ručních poznámek a lidského zásahu – v ideálním případě žádný. Kromě dopadů na náklady výzkumníci nového článku pozorují, že anotace a manuální segmentace prováděné externími crowdworkery napříč různými kulturami mohou způsobit, že obrázky budou označeny nebo dokonce segmentovány různými způsoby, což vede k nekonzistentním a neuspokojivým algoritmům.
Jedním z příkladů je subjektivní výklad toho, co definuje „objekt v popředí“:
K vyřešení tohoto problému výzkumníci vyvinuli dvoustupňové potrubí s názvem Matování obrazu řízeného vnímáním situace (SPG-IM). Dvoustupňová architektura kodéru/dekodéru zahrnuje situační percepční destilaci (SPD) a situační percepci řízené matování (SPGM).
Za prvé, SPD předtrénuje transformace vizuálních prvků na textové a generuje titulky odpovídající jejich přidruženým obrázkům. Poté je umožněna predikce masky popředí připojením potrubí k románu předpověď význačnosti technika.
Poté SPGM vygeneruje odhadovaný alfa podklad na základě vstupního surového RGB obrazu a vygenerované masky získané v prvním modulu.
Cílem je situační navádění vnímání, přičemž systém má kontextové chápání toho, z čeho se obrázek skládá, což mu umožňuje zarámovat – například – výzvu extrahovat složité vlasy z pozadí proti známým charakteristikám takového specifického úkolu.
Nový papír je s názvem Matování obrazu řízeného vnímáním situacea pochází od výzkumníků z OPPO Research Institute, PicUp.ai a Xmotors.
Inteligentní automatické rohože
SPG-IM také nabízí zpřesňující síť Adaptive Focal Transformation (AFT), která dokáže zpracovávat místní detaily a globální kontext odděleně, což usnadňuje „inteligentní podklady“.
Článek uvádí:
„Věříme, že vizuální reprezentace od vizuálního k textovému úkolu, např titulky obrazu, zaměřte se na sémanticky komplexnější signály mezi a)objektem a b)objektem a okolním prostředím, abyste vytvořili popisy, které mohou pokrýt jak globální informace, tak místní detaily. Navíc ve srovnání s nákladnou pixelovou anotací obrazového matování lze textové štítky masivně sbírat za velmi nízké náklady.“
Obor architektury SPD je společně předškolen s University of Michigan's VirTex textový dekodér založený na transformátoru, který se učí vizuální reprezentace ze sémanticky hustých titulků.
Kromě jiných testů a ablačních studií vědci testovali SPG-IM oproti stavu techniky trimapametody založené na Deep Image Matting (Ne), IndexNet, Kontextové matování obrázku (CAM), řízená kontextová pozornost (GCA) FBAa sémantické mapování obrázků (ANO).
Jiné předchozí testované rámce zahrnovaly přístupy bez trimap L.F.M., HAttMatting, a MODNet. Pro spravedlivé srovnání byly testovací metody upraveny na základě různých metodologií; tam, kde kód nebyl k dispozici, byly techniky článku reprodukovány z popsané architektury.
Nový list uvádí:
„Náš SPG-IM převyšuje všechny konkurenční metody bez trimap ([LFM], [HAttMatting] a [MODNet]) s velkým náskokem. Mezitím náš model také ukazuje pozoruhodnou převahu nad nejmodernějšími (SOTA) metodami založenými na trimapách a naváděných maskou, pokud jde o všechny čtyři metriky napříč veřejnými datovými sadami (tj. Composition-1K, Distinction-646 a Human -2K) a náš benchmark Multi-Object-1K.“
A pokračuje:
„Je zřejmé, že naše metoda zachovává jemné detaily (např. místa konečků vlasů, průhledné textury a hranice) bez vedení trimapy. Navíc ve srovnání s jinými konkurenčními modely bez trimap si naše SPG-IM může zachovat lepší globální sémantickou úplnost.“
Poprvé publikováno 24. dubna 2022.