Umělá inteligence

Efektivnější odstraňování objektů z videa díky strojovému učení

aktualizováno on 9. prosince 2022

Nový výzkum z Číny uvádí nejmodernější výsledky – stejně jako působivé zlepšení efektivity – pro nový systém pro malování videa, který dokáže obratně odstraňovat objekty ze záběrů.

Novým postupem je nalakován postroj závěsného kluzáku. Pro lepší rozlišení a další příklady se podívejte na zdrojové video (vložené na konci tohoto článku). Zdroj: https://www.youtube.com/watch?v=N–qC3T2wc4

Technika nazvaná End-to-End framework pro Flow-Guided video Inpainting (E²FGVI), je také schopen odstranit vodoznaky a různé další druhy okluze z video obsahu.

E2FGVI vypočítává předpovědi pro obsah, který se nachází za okluzemi, což umožňuje odstranění i pozoruhodných a neřešitelných vodoznaků. Zdroj: https://github.com/MCG-NKU/E2FGVI

E2FGVI vypočítává předpovědi pro obsah, který se nachází za okluzemi, a umožňuje tak odstranit i pozoruhodné a jinak neřešitelné vodoznaky. Zdroj: https://github.com/MCG-NKU/E2FGVI

Chcete-li vidět více příkladů v lepším rozlišení, podívejte se na video vložené na konci článku.

Ačkoli byl model uvedený v publikovaném článku trénován na videích o rozměrech 432 x 240 pixelů (obvykle nízké vstupní velikosti, omezené dostupným prostorem GPU vs. optimální velikostí dávek a dalšími faktory), autoři mezitím vydali E²FGVI-HQ, který zvládne videa v libovolném rozlišení.

Kód pro aktuální verzi je dostupný na GitHubu, zatímco HQ verzi, vydanou minulou neděli, lze stáhnout z Google Drive a Baidu disk.

Dítě zůstává v obraze.

E²FGVI dokáže zpracovat video 432 × 240 rychlostí 0.12 sekundy na snímek na GPU Titan XP (12 GB VRAM) a autoři uvádějí, že systém pracuje patnáctkrát rychleji než předchozí nejmodernější metody založené na optický tok.

Tenista udělá nečekaný odchod.

Nová metoda byla testována na standardních souborech dat pro tento podsektor výzkumu syntézy obrazu a dokázala překonat soupeře v kvalitativních i kvantitativních kolech hodnocení.

Testy proti předchozím přístupům. Zdroj: https://arxiv.org/pdf/2204.02663.pdf

Projekt papír je s názvem Směrem k end-to-end frameworku pro vkládání videa s průvodcem, a jde o spolupráci čtyř výzkumníků z Nankai University spolu s výzkumníkem z Hisilicon Technologies.

Co na tomto obrázku chybí

Kromě zřejmých aplikací pro vizuální efekty se vysoce kvalitní video inpainting stane základním definujícím prvkem nové syntézy obrazu a technologií pro úpravu obrazu na bázi umělé inteligence.

To platí zejména pro aplikace módy měnící tělo a další rámce snažit se 'zhubnout' nebo jinak upravovat scény na obrázcích a videu. V takových případech je nutné přesvědčivě „vyplnit“ nadbytečné pozadí, které je exponováno syntézou.

Podle nedávného článku má algoritmus „přetváření těla“ za úkol vymalovat nově odhalené pozadí při změně velikosti objektu. Zde je tento nedostatek reprezentován červeným obrysem, který (skutečný život, viz obrázek vlevo) osoba s plnější postavou zabírala. Na základě zdrojového materiálu z https://arxiv.org/pdf/2203.10496.pdf

Koherentní optický tok

Optický tok (OF) se stal základní technologií ve vývoji odstraňování video objektů. Jako atlas, OF poskytuje jednorázovou mapu časové sekvence. OF, které se často používá k měření rychlosti v iniciativách počítačového vidění, může také umožnit časově konzistentní malování, kde lze souhrnný součet úkolu zvážit v jediném průchodu namísto pozornosti „na snímek“ ve stylu Disney, která nevyhnutelně vede k časové diskontinuitě.

Dosavadní metody malování videa se soustředily na třífázový proces: dokončení toku, kde je video v podstatě zmapováno do samostatné a prozkoumatelné entity; šíření pixelů, kde jsou díry v „poškozených“ videích vyplněny obousměrně se šířícími pixely; a obsahová halucinace (pixelový ‚vynález‘, který většina z nás zná z deepfakes a rámců pro převod textu na obrázek, jako je série DALL-E), kde je vynalezen odhadovaný ‚chybějící‘ obsah a vložen do záběru.

Ústřední inovace E²FGVI má spojit tyto tři fáze do komplexního systému, čímž se vyhne nutnosti provádět manuální operace s obsahem nebo procesem.

Článek poznamenává, že potřeba ručního zásahu vyžaduje, aby starší procesy nevyužívaly GPU, což je činí poměrně časově náročnými. Z papíru*:

'Beru DFVI například dokončení jednoho videa o velikosti 432 × 240 od DAVIS, který obsahuje asi 70 snímků, potřebuje asi 4 minuty, což je ve většině aplikací v reálném světě nepřijatelné. Kromě toho, s výjimkou výše uvedených nevýhod, pouze použití předem připravené sítě pro malování obrázků ve fázi halucinace obsahu ignoruje obsahové vztahy mezi časovými sousedy, což vede k nekonzistentnímu generovanému obsahu ve videích.'

Spojením tří fází malby videa E²FGVI je schopen nahradit druhou fázi, šíření pixelů, šířením prvků. Ve více segmentovaných procesech předchozích prací nejsou funkce tak široce dostupné, protože každá fáze je relativně hermetická a pracovní postup je pouze poloautomatizovaný.

Kromě toho vědci vymysleli a dočasný ohniskový transformátor pro fázi halucinace obsahu, která bere v úvahu nejen přímé sousedy pixelů v aktuálním snímku (tj. to, co se děje v té části snímku v předchozím nebo následujícím snímku), ale také vzdálené sousedy, kteří jsou vzdáleni o mnoho snímků, a přesto ovlivní soudržný efekt jakýchkoli operací prováděných na videu jako celku.

Architektura E2FGVI.

Nová centrální část pracovního postupu založená na funkcích je schopna využít více procesů na úrovni funkcí a naučitelných posunů vzorkování, zatímco nový ohniskový transformátor projektu podle autorů rozšiřuje velikost ohniskových oken „z 2D na 3D“. .

Testy a data

K testování E²FGVI, výzkumníci hodnotili systém proti dvěma populárním datovým sadám segmentace video objektů: YouTube-VOS, a DAVIS. YouTube-VOS obsahuje 3741 výukových videoklipů, 474 ověřovacích klipů a 508 testovacích klipů, zatímco DAVIS nabízí 60 výukových videoklipů a 90 testovacích klipů.

E²FGVI byl trénován na YouTube-VOS a vyhodnocen na obou souborech dat. Během tréninku byly generovány masky objektů (zelené oblasti na obrázcích výše a vložené video níže) pro simulaci dokončení videa.

Pro metriky vědci přijali maximální poměr signálu k šumu (PSNR), strukturní podobnost (SSIM), fréchetovu počáteční vzdálenost na základě videa (VFID) a chybu deformace toku – posledně jmenované pro měření časové stability v postiženém videu.

Předchozí architektury, proti kterým byl systém testován, byly VINet, DFVI, LGTSM, CAP, FGVC, STTN, a FuseFormer.

Z části článku věnované kvantitativním výsledkům. Šipky nahoru a dolů ukazují, že vyšší nebo nižší čísla jsou lepší. E2FGVI dosahuje nejlepších skóre ve všech oblastech. Metody jsou hodnoceny podle FuseFormer, ačkoli DFVI, VINet a FGVC nejsou end-to-end systémy, což znemožňuje odhadnout jejich FLOP.

Kromě dosažení nejlepších skóre ve srovnání se všemi konkurenčními systémy vědci provedli kvalitativní uživatelskou studii, ve které byla videa transformovaná pěti reprezentativními metodami individuálně promítána dvaceti dobrovolníkům, kteří byli požádáni, aby je ohodnotili z hlediska vizuální kvality.

Vertikální osa představuje procento účastníků, kteří preferovali výstup E2FGVI z hlediska vizuální kvality.

Svislá osa představuje procento účastníků, kteří preferovali E²Výstup FGVI z hlediska vizuální kvality.

Autoři poznamenávají, že navzdory jednomyslné preferenci pro jejich metodu, jeden z výsledků, FGVC, neodráží kvantitativní výsledky, a navrhují, že to naznačuje, že E²FGVI může konkrétně generovat „vizuálně příjemnější výsledky“.

Pokud jde o efektivitu, autoři poznamenávají, že jejich systém výrazně snižuje operace s plovoucí desetinnou čárkou za sekundu (FLOP) a inferenční čas na jediném GPU Titan na datové sadě DAVIS, a pozorují, že výsledky ukazují E²FGVI běží 15x rychleji než metody založené na toku.

Komentují:

'[E²FGVI] drží nejnižší FLOP na rozdíl od všech ostatních metod. To naznačuje, že navrhovaná metoda je vysoce účinná pro malování videa.'

httpv://www.youtube.com/watch?v=N–qC3T2wc4

*Moje konverze inline citací autorů na hypertextové odkazy.

Poprvé publikováno 19. května 2022.