Umělá inteligence
AniPortrait: Zvukově řízená syntéza fotorealistické portrétní animace

V průběhu let našlo vytváření realistických a expresivních animací portrétů ze statických obrázků a zvuku řadu aplikací včetně her, digitálních médií, virtuální reality a mnoha dalších. Navzdory své potenciální aplikaci je pro vývojáře stále obtížné vytvořit frameworky schopné generovat vysoce kvalitní animace, které si zachovávají časovou konzistenci a jsou vizuálně podmanivé. Hlavní příčinou složitosti je potřeba složité koordinace pohybů rtů, poloh hlavy a výrazů obličeje pro vytvoření vizuálně působivého efektu.
V tomto článku budeme hovořit o AniPortrait, novém frameworku navrženém pro generování vysoce kvalitních animací poháněných referenčním portrétním obrázkem a zvukovou ukázkou. Práce rámce AniPortrait je rozdělena do dvou fází. Rámec AniPortrait nejprve extrahuje přechodné 3D reprezentace ze zvukových vzorků a promítne je do sekvence 2D orientačních bodů obličeje. V návaznosti na to framework využívá robustní difúzní model spojený s pohybovým modulem, který převádí orientační sekvence na časově konzistentní a fotorealistické animace. Experimentální výsledky demonstrují nadřazenost a schopnost rámce AniPortrait generovat vysoce kvalitní animace s výjimečnou vizuální kvalitou, rozmanitostí pozic a přirozeností obličeje, a proto nabízí vylepšený a obohacený percepční zážitek. Rámec AniPortrait má navíc pozoruhodný potenciál, pokud jde o ovladatelnost a flexibilitu, a lze jej efektivně použít v oblastech, jako je úprava obličeje, úprava pohybu obličeje a další. Tento článek si klade za cíl pokrýt do hloubky rámec AniPortrait a prozkoumáme mechanismus, metodologii, architekturu rámce spolu s jeho srovnáním s nejmodernějšími rámci. Pojďme tedy začít.
AniPortrait: Fotorealistická animace portrétu
Vytváření realistických a expresivních animací portrétů je již nějakou dobu středem zájmu výzkumníků kvůli jejich neuvěřitelnému potenciálu a aplikacím od digitálních médií a virtuální reality až po hry a další. Navzdory letům výzkumu a vývoje představuje produkce vysoce kvalitních animací, které si zachovávají časovou konzistenci a jsou vizuálně podmanivé, stále značnou výzvu. Hlavní překážkou pro vývojáře je potřeba složité koordinace mezi polohami hlavy, vizuálními výrazy a pohyby rtů, aby bylo možné vytvořit vizuálně působivý efekt. Stávající metody se s těmito výzvami nevypořádaly, především proto, že většina z nich spoléhá na generátory s omezenou kapacitou, jako je NeRF, dekodéry založené na pohybu a GAN pro vytváření vizuálního obsahu. Tyto sítě vykazují omezené možnosti zobecnění a jsou nestabilní při generování vysoce kvalitního obsahu. Nedávný nástup difúzních modelů však usnadnil generování vysoce kvalitních obrázků a některé rámce postavené na difúzních modelech spolu s časovými moduly usnadnily vytváření působivých videí, což umožnilo difúzním modelům vyniknout.
Rámec AniPortrait, který vychází z pokroků v difúzních modelech, se zaměřuje na vytváření vysoce kvalitních animovaných portrétů pomocí referenčního obrázku a zvukové ukázky. Práce rámce AniPortrait je rozdělena do dvou fází. V první fázi rám AniPortrait využívá modely založené na transformátoru k extrahování sekvence 3D obličejové sítě a pozice hlavy ze zvukového vstupu a následně je promítá do sekvence 2D orientačních bodů obličeje. První fáze umožňuje, aby rámec AniPortrait zachytil pohyby rtů a jemné výrazy ze zvuku kromě pohybů hlavy, které se synchronizují s rytmem zvukového vzorku. Druhá fáze, rámec AniPortrait, využívá robustní difúzní model a integruje jej s pohybovým modulem, aby transformoval sekvenci orientačních bodů obličeje na fotorealistický a časově konzistentní animovaný portrét. Přesněji řečeno, framework AniPortrait čerpá ze síťové architektury ze stávajícího modelu AnimateAnyone, který využívá Stable Diffusion 1.5, výkonný difuzní model vytvářet realistické a plynulé na základě referenčního obrazu a sekvence pohybu těla. Co stojí za zmínku, je to, že framework AniPortrait v této síti nepoužívá modul pozičního průvodce, jak byl implementován v rámci AnimateAnyone, ale přepracoval jej, což frameworku AniPortrait umožňuje nejen zachovat lehký design, ale také vykazuje zvýšenou přesnost při generování rtů. pohyby.
Experimentální výsledky demonstrují nadřazenost rámce AniPortrait při vytváření animací s působivou přirozeností obličeje, vynikající vizuální kvalitou a rozmanitými pozicemi. Využitím 3D reprezentací obličeje jako přechodných prvků získává framework AniPortrait flexibilitu upravovat tyto reprezentace podle svých požadavků. Adaptabilita výrazně zvyšuje použitelnost rámce AniPortrait napříč doménami, včetně úpravy obličeje a úpravy pohybu obličeje.
AniPortrait: Práce a metodika
Navrhovaný framework AniPortrait obsahuje dva moduly, jmenovitě Lmk2Video a Audio2Lmk. Modul Audio2Lmk se pokouší extrahovat sekvenci orientačních bodů, které zachycují složité pohyby rtů a výrazy obličeje ze zvukového vstupu, zatímco modul Lmk2Video využívá tuto sekvenci orientačních bodů k vytváření vysoce kvalitních portrétních videí s časovou stabilitou. Následující obrázek představuje přehled fungování rámce AniPortrait. Jak lze pozorovat, framework AniPortrait nejprve extrahuje 3D obličejovou síť a pozici hlavy ze zvuku a následně tyto dva prvky promítne do 2D klíčových bodů. Ve druhé fázi framework využívá difúzní model k transformaci 2D klíčových bodů do portrétního videa, přičemž dvě fáze jsou trénovány souběžně v rámci sítě.
Audio2Lmk
Pro danou sekvenci úryvků řeči je primárním cílem rámce AniPortrait předpovědět odpovídající sekvenci 3D obličejové sítě s vektorovými reprezentacemi translace a rotace. Rámec AniPortrait využívá předem trénovanou metodu wav2vec k extrakci zvukových funkcí a model vykazuje vysoký stupeň zobecnění a je schopen přesně rozeznat intonaci a výslovnost ze zvuku, což hraje klíčovou roli při generování realistické animace obličeje. Využitím získaných robustních funkcí řeči je framework AniPortrait schopen efektivně využívat jednoduchou architekturu sestávající ze dvou fc vrstev k převodu těchto funkcí na 3D obličejové sítě. Rámec AniPortrait poznamenává, že tento přímočarý návrh implementovaný modelem nejen zvyšuje efektivitu procesu odvození, ale také zajišťuje přesnost. Při převodu zvuku na pózu využívá framework AniPortrait stejnou síť wav2vec jako páteř, i když model nesdílí váhy s modulem audio to mesh. Je to způsobeno především tím, že póza je spojena spíše s tónem a rytmem přítomným ve zvuku, což má jiný důraz ve srovnání se zvukem a síťovými úkoly. Aby se zohlednil dopad předchozích stavů, rám AniPortrait využívá k dekódování sekvence pozic transformátorový dekodér. Během tohoto procesu framework integruje zvukové funkce do dekodéru pomocí mechanismů křížové pozornosti a pro oba moduly je framework trénuje pomocí ztráty L1. Jakmile model získá sekvenci pozice a sítě, použije perspektivní projekci k transformaci těchto sekvencí do 2D sekvence orientačních bodů obličeje, které se pak použijí jako vstupní signály pro následující fázi.
Lmk2Video
Pro daný referenční portrétový snímek a sekvenci orientačních bodů obličeje vytvoří navrhovaný modul Lmk2Video časově konzistentní animaci portrétu a tato animace zarovná pohyb se sekvencí orientačních bodů a zachová vzhled, který je v souladu s referenčním obrazem, a nakonec , framework představuje animaci portrétu jako sekvenci portrétních snímků. Návrh struktury sítě Lmk2Video hledá inspiraci v již existujícím frameworku AnimateAnyone. Rámec AniPortrait využívá a Stabilní difúze 1.5, extrémně silný difúzní model jako jeho páteř, a obsahuje modul dočasného pohybu, který efektivně převádí vstupy vícesnímkového šumu na sekvenci video snímků. Síťová komponenta ReferencenNet zároveň zrcadlí strukturu Stable Diffusion 1.5 a využívá ji k extrahování informací o vzhledu z referenčního obrazu a integruje je do páteře. Strategický design zajišťuje, že ID obličeje zůstane konzistentní v celém výstupním videu. Na rozdíl od rámce AnimateAnyone rám AniPortrait zvyšuje složitost návrhu PoseGuideru. Původní verze rámce AnimateAnyone obsahuje pouze několik vrstev konvoluce, které se spojují s latentními prvky a vstupní vrstvou páteře. Rámec AniPortrait zjišťuje, že návrh zaostává v zachycování složitých pohybů rtů, a aby tento problém vyřešil, rámec přijímá víceúrovňovou strategii architektury ConvNet a začleňuje významné prvky odpovídajících měřítek do různých bloků páteře. Rámec AniPortrait navíc přináší další vylepšení tím, že zahrnuje orientační body referenčního obrázku jako další vstup. Modul křížové pozornosti komponenty PoseGuider usnadňuje interakci mezi cílovými orientačními body každého snímku a referenčními orientačními body. Tento proces poskytuje síti další vodítka pro pochopení korelace mezi vzhledem a orientačními body obličeje, čímž pomáhá při generování portrétních animací s přesnějším pohybem.
AniPortrait: Implementace a výsledek
Pro fázi Audio2Lmk využívá framework AniPortrait komponentu wav2vec2.0 jako svou páteř a využívá architekturu MediaPipe k extrahování 3D sítí a 6D pozic pro anotace. Model získává trénovací data pro komponentu Audio2Mesh ze své interní datové sady, která obsahuje téměř 60 minut vysoce kvalitních řečových dat pocházejících z jednoho reproduktoru. Aby bylo zajištěno, že 3D síť extrahovaná komponentou MediaPipe je stabilní, je hlasový herec instruován, aby stál čelem ke kameře a udržoval stabilní polohu hlavy během celého procesu nahrávání. Pro modul Lmk2Video implementuje framework AniPortrait dvoufázový tréninkový přístup. V první fázi se framework zaměřuje na školení ReferenceNet a PoseGuider, 2D komponentu páteře, a vynechává pohybový modul. Ve druhém kroku framework AniPortrait zmrazí všechny ostatní komponenty a soustředí se na trénování pohybového modulu. Pro tuto fázi framework využívá dvě rozsáhlé vysoce kvalitní datové sady obličejového videa k trénování modelu a zpracovává všechna data pomocí komponenty MediaPipe k extrahování 2D orientačních bodů obličeje. Kromě toho, aby se zvýšila citlivost sítě vůči pohybům rtů, model AniPortrait rozlišuje horní a dolní rty odlišnými barvami při vykreslování obrazu pozice z 2D orientačních bodů.
Jak ukazuje následující obrázek, framework AniPortrait generuje řadu animací, které demonstrují vynikající kvalitu i realismus.
Rámec pak využívá přechodnou 3D reprezentaci, kterou lze upravovat a manipulovat s výstupem podle požadavků. Uživatelé mohou například extrahovat orientační body z určitého zdroje a změnit jeho ID, což umožňuje frameworku AniPortrait vytvořit efekt rekonstrukce obličeje.
Závěrečné myšlenky
V tomto článku jsme hovořili o AniPortrait, novém frameworku navrženém pro generování vysoce kvalitních animací poháněných referenčním portrétním obrázkem a zvukovou ukázkou. Jednoduchým vložením referenčního obrázku a zvukového klipu je framework AniPortrait schopen generovat portrétní video, které se vyznačuje přirozeným pohybem hlav a plynulým pohybem rtů. Využitím robustních schopností zobecnění modelu difúze generuje framework AniPortrait animace, které zobrazují působivou realistickou kvalitu obrazu a realistický pohyb. Práce rámce AniPortrait je rozdělena do dvou fází. Rámec AniPortrait nejprve extrahuje přechodné 3D reprezentace ze zvukových vzorků a promítne je do sekvence 2D orientačních bodů obličeje. V návaznosti na to framework využívá robustní difúzní model spojený s pohybovým modulem, který převádí orientační sekvence na časově konzistentní a fotorealistické animace. Experimentální výsledky demonstrují nadřazenost a schopnost rámce AniPortrait generovat vysoce kvalitní animace s výjimečnou vizuální kvalitou, rozmanitostí pozic a přirozeností obličeje, a proto nabízí vylepšený a obohacený percepční zážitek. Rámec AniPortrait má navíc pozoruhodný potenciál, pokud jde o ovladatelnost a flexibilitu, a lze jej efektivně použít v oblastech, jako je úprava obličeje, úprava pohybu obličeje a další.