Connect with us

Streamování AI avatarů jako v roce 1999

Andersonův úhel

Streamování AI avatarů jako v roce 1999

mm
Montage of images related to Gaussian Avatar streaming, featuring 3DGS faces. Source: https://ustc3dv.github.io/ProgressiveAvatars/

Nový výzkum představuje způsob, jak streamovat realistické 3D avatary, které se objevují téměř okamžitě a zostřují v reálném čase, místo aby donutili uživatele čekat na dokončení masivních stažení.

 

Ve mnoha ohledech mají enormní nároky na zdroje generativní AI a systémy AI-pomocného renderování vrátily spotřebitelskou připravenost o dvacet nebo více let zpět. Pouze v roce 2023 se 64GB RAM v notebooku nebo stolním PC zdálo jako přehnané; nyní, s rostoucí popularitou RAM a/nebo CPU offloading, je 64GB poměrně skromné pro lokální potřeby AI; a tyto dříve banální a dostupné prvky PC pokračují v raketovém růstu cen , protože korporace bojují o splnění poptávky po službách AI.

Rozsah a chamtivost AI a jejích procesů a prostředí obvykle převyšuje spotřebitelský hardware, a dokonce i běh “štíhlých” lokálních modelů jako GGUF verzí bude obvykle zatěžovat průměrný systém.

Even text-based AI služby, jako je ChatGPT, jsou předmětem významného zatížení jak na straně klienta, tak na straně serveru. Proto, jakmile je AI pověřena poskytováním online multimediálních zkušeností v reálném čase, můžeme rozumně očekávat některé velmi vážné kompromisy v latenci a/nebo kvalitě – podobně jako internetové počáteční problémy se streamováním médií a much-hated animované “buffering” ikony RealPlayer a QuickTime.

Posledním případem, kdy multimediální a síťové problémy vytvářely tření v uživatelském rozhraní, byl spotřebitelský hardware stále se vyvíjel prostřednictvím Mooreova zákona, stal se téměř exponenciálně lepším každý rok, i když operační systémy, sítě a další podpůrné infrastruktury se vyvíjely, aby splnily poptávku; a za posledních deset let, více nebo méně, schopnosti spotřebitelské technologie překročily multimediální požadavky (možná dokonce do té míry, že potřebuje být restartována , aby se udržely prodeje).

Ale tento přebytek lokální schopnosti může brzy skončit, protože lokální hardware se stává nižšími specifikacemi a dražším, a protože AI-založené služby vyžadují vyšší serverové a lokální zdroje.

Získání náskoku

Zpět v před-broadband éře, dokonce před nejranějšími použitelnými streamovacími videi, byli uživatelé webu zvyklí na to, že obrázky se pomalu dostávají do focusu, protože progresivní JPEG umožňovaly uživatelům s omezenou šířkou pásma sledovat stahování obrázků, někdy bolestivě pomalu, protože se načítala více dat obrázku místně.

Nyní se zdá, že můžeme být svědky podobné zkušenosti s AI-pomocnými Gaussian Splat avatary:

Kliknutím na přehrávání. Ze nového projektu ProgressiveAvatars, srovnání streamovaných Gaussian avatars. Na levé straně, starší projekt GaussianAvatars postupně získává nová data, ale vypadá hrozně, zatímco se data budují; na pravé straně, verze Progressive Avatars také buduje detaily pomalu, ale dělá to inteligentním způsobem, který poskytuje základní lidskou podobu hned od začátku. Zdroj

Nahoře vidíme dvě verze Gaussian Splat-based (GSplat) Avatar – lidskou reprezentaci, která je částečně umožněna ne-AI renderovací technikou, která pochází z počátku 90. let, a také moderními metodami, jako je FLAME parametrický lidský model, a AI-založené tréninkové přístupy:

Gaussian Splatting používá gaussovské reprezentace barev a 3D informací místo pixelu nebo voxelu a mapuje tuto ultra-realistickou texturu na tradiční typ CGI mřížky, který je sám o sobě usnadněn 'parametrickým člověkem', CGI obličejem a/nebo tělem, v systémech jako FLAME a STARR. Zdroj - https://arxiv.org/pdf/2312.02069.pdf

Gaussian Splatting používá gaussovské reprezentace barev a 3D informací místo pixelu nebo voxelu a mapuje tuto ultra-realistickou texturu na tradiční typ CGI mřížky, který je sám o sobě usnadněn ‘parametrickým člověkem’, CGI obličejem a/nebo tělem, v systémech jako FLAME a STAR. Zdroj

Na levé straně ve videu výše můžeme vidět, že tradiční implementace Gaussian splat avatar vypadá bastante hrozně, zatímco čekáme na načtení dat. Na pravé straně, nová implementace z Číny, nazvaná ProgressiveAvatars, je schopna rozlišit mnohem elegantněji, zatímco se data načítají, a představuje nealarmující lidský obraz hned od začátku.

Autoři tvrdí, že jejich metoda je první, která skutečně “streamuje” Gaussian avatar, a jistě první, která to dělá progresivním způsobem, kde obraz se buduje elegantně, a nejvýznamnější oblasti – jako oči a rty – mohou být prioritizovány, takže avatar může být konverzační, i když je pouze částečně načten:

Kliknutím na přehrávání. Ze stránky projektu ProgressiveAvatars, ilustrace aware loading.

Předtím byla použita “úroveň detailu” (LOD) přístup v předchozích pokusech o ztenčení “GSplat” avatars, podobně jako optimalizace videoher, kde jsou postupně načítány více detailní verze osoby podle toho, zda zabírají dostatek viewportu nebo pozornosti diváka, aby byly hodné úsilí.

Samozřejmě, toto vyžaduje značné množství redundantních “náhradních” avatarů, a autoři rámujejí svůj přístup jako více racionální systém. Implicitně, metoda tohoto typu také umožňuje změny v GSplat postavě (tj. přizpůsobení) bez nutnosti propagovat tyto změny prostřednictvím řetězce různých LOD “dvojčat”.

Emergentní doména

Pokud se toto zdá jako nikový problém, tak tomu bylo i u streamovaného videa, v dobách, kdy získání nejranějších pluginů pro fungování bylo svěřeno nejbližšímu dostupnému nerdovi. Kromě toho, potenciál AI-založených streamovaných reprezentací sahá za hranice lidských avatarů, sahá až k generaci měst, hrám a 3D-založeným verzím prakticky jakéhokoli online domény – jako Virtual Try-On, pro nákup oblečení:

Kliknutím na přehrávání. Ze projektu z roku 2024, hrubý pohled na budoucnost online “try-on”. Další projekty se snaží přidat pohyb a interaktivitu – náročné aspekty streamování a řízení. Zdroj

Stejně jako LOD-založené přístupy byly dosud hlavně využívány videohry, mnoho dalších úvah, které byly dříve výhradně doménou vývoje her, pravděpodobně budou mít dopad na založené reprezentace. Například, většina z těchto raných GSplat výstupů zobrazuje jednu lidskou osobu, která se usmívá a grimasuje, nebo možná mluví; ale mnoho situací bude vyžadovat více lidských postav, stejně jako environmentální prvky a atmosféru – scénář, ve kterém vysoce výkonné “triážní” systémy budou určovat, kde je třeba prioritizovat streamovaná data, aby se udržela pozornost diváka.

Nová práce je nazvaná ProgressiveAvatars: Progressive Animatable 3D Gaussian Avatars, a pochází od tří výzkumníků z Univerzity vědy a technologie Číny v Hefei.

Metoda

Přístup最初 využívá video osoby. Pro každou snímek, standardní FLAME parametrický obličejový model je přizpůsoben, takže tvar a výraz se mění v čase, zatímco základní mřížková struktura zůstává pevná. Protože základní topologie se nemění, stabilní FLAME šablona může být znovu použita a upravena místo toho, aby byla postavena od začátku každým okamžikem, jako se tomu děje v podobných předchozích pracích:

Video hlavy je nejprve přizpůsobeno sledovaným FLAME mesh, poté jsou 3D Gaussovy křivky připojeny k každé tváři a hierarchicky rostou, kde gradienty ve screen-space ukazují chybějící detail. Během tréninku, tato adaptivní dělení buduje multi-úrovňovou reprezentaci pod multi-view supervizí, a během inferencí, skóre důležitosti na tváři určují, které Gaussovy křivky jsou streamovány první, umožňující avataru objevit se rychle a rozlišit se progresivně, zatímco jsou přidávána vyšší úrovně detailů.

Video hlavy je nejprve přizpůsobeno sledovaným FLAME mesh, poté jsou 3D Gaussovy křivky připojeny k každé tváři a hierarchicky rostou, kde gradienty ve screen-space ukazují chybějící detail. Během tréninku, tato adaptivní dělení buduje multi-úrovňovou reprezentaci pod multi-view supervizí, a během inferencí, skóre důležitosti na tváři určují, které Gaussovy křivky jsou streamovány první, umožňující avataru objevit se rychle a rozlišit se progresivně, zatímco jsou přidávána vyšší úrovně detailů.

Nad touto základní strukturou jsou přidány detaily ve vrstvách; povrch je implicitně rozdělen do hierarchie, a malé třídimenzionální Gaussovy křivky jsou připojeny k tvářích na každé úrovni detailu.

Ačkoli počáteční hrubší vrstvy zachycují celkovou hlavu a pohyb, následující jemnější vrstvy poskytují vrásky, jemné deformace a vysoké frekvenční textury. Obrázky jsou poté renderovány z těchto Gaussových křivek pomocí diferencovatelného Gaussian rasterizeru a trénovány proti multi-view ground truth footage, aby se avatar naučil reprodukovat skutečný vzhled osoby.

Během tréninku, tato hierarchie roste automaticky: oblasti, které potřebují více detailů, jsou dále rozděleny, vedeny signály ve screen-space, aby se koncentrovaly úsilí tam, kde je pravděpodobné, že divákův pohled bude nejvíce zpozorovat chyby.

Během inferencí, tato sama hierarchie umožňuje progresivní streamování, kdy hrubá verze avataru může být zobrazena první, a jak jsou načítány další vrstvy, nové Gaussovy křivky mohou být přidány bez změny toho, co je již zobrazeno, umožňující animovatelný avatar hlavy, který se objeví rychle a stane se ostřejším a detailnějším, jakmile je načteno více dat.

Autoři pozorují, že celý systém závisí na priorizaci příchozích dat:

Když jsou všechny Gaussovy křivky na dané úrovni dostupné, je celý model renderován s maximální věrností; ale během streamování, odesílání Gaussových křivek s nejvyšší příspěvkem první umožňuje rané částečné výsledky, aby se blízko shodovaly s konečným obrazem, zatímco přenos Gaussových křivek s nízkým příspěvkem první zkresluje barevnou rovnováhu a zdůrazňuje menší komponenty.

Když jsou všechny Gaussovy křivky na dané úrovni dostupné, je celý model renderován s maximální věrností; ale během streamování, odesílání Gaussových křivek s nejvyšší příspěvkem první umožňuje rané částečné výsledky, aby se blízko shodovaly s konečným obrazem, zatímco přenos Gaussových křivek s nízkým příspěvkem první zkresluje barevnou rovnováhu a zdůrazňuje menší komponenty.

Data a testy

Pro testy, nová metoda byla vyhodnocena na NeRSemble dataset, který se skládá z multi-view videí pro každého subjektu, s kalibrovanými parametry napříč všemi pohledy:

Příklady různých interpretací subjektů zahrnutých v NeRSemble datasetu použitých v testech pro ProgressiveAvatars. Zdroj - https://tobias-kirschstein.github.io/nersemble/

Příklady různých interpretací subjektů zahrnutých v NeRSemble datasetu použitých v testech pro ProgressiveAvatars. Zdroj

V souladu s původní GaussianAvatars metodologií, obrázky byly downsampleny na 802x550px, vygenerován přední maska a původní projektový tréninkový/test split byl přijat.

Adam optimizer byl použit pro aktualizace parametrů, s learning rate 1×10-2 na všech barycentrických souřadnicích. Trénink probíhal po 60 000 iterací, s hierarchií automaticky rozšířenou každých 2 000 iterací.

Zpočátku, autoři testovali rekonstrukci a animaci – úkolu převést ploché video na 3D-aware (x/y/x) systém, pomocí FLAMEho kanonického CGI reprezentace jako kotvy. Pro toto, všechny baseline byly trénovány od začátku, a rivalové frameworky testovány byly výše zmíněné GaussianAvatars, a PointAvatar.

Pro tyto testy, metriky používané byly Peak Signal-to-Noise Ratio (PSNR), Structural Similarity Index (SSIM), a Learned Perceptual Image Patch Similarity (LPIPS):

Kvalitativní srovnání na novel-view a novel-expression syntéze. Baseline GaussianAvatars má potíže s jemnými detaily kolem očí, vrásek a pokožky, zatímco navrhovaná metoda již zachovává klíčovou obličejovou strukturu přibližně u pěti procent přenesených dat a konverguje směrem k ground truth, zatímco jsou streamovány další Gaussovy křivky, blízko se shodující s plným modelem a referenčními obrázky (ground truth).

Kvalitativní srovnání na novel-view a novel-expression syntéze. Baseline GaussianAvatars má potíže s jemnými detaily kolem očí, vrásek a pokožky, zatímco navrhovaná metoda již zachovává klíčovou obličejovou strukturu přibližně u pěti procent přenesených dat a konverguje směrem k ground truth, zatímco jsou streamovány další Gaussovy křivky, blízko se shodující s plným modelem a referenčními obrázky (ground truth).

Ohledně těchto výsledků, autoři tvrdí:

‘[Naše] metoda rekonstruuje ostřejší detaily v několika oblastech, zejména kolem krku, ramen a oděvu. Tyto oblasti jsou relativně hrubě rozděleny v FLAME šabloně ve srovnání s vysokou saliencí obličejových zón (například periokulární oblast).

‘Následkem toho, předchozí metody často přidělují příliš málo 3D Gaussových křivek do těchto oblastí, aby věrně zachytily jejich jemné detaily. Naopak, naše adaptivní růstová strategie zvyšuje počet Gaussových křivek a rafinuje hierarchii pouze tam, kde je potřeba, dělá alokaci necitlivou na FLAMEho neuniformní rozdělení.’

Autoři dále poznamenávají, že jejich přístup je na stejné úrovni jako metody současného stavu, poskytující funkční avatar s triviální 5% pásmovou alokací:

Kvantitativní srovnání na novel view syntéze a novel expression syntéze pomocí PSNR, SSIM a LPIPS. Při plném přenosu, navrhovaná metoda dosahuje nejvyšší PSNR na obou úkolech a zůstává konkurenceschopná s GaussianAvatars na percepčních metrikách, zatímco 5% nastavení ilustruje kvalitní kompromis pod extrémními omezeními pásma.

Kvantitativní srovnání na novel view syntéze a novel expression syntéze pomocí PSNR, SSIM a LPIPS. Při plném přenosu, navrhovaná metoda dosahuje nejvyšší PSNR na obou úkolech a zůstává konkurenceschopná s GaussianAvatars na percepčních metrikách, zatímco 5% nastavení ilustruje kvalitní kompromis pod extrémními omezeními pásma.

Další, výzkumníci testovali progresivní renderování samo o sobě. To bylo provedeno na NVIDIA RTX 4090, s 24Gb VRAM, při rozlišení 550x802px. V tomto scénáři, autoři poukazují, že 25% rozpočtu by využilo všechny “úroveň 1” Gaussovy křivky, stejně jako podmnožinu úrovně 2 Gaussových křivek, což dává hrubý přehled o tom, jak se Gaussovy skupiny zvyšují detail v vyšších číslech skupin, a že nižší čísla skupin vlastně budují základní plátno:

Výkon pod různými přenosovými rozpočty pro novel view a novel expression syntézu, ukazující, že kvalita postupně se blíží nebo přesahuje GaussianAvatars, zatímco jsou streamovány další Gaussovy křivky a data, zatímco se udržují reálné rychlosti, na RTX 4090.

Výkon pod různými přenosovými rozpočty pro novel view a novel expression syntézu, ukazující, že kvalita postupně se blíží nebo přesahuje GaussianAvatars, zatímco jsou streamovány další Gaussovy křivky a data, zatímco se udržují reálné rychlosti, na RTX 4090.

Autoři komentují:

‘S pouhými 2,60 MB přenesenými (5% rozpočet), avatar již dosahuje rozumné kvality. Jak jsou streamovány vyšší úrovně Gaussových křivek, jemné struktury, jako jsou knoflíky, zuby a vlasy, postupně se zostřují, zatímco se udržuje temporální stabilita.

‘Při 100% přenosu, náš přístup dosahuje renderovací kvality srovnatelné s metody současného stavu. Poznamenáníhodně, snímkové rychlosti neklesají významně, pravděpodobně protože 3DGS pracovní zátěž ještě nezatíží GPU.’

Nicméně, autoři poukazují, že v multi-uživatelských VR scénářích, počet 3D Gaussových křivek by rychle rostl do bodu, kde by se GPU rasterizace stala úzkým místem. V těch těžších scénářích, navrhovaná metoda nabízí výhodu, umožňující systému obchodovat počet primitiv proti vizuální kvalitě, snižující zátěž bez kolapsu renderu.

Ačkoli práce toto nepopisuje, projektová stránka obsahuje další testovací srovnání, také zahrnující MeGA Hybrid mesh-Gaussian avatar projekt:

Kliknutím na přehrávání. Jedno ze série doplňkových videí z projektové stránky, toto srovnává nový přístup z hlediska novel view syntézy.

Závěr

Gaussian Splatting může nebo nemusí vydržet, nebo být vzpomínán mnohem více než RealPlayer nyní, v ohledu na úsvit interaktivního streamování: AI-pomocné 3D-aware reprezentativní zkušenosti, včetně video chatu, virtuálního nákupu, navigace tras a různých zábavních aplikací. Může se stát, že alternativní technologie nebo přístupy vyhraje, nebo že GSplat prokáže nejvíce spolehlivou AI-video reprezentaci.

Pokud nic jiného, tato zajímavá nová práce ohlašuje trochu rozsahu této nové domény, zatímco připomíná nám, možná nostalgicky, šířku pásma-zatíženého internetu z minulosti.

 

* Používám “3D” ne v tom smyslu, že vyžaduje speciální brýle, ale spíše zkušenosti, kde multimediální obsah má nějaký druh porozumění X/Y/Z souřadnic.

Poprvé publikováno ve středu, 18. března 2026

Spisovatel o strojovém učení, doménový specialista na syntézu lidského obrazu. Bývalý vedoucí výzkumného obsahu ve společnosti Metaphysic.ai.
Osobní stránky: martinanderson.ai