Andersons vinkel

Direktuppspelning av AI-avatrar som om det vore 1999

Published March 18, 2026

Updated May 16, 2026

Martin Anderson

Ny forskning presenterar ett sätt att direktuppspela verklighetstrogna 3D-avatrar som visas nästan omedelbart och skärps i realtid, istället för att tvinga användarna att vänta på att stora nedladdningar ska slutföras.

På många sätt har de enorma resurskraven för generativ AI och AI-assisterad rendering tagit tillbaka konsumentanvändningen tillbaka tjugo år eller mer. Bara 2023 tycktes en 64 GB RAM-allokering i en bärbar dator eller stationär dator vara överdriven; nu, med den växande populariteten för RAM och/eller CPU-avlastning, är 64 GB ganska blygsamt för lokala AI-behov; och dessa tidigare banala och överkomliga komponenter i datorer fortsätter att skjuta i höjden i pris när företag kämpar för att möta efterfrågan på AI-tjänster.

Skalan och girigheten hos AI och dess processer och miljöer överträffar vanligtvis konsumentnivåns hårdvara, och även att köra “utmärglade” lokalt orienterade modeller som GGUF-versioner kommer vanligtvis att belasta det genomsnittliga systemet.

Även textbaserade AI-tjänster som ChatGPT är föremål för betydande belastning både på klient- och servernivå. Därför kan vi rimligen förvänta oss vissa allvarliga kompromisser i latens och/eller kvalitet – liknande internetens tidiga kamp med strömmande media, och de mycket hatade animerade “buffert”-ikoner från RealPlayer och QuickTime.

Senast som multimediarelaterade och nätverksrelaterade problem skapade friktion i användarupplevelsen var konsumentnivåns hårdvara fortfarande under utveckling genom Moores lag, och blev nästan exponentiellt bättre varje år, även om operativsystem, nätverk och annan stödinfrastruktur utvecklades för att möta efterfrågan; och under de senaste tio åren har konsumentteknikens förmågor överträffat multimediakraven (kanske till och med till den punkt där omstart behövdes för att upprätthålla försäljningen).

Men denna överflöd av lokal kapacitet kan vara på väg att ta slut snart, eftersom lokal hårdvara blir lågspecifik och dyrare, och eftersom AI-baserade tjänster kräver högre serverbaserade och lokala resurser.

Att Få Ett Huvud

Tillbaka i för-bredbandseran var webbanvändare vana vid att bilder långsamt kom i fokus, eftersom progressiva JPEG tillät den bandbreddstörstande användaren att se den nedladdade bilden formas, ibland smärtsamt långsamt, allteftersom mer bilddata laddades lokalt.

Nu verkar det som om vi kan vara på väg mot en liknande upplevelse med AI-assisterade Gaussian Splat-avatrar:

Klicka för att spela. Från det nya ProgressiveAvatars-projektet, en jämförelse av direktuppspelning av Gaussian-avatrar. Till vänster, det äldre GaussianAvatars-projektet får långsamt ny data men ser fruktansvärt ut medan datan byggs upp; till höger, den progressiva Avatars-versionen bygger också detaljer långsamt, men gör det på ett intelligent sätt som ger en grundläggande mänsklig skepnad från början. Källa

Ovan ser vi två versioner av en Gaussian Splat-baserad (GSplat) avatar – en mänsklig representation som delvis aktiveras av en icke-AI-renderingsteknik som går tillbaka till början av 1990-talet, och också av mer moderna metoder, som FLAME-parametriska mänskliga modellen, och AI-baserade utbildningsmetoder:

Gaussian Splatting använder en Gaussisk representation av färg och 3D-information i stället för en pixel eller voxel, och kartlägger denna ultraverkliga textur på en mer traditionell CGI-mesh, som i sig faciliteras av en ‘parametrisk människa’, en CGI-ansikte och/eller kropp, i system som FLAME och STAR. Källa

Till vänster i videon ovan kan vi se att en traditionell implementering av en Gaussian Splat-avatrar ser ganska hemsk ut medan datan laddas; till höger, en ny implementering från Kina, kallad ProgressiveAvatars, kan lösa sig på ett mycket mer elegant sätt medan datan laddas, och presenterar en icke-alarmistisk mänsklig bild från början.

Författarna hävdar att deras metod är den första som verkligen “strömmar” en Gaussian-avatrar, och säkerligen den första som gör det på ett progressivt sätt, där bilden byggs upp elegant, och de viktigaste områdena – som ögon och läppar – kan prioriteras, så att avataren kan bli samtalig även när den bara är delvis laddad:

Click to play. Från ProgressiveAvatars-projektets webbplats, en illustration av uppmärksamhetsmedveten laddning.

Före detta har en “detaljnivå”-ansats (LOD) använts i tidigare försök att slimma ner “GSplat”-avatrar, liknande videospelsoptimeringar, där alltmer detaljerade versioner av en person laddas beroende på om de upptar tillräckligt med vyport eller användaruppmärksamhet för att vara värda ansträngningen.

Men detta medför en allvarlig mängd redundanta “spare”-avatrar, och författarna ramverket sitt tillvägagångssätt som ett mer rationellt system. Genom implikation tillåter en metod av detta slag också ändringar i en GSplat-figur (dvs. anpassning) utan att behöva sprida sådana ändringar genom en kedja av olika LOD-“tvillingar”.

En Uppkommande Domän

Om detta verkar som ett nischproblem, så var direktuppspelning av video också ett nischproblem, tillbaka i dagarna när man fick de tidigaste pluginerna att fungera, utlagt till den närmaste tillgängliga nörden. Dessutom går potentialen för AI-baserade strömmande representationer utöver mänskliga avatrar, och sträcker sig till stadsgenerering, spel, och 3D-baserade* versioner av praktiskt taget alla online-domäner – såsom Virtual Try-On, för klädesinköp:

Klicka för att spela. Från ett 2024-projekt, en grov titt på framtiden för online-“try-on”. Andra projekt försöker lägga till rörelse och interaktivitet – krävande aspekter att strömma och hantera. Källa

Bara som “detaljnivå”-baserade tillvägagångssätt har hittills främst använts av videospel, är många andra överväganden som tidigare varken var videospelns ensamrätt, troligen på väg att tränga in i splat-baserade representationer. Till exempel avbildar de flesta av dessa tidiga GSplat-utföranden en ensam människa som grimaserar och poserar, eller kanske pratar; men många situationer kommer att krävas som innehåller flera människor, samt miljöfunktioner och atmosfär – en scenarie där högpresterande “triage”-system kommer att avgöra var strömningsdatan behöver prioriteras, för att hålla användaren i ögonblicket.

Den nya artikeln heter ProgressiveAvatars: Progressiva Animerbara 3D-Gaussiska Avatrar, och kommer från tre forskare vid University of Science and Technology of China i Hefei.

Metod

Tillvägagångssättet utnyttjar initialt en video av en persons huvud. För varje bildruta passas en standard FLAME-parametrisk ansiktsmodell, så att formen och uttrycket ändras över tiden, medan den underliggande meshstrukturen förblir oförändrad. Eftersom bas-topologin inte ändras kan en stabil FLAME-mall återanvändas och förfinas i stället för att byggas om från scratch varje ögonblick, som sker i liknande tidigare arbeten:

Huvudvideo är först anpassad med en spårad FLAME-mesh, varefter 3D-Gaussiska är fästa vid varje ansikte och växer hierarkiskt där skärmrymdsgradients indikerar saknad detalj. Under utbildning bygger denna adaptiva underindelning en multi-nivå-representation under multi-vy-övervakning, och vid inferens bestämmer per-ansikte-viktiga poäng vilka Gaussiska som strömmas först, vilket tillåter avataren att visas snabbt och förbättras progressivt allteftersom fler detaljnivåer läggs till.

Över denna basstruktur läggs detaljer till i lager; ytan delas implicit in i en hierarki, och små tre-dimensionella Gaussiska fästs vid ansiktena på varje detaljnivå.

Även om de första, grövre lagren fångar den allmänna huvudformen och rörelsen, tillhandahåller de senare, finare lagren rynkor, subtila deformationer och högfrekvent textur. Bilder renderas sedan från dessa Gaussiska med en differentierbar Gaussisk rasteriserare och tränas mot multi-vy-grundtruth-film, så att avataren lär sig att reproducera den riktiga personens utseende.

Under utbildning växer denna hierarki automatiskt: områden som behöver mer detalj delas in ytterligare, guidade av skärmrymdssignaler, så att beräkningsansträngningen koncentreras där användarens öga mest sannolikt kommer att märka fel.

Under inferens möjliggör denna hierarki progressiv strömning, där en grov version av en avatar kan visas först, och, allteftersom fler lager läggs till, kan nya Gaussiska läggas till utan att ändra vad som redan visas, vilket möjliggör en animerbar huvud-avatrar som visas snabbt och blir skarpare och mer detaljerad allteftersom mer data anländer.

Författarna observerar att hela systemet vilar på prioriteringen av inkommande data:

När alla Gaussiska på en given nivå är tillgängliga, renderas den fullständiga modellen med maximal trohet; men under strömning, skickar man de Gaussiska som bidrar mest först, vilket tillåter tidiga delresultat att nära matcha den slutliga bilden, medan överföring av lågbidrags-Gaussiska först förvränger färgbalans och betonar mindre komponenter.

Data och Tester

För tester utvärderades den nya metoden på NeRSemble-dataseten, som består av multi-vy-videor för varje ämne som täcks, med kalibrerade parametrar över alla vyer:

Exempel på olika tolkningar av ämnen som ingår i NeRSemble-datasetet som användes i tester för ProgressiveAvatars. Källa

I linje med den ursprungliga GaussianAvatars-metod, ned sampas bilder till 802x550px, en förgrunds mask genererades, och det ursprungliga projektets utbildnings-/test-delning antogs.

Den Adam-optimisatorn användes för parameteruppdateringar, med en inlärningshastighet på 1×10^-2 på alla barycentriska koordinater. Utbildning kördes i 60 000 iterationer, med hierarkin automatiskt utökad var 2 000 iteration.

Initialt testade författarna för rekonstruktion och animation – uppgiften att omvandla platt video till ett 3D-medvetet (x/y/x)-system, med FLAME:s kanoniska CGI-representation som ankarmesh. För detta tränades alla baslinjer från scratch, och de rivaliserande ramverken testades var de ovannämnda GaussianAvatars, och PointAvatar.

För dessa tester användes följande mått: Peak Signal-to-Noise Ratio (PSNR), Structural Similarity Index (SSIM), och Lärd Perceptuell Bild-Patch-Likhet (LPIPS):

Kvalitativ jämförelse på ny vy- och nytt uttryckssyntes. Baslinjen GaussianAvatars kämpar med fina detaljer runt ögon, rynkor och hudtextur, medan den föreslagna metoden redan bevarar nyckelansiktsstruktur vid cirka fem procent av överförd data och konvergerar mot grundtruth allteftersom fler Gaussiska strömmas, nära matchar den fullständiga modellen och referensbilder (grundtruth).

Med avseende på dessa resultat hävdar författarna:

‘[Vår] metod rekonstruerar skarpare detaljer i flera områden, särskilt runt halsen, axlarna och kläder. Dessa områden är relativt grovt tesselerade i FLAME-mallen jämfört med högsaliens ansiktszoner (t.ex. periokulära regionen).

‘Följaktligen allokerar tidigare metoder ofta för få 3D-Gaussiska till dessa områden för att troget fånga deras fina detaljer. I kontrast ökar vår adaptiva tillväxtningsstrategi antalet Gaussiska och förfinar hierarkin endast där det behövs, vilket gör allokeringsprocessen oberoende av FLAME:s ojämnt tessellering.’

Författarna noterar vidare att deras tillvägagångssätt är jämförbart med state-of-the-art-metoder, och ger en fungerande avatar med en försumbar 5% bandbreddstilldelning:

Kvantitativ jämförelse på ny vy-syntes och nytt uttryckssyntes med PSNR, SSIM och LPIPS. Vid full överföring uppnår den föreslagna metoden den högsta PSNR på båda uppgifterna och förblir konkurrenskraftig med GaussianAvatars på perceptuella mått, medan 5%-inställningen illustrerar kvalitetsväxlingen under extrema bandbreddsrestriktioner.

Sedan testade forskarna den progressiva renderingen i sig. Detta genomfördes på en NVIDIA RTX 4090, med 24 GB VRAM, vid 550x802px-upplösning. I detta scenario påpekar författarna att en 25-procentig budget skulle använda alla “nivå 1”-Gaussiska, samt en delmängd av nivå 2-Gaussiska, vilket ger en ungefärlig översikt av hur Gaussiska grupper ackumulerar detaljer i de högre nummervärdena, och att de lägre nummervärdena i princip bygger den grundläggande duken:

Prestanda under olika överföringsbudgetar för ny vy- och nytt uttryckssyntes, visande att kvalitet stadigt närmar sig eller överträffar GaussianAvatars allteftersom fler Gaussiska och data strömmas, medan realtidsprestanda upprätthålls, på en RTX 4090.

Författarna kommenterar:

‘Med endast 2,60 MB överförd (5% budget), har avataren redan uppnått rimlig kvalitet. Allteftersom högre nivå-Gaussiska strömmas, skärps fina strukturer som skjortknappar, tänder och hår gradvis, medan tidsmässig stabilitet upprätthålls.

‘Vid 100% överföring uppnår vår metod renderingkvalitet jämförbar med state-of-the-art-metoder. Noterbart är att ramhastigheten inte sjunker signifikant, troligen för att 3DGS-arbetsbelastningen ännu inte har mättat GPU:n.’

Men författarna påpekar att i multi-användar-VR-scenarier skulle antalet 3D-Gaussiska snabbt växa till den punkt där GPU-rasterisering blir en flaskhals. I dessa tyngre scenarier erbjuder det föreslagna tillvägagångssättet en fördel genom att tillåta systemet att avväga antalet primitiver mot visuell kvalitet, vilket underlättar belastningen utan att kollapsa renderingen.

Även om artikeln inte detaljerar detta, presenterar projektwebbplatsen ytterligare testjämförelser, som också innehåller MeGA Hybrid mesh-Gaussian avatar-projekt:

Klicka för att spela. En av en serie kompletterande videor från artikelförfattarens webbplats, denna jämför den nya metoden i termer av ny vy-syntes.

Slutsats

Gaussian Splatting kan eller kan inte vara bestående, eller ens kommas ihåg mycket mer än RealPlayer nu är, med avseende på gryningen av interaktiv strömning: AI-drivna eller AI-assisterade 3D-medvetna representativa upplevelser, inklusive videochatt, virtuell shopping, ruttnavigering och olika underhållningsapplikationer. Det kan vara så att alternativa teknologier eller tillvägagångssätt segrar, eller att GSplat visar sig vara den mest tillförlitliga AI-video-representationen.

Om ingenting annat, så förkunnar denna intressanta nya artikel en del av omfattningen av denna nya domän, samtidigt som den påminner oss, kanske nostalgiskt, om den bandbreddstörstande interneten förr.

* Med ‘3D’ menar jag inte den typ av upplevelse som kräver speciella glasögon, utan snarare upplevelser där det multimediainnehåll har någon form av förståelse för X/Y/Z-koordinater.

Publicerad första gången onsdag, 18 mars 2026