Andersonin kulma

Virtuaali-ai-hahmot kuin vuonna 1999

Published March 18, 2026

Updated April 25, 2026

Martin Anderson

Uusi tutkimus esittää tavan lähettää elävänoloisia 3D-hahmoja, jotka näkyvät melkein välittömästi ja tarkentuvat reaaliajassa, sen sijaan, että käyttäjien olisi odotettava valtavien latausten valmistumista.

Monilla tavoin, generatiivisen tekoälyn ja tekoälyavusteisten renderöintijärjestelmien valtavat resurssivaatimukset ovat vieneet kuluttajien valmiuden takaisin yli kaksikymmentä vuotta. Vuonna 2023 64 GB:n RAM-alue laptopissa tai pöytätietokoneessa näytti ylimitoitetulta; nyt, kun RAM:ia ja/tai CPU:n siirtäminen on kasvussa, 64 GB on melko vaatimaton paikallisten tekoälytarpeiden kannalta; ja nämä aikaisemmin tylsät ja edulliset tietokoneiden osat jatkavat hinnan nousua, kun yritykset kamppailevat tekoälypalveluiden kysynnän täyttämiseksi.

Tekoälyn ja sen prosessien ja ympäristöjen mittakaava ja ahneus ylittävät yleensä kuluttajatasoisen laitteiston, ja jopa “laihdutetun” paikallisten mallien suorittaminen GGUF-versioina kuormittaa yleensä keskivertokoneen.

Jopa tekstipohjaiset tekoälypalvelut, kuten ChatGPT, ovat alttiina merkittäville kuormituksille sekä asiakas- että palvelintasolla. Siksi, kun tekoälyä käytetään toimittamaan online-monimediaelämyksiä reaaliajassa, voidaan odottaa merkittäviä kompromisseja viiveessä ja/tai laadussa – samankaltaisia kuin internetin varhaisissa vaiheissa, kun ensimmäiset liitännäiset saatiin toimimaan, ja kun “puskurointi”-ikoni RealPlayerista ja QuickTimesta oli vastenmielinen.

Viimeksi kun monimedia- ja verkkokuormitukset loivat kitkaa käyttökokemukseen, kuluttajatasoinen laitteisto edelleen kehittyi Mooren lain mukaisesti, paraneva melkein eksponentiaalisesti joka vuosi, vaikka käyttöjärjestelmät, verkkotuet ja muut tukirakenteet kehittyivät kohtaamaan kysyntää; ja viimeisen kymmenen vuoden ajan, kuluttajateknologian ominaisuudet ovat ylittäneet monimedia vaatimukset (ehkä jopa siinä määrin, että uudelleen käynnistäminen tarvittiin myyntien ylläpitämiseksi).

Mutta tämä paikallisen kyvyn ylenpito saattaa pian päättyä, kun paikallinen laitteisto muuttuu alempitasoiseksi ja kalliimmaksi, ja kun tekoälypohjaiset palvelut vaativat korkeampia palvelin- ja paikallisia resursseja.

Päästäkseen eteenpäin

Ennen laajakaistaa, jopa ennen varhaisimpia toimivia videovirtoja, verkkokäyttäjät olivat tottuneita siihen, että kuvat tulivat hitaasti teräväksi, kun progressiiviset JPEG:t sallivat kaistanleveyden vaatimusten vaivaaman käyttäjän katsella latautuvaa kuvaa muotoutumassa, joskus tuskallisen hitaasti, kun enemmän kuvadataa ladataan paikallisesti.

Nyt näyttää siltä, että voimme olla samanlaisen kokemuksen edessä tekoälyavusteisilla Gaussian Splat -hahmoilla:

Klikkaa toistamaan. Uudesta ProgressiveAvatars-projektista, vertailu Gaussian-hahmojen lähettämisestä. Lähde

Yllä olevassa videossa nähdään kaksi versiota Gaussian Splat -pohjaisesta (GSplat) hahmosta – ihmishahmotelmaa, joka on osittain mahdollista johtuen ei-tekoälyrenderöintitekniikasta, joka juontaa juurensa 1990-luvun alkuun, ja myös modernimmista menetelmistä, kuten FLAME -parametrinen ihmismalli ja tekoälypohjaiset koulutuslähestymistavat:

Gaussian Splatting käyttää Gaussian-esitystapaa värin ja 3D-tiedon kuvaamiseen pikselin tai vokselin sijaan, ja kartoittaa tämän ultra-realistisen tekstuuriin perinteisemmän tyyppisen CGI-verkkorakenteen, jota itsessään mahdollistavat ‘parametrinen ihminen’, CGI-kasvo ja/tai keho, järjestelmissä kuten FLAME ja STAR. Lähde

Vasemmalla videossa yllä voidaan nähdä, että perinteinen toteutus Gaussian Splat -hahmosta näyttää melko kamalalta, kun odotamme, että data latautuu. Oikealla uusi toteutus Kiinasta, jota kutsutaan ProgressiveAvatarsiksi, pystyy ratkaisemaan paljon elegantimmin, kun data latautuu, ja esittää ei-häiritsevän ihmiskuvan jo alusta alkaen.

Kirjoittajat väittävät, että heidän menetelmänsä on ensimmäinen, joka “lähettää” todella Gaussian-hahmon, ja varmasti ensimmäinen, joka tekee niin progressiivisella tavalla, jossa kuva muodostuu elegantisti, ja tärkeimmät alueet – kuten silmät ja huulet – voidaan priorisoida, jotta hahmo voidaan tehdä keskusteluksi jo osittain latautuneena:

Klikkaa toistamaan. ProgressiveAvatars-projektin sivuilta, havainnollistus tietoisesta latauksesta.

Aikaisemmin “yksityiskohtataso”-lähestymistapa on käytetty aiemmissa yrityksissä “laihduttaa” ‘GSplat’ -hahmoja, samankaltaisia videopelien optimointiin, jossa onnistuneita versioita ladataan peräkkäin riippuen siitä, onko niiden riittävästi näkyvyyttä tai katsojan huomiota ollakseen vaivan arvoisia.

Tässä on kuitenkin kyse suuresta määrästä tarpeettomista “varahahmoista”, ja kirjoittajat esittävät lähestymistapansa järkevämmpänä järjestelmänä. Tällaisen menetelmän implikaationa on myös mahdollisuus tehdä muutoksia GSplat-hahmoon (ts. mukauttaminen) ilman, että muutoksia on jaettava ketjuun eri “kaksoisolentoja”.

Uusi alue

Jos tämä näyttää pienenä ongelmana, niin myös videovirto näytti siltä varhaisina päivinä, kun saada pluginit toimimaan oli ulkoistettu läheisimmälle nerdille. Lisäksi tekoälypohjaisten edustusten potentiaali ulottuu ihmishahmojen ulkopuolelle, käsittäen kaupungin generoinnin, pelit ja 3D-pohjaiset versiot lähes kaikista online-alueista – kuten Virtual Try-On vaatteiden ostamiseen:

Klikkaa toistamaan. 2024-projektista, karkea katse tulevaisuuden online-‘try-on’-mahdollisuuksiin. Muiden projektiensa pyrkivät lisätä liikettä ja vuorovaikutusta – vaativia osia virrata ja hallita. Lähde

Monet muut huomioon otettavat seikat, jotka olivat aiemmin pelikehityksen yksinomaan alaa, ovat todennäköisesti meneväksi Gaussian-pohjaisiin edustuksiin. Esimerkiksi useimmat näistä varhaisista GSplat-esiintymisistä esittävät yksittäisen ihmisen ilmeilemässä ja ilmeilemättä, tai puhumassa; mutta monissa tilanteissa tarvitaan useita ihmisiä, ympäristöominaisuuksia ja ilmapiiriä – tilanne, jossa erittäin suorituskykyiset “triage”-järjestelmät määräävät, mihin virran dataa on priorisoitava, jotta katsoja voidaan pitää hetkessä.

Uusi tutkimus on otsikoitu ProgressiveAvatars: Progressiiviset animoitavat 3D Gaussian -hahmot, ja se tulee kolmelta tutkijalta Kiinan tiede- ja teknologiayliopistosta Hefeissä.

Menetelmä

Lähestymistapa hyödyntää aluksi henkilön pään videota. Jokaiselle kehykselle on sovitettu standardi FLAME -parametrinen kasvomalli, jotta muoto ja ilme muuttuvat ajan myötä, kun taustalla oleva verkkorakenne pysyy kiinteänä. Koska perus-topologia ei muutu, vakaan FLAME-mallin voidaan uudelleen käyttää ja parantaa alkuperäisen sijaan jokaisen hetken uudelleenrakentamisen sijaan, kuten tapahtuu samankaltaisissa aiemmissa töissä:

Pään video on ensin sovitettu seurattuun FLAME-verkkoon, minkä jälkeen 3D-Gaussiat kiinnitetään jokaiseen kasvoihin ja kasvavat hierarkkisesti, kun ruudun gradientit osoittavat puuttuvaa yksityiskohtaa. Koulutuksen aikana tämä adaptiivinen alijako luo monitasoisen edustuksen moninäkökulmaisen valvonnan alla, ja johtopäätöksessä jokaisen kasvon tärkeysarvot määräävät, mitkä Gaussiat lähettää ensin, sallien hahmon näkyä nopeasti ja tarkentua progressiivisesti, kun korkeampia yksityiskohtia lisätään.

Yli tämän perusrakenteen yksityiskohtia lisätään kerroksittain; pinta jaetaan oletusarvoisesti hierarkiaan, ja pienet kolmiulotteiset Gaussiat kiinnitetään kasvoihin jokaisella yksityiskohtatasolla.

Vaikka alkuperäiset karkeammat kerrokset kaappaavat yleisen pään muodon ja liikkeen, seuraavat hienommat kerrokset tarjoavat ryppyjä, hienoja muodonmuutoksia ja korkeataajuista tekstuuria. Kuvat renderöidään näistä Gaussista erottuvalla Gaussian-rasteroijalla ja koulutetaan moninäkökulmaista perusdataa vastaan, jotta hahmo oppii jäljittelemään todellisen henkilön ulkonäön.

Koulutuksen aikana tämä hierarkia kasvaa automaattisesti: alueet, jotka tarvitsevat enemmän yksityiskohtia, jaetaan edelleen, johdatettuna ruudun signaaleilla, jotta laskennallinen ponnistus kohdistuu siihen, mihin katsojan silmä on todennäköisimmin havaitseva virheitä.

Johtopäätöksessä sama hierarkia mahdollistaa progressiivisen lähetyksen, jossa karkea versio hahmosta voidaan näyttää ensin, ja kun lisää kerroksia ladataan, uusia Gaussia voidaan lisätä ilman, että mitään muutetaan, mahdollistaen animoitavan pään hahmon, joka näkyy nopeasti ja tulee terävämmäksi ja yksityiskohtaisemmaksi, kun enemmän dataa saapuu.

Kirjoittajat huomauttavat, että koko järjestelmä perustuu tulevan datan priorisointiin:

Kun kaikki Gaussiat tietyn tason Gaussiat ovat saatavilla, täysi malli renderöidään maksimaalisella uskottavuudella; mutta lähetyksen aikana lähettämällä korkeimman panoksen Gaussiat ensin, varhaiset osittaiset tulokset vastaavat läheisesti lopullista kuvaa, kun taas matalan panoksen Gaussiat ensin lähettäminen vääristää väriensäätöä ja korostaa vähäisiä osia.

Data ja testit

Testien toteuttamiseksi uusi menetelmä arvioitiin NeRSemble -aineistolla, joka koostuu moninäkökulmaisista videoista kullekin aiheelle, joissa on kalibroitu parametri kaikissa näkymissä:

Esimerkkejä moninaisista tulkinnista, jotka sisältyvät NeRSemble-aineistoon, jota käytetään ProgressiveAvatars-testeissä. Lähde

Alkuperäisen GaussianAvatars -menetelmän mukaisesti kuvat on pienennetty 802x550px, taustan maski on generoitu, ja alkuperäisen projektin koulutus/testi jako on otettu käyttöön.

Adam-optimointi on käytetty parametri-päivityksiin, 1×10^-2 oppimisnopeudella kaikilla barysentrisillä koordinaateilla. Koulutus kesti 60 000 iteraatiota, ja hierarkia laajeni automaattisesti joka 2 000 iteraation jälkeen.

Aluksi kirjoittajat testasivat rekonstruktio- ja animaatio -tehtävää – tehtävää, jossa muunnetaan tasainen video 3D-tietoiseksi (x/y/x) -järjestelmäksi, käyttäen FLAME:n kanonista CGI-edustaa ankkuriverkkona. Tässä tehtävässä kaikki vertailukohteet koulutettiin alusta alkaen, ja kilpailevat kehykset, jotka testattiin, olivat mainittu GaussianAvatars ja PointAvatar.

Näissä testeissä käytettiin seuraavia mittareita: Huipputaso-signaali-melun suhde (PSNR), Rakenteellinen samankaltaisuusindeksi (SSIM) ja Opetettu havaintoeroinen kuvaepäily (LPIPS):

Laadullinen vertailu uuden näkökulman ja uuden ilmeen synteesissä. Vertailukohteen GaussianAvatars kamppailee hienojen yksityiskohtien kanssa silmien, ryppyjen ja ihon tekstuurin ympärillä, kun taas ehdotettu menetelmä säilyttää jo perusfaciaalisen rakenteen noin viiden prosentin lähettämisen jälkeen ja lähestyy lopullista mallia, kun enemmän Gaussia lähettää, ja se lähestyy lähellä täyttä mallia ja viitekuvia (todellista).

Kirjoittajat väittävät:

‘[Meidän] menetelmä rekonstruoituu terävemmiksi yksityiskohtia useissa alueissa, erityisesti kaulan, hartioiden ja vaatteiden ympärillä. Nämä alueet ovat suhteellisen karkeasti tesselloituina FLAME-mallissa verrattuna korkean merkityksen kasvoalueisiin (esim. silmien ympärillä).

‘Sitä paitsi, aiemmat menetelmät usein määrittävät liian vähän 3D-Gaussia näihin alueisiin, jotta ne voivat uskollisesti kaapata niiden hienojakuisen yksityiskohtaisuuden. Vastakohtaisesti, meidän adaptiivinen kasvustrategia lisää Gaussien määrää ja tarkentaa hierarkiaa vain, missä se on tarpeen, mikä tekee määrärajan sijainnin FLAME:n epätasaisesta tessellaatiosta riippumattomaksi.’

Kirjoittajat huomauttavat myös, että heidän lähestymistapansa on vertailukelpoinen valtavirtamenetelmiin, ja se tuottaa toimivan hahmon vain 5 prosentin kaistanleveyden sallimalla:

Määrällinen vertailu uuden näkökulman ja uuden ilmeen synteesissä käyttäen PSNR, SSIM ja LPIPS. Täyden lähetyksen aikana ehdotettu menetelmä saavuttaa korkeimman PSNR:n molemmissa tehtävissä ja säilyy kilpailukykyisenä GaussianAvatarsin kanssa havainnollisilla mittareilla, kun taas 5 prosentin asetus havainnollistaa laadun kompromissin äärimmäisissä kaistanleveyden rajoituksissa.

Martin Anderson

Kirjailija tekoälystä, alan erikoisosaaja ihmiskuvien synteesissä. Entinen tutkimussisällön johtaja Metaphysic.ai:lla.
Henkilökohtainen sivu: martinanderson.ai
Ota yhteyttä: [email protected]

Unite.AI

Virtuaali-ai-hahmot kuin vuonna 1999

Päästäkseen eteenpäin

Uusi alue

Menetelmä

Data ja testit

You may like