Connect with us

Sudut Anderson

Streaming AI Avatars Like It’s 1999

mm
Montage of images related to Gaussian Avatar streaming, featuring 3DGS faces. Source: https://ustc3dv.github.io/ProgressiveAvatars/

Penelitian baru menyajikan cara untuk menyiarkan avatar 3D yang sangat mirip dengan kehidupan yang muncul hampir seketika dan menjadi tajam secara waktu nyata, bukan memaksa pengguna untuk menunggu unduhan besar selesai.

 

Dalam banyak hal, tuntutan sumber daya yang sangat besar dari AI generatif dan sistem rendering yang dibantu AI telah membawa kesiapan konsumen kembali dua puluh tahun atau lebih. Hanya pada 2023, alokasi RAM 64GB di laptop atau PC desktop tampak seperti kelebihan; sekarang, dengan popularitas RAM dan/atau offloading CPU yang tumbuh, 64GB cukup modest untuk kebutuhan AI lokal; dan elemen-elemen PC yang dulunya biasa dan terjangkau ini terus melonjak harga karena perusahaan bergumul untuk memenuhi permintaan layanan AI.

Skala dan keserakahan AI dan proses serta lingkungannya biasanya mengungguli perangkat keras tingkat konsumen, dan bahkan menjalankan model ‘slimmed down’ lokal sebagai versi GGUF biasanya akan memberikan beban pada sistem rata-rata.

Bahkan layanan AI berbasis teks seperti ChatGPT dipengaruhi oleh beban signifikan baik pada tingkat klien dan server. Oleh karena itu, ketika AI ditugaskan untuk menyampaikan pengalaman multimedia online secara waktu nyata, kita dapat mengharapkan kompromi yang sangat serius dalam keterlambatan dan/atau kualitas – serupa dengan perjuangan awal internet dengan streaming media, dan ikon ‘buffering’ yang sangat dibenci dari RealPlayer dan QuickTime.

Terakhir kali bahwa masalah multimedia dan jaringan menciptakan gesekan dalam pengalaman pengguna, perangkat keras tingkat konsumen masih berkembang melalui Hukum Moore, menjadi hampir eksponensial lebih baik setiap tahun, bahkan ketika sistem operasi, jaringan, dan infrastruktur pendukung lainnya berkembang untuk memenuhi permintaan; dan selama sepuluh tahun terakhir, lebih atau kurang, kemampuan teknologi konsumen melebihi permintaan multimedia (mungkin bahkan sampai ke titik di mana perlu dipacu untuk mempertahankan penjualan).

Tapi kelebihan kemampuan lokal itu mungkin akan segera berakhir, karena perangkat keras lokal menjadi lebih rendah dan lebih mahal, dan karena layanan berbasis AI memerlukan sumber daya server-side dan lokal yang lebih tinggi.

Mendapatkan Kepala

Kembali di era pra-broadband, bahkan sebelum streaming video yang dapat digunakan, pengguna web terbiasa dengan gambar yang perlahan-lahan menjadi fokus, karena progressive JPEG memungkinkan pengguna yang kekurangan bandwidth untuk menonton gambar yang sedang diunduh, terkadang sangat perlahan, karena lebih banyak data gambar diunduh secara lokal.

Sekarang, tampaknya kita mungkin akan mengalami pengalaman serupa dengan avatar AI-bantu Gaussian Splat:

Klik untuk memutar. Dari proyek ProgressiveAvatars baru, perbandingan antara streaming Gaussian avatars. Di sebelah kiri, proyek GaussianAvatars yang lebih lama perlahan-lahan mendapatkan data baru tetapi terlihat buruk karena data yang dibangun; di sebelah kanan, versi Progressive Avatars juga membangun detail perlahan-lahan, tetapi melakukannya dengan cara yang cerdas yang memberikan kesan manusia dasar sejak awal. Sumber

Di atas kita melihat dua versi dari avatar Gaussian Splat – representasi manusia yang diaktifkan sebagian oleh teknik rendering non-AI yang berasal dari awal 1990-an, dan juga oleh metode modern, seperti FLAME parametric human model, dan pendekatan pelatihan AI:

Gaussian Splatting menggunakan representasi Gaussian dari warna dan informasi 3D sebagai gantinya pixel atau voxel, dan memetakan tekstur ultra-realistik ini ke mesh CGI tradisional, yang difasilitasi oleh 'parametric human', wajah CGI dan/atau tubuh, dalam sistem seperti FLAME dan STARR. Sumber - https://arxiv.org/pdf/2312.02069.pdf

Gaussian Splatting menggunakan representasi Gaussian dari warna dan informasi 3D sebagai gantinya pixel atau voxel, dan memetakan tekstur ultra-realistik ini ke mesh CGI tradisional, yang difasilitasi oleh ‘parametric human’, wajah CGI dan/atau tubuh, dalam sistem seperti FLAME dan STAR. Sumber

Di sebelah kiri dalam video di atas kita dapat melihat bahwa implementasi tradisional dari avatar Gaussian splat terlihat cukup mengerikan karena kita menunggu data untuk diunduh. Di sebelah kanan, implementasi baru dari Tiongkok, yang disebut ProgressiveAvatars, dapat menyelesaikan dengan lebih elegan karena data diunduh, menyajikan gambar manusia yang tidak mengganggu sejak awal.

Penulis menyatakan bahwa metode mereka adalah yang pertama untuk benar-benar ‘menyiarkan’ avatar Gaussian, dan pasti yang pertama untuk melakukannya dengan cara progresif, di mana gambar membangun dengan elegan, dan area yang paling penting – seperti mata dan bibir – dapat diprioritaskan, sehingga avatar dapat menjadi percakapan bahkan ketika hanya sebagian diunduh:

Click to play. Dari situs proyek ProgressiveAvatars, ilustrasi dari pengunduhan yang sadar perhatian.

Sebelumnya, pendekatan ‘level of detail’ (LOD) telah digunakan dalam upaya sebelumnya untuk menipiskan ‘GSplat’ avatars, serupa dengan optimasi game, di mana versi yang lebih detail dari orang diunduh sesuai dengan apakah mereka menduduki cukup viewport atau perhatian pengguna untuk layak usaha.

Tentu saja, ini memerlukan redundansi ‘spare’ avatar yang cukup besar, dan penulis membingkai pendekatan mereka sebagai sistem yang lebih rasional. Dengan implikasi, metode seperti ini juga memungkinkan perubahan dilakukan pada figur GSplat (yaitu, kustomisasi) tanpa perlu mempropagasi perubahan tersebut melalui rantai berbagai LOD ‘kembar’.

Domain yang Muncul

Jika ini tampak seperti masalah yang tidak penting, baik, begitu juga streaming video, kembali di hari-hari ketika mendapatkan plugin awal untuk bekerja diberikan kepada nerd terdekat. Lebih lanjut, potensi untuk representasi streaming berbasis AI melampaui avatar manusia, memperluas ke pembangunan kota, game, dan versi 3D dari hampir semua domain online – seperti Virtual Try-On, untuk berbelanja pakaian:

Klik untuk memutar. Dari proyek 2024, tampilan kasar dari masa depan ‘try-on’ online. Proyek lain mencoba menambahkan gerakan dan interaktivitas – aspek yang menuntut untuk disiarkan dan dikelola. Sumber

Sama seperti pendekatan LOD telah digunakan terutama oleh pengembangan game, banyak pertimbangan yang dulunya menjadi provinsi eksklusif pengembangan game kemungkinan akan memasuki representasi berbasis splat. Misalnya, kebanyakan GSplat awal menggambarkan orang tunggal yang mengernyit dan menggembung, atau mungkin berbicara; tetapi banyak situasi akan diperlukan yang menampilkan beberapa orang, serta fitur lingkungan dan atmosfer – skenario di mana sistem ‘triage’ yang sangat performant akan menentukan di mana data streaming perlu diprioritaskan, untuk menjaga pengguna tetap dalam momen.

Makalah baru ini berjudul ProgressiveAvatars: Progressive Animatable 3D Gaussian Avatars, dan berasal dari tiga peneliti di Universitas Sains dan Teknologi Tiongkok di Hefei.

Metode

Pendekatan ini awalnya menggunakan video dari kepala seseorang. Untuk setiap bingkai, model wajah parametric FLAME standar difit, sehingga bentuk dan ekspresi berubah seiring waktu, sementara struktur mesh dasar tetap tidak berubah. Karena topologi dasar tidak berubah, template FLAME yang stabil dapat digunakan kembali dan diperbarui daripada dibangun dari awal setiap saat, seperti yang terjadi dalam karya sebelumnya:

Video kepala pertama kali difit dengan mesh FLAME yang dilacak, setelah itu 3D Gaussians dilampirkan ke setiap wajah dan tumbuh secara hierarkis di mana gradien ruang layar menunjukkan detail yang hilang. Selama pelatihan, subdivisi adaptif ini membangun representasi multi-level di bawah pengawasan multi-view, dan pada inferensi, skor kepentingan per-wajah menentukan Gaussians mana yang disiarkan terlebih dahulu, memungkinkan avatar untuk muncul dengan cepat dan memperbarui secara progresif karena level detail yang lebih tinggi ditambahkan.

Video kepala pertama kali difit dengan mesh FLAME yang dilacak, setelah itu 3D Gaussians dilampirkan ke setiap wajah dan tumbuh secara hierarkis di mana gradien ruang layar menunjukkan detail yang hilang. Selama pelatihan, subdivisi adaptif ini membangun representasi multi-level di bawah pengawasan multi-view, dan pada inferensi, skor kepentingan per-wajah menentukan Gaussians mana yang disiarkan terlebih dahulu, memungkinkan avatar untuk muncul dengan cepat dan memperbarui secara progresif karena level detail yang lebih tinggi ditambahkan.

Di atas struktur dasar ini, detail ditambahkan dalam lapisan; permukaan secara implisit disubdivisi menjadi hierarki, dan Gaussians tiga dimensi kecil dilampirkan ke wajah pada setiap level detail.

Meskipun lapisan yang lebih kasar awal menangkap bentuk kepala dan gerakan secara keseluruhan, lapisan yang lebih halus menyediakan kerutan, deformasi halus, dan tekstur frekuensi tinggi. Gambar kemudian dirender dari Gaussians ini menggunakan Gaussian rasterizer yang dapat dibedakan dan dilatih melawan footage ground truth multi-view, sehingga avatar belajar untuk mereproduksi penampilan orang asli.

Selama pelatihan, hierarki ini tumbuh secara otomatis: wilayah yang memerlukan lebih banyak detail disubdivisi lebih lanjut, dipandu oleh sinyal ruang layar, sehingga upaya komputasi terkonsentrasi di mana mata pengguna paling mungkin memperhatikan kesalahan.

Selama inferensi, hierarki yang sama memungkinkan streaming progresif, di mana versi kasar dari avatar dapat ditampilkan terlebih dahulu, dan, karena lapisan tambahan diunduh, Gaussians baru dapat ditambahkan tanpa mengubah apa yang sudah ditampilkan, memungkinkan avatar kepala yang dapat dianimasikan yang muncul dengan cepat, dan menjadi lebih tajam dan detail karena lebih banyak data yang tiba.

Penulis mengamati bahwa seluruh sistem bergantung pada prioritisasi data yang masuk:

Ketika semua Gaussians pada level tertentu tersedia, model penuh dirender dengan fidelitas maksimum; tetapi selama streaming, mengirim Gaussians dengan kontribusi tertinggi terlebih dahulu memungkinkan hasil parsial awal untuk mendekati gambar akhir, sedangkan mengirim Gaussians dengan kontribusi rendah terlebih dahulu mengganggu keseimbangan warna dan menekankan komponen kecil.

Ketika semua Gaussians pada level tertentu tersedia, model penuh dirender dengan fidelitas maksimum; tetapi selama streaming, mengirim Gaussians dengan kontribusi tertinggi terlebih dahulu memungkinkan hasil parsial awal untuk mendekati gambar akhir, sedangkan mengirim Gaussians dengan kontribusi rendah terlebih dahulu mengganggu keseimbangan warna dan menekankan komponen kecil.

Data dan Tes

Untuk tes, metode baru dievaluasi pada dataset NeRSemble, yang terdiri dari video multi-view untuk setiap subjek yang tercakup, dengan parameter yang dikalibrasi di semua view:

Contoh dari interpretasi yang beragam dari subjek yang termasuk dalam dataset NeRSemble yang digunakan dalam tes untuk ProgressiveAvatars. Sumber - https://tobias-kirschstein.github.io/nersemble/

Contoh dari interpretasi yang beragam dari subjek yang termasuk dalam dataset NeRSemble yang digunakan dalam tes untuk ProgressiveAvatars. Sumber

Sejalan dengan metodologi GaussianAvatars asli, gambar di-downsample ke 802x550px, masker foreground yang dihasilkan, dan split pelatihan/uji asli diadopsi.

Optimizer Adam digunakan untuk pembaruan parameter, dengan tingkat pembelajaran 1×10-2 pada semua koordinat barycentric. Pelatihan berjalan selama 60.000 iterasi, dengan hierarki diperluas secara otomatis setiap 2.000 iterasi.

Awalnya, penulis menguji untuk rekonstruksi dan animasi – tugas mengubah video datar menjadi sistem 3D yang sadar (x/y/x), menggunakan representasi CGI kanon FLAME sebagai mesh jangkar. Untuk ini, semua baseline dilatih dari awal, dan kerangka kerja rival yang diuji adalah GaussianAvatars yang disebutkan sebelumnya, dan PointAvatar.

Untuk tes ini, metrik yang digunakan adalah Peak Signal-to-Noise Ratio (PSNR), Structural Similarity Index (SSIM), dan Learned Perceptual Image Patch Similarity (LPIPS):

Perbandingan kualitatif pada sintesis pandangan dan ekspresi baru. Baseline GaussianAvatars bergumul dengan detail halus di sekitar mata, kerutan, dan tekstur kulit, sedangkan metode yang diusulkan sudah mempertahankan struktur wajah kunci sekitar lima persen data yang disiarkan dan konvergen ke arah ground truth karena lebih banyak Gaussians yang disiarkan, mendekati model penuh dan gambar referensi (ground truth).

Perbandingan kualitatif pada sintesis pandangan dan ekspresi baru. Baseline GaussianAvatars bergumul dengan detail halus di sekitar mata, kerutan, dan tekstur kulit, sedangkan metode yang diusulkan sudah mempertahankan struktur wajah kunci sekitar lima persen data yang disiarkan dan konvergen ke arah ground truth karena lebih banyak Gaussians yang disiarkan, mendekati model penuh dan gambar referensi (ground truth).

Mengenai hasil ini, penulis menyatakan:

‘[Metode kami] merekonstruksi detail yang lebih tajam di beberapa wilayah, terutama di sekitar leher, bahu, dan pakaian. Wilayah-wilayah ini relatif kasar tessellated dalam template FLAME dibandingkan dengan zona wajah yang memiliki saliensi tinggi (misalnya, daerah periokular).

‘Akibatnya, metode sebelumnya sering mengalokasikan terlalu sedikit 3D Gaussians ke wilayah-wilayah ini untuk menangkap detail skala kecil mereka dengan setia. Sebaliknya, strategi pertumbuhan adaptif kami meningkatkan jumlah Gaussians dan memperbarui hierarki hanya di mana diperlukan, membuat alokasi tidak sensitif terhadap tessellasi non-seragam FLAME.’

Penulis lebih lanjut menyatakan bahwa pendekatan mereka sebanding dengan metode state-of-the-art, menghasilkan avatar yang dapat digunakan dengan alokasi bandwidth yang sepele 5%:

Perbandingan kuantitatif pada sintesis pandangan baru dan sintesis ekspresi baru menggunakan PSNR, SSIM, dan LPIPS. Pada transmisi penuh, metode yang diusulkan mencapai PSNR tertinggi pada kedua tugas dan tetap kompetitif dengan GaussianAvatars pada metrik perseptual, sedangkan pengaturan 5% menggambarkan perdagangan kualitas di bawah kendala bandwidth yang ekstrem.

Perbandingan kuantitatif pada sintesis pandangan baru dan sintesis ekspresi baru menggunakan PSNR, SSIM, dan LPIPS. Pada transmisi penuh, metode yang diusulkan mencapai PSNR tertinggi pada kedua tugas dan tetap kompetitif dengan GaussianAvatars pada metrik perseptual, sedangkan pengaturan 5% menggambarkan perdagangan kualitas di bawah kendala bandwidth yang ekstrem.

Selanjutnya, peneliti menguji rendering progresif itu sendiri. Ini dilakukan pada NVIDIA RTX 4090, dengan 24Gb VRAM, pada resolusi 550x802px. Dalam skenario ini, penulis menunjukkan, anggaran 25% akan menggunakan semua ‘level 1’ Gaussians, serta subset dari Gaussians level 2, yang memberikan gambaran tentang cara kelompok Gaussians mengakumulasi detail dalam kelompok dengan nomor yang lebih tinggi, dan bahwa kelompok dengan nomor yang lebih rendah pada dasarnya membangun kanvas dasar:

Kinerja di bawah anggaran transmisi yang berbeda untuk sintesis pandangan baru dan sintesis ekspresi baru, menunjukkan bahwa kualitas secara bertahap mendekati atau melebihi GaussianAvatars karena lebih banyak Gaussians dan data yang disiarkan, sedangkan kecepatan waktu nyata dipertahankan, pada RTX 4090.

Kinerja di bawah anggaran transmisi yang berbeda untuk sintesis pandangan baru dan sintesis ekspresi baru, menunjukkan bahwa kualitas secara bertahap mendekati atau melebihi GaussianAvatars karena lebih banyak Gaussians dan data yang disiarkan, sedangkan kecepatan waktu nyata dipertahankan, pada RTX 4090.

Penulis mengomentari:

‘Dengan hanya 2,60 MB yang disiarkan (5% anggaran), avatar sudah mencapai kualitas yang wajar. Ketika Gaussians level yang lebih tinggi disiarkan, struktur halus seperti kancing baju, gigi, dan rambut secara bertahap menjadi tajam sementara stabilitas temporal dipertahankan.

‘Pada transmisi 100%, pendekatan kami mencapai kualitas rendering yang setara dengan metode SOTA. Namun, perlu dicatat bahwa dalam skenario VR multi-pengguna, jumlah 3D Gaussians akan tumbuh dengan cepat ke titik di mana rasterisasi GPU menjadi bottleneck. Dalam skenario yang lebih berat, pendekatan yang diusulkan menawarkan keuntungan dengan memungkinkan sistem untuk memperdagangkan jumlah primitif melawan kualitas visual, mengurangi beban tanpa menghancurkan render.’

Namun, penulis menunjukkan bahwa makalah ini tidak merinci, situs proyek menampilkan perbandingan tes tambahan, juga menampilkan proyek MeGA Hybrid mesh-Gaussian avatar:

Klik untuk memutar. Salah satu dari serangkaian video tambahan dari situs proyek makalah, ini membandingkan pendekatan baru dalam hal sintesis pandangan baru.

Kesimpulan

Gaussian Splatting mungkin atau mungkin tidak bertahan, atau bahkan diingat lebih dari RealPlayer sekarang, dalam kaitannya dengan fajar streaming interaktif: pengalaman perwakilan 3D yang sadar AI, termasuk video chat, belanja virtual, navigasi rute, dan aplikasi hiburan yang beragam. Bisa jadi teknologi atau pendekatan alternatif yang menang, atau bahwa GSplat membuktikan representasi video AI yang paling dapat diandalkan.

Jika tidak ada yang lain, makalah baru ini menandai sedikit dari cakupan domain baru ini, sambil mengingatkan kita, mungkin dengan rasa nostalgia, tentang internet yang kekurangan bandwidth di masa lalu.

 

* Dengan ‘3D’, saya tidak bermaksud pengalaman yang memerlukan kacamata khusus, tetapi lebih kepada pengalaman multimedia yang memiliki beberapa pemahaman tentang koordinat X/Y/Z.

Mula-mula diterbitkan pada hari Rabu, 18 Maret 2026

Penulis tentang machine learning, spesialis domain dalam sintesis gambar manusia. Mantan kepala konten penelitian di Metaphysic.ai.