Connect with us

Akıllı Canavarlar gibi 1999 Yılında Akış

Anderson’un Açısı

Akıllı Canavarlar gibi 1999 Yılında Akış

mm
Montage of images related to Gaussian Avatar streaming, featuring 3DGS faces. Source: https://ustc3dv.github.io/ProgressiveAvatars/

Yeni bir araştırma, neredeyse anında görünen ve gerçek zamanlı olarak netleşen gerçekçi 3B avatarları akışını sağlayan bir yöntemi sunuyor. Bu, kullanıcıların büyük indirme işlemlerinin tamamlanmasını beklemek zorunda kalmalarına son veriyor.

 

Generatif AI ve AI destekli rendering sistemlerinin devasa kaynak talepleri, tüketici hazır olma durumunu yirmi yılı aşkın bir süredir geriye götürdü. 2023 yılında, bir dizüstü veya masaüstü bilgisayarda 64GB RAM ayırması aşırı görünüyordu; şimdi, artan RAM ve/veya CPU offloading popülerliği ile birlikte, 64GB, yerel AI ihtiyaçları için oldukça mütevazı görünüyor ve bu bir zamanlar banal ve ucuz PC bileşenleri, AI hizmetleri talebini karşılamak için şirketlerin mücadele ettiği için fiyatları roket gibi artmaya devam ediyor.

AI ve süreçlerinin ve ortamlarının ölçeği ve açgözlülüğü genellikle tüketici düzeyindeki donanımı gölgede bırakıyor ve hatta yerel olarak yönlendirilmiş modelleri GGUF sürümleri olarak çalıştırırken bile ortalama sistemi germeye neden oluyor.

Metin tabanlı AI hizmetleri gibi ChatGPT bile hem istemci hem de sunucu düzeyinde önemli bir gerilime tabi.

Dolayısıyla, AI’nin gerçek zamanlı olarak çevrimiçi çoklu ortam deneyimleri sunması görevi verildiğinde, beklenenden daha ciddi gecikme ve/veya kalite tavizleri bekleyebiliriz – benzer şekilde, internetin erken günlerinde çoklu ortam akışı ile ilgili sorunlar ve RealPlayer ve QuickTime’ın çok sevilmeyen animasyonlu “tamponlama” simgeleri.

Son kez, çoklu ortam ve ağ sorunlarının kullanıcı deneyimi açısından sürtüşme yaratması, tüketici düzeyindeki donanımın hala Moore Yasası aracılığıyla gelişmekte olduğu bir döneme denk geliyordu.

Ama bu yerel yetenek fazlası possibly yakın zamanda sona erebilir, yerel donanım daha düşük özellikli ve daha pahalı hale gelirken ve AI tabanlı hizmetler sunucu tarafı ve yerel kaynaklar açısından daha yüksek taleplerde bulunmaya başlarken.

Bir Başlangıç

Geniş bant öncesi dönemde, hatta en erken kullanılabilir video akışından önce, web kullanıcıları, progressive JPEG’lerin yavaş yavaş netleşmesini izlemeye alışıktı.

Şimdi, benzer bir deneyimle karşı karşıya kalabiliriz:

Çalma Yeni ProgressiveAvatars projesinden, akışlı Gauss avatarlarının karşılaştırılması.

Yukarıda, iki Gauss Splat tabanlı avatar görüyoruz.

Gaussian Splatting, bir piksel veya voxel yerine renk ve 3B bilgi için Gaussian bir temsil kullanır ve bu ultra-gerçekçi dokuyu daha geleneksel bir CGI ağına haritalar.

Gaussian Splatting, bir piksel veya voxel yerine renk ve 3B bilgi için Gaussian bir temsil kullanır ve bu ultra-gerçekçi dokuyu daha geleneksel bir CGI ağına haritalar. Kaynak

Sol taraftaki video, geleneksel bir Gaussian Splat avatar uygulamasını gösteriyor.

Yeni bir uygulama, ProgressiveAvatars, daha elegan bir şekilde netleşiyor.

Yazarlar, yöntemlerinin真正 olarak akışlı olduğunu ve kısmen yüklenen avatarların sohbet edebilir hale gelebileceğini iddia ediyorlar.

ÇalmaProgressiveAvatars projesi sitesinden, dikkat odaklı yükleme illüstrasyonu.

Önceki çalışmalarda, ‘detay seviyesi’ yaklaşımı kullanılmıştı.

Yazarlar, yaklaşımının daha mantıklı olduğunu söylüyorlar.

Yeni Bir Alan

Eğer bu bir niş sorun gibi görünüyorsa, video akışı da benzer bir şekildeydi.

AI tabanlı akışlı temsil potansiyeli, insan avatarlarının ötesine geçiyor.

Çalma 2024 projesinden, online ‘deneme’ nin geleceğine dair bir bakış.

Yöntem

Yöntem, bir kişinin başının videosundan yararlanıyor.

Her kare için, bir FLAME parametrik yüz modeli uyuyor.

Baş videosu önce bir FLAME mesh ile uyuyor, ardından her yüzeye 3B Gaussians ekleniyor ve hiyerarşik olarak büyüyor.

Baş videosu önce bir FLAME mesh ile uyuyor, ardından her yüzeye 3B Gaussians ekleniyor ve hiyerarşik olarak büyüyor.

Yöntem, Gaussians’ın hiyerarşik olarak büyümesini sağlıyor.

Veri ve Testler

Testler, NeRSemble veri seti üzerinde yapıldı.

Testlerde kullanılan NeRSemble veri setinden örnekler.

Testlerde kullanılan NeRSemble veri setinden örnekler. Kaynak

Yazarlar, sonuçları şöyle yorumluyor:

‘[Önerilen] yöntem, özellikle boyun, omuzlar ve kıyafetler gibi bölgelerde daha keskin detaylar tái yaratıyor.

Yazarlar, approach’un, Gaussians’ın sayısını ve hiyerarşisini uyarlayarak, daha iyi bir performans sağladığını söylüyorlar.

Sonuç

Gaussian Splatting, akıllı canavarlar gibi 1999 yılında akışın bir parçası olabilir.

Bu yeni alan, AI destekli 3B temsil deneyimlerini içeriyor.

İlgili makale, ProgressiveAvatars: Progressive Animatable 3D Gaussian Avatars başlığını taşıyor ve Çin’deki üç araştırmacı tarafından yazılmıştır.

 

* 3B, özel gözlük gerektirmeyen, X/Y/Z koordinatlarına sahip multimedya deneyimleri anlamına geliyor.

İlk olarak 18 Mart 2026 Çarşamba günü yayınlandı

Makine öğrenimi üzerine yazar, insan görüntü sentezinde alan uzmanı. Metaphysic.ai'de eski araştırma içeriği başkanı.
Kişisel site: martinanderson.ai
İletişim: [email protected]