Bizimle iletişime geçin

Anderson'ın Açısı

1999'daki Gibi Yapay Zeka Avatarlarını Yayınlamak

mm
3DGS yüzlerini içeren Gaussian Avatar akışıyla ilgili görsellerden oluşan bir montaj. Kaynak: https://ustc3dv.github.io/ProgressiveAvatars/

Yeni bir araştırma, kullanıcıların büyük indirmelerin tamamlanmasını beklemesini gerektirmek yerine, neredeyse anında beliren ve gerçek zamanlı olarak netleşen gerçeğe yakın 3D avatarları yayınlamanın bir yolunu sunuyor.

 

Birçok açıdan, üretken yapay zekâ ve yapay zekâ destekli işleme sistemlerinin muazzam kaynak talepleri, tüketiciye hazır olma durumunu yirmi yıl veya daha fazla geriye götürdü. Sadece 2023'te, bir dizüstü veya masaüstü bilgisayarda 64 GB RAM tahsisi aşırıya kaçmak gibi görünüyordu; şimdi ise RAM ve/veya CPU yükünün boşaltılması64 GB, yerel yapay zeka ihtiyaçları için oldukça mütevazı; ve bilgisayarların bir zamanlar sıradan ve uygun fiyatlı olan bu unsurları, günümüzde de önemini koruyor. fiyat roketi Şirketler yapay zeka hizmetlerine olan talebi karşılamakta zorlanırken.

Yapay zekanın ve süreçlerinin ve ortamlarının ölçeği ve açgözlülüğü, genellikle tüketici düzeyindeki donanımları gölgede bırakır ve hatta 'basitleştirilmiş' yerel odaklı modelleri çalıştırmak bile... GGUF versiyonları Bu durum genellikle ortalama bir sistemi zorlayacaktır.

ChatGPT gibi metin tabanlı yapay zeka hizmetleri bile önemli gerilime maruz kalmak Hem istemci hem de sunucu düzeyinde. Bu nedenle, yapay zekâya gerçek zamanlı çevrimiçi multimedya deneyimleri sunma görevi verildiğinde, gecikme ve/veya kalite açısından çok ciddi ödünler verilmesini makul bir şekilde bekleyebiliriz – tıpkı internetin akışlı medya ile ilgili ilk mücadelelerinde ve çok nefret edilen animasyonlu 'arabelleğe alma' simgelerinde olduğu gibi. RealPlayer ve QuickTime.

Multimedya ve ağ sorunlarının kullanıcı deneyiminde sürtüşmeye yol açtığı son örnek, tüketici düzeyindeki donanımlardı. Moore Yasası aracılığıyla hala gelişmeye devam ediyorİşletim sistemleri, ağlar ve diğer destekleyici altyapılar talebi karşılamak için gelişirken, her yıl neredeyse katlanarak daha iyi hale geliyor; ve son on yıldır, aşağı yukarı, tüketici teknolojisinin yetenekleri multimedya taleplerini aşıyor (belki de müşteri kaybının artacağı noktaya kadar). başlatılması gerekiyordu satışları sürdürmek amacıyla).

Ancak yerel kapasitedeki bu fazlalık yakında sona erebilir, çünkü Yerel donanım daha düşük özellikli ve daha pahalı hale geliyor.Yapay zekâ tabanlı hizmetler daha yüksek sunucu tarafı ve yerel kaynaklara ihtiyaç duyduğundan.

Kafayı Bulmak

Geniş bant internetin olmadığı, hatta ilk kullanılabilir video yayınlarının ortaya çıkmasından önceki dönemde bile, web kullanıcıları görüntülerin yavaş yavaş netleşmesine alışkındı. aşamalı JPEG'ler Bu, internet bağlantısı kısıtlı kullanıcının indirilen görüntünün oluşumunu izlemesine olanak sağladı, bazen acı verici bir şekilde yavaşçaGörüntü verilerinin daha fazlası yerel olarak yüklendiğinde.

Görünüşe göre, yapay zeka destekli teknolojilerle de benzer bir deneyim yaşayabiliriz. Gaussian Splat avatarları:

Oynatmak için tıklayın.  Yeni ProgressiveAvatars projesinden, akışlı Gauss avatarlarının karşılaştırması. Solda, eski GaussianAvatars projesi yavaş yavaş yeni veriler alıyor ancak veriler biriktikçe görüntüsü berbatlaşıyor; sağda ise Progressive Avatars sürümü de yavaş yavaş detay ekliyor, ancak bunu akıllıca bir şekilde yaparak en başından itibaren temel bir insan benzerliği sağlıyor. Kaynak

Yukarıda, Gaussian Splat tabanlı (GSplat) bir avatarın iki versiyonunu görüyoruz; bu insan temsili, kısmen 1990'ların başlarına dayanan yapay zekâ dışı bir işleme tekniğiyle ve kısmen de daha modern yöntemlerle mümkün kılınmıştır. ALEV Parametrik insan modeli ve yapay zeka tabanlı eğitim yaklaşımları:

Gaussian Splatting, piksel veya voksel yerine renk ve 3 boyutlu bilgilerin Gauss gösterimini kullanır ve bu ultra gerçekçi dokuyu, FLAME ve STARR gibi sistemlerde 'parametrik insan', yani bir CGI yüz ve/veya vücut tarafından kolaylaştırılan daha geleneksel bir CGI ağ türüne eşler. Kaynak - https://arxiv.org/pdf/2312.02069.pdf

Gaussian Splatting, piksel veya voksel yerine renk ve 3 boyutlu bilgilerin Gauss temsilini kullanır ve bu ultra gerçekçi dokuyu, 'parametrik insan', yani bir CGI yüz ve/veya vücut tarafından kolaylaştırılan daha geleneksel bir CGI ağ türüne eşler. ALEV ve YILDIZ Kaynak

Yukarıdaki videonun solunda, Gauss dağılımlı avatarın geleneksel bir uygulamasının, verilerin yüklenmesini beklerken oldukça korkunç göründüğünü görebiliriz. Sağda ise Çin'den yeni bir uygulama yer alıyor ve bu uygulama "Gauss dağılımlı avatar" olarak adlandırılıyor. ProgressiveAvatarlarVeriler yüklenirken çok daha zarif bir şekilde çözümleme yapabiliyor ve en başından itibaren endişe yaratmayan, insana özgü bir görüntü sunuyor.

Yazarlar, yöntemlerinin Gauss tipi bir avatarı gerçekten 'akış halinde' işleyen ilk yöntem olduğunu ve kesinlikle bunu aşamalı bir şekilde yapan ilk yöntem olduğunu, görüntünün zarif bir şekilde oluşturulduğunu ve gözler ve dudaklar gibi en önemli alanların önceliklendirilebildiğini, böylece avatarın yalnızca kısmen yüklendiğinde bile konuşabilir hale gelebildiğini iddia ediyorlar:

Oynatmak için tıklayın. ProgressiveAvatars proje sitesinden, dikkat odaklı yüklemenin bir örneği.

Bundan önce, 'GSplat' avatarlarını inceltmek için yapılan önceki girişimlerde, video oyun optimizasyonlarına benzer şekilde, bir kişinin daha ayrıntılı sürümlerinin, görüntü alanının veya izleyicinin dikkatinin yeterince kaplayıp kaplamadığına göre yüklenmesini sağlayan bir 'ayrıntı düzeyi' (LOD) yaklaşımı kullanılmıştı.

Elbette, bu durum ciddi miktarda gereksiz 'yedek' avatar anlamına gelir ve yazarlar yaklaşımlarını daha rasyonel bir sistem olarak sunmaktadır. Dolayısıyla, bu tür bir yöntem, GSplat figüründe (yani özelleştirme) değişikliklerin çeşitli LOD 'ikizleri' zinciri üzerinden yayılmasına gerek kalmadan yapılmasını da mümkün kılar.

Yeni Ortaya Çıkan Bir Alan

Bu niş bir sorun gibi görünüyorsa, eskiden video yayıncılığı da öyleydi; ilk eklentilerin çalıştırılması en yakın bilgisayar uzmanına bırakılıyordu. Dahası, yapay zeka tabanlı yayın temsillerinin potansiyeli insan avatarlarının ötesine geçerek şunları kapsar: şehir nesli, oyunlarve hemen hemen her çevrimiçi alan adının 3 boyutlu* versiyonları – örneğin Sanal DenemeÖrneğin, kıyafet alışverişi için:

Oynatmak için tıklayın. 2024 yılına ait bir projeden, çevrimiçi "deneme"nin geleceğine dair kaba bir bakış. Diğer projeler ise hareket ve etkileşim eklemeyi hedefliyor; bu da akış ve yönetim açısından zorlu yönler anlamına geliyor. Kaynak

Tıpkı LOD tabanlı yaklaşımların bugüne kadar ağırlıklı olarak video oyunlarında kullanılmış olması gibi, bir zamanlar yalnızca oyun geliştirmenin alanı olan birçok diğer husus da splat tabanlı gösterimlere yansıyacaktır. Örneğin, bu erken GSplat çalışmalarının çoğu şunu tasvir eder: tek insan Yüz buruşturma ve mimikler, ya da belki konuşma; ancak birden fazla insanın yanı sıra çevresel özellikler ve ambiyansın da yer aldığı birçok duruma ihtiyaç duyulacak; bu senaryoda, izleyiciyi anın içinde tutmak için yüksek performanslı 'önceliklendirme' sistemleri, akış verilerinin nerede önceliklendirilmesi gerektiğini belirleyecektir.

MKS yeni kağıt başlıklı ProgressiveAvatars: Aşamalı Animasyonlu 3D Gauss AvatarlarıBu çalışma, Hefei'deki Çin Bilim ve Teknoloji Üniversitesi'nden üç araştırmacı tarafından geliştirilmiştir.

Yöntem

Bu yaklaşım başlangıçta bir kişinin başının videosundan yararlanır. Her kare için standart bir yöntem kullanılır. ALEV Parametrik yüz modeli, şekil ve ifadenin zaman içinde değişmesini sağlarken, altta yatan ağ yapısı sabit kalır. Temel topoloji değişmediği için, benzer önceki çalışmalarda olduğu gibi her an sıfırdan yeniden oluşturmak yerine, istikrarlı bir FLAME şablonu yeniden kullanılabilir ve iyileştirilebilir:

Öncelikle kafa videosuna takip edilen bir FLAME ağı yerleştirilir, ardından her yüze 3 boyutlu Gauss fonksiyonları eklenir ve ekran alanı gradyanlarının eksik ayrıntıları gösterdiği yerlerde hiyerarşik olarak büyütülür. Eğitim sırasında, bu uyarlanabilir alt bölümleme, çoklu görünüm denetimi altında çok seviyeli bir temsil oluşturur ve çıkarım aşamasında, yüz başına önem puanları hangi Gauss fonksiyonlarının önce yayınlanacağını belirler; bu da avatarın hızlı bir şekilde görünmesini ve daha yüksek ayrıntı seviyeleri eklendikçe kademeli olarak iyileşmesini sağlar.

Öncelikle kafa videosuna takip edilen bir FLAME ağı yerleştirilir, ardından her yüze 3 boyutlu Gauss fonksiyonları eklenir ve ekran alanı gradyanlarının eksik ayrıntıları gösterdiği yerlerde hiyerarşik olarak büyütülür. Eğitim sırasında, bu uyarlanabilir alt bölümleme, çoklu görünüm denetimi altında çok seviyeli bir temsil oluşturur ve çıkarım aşamasında, yüz başına önem puanları hangi Gauss fonksiyonlarının önce yayınlanacağını belirler; bu da avatarın hızlı bir şekilde görünmesini ve daha yüksek ayrıntı seviyeleri eklendikçe kademeli olarak iyileşmesini sağlar.

Bu temel yapının üzerine katmanlar halinde detaylar eklenir; yüzey örtük olarak bir hiyerarşiye bölünür ve her detay seviyesindeki yüzeylere küçük üç boyutlu Gauss fonksiyonları eklenir.

İlk kaba katmanlar genel kafa şeklini ve hareketini yakalarken, sonraki ince katmanlar kırışıklıkları, ince deformasyonları ve yüksek frekanslı dokuyu sağlar. Daha sonra bu Gauss dağılımlarından türetilebilir bir Gauss rasterleştirici kullanılarak görüntüler oluşturulur ve avatar gerçek kişinin görünümünü yeniden üretmeyi öğrenene kadar çoklu görünümden elde edilen gerçek görüntülerle eğitilir.

Eğitim sırasında bu hiyerarşi otomatik olarak büyür: daha fazla ayrıntıya ihtiyaç duyan bölgeler, ekran alanı sinyalleriyle yönlendirilerek daha da alt bölümlere ayrılır, böylece hesaplama çabası, izleyicinin gözünün hataları fark etme olasılığının en yüksek olduğu yerde yoğunlaşır.

Çıkarım sürecinde, aynı hiyerarşi şunları sağlar: aşamalı akışBu yöntemde, öncelikle bir avatarın kaba bir versiyonu görüntülenebilir ve ek katmanlar yüklendikçe, halihazırda gösterilenleri değiştirmeden yeni Gauss fonksiyonları eklenebilir; bu da hızlı bir şekilde ortaya çıkan ve daha fazla veri geldikçe daha keskin ve ayrıntılı hale gelen animasyonlu bir kafa avatarı sağlar.

Yazarlar, tüm sistemin gelen verilerin önceliklendirilmesine bağlı olduğunu belirtiyor:

Belirli bir seviyedeki tüm Gauss fonksiyonları mevcut olduğunda, tam model maksimum doğrulukla oluşturulur; ancak akış sırasında, en yüksek katkılı Gauss fonksiyonlarının önce gönderilmesi, erken kısmi sonuçların nihai görüntüyle yakından eşleşmesini sağlarken, düşük katkılı Gauss fonksiyonlarının önce iletilmesi renk dengesini bozar ve küçük bileşenleri vurgular.

Belirli bir seviyedeki tüm Gauss fonksiyonları mevcut olduğunda, tam model maksimum doğrulukla oluşturulur; ancak akış sırasında, en yüksek katkılı Gauss fonksiyonlarının önce gönderilmesi, erken kısmi sonuçların nihai görüntüyle yakından eşleşmesini sağlarken, düşük katkılı Gauss fonksiyonlarının önce iletilmesi renk dengesini bozar ve küçük bileşenleri vurgular.

Veriler ve Testler

Testler için yeni yöntem şu şekilde değerlendirildi: NeRSemble Her bir konu için çoklu görünüm videolarından oluşan ve tüm görünümlerde parametreleri kalibre edilmiş veri seti:

ProgressiveAvatars testlerinde kullanılan NeRSemble veri setinde yer alan konuların çeşitli yorumlarına dair örnekler. Kaynak - https://tobias-kirschstein.github.io/nersemble/

ProgressiveAvatars testlerinde kullanılan NeRSemble veri setinde yer alan konuların çeşitli yorumlarına dair örnekler. Kaynak

Orijinaline uygun olarak GaussianAvatarları Metodolojiye göre, görüntüler 802x550 piksele küçültüldü, bir ön plan maskesi oluşturuldu ve orijinal projenin eğitim/test verileri kullanıldı. bölmek kabul etti.

MKS Adam optimize edici Parametre güncellemeleri için kullanıldı, öğrenme oranı 1 × 10-2 Tüm ilgili barycentric Koordinatlar. Eğitim 60,000 yineleme boyunca devam etti ve hiyerarşi her 2,000 yinelemede otomatik olarak genişletildi.

Başlangıçta yazarlar şunları test ettiler: yeniden yapılandırma ve animasyon – FLAME'in teknolojisini kullanarak düz video görüntüsünü 3 boyutlu (x/y/x) bir sisteme dönüştürme görevi. standart Çapa ağı olarak CGI gösterimi kullanıldı. Bunun için tüm temel modeller sıfırdan eğitildi ve test edilen rakip çerçeveler yukarıda bahsedilen GaussianAvatars ve PointAvatar.

Bu testler için kullanılan ölçütler şunlardı: Tepe Sinyal-Gürültü Oranı (PSNR), Yapısal Benzerlik Endeksi (SSIM) ve Öğrenilmiş Algısal Görüntü Yama Benzerliği (LPIPS):

Yeni bakış açısı ve yeni ifade sentezi üzerine niteliksel karşılaştırma. Temel GaussianAvatars, göz çevresi, kırışıklıklar ve cilt dokusu gibi ince detaylarda zorlanırken, önerilen yöntem iletilen verilerin yaklaşık yüzde beşinde temel yüz yapısını koruyor ve daha fazla Gauss eğrisi aktarıldıkça gerçek değere yakınsayarak tam model ve referans görüntülerle (gerçek değer) yakından eşleşiyor.

Yeni bakış açısı ve yeni ifade sentezi üzerine niteliksel karşılaştırma. Temel GaussianAvatars, göz çevresi, kırışıklıklar ve cilt dokusu gibi ince detaylarda zorlanırken, önerilen yöntem iletilen verilerin yaklaşık yüzde beşinde temel yüz yapısını koruyor ve daha fazla Gauss eğrisi aktarıldıkça gerçek değere yakınsayarak tam model ve referans görüntülerle (gerçek değer) yakından eşleşiyor.

Yazarlar bu sonuçlarla ilgili olarak şunları iddia ediyorlar:

'[Bizim] yöntemimiz, özellikle boyun, omuzlar ve giysiler çevresindeki çeşitli bölgelerde daha keskin ayrıntıları yeniden oluşturur. Bu alanlar, yüksek belirginliğe sahip yüz bölgelerine (örneğin, göz çevresi bölgesi) kıyasla FLAME şablonunda nispeten daha kaba bir şekilde mozaiklenmiştir.'

'Sonuç olarak, önceki yöntemler genellikle bu bölgelere ince ölçekli detaylarını doğru bir şekilde yakalamak için çok az sayıda 3D Gauss dağılımı ayırır. Buna karşılık, uyarlanabilir büyüme stratejimiz Gauss dağılımlarının sayısını artırır ve hiyerarşiyi yalnızca ihtiyaç duyulan yerlerde iyileştirir; bu da dağılımı FLAME'in tekdüze olmayan mozaiklemesinden etkilenmez hale getirir.'

Yazarlar ayrıca yaklaşımlarının en gelişmiş yöntemlerle aynı düzeyde olduğunu ve önemsiz bir %5 bant genişliği sınırlamasıyla işlevsel bir avatar ürettiğini belirtiyorlar:

PSNR, SSIM ve LPIPS kullanılarak yeni görünüm sentezi ve yeni ifade sentezi üzerine nicel karşılaştırma. Tam iletimde, önerilen yöntem her iki görevde de en yüksek PSNR'ye ulaşır ve algısal ölçütlerde GaussianAvatars ile rekabet edebilir durumda kalırken, %5 ayarı aşırı bant genişliği kısıtlamaları altında kalite dengesini göstermektedir.

PSNR, SSIM ve LPIPS kullanılarak yeni görünüm sentezi ve yeni ifade sentezi üzerine nicel karşılaştırma. Tam iletimde, önerilen yöntem her iki görevde de en yüksek PSNR'ye ulaşır ve algısal ölçütlerde GaussianAvatars ile rekabet edebilir durumda kalırken, %5 ayarı aşırı bant genişliği kısıtlamaları altında kalite dengesini göstermektedir.

Ardından araştırmacılar, aşamalı işlemeyi test ettiler. Bu test, 24 GB VRAM'e sahip bir NVIDIA RTX 4090 üzerinde, 550x802 piksel çözünürlükte gerçekleştirildi. Yazarlar, bu senaryoda %25'lik bir bütçenin tüm 'seviye 1' Gauss dağılımlarını ve ayrıca seviye 2 Gauss dağılımlarının bir alt kümesini kullanacağını belirtiyorlar; bu da Gauss gruplarının daha yüksek numaralı gruplarda nasıl detay biriktirdiğine ve daha düşük numaralı grupların esasen temel tuvali nasıl oluşturduğuna dair kaba bir genel bakış sağlıyor.

Yeni görünüm ve yeni ifade sentezi için farklı iletim bütçeleri altındaki performans, daha fazla Gauss fonksiyonu ve veri akışı sağlandıkça kalitenin sürekli olarak GaussianAvatars'a yaklaştığını veya onu aştığını, aynı zamanda gerçek zamanlı hızların da RTX 4090 üzerinde korunduğunu göstermektedir.

Yeni görünüm ve yeni ifade sentezi için farklı iletim bütçeleri altındaki performans, daha fazla Gauss fonksiyonu ve veri akışı sağlandıkça kalitenin sürekli olarak GaussianAvatars'a yaklaştığını veya onu aştığını, aynı zamanda gerçek zamanlı hızların da RTX 4090 üzerinde korunduğunu göstermektedir.

Yazarlar yorum:

'Sadece 2.60 MB veri aktarımıyla (%5 bütçe), avatar zaten makul bir kaliteye ulaşıyor. Daha yüksek seviyeli Gauss fonksiyonları aktarıldıkça, gömlek düğmeleri, dişler ve saç gibi ince yapılar kademeli olarak keskinleşirken zamansal istikrar korunuyor.'

'Yüzde 100 iletimde, yaklaşımımız en gelişmiş yöntemlerle karşılaştırılabilir bir işleme kalitesi elde ediyor. Özellikle, kare hızlarında önemli bir düşüş yaşanmıyor; bunun nedeni muhtemelen 3DGS iş yükünün henüz GPU'yu doyurmamış olmasıdır.'

Ancak yazarlar, çok kullanıcılı VR senaryolarında 3D Gauss fonksiyonlarının sayısının hızla artarak GPU rasterleştirmesinin darboğaz haline geleceğine dikkat çekiyorlar. Bu daha yoğun senaryolarda, önerilen yaklaşım, sistemin görsel kalite ile temel öğelerin sayısı arasında bir denge kurmasına olanak tanıyarak, render işlemini çökertmeden yükü hafifletme avantajı sunuyor.

Makalede ayrıntılı olarak yer almasa da, proje sitesinde ayrıca şu özellikleri de içeren ek test karşılaştırmaları bulunmaktadır: Mega Hibrit ağ-Gauss avatar projesi:

Oynatmak için tıklayın. Makaleye eşlik eden proje sitesindeki ek videolar serisinden biri olan bu video, yeni yaklaşımı yeni görüş sentezi açısından karşılaştırıyor.

Sonuç

Gaussian Splatting'in, etkileşimli yayıncılığın başlangıcıyla ilgili olarak, RealPlayer'dan daha fazla hatırlanıp hatırlanmayacağı veya kalıcı olup olmayacağı belirsizdir: Yapay zeka destekli veya yapay zeka odaklı 3 boyutlu temsili deneyimler, video sohbeti, sanal alışveriş, rota navigasyonu ve çeşitli eğlence uygulamaları dahil. Alternatif teknolojilerin veya yaklaşımların galip gelmesi veya GSplat'in en güvenilir yapay zeka video temsili olması da mümkündür.

En azından bu ilginç yeni makale, bu yeni alanın kapsamına dair küçük bir ipucu verirken, belki de nostaljik bir şekilde, geçmişteki bant genişliği sıkıntısı çeken interneti hatırlatıyor.

 

* '3D' derken, özel gözlük gerektiren türden bir deneyimi değil, multimedya içeriğinin X/Y/Z koordinatlarını bir şekilde anladığı deneyimleri kastediyorum.

İlk yayın tarihi Çarşamba, 18 Mart 2026

Makine öğrenimi yazarı, insan görüntü sentezi alanında uzman. Metaphysic.ai'de eski araştırma içeriği başkanı.
Kişisel sitesi: martinanderson.ai
İletişim [e-posta korumalı]
Twitter: @manders_ai