Connect with us

ST-NeRF: Video Sentezleme için Bileşim ve Düzenleme

Yapay Zekâ

ST-NeRF: Video Sentezleme için Bileşim ve Düzenleme

mm
ST-NeRF

Bir Çin araştırma konsorsiyumu, son yılın en sıcak görüntü sentez araştırma alanlarından biri olan Nöral Radyans Alanları’na (NeRF) düzenleme ve bileşim yetenekleri getirmek için teknikler geliştirdi. Sistem, ST-NeRF (Uzay-Zamansal Uygun Nöral Radyans Alanı) olarak adlandırılmaktadır.

Aşağıdaki görüntüde görünen fiziksel kamera panoramik görünümü, aslında bir kullanıcının 4D uzayda var olan video içeriğinin bakış açılarını “kaydırması”dır. Görünüm, video中的 insanların performansına kilitlenmemiştir ve onların hareketleri 180 derecelik yarıçapın herhangi bir noktasından görülebilir.

Her bir video içindeki facet, ayrı ayrı yakalanan bir öğedir ve birleşik bir sahneye bileşik olarak birleştirilir ve dinamik olarak keşfedilebilir.

Facetler, sahne içinde serbestçe kopyalanabilir veya yeniden boyutlandırılabilir:

Ayrıca, her bir facetin zaman davranışını kolayca değiştirmek, yavaşlatmak, geriye çalıştırmak veya çeşitli şekillerde manipüle etmek mümkündür, bu da filtre mimarilerine ve çok yüksek bir yorumlanabilirlik seviyesine yol açar.

İki ayrı NeRF faceti aynı sahne içinde farklı hızlarda çalışıyor. Kaynak: https://www.youtube.com/watch?v=Wp4HfOwFGP4

İki ayrı NeRF faceti aynı sahne içinde farklı hızlarda çalışıyor. Kaynak: https://www.youtube.com/watch?v=Wp4HfOwFGP4

Sanal ortamı veya performansçıları rotoskoplamak veya performansçıların hareketlerini amaçlanan sahnenin bağlamı dışında ve kör olarak gerçekleştirmek gerekmez. Bunun yerine, görüntüler doğal olarak 180 dereceyi kapsayan 16 video kameradan oluşan bir dizi ile kaydedilir:

16 kamera ST-NeRF

Üstteki üç öğe, iki insan ve çevre, ayrıntılıdır ve yalnızca açıklama amacıyla çizilmiştir. Her biri değiştirilebilir ve her biri kendi yakalama zaman çizelgesinin daha önceki veya daha sonraki bir noktasında sahneye eklenebilir.

Üstteki üç öğe, iki insan ve çevre, ayrıntılıdır ve yalnızca açıklama amacıyla çizilmiştir. Her biri değiştirilebilir ve her biri kendi yakalama zaman çizelgesinin daha önceki veya daha sonraki bir noktasında sahneye eklenebilir.

ST-NeRF, Nöral Radyans Alanları (NeRF) alanında bir yeniliktir, bu, çoklu bakış açısı yakalamalarının navigasyonlu bir sanal uzaya sentezlenmesi için bir makine öğrenimi çerçevesidir (ancak tek bakış açısı yakalama da NeRF araştırmasının bir alt bölümüdür).

Nöral Radyans Alanları, birden çok bakış açısı yakalamalarını tek bir tutarlı ve navigasyonlu 3D uzaya birleştirir, kapsama arasındaki boşluklar bir nöral ağ tarafından tahmin edilir ve oluşturulur. Video (durağan görüntüler yerine) kullanıldığında, gerekli oluşturma kaynakları genellikle önemli miktarda olur. Kaynak: https://www.matthewtancik.com/nerf

Nöral Radyans Alanları, birden çok bakış açısı yakalamalarını tek bir tutarlı ve navigasyonlu 3D uzaya birleştirir, kapsama arasındaki boşluklar bir nöral ağ tarafından tahmin edilir ve oluşturulur. Video (durağan görüntüler yerine) kullanıldığında, gerekli oluşturma kaynakları genellikle önemli miktarda olur. Kaynak: https://www.matthewtancik.com/nerf

NeRF’e ilgi son dokuz ayda yoğunlaştı ve Reddit tarafından yönetilen bir liste türetilmiş veya keşfedici NeRF makaleleri şu anda altmış projeyi listelemektedir.

 

Orijinal NeRF makalesinin yalnızca birkaç türetilmiş çalışması. Kaynak: https://crossminds.ai/graphlist/nerf-neural-radiance-fields-ai-research-graph-60708936c8663c4cfa875fc2/

Orijinal NeRF makalesinin yalnızca birkaç türetilmiş çalışması. Kaynak: https://crossminds.ai/graphlist/nerf-neural-radiance-fields-ai-research-graph-60708936c8663c4cfa875fc2/

Makul Eğitim

Makale, Shanghai Tech Üniversitesi ve DGene Digital Technology araştırmacıları arasındaki bir işbirliğidir ve Open Review‘da kabul edilmiştir.

ST-NeRF, önceki girişimlere kıyasla several yenilikler sunmaktadır. En önemlisi, yalnızca 16 kamera ile yüksek gerçeklik seviyesine ulaşır. Facebook’un DyNeRF iki kamera daha kullanmasına rağmen, çok daha kısıtlı bir navigasyonlu yay sunar.

Facebook'un DyNeRF ortamının bir örneği, daha sınırlı bir hareket alanı ve sahneyi yeniden oluşturmak için daha fazla kamera gerektirir. Kaynak: https://neural-3d-video.github.io

Facebook’un DyNeRF ortamının bir örneği, daha sınırlı bir hareket alanı ve sahneyi yeniden oluşturmak için daha fazla kamera gerektirir. Kaynak: https://neural-3d-video.github.io

DyNeRF, ayrıca bireysel facetleri düzenleme ve bileşim yeteneğinden yoksundur ve hesaplama kaynakları açısından çok pahalıdır. Çinli araştırmacılar, kendi verilerinin eğitim maliyetinin 900-3000 dolar arasında olduğunu belirtirken, DVDGAN video üretim modeli için 30.000 dolar ve yoğun sistemler gibi DyNeRF için gereklidir.

İncelleyenler ayrıca ST-NeRF’in hareket öğrenme sürecini görüntü sentezleme sürecinden ayırarak önemli bir yenilik yaptığını belirttiler. Bu ayrılma, düzenleme ve bileşimi mümkün kılar, önceki yaklaşımlar daha kısıtlayıcı ve lineerdir.

Araştırmacılar, 16 kameranın böyle bir tam daire görünümü için çok sınırlı bir dizi olduğunu umuyor ve gelecekteki çalışmalarında daha fazla proxy ön-taranan statik arka planlar ve daha veri odaklı sahne modelleme yaklaşımları kullanarak bu sayıyı azaltmayı planlıyorlar. Ayrıca, NeRF araştırmasındaki recent bir yenilik olan yeniden aydınlatma yeteneklerini entegre etmeyi umuyorlar.

ST-NeRF’in Sınırlılıklarını Giderme

Bilgisayar bilimi akademik makalelerinin genellikle yeni bir sistemin kullanılabilirliğini atlayan son paragrafında, ST-NeRF için araştırmacıların kabul ettiği sınırlılıklar bile alışılmadık şekilde önemlidir.

Araştırmacılar, sistemin şu anda sahnedeki belirli nesneleri ayrı ayrı tanımlayamadığını ve ayrı ayrı oluşturamadığını gözlemlemektedir, çünkü görüntüdeki insanlar insanları tanıyan bir sistem tarafından bireysel varlıklar olarak segmentlenmektedir – YOLO ve benzeri çerçevelerle kolayca çözülebilecek bir sorun, insan videosunun çıkarılması zaten yapılmıştır.

Araştırmacılar, şu anda yavaş hareket oluşturulamadığını not eder, ancak mevcut yeniliklerin, örneğin DAIN ve RIFE gibi çerçeve aralıklarının uygulanmasıyla bunu engelleyen hiçbir şey yoktur.

Tüm NeRF uygulamalarında ve bilgisayar görüşü araştırmasının diğer birçok alanında olduğu gibi, ST-NeRF, konunun başka bir kişi veya nesne tarafından geçici olarak engellendiği durumlarda başarısız olabilir ve sürekli takip edilmesi veya sonrasında doğru bir şekilde yeniden edinilmesi zor olabilir. Araştırmacılar, bu zorluğun akış yukarıdaki çözümleri beklemesi gerektiğini kabul etmektedir. Araştırmacılar, bu engellenen karelerde manuel müdahale gerektiğini kabul etmektedir.

Son olarak, araştırmacılar, insan segmentasyon prosedürlerinin şu anda renk farklılıklarına dayandığını ve iki kişinin istemeden bir segmentasyon bloğuna birleştirilebileceğini gözlemlemektedir – bu, yalnızca ST-NeRF ile sınırlı olmayan, kullanılan kütüphaneye özgü bir engel, ancak optik akış analizi ve ortaya çıkan diğer tekniklerle çözülebilecek bir engel.

7 Mayıs 2021’de ilk kez yayımlandı.

Makine öğrenimi üzerine yazar, insan görüntü sentezinde alan uzmanı. Metaphysic.ai'de eski araştırma içeriği başkanı.
Kişisel site: martinanderson.ai
İletişim: [email protected]