Sztuczna inteligencja
NeRF: Wyzwanie edycji zawartości neuralnych pól promieniowania

Na początku tego roku NVIDIA rozwinęła badania nad neuralnymi polami promieniowania (NeRF) za pomocą InstantNeRF, który wydaje się być w stanie generować eksplorowalne sceny neuronowe w zaledwie kilka sekund – z techniki, która, gdy pojawiła się w 2020 roku, często zajmowała godziny lub nawet dni szkolenia.

NVIDIA’s InstantNeRF provides impressive and rapid results. Source: https://www.youtube.com/watch?v=DJ2hcC1orc4
Chociaż ten rodzaj interpolacji tworzy statyczną scenę, NeRF jest również w stanie przedstawiać ruch i podstawową edycję “kopiuj i wklej”, gdzie poszczególne NeRF mogą być łączone w sceny złożone lub wstawiane do istniejących scen.

Nested NeRFs, featured in 2021 research from Shanghai Tech University and DGene Digital Technology. Source: https://www.youtube.com/watch?v=Wp4HfOwFGP4
Jednak jeśli chcesz interweniować w obliczony NeRF i zmienić coś, co się w nim dzieje (w tym samym sposób, w jaki możesz zmienić elementy w tradycyjnej scenie CGI), szybki tempa zainteresowania sektora doprowadził do bardzo niewielu rozwiązań do tej pory, i żadnego, które nawet zaczynałoby dorównywać możliwościom przepływów pracy CGI.
Chociaż oszacowanie geometrii jest niezbędne do tworzenia sceny NeRF, ostateczny wynik składa się z dość “zablokowanych” wartości. Podczas gdy jest niektóry postęp w kierunku zmiany wartości tekstury w NeRF, rzeczywiste obiekty w scenie NeRF nie są parametrycznymi siatkami, które można edytować i manipulować, ale są bardziej podobne do kruchych i zamarzniętych chmur punktów.
W tym scenariuszu, wyrenderowana osoba w NeRF jest podstawowo posągiem (lub serią posągów, w wideo NeRF); cienie, które rzucają na siebie i inne obiekty, są teksturami, a nie elastycznymi obliczeniami opartymi na źródłach światła; i edytowalność zawartości NeRF jest ograniczona do wyborów dokonanych przez fotografa, który robi zdjęcia źródłowe, z których generowany jest NeRF. Parametry takie jak cienie i pozycja pozostają nieedytowalne w jakimkolwiek twórczym sensie.
NeRF-Edycja
Nowe badanie akademickie we współpracy między Chinami a Wielką Brytanią podejmuje to wyzwanie z NeRF-Edycją, gdzie proxy siatki CGI są wyodrębnione z NeRF, deformowane według uznania użytkownika, a deformacje są przekazywane z powrotem do obliczeń neuronalowych NeRF:

NeRF puppetry with NeRF-editing, as the deformations calculated from footage are applied to equivalent points inside a NeRF representation. Source: http://geometrylearning.com/NeRFEditing/
Metoda adaptuje technikę NeuS z 2021 roku, która wyodrębnia funkcję odległości podpisaną (SDF, znacznie starszą metodę rekonstrukcji objętościowej), która jest w stanie nauczyć się geometrii reprezentowanej wewnątrz NeRF.
Ten obiekt SDF staje się podstawą rzeźbienia użytkownika, z możliwościami zginania i kształtowania zapewnionymi przez technikę As-Rigid-As-Possible (ARAP).

ARAP allows users to deform the extracted SDF mesh, though other methods, such as skeleton-based and cage-based approaches (i.e. NURBs), would also work well. Source: https://arxiv.org/pdf/2205.04978.pdf
Z zastosowanymi deformacjami konieczne jest przetłumaczenie tej informacji z wektora na poziom RGB/piksel rodzimy dla NeRF, co jest nieco dłuższą podróżą.
Wierzchołki trójkątne siatki, które użytkownik zdeformował, są najpierw przetłumaczone na siatkę tetrahedralną, która tworzy skórę wokół siatki użytkownika. Wyodrębniono dyskretny deformacyjny pole przestrzenne z tej dodatkowej siatki, a ostatecznie otrzymano NeRF-przyjazne ciągłe pole deformacji, które może być przekazane z powrotem do środowiska neuronalnego promieniowania, odzwierciedlając zmiany i edycje użytkownika, i bezpośrednio wpływając na interpretowane promienie w docelowym NeRF.

Objects deformed and animated by the new method.
Artykuł stwierdza:
‘After transferring the surface deformation to the tetrahedral mesh, we can obtain the discrete deformation field of the “effective space”. We now utilize these discrete transformations to bend the casting rays. To generate an image of the deformed radiance field, we cast rays to the space containing the deformed tetrahedral mesh.’
Artykuł jest zatytułowany NeRF-Edycja: Edycja geometrii neuralnych pól promieniowania, i pochodzi od badaczy z trzech chińskich uniwersytetów i instytucji, wraz z badaczem ze Szkoły Informatyki i Nauk o Komputerze na Uniwersytecie w Cardiff, oraz dwoma innymi badaczami z grupy Alibaba.
Ograniczenia
Jak wcześniej wspomniano, przekształcona geometria nie “zaktualizuje” żadnych pokrewnych aspektów w NeRF, które nie zostały edytowane, ani nie odzwierciedli wtórnych konsekwencji zdeformowanego elementu, takich jak cienie. Badacze dostarczają przykład, w którym podcienie na figurze ludzkiej w NeRF pozostają niezmienione, nawet jeśli deformacja powinna zmienić oświetlenie:

From the paper: we see that the horizontal shadow on the figure’s arm remains in place even as the arm is moved upward.
Eksperymenty
Autorzy zauważają, że nie ma obecnie porównywalnych metod bezpośredniej interwencji w geometrię NeRF. Dlatego też eksperymenty przeprowadzone w ramach badań były bardziej eksploracyjne niż porównawcze.
Badacze zademonstrowali NeRF-Edycję na kilku publicznych zbiorach danych, w tym postaciach z Mixamo, oraz ikonicznym buldożerem Lego i krzesłem z oryginalnej implementacji NeRF. Eksperymentowali również na prawdziwie przechwyconym posągu konia ze zbioru FVS, a także na własnych oryginalnych przechwytach.

A horse’s head tilted.
W przyszłej pracy autorzy zamierzają rozwijać swój system w ramach just-in-time (JIT) skompilowanego frameworku machine learning Jittor.
Pierwotnie opublikowane 16 maja 2022.












