Connect with us

Sztuczna inteligencja

Nowy CGI: Tworzenie neuralowych sąsiedztw z Block-NeRF

mm

Neuralne pola promieniowania (NeRF) pozwalają na odtworzenie i eksplorację obiektów wewnątrz sieci neuronowych, używając tylko zdjęć z wielu punktów widzenia jako dane wejściowe, bez złożoności i kosztów tradycyjnych metod CGI.

Jednak proces ten jest obciążający obliczeniowo, co początkowo ograniczało środowiska NeRF do modeli stołowych. Niemniej jednak, NeRF został przyjęty przez poświęconą, a nawet gorącą społeczność badawczą, która w ciągu ostatniego roku włączyła rekonstrukcje zewnętrzne, a także edytowalne neuralowe ludzie, oprócz wielu innych innowacji.

Teraz nowa inicjatywa badawcza, w której uczestniczy Google Research, rozpoznaje możliwe twarde ograniczenia optymalizacji NeRF i koncentruje się zamiast tego na łączeniu środowisk NeRF w celu tworzenia na żądanie sąsiedztw składających się z wielu współrzędnych instancji NeRF.

Widok z sieci Block-NeRF połączonych NeRF. Zobacz dołączony film na końcu artykułu, a także link do źródła dla pełnych, wysokiej rozdzielczości filmów uzupełniających. Źródło: https://waymo.com/research/block-nerf/

Widok z sieci Block-NeRF połączonych NeRF. Zobacz dołączony film na końcu artykułu, a także link do źródła dla pełnych, wysokiej rozdzielczości filmów uzupełniających. Źródło: https://waymo.com/research/block-nerf/

Poruszanie się po sieci połączonych NeRF efektywnie sprawia, że NeRF staje się skalowalny i modułowy, zapewniając środowiska, które można nawigować, a które ładują dodatkowe części sąsiedztwa, gdy są potrzebne, w sposób podobny do metod optymalizacji zasobów w grach wideo, gdzie to, co jest za rogiem, rzadko jest ładowane, dopóki nie staje się jasne, że środowisko będzie potrzebne.

W ramach dużego wysiłku, aby rozłączyć oddzielne aspekty, takie jak pogoda i godzina, Block-NeRF wprowadza również “kody wyglądu”, co pozwala na dynamiczną zmianę czasu dnia:

Zmiana czasu dnia z Block-NeRF. Zobacz dołączony film na końcu artykułu, a także link do źródła dla pełnych, wysokiej rozdzielczości filmów uzupełniających. Źródło: https://waymo.com/research/block-nerf/

Zmiana czasu dnia z Block-NeRF. Zobacz dołączony film na końcu artykułu, a także link do źródła dla pełnych, wysokiej rozdzielczości filmów uzupełniających. Źródło: https://waymo.com/research/block-nerf/

Nowy artykuł sugeruje, że optymalizacja NeRF zbliża się do własnego limitu termicznego, i że przyszłe wdrożenia środowisk promieniowania neuronowego w rzeczywistości wirtualnej, innych typach interaktywnych sfer i pracy VFX, prawdopodobnie będą zależeć od operacji równoległych, podobnie jak Prawo Moore’a ostatecznie ustąpiło miejsca architekturze wielordzeniowej, optymalizacjom równoległym i nowym podejściom do buforowania.

Autorzy artykułu (pt. Block-NeRF: Skalowalna synteza widoku neuronowego dla dużych scen) użyli 2,8 miliona obrazów, aby stworzyć największą scenę neuronową, jaką kiedykolwiek próbowano – serię sąsiedztw w San Francisco.

Block-NeRF nawiguje przez katedrę Grace w San Francisco. Zobacz dołączony film na końcu artykułu, a także link do źródła dla pełnych, wysokiej rozdzielczości filmów uzupełniających. Źródło: https://waymo.com/research/block-nerf/

Block-NeRF nawiguje przez katedrę Grace w San Francisco. Zobacz dołączony film na końcu artykułu, a także link do źródła dla pełnych, wysokiej rozdzielczości filmów uzupełniających. Źródło: https://waymo.com/research/block-nerf/

Głównym autorem artykułu, reprezentującym UC Berkley, jest Matthew Tancik, współwynalazca pól promieniowania neuronowego, który wykonał tę pracę jako stażysta w firmie Waymo, która rozwija technologie samochodów autonomicznych, i jest gospodarzem strony projektu. Inicjatywa ta oferuje także przegląd filmu na YouTube, dołączony na końcu tego artykułu, a także wiele przykładowych i uzupełniających filmów na stronie projektu.

Artykuł jest współautorski kilku innych twórców NeRF, w tym Ben Mildenhall (Google Research), Pratul P. Srinivasan (Google Research) i Jonathan T. Barron (Google Research). Pozostali współautorzy to Vincent Casser, Xinchen Yan, Sabeek Pradhan, Henrik Kretzschmar i Vincent Casser, wszyscy z Waymo.

Block-NeRF został opracowany głównie jako badanie środowisk wirtualnych dla systemów pojazdów autonomicznych, w tym samochodów i dronów.

Droga Embarcadero z punktu widzenia 180 stopni w Block-NeRF. Zobacz dołączony film na końcu artykułu, a także link do źródła dla pełnych, wysokiej rozdzielczości filmów uzupełniających. Źródło: https://waymo.com/research/block-nerf/

Droga Embarcadero z punktu widzenia 180 stopni w Block-NeRF. Zobacz dołączony film na końcu artykułu, a także link do źródła dla pełnych, wysokiej rozdzielczości filmów uzupełniających. Źródło: https://waymo.com/research/block-nerf/

Inne czynniki, które można dynamicznie zmienić w Block-NeRF, to przysłona obiektywu (zobacz obraz powyżej), pogoda i pory roku.

Jednak zmiana pory roku może powodować powiązane zmiany w środowisku, takie jak drzewa bez liści, co wymaga jeszcze bardziej obszernych danych wejściowych niż te, które zostały zbudowane dla Block-NeRF. Artykuł stwierdza:

‘[Liście] zmieniają się sezonowo i poruszają się na wietrze; w wyniku czego powstają rozmyte przedstawienia drzew i roślin. Podobnie, niezgodności czasowe w danych szkoleniowych, takie jak prace budowlane, nie są obsługiwane automatycznie i wymagają ręcznego przeszkolenia dotkniętych bloków.’

Apokaliptyczne renderowanie

Jeśli spojrzysz na dołączony film na końcu, zauważysz Walking Dead-style pustość w sieci Block-NeRF. Z różnych powodów, nie tylko aby zapewnić symulowane środowisko startowe dla systemów robotycznych, samochodów, pieszych i innych obiektów przejściowych, które zostały celowo wyłączone z materiału źródłowego, ale pozostawiło to pewne artefakty, takie jak cienie “usuniętych” zaparkowanych pojazdów:

Cień fantomowy usuniętego samochodu. Źródło: https://waymo.com/research/block-nerf/

Cień fantomowy usuniętego samochodu. Źródło: https://waymo.com/research/block-nerf/

Aby uwzględnić różne środowiska oświetleniowe, takie jak dzień lub noc, sieci zostały przeszkolone, aby uwzględnić rozłączone strumienie danych dotyczące każdego pożądanego stanu. Na poniższym obrazie widać strumienie przyczynkowe dla filmu Block-NeRF z autostrady w dzień i w nocy:

Strumienie na żądanie za pozornie 'upieczonym' renderowaniem Block-NeRF, pozwalające użytkownikowi włączyć noc, gdy jest potrzebna. Źródło: https://waymo.com/research/block-nerf/

Strumienie na żądanie za pozornie ‘upieczonym’ renderowaniem Block-NeRF, pozwalające użytkownikowi włączyć noc, gdy jest potrzebna. Źródło: https://waymo.com/research/block-nerf/

Uwagi środowiskowe i etyczne

W ciągu ostatnich kilku lat, zgłoszenia badawcze zaczęły zawierać zastrzeżenia i ostrzeżenia dotyczące możliwych skutków etycznych i środowiskowych proponowanej pracy. W przypadku Block-NeRF, autorzy zauważają, że wymagania energetyczne są wysokie, i że uwzględnienie krótkotrwałych i długotrwałych obiektów przejściowych (takich jak liście na drzewach i prace budowlane) wymagałoby regularnego przeskanowania danych źródłowych, co prowadziłoby do zwiększonej “inwigilacji” w obszarach miejskich, których modele neuronowe muszą być utrzymane w aktualności.

Autorzy stwierdzają:

‘W zależności od skali, na jakiej ta praca jest stosowana, jej wymagania obliczeniowe mogą prowadzić do lub pogorszyć szkody środowiskowe, jeśli energia użyta do obliczeń prowadzi do zwiększonych emisji dwutlenku węgla. Jak wspomniano w artykule, przewidujemy dalszą pracę, taką jak metody buforowania, które mogą zmniejszyć wymagania obliczeniowe i tym samym złagodzić szkody środowiskowe.’

W odniesieniu do inwigilacji, kontynuują:

‘Przyszłe zastosowania tej pracy mogą wymagać jeszcze większych wysiłków zbierania danych, co podnosi dalsze obawy dotyczące prywatności. Chociaż szczegółowe obrazy publicznych dróg można już znaleźć w usługach takich jak Google Street View, nasza metoda mogłaby promować częstsze i regularne skanowanie środowiska. Niektóre firmy w branży samochodów autonomicznych są również znane z tego, że wykonują regularne skanowania obszaru przy użyciu floty pojazdów; jednak niektóre z nich mogą wykorzystywać tylko skanowanie LiDAR, które może być mniej wrażliwe niż zbieranie obrazów z kamery.’

Metody i rozwiązania

Poszczególne środowiska NeRF mogą być skalowane w dół, teoretycznie, do dowolnego rozmiaru przed zmontowaniem w tablicę Block-NeRF. Otwiera to drogę do inkluzji treści, które są z pewnością podlegające zmianie, takich jak drzewa, oraz do identyfikacji i zarządzania pracami budowlanymi, które mogą trwać przez lata, ale są prawdopodobnie ewoluować i ostatecznie stają się spójnymi jednostkami.

Jednak w tym początkowym badaniu, dyskretne bloki NeRF są ograniczone do rzeczywistych bloków miasta w każdym przedstawionym środowisku, połączonych, z 50% nachodzeniem się, zapewniając spójne przejście z jednego bloku do następnego, gdy użytkownik nawiguje siecią.

Każdy blok jest ograniczony filtrem geograficznym. Autorzy zauważają, że ta część ramy jest otwarta na automatyzację, i, co zaskakujące, że ich implementacja opiera się na OpenStreetMap, a nie na Google Maps.

Promień przecięcia dla 'aktywnej' przestrzeni renderowania Block-NeRF. Źródło: Waymo

Promień przecięcia dla ‘aktywnej’ przestrzeni renderowania Block-NeRF. Źródło: Waymo

Bloków szkoli się równolegle, a potrzebne bloki są renderowane na żądanie. Innowacyjne kody wyglądu są również prowadzone wśród zestawu bloków, zapewniając, że nie podróżuje się niespodziewanie do innej pogody, pory dnia lub nawet pory roku.

Segmenty Block-NeRF są warunkowane ekspozycją w sposób analogiczny do High Dynamic Range (HDR) w materiałach źródłowych fotograficznych. Źródło: Waymo

Segmenty Block-NeRF są warunkowane ekspozycją w sposób analogiczny do High Dynamic Range (HDR) w materiałach źródłowych fotograficznych. Źródło: Waymo

Możliwość przełączania oświetlenia i innych zmiennych środowiskowych wynika z optymalizacji latentnych wprowadzonych w NeRF w świecie (NeRF-W), które z kolei wywodzą tę metodę z artykułu badawczego Facebook AI z 2019 roku Optymalizacja przestrzeni latentnej sieci generatywnych.

Model segmentacji semantycznej pochodzący z Panoptic-DeepLab z 2020 roku jest używany do blokowania niepożądanych elementów (takich jak ludzie i pojazdy)

Dane

Stwierdzono, że powszechne zestawy danych miejskich, takie jak CityScapes, nie były odpowiednie do tak intensywnych prac, jak Block-NeRF. Badacze stworzyli więc własny zestaw danych. Dane obrazowe zostały przechwycone z 12 kamer obejmujących widok 360 stopni, a nagrania zostały wykonane z częstotliwością 10 Hz i wartością ekspozycji skalarnej.

Sąsiedztwa w San Francisco, które zostały objęte, to Alamo Square i Mission Bay. Dla ujęć Alamo Square, obszar o wymiarach około 960m x 570m został pokryty, podzielony na 35 instancji Block-NeRF, każdy szkolony na danych z 38 do 48 różnych przejazdów, z całkowitym czasem jazdy od 18 do 28 minut.

Liczba przyczynkowych obrazów dla każdego Block-NeRF wahała się od 64 575 do 108 216, a całkowity czas jazdy reprezentowany dla tego obszaru wyniósł 13,4 godziny w ciągu 1 330 różnych przejazdów. To dało 2 818 745 obrazów szkoleniowych tylko dla Alamo Square. Zobacz artykuł, aby uzyskać więcej szczegółów na temat zbierania danych dla Mission Bay.

 

Pierwotnie opublikowane 11 lutego 2022.

Pisarz na temat uczenia maszynowego, specjalista ds. syntezowania obrazów ludzi. Były kierownik treści badawczych w Metaphysic.ai.