Artificial Intelligence
Tworzenie środowisk przelotowych poszukiwań i ratownictwa neuronowego za pomocą Mega-NeRF
W ramach nowej współpracy badawczej pomiędzy Carnegie Mellon i firmą Argo AI zajmującą się technologią jazdy autonomicznej opracowano ekonomiczną metodę generowania dynamicznych środowisk przelotowych w oparciu o pola promieniowania neuronowego (NeRF) z wykorzystaniem materiału filmowego zarejestrowanego przez drony.
Nowe podejście, zwane Mega-NeRF, zapewnia 40-krotne przyspieszenie w porównaniu ze średnim standardem renderowania Neural Radiance Fields, a także oferuje coś znacznie różniącego się od standardu czołgi i świątynie które powtarzają się w nowych artykułach NeRF.
Połączenia nowy papier jest zatytułowany Mega-NeRF: skalowalna konstrukcja wielkoskalowych NeRF do wirtualnych przelotówi pochodzi od trzech badaczy z Carnegie Mellon, z których jeden reprezentuje również Argo AI.
Modelowanie krajobrazu NeRF na potrzeby poszukiwań i ratownictwa
Autorzy uważają, że akcja poszukiwawczo-ratownicza (SAR) jest prawdopodobnie optymalnym przypadkiem zastosowania ich techniki. Podczas oceny krajobrazu SAR drony są obecnie ograniczone zarówno przepustowością, jak i żywotnością baterii, w związku z czym zwykle nie są w stanie uzyskać szczegółowego ani kompleksowego zasięgu przed koniecznością powrotu do bazy, gdzie zebrane przez nich dane są przeliczone do statycznych map lotniczych 2D.
Autorzy stwierdzają:
„Wyobrażamy sobie przyszłość, w której renderowanie neuronowe przenosi tę analizę do postaci 3D, umożliwiając zespołom reagowania inspekcję pola tak, jakby latały dronem w czasie rzeczywistym na poziomie szczegółowości znacznie wykraczającym poza możliwości osiągnięcia klasycznej struktury z ruchu ( SfM).
Mając do czynienia z tym przypadkiem użycia, autorzy starali się stworzyć złożony model oparty na NeRF, który można wytrenować w ciągu jednego dnia, biorąc pod uwagę, że oczekiwana długość życia ocalałych w operacjach poszukiwawczo-ratowniczych zmniejsza się nawet o 80% w ciągu jednego dnia. pierwsze 24 godziny.
Autorzy zauważają, że zbiory danych przechwyconych dronami niezbędne do wyszkolenia modelu Mega-NeRF są o „rzędy wielkości” większe niż standardowy zbiór danych dla NeRF, a pojemność modelu musi być znacznie większa niż w przypadku domyślnego forka lub pochodnej NeRF. Ponadto interaktywność i możliwość eksploracji są niezbędne na mapie terenu poszukiwawczo-ratowniczego, podczas gdy standardowe rendery NeRF w czasie rzeczywistym wymagają znacznie bardziej ograniczonego zakresu wstępnie obliczonego możliwego ruchu.
Dziel i rządź
Aby rozwiązać te problemy, autorzy stworzyli algorytm grupowania geometrycznego, który dzieli zadanie na podmoduły i skutecznie tworzy macierz pod-NeRF, które są szkolone jednocześnie.
W momencie renderowania autorzy wdrażają również algorytm wizualizacji just-in-time, który jest na tyle responsywny, aby umożliwić pełną interaktywność bez nadmiernego przetwarzania wstępnego, podobnie jak w grach wideo zwiększanie szczegółowości elementów w miarę zbliżania się do użytkownika punktu widzenia, ale które w oddali zachowują energooszczędną i bardziej podstawową skalę.
Autorzy twierdzą, że korzyści te prowadzą do większej szczegółowości niż poprzednie metody, które próbowały zająć się bardzo szerokimi obszarami tematycznymi w kontekście interaktywnym. Jeśli chodzi o ekstrapolację szczegółów z materiału wideo o ograniczonej rozdzielczości, autorzy zauważają również poprawę wizualną Mega-NeRF w porównaniu z równoważną funkcjonalnością w PlenOctrees Uniwersytetu Kalifornijskiego w Berkeley.
Wykorzystanie w projekcie połączonych pod-NeRF opiera się na KiloNeRF możliwości renderowania w czasie rzeczywistym– przyznają autorzy. Jednakże Mega-NeRF odchodzi od tego podejścia, faktycznie wykonując „sharding” (dyskretne manewrowanie aspektami sceny) podczas szkolenia, zamiast stosować podejście KiloNeRF do przetwarzania końcowego, które pobiera już obliczoną scenę NeRF, a następnie przekształca ją w nadającą się do eksploracji przestrzeń.
Autorzy charakteryzują Mega-NeRF jako „przeformułowanie architektury NeRF, które sparsyfikuje połączenia warstw w sposób świadomy przestrzennie, ułatwiając poprawę wydajności w czasie szkolenia i renderowania”.
Autorzy twierdzą, że zastosowanie w Mega-NeRF nowatorskich strategii spójności czasowej pozwala uniknąć konieczności nadmiernego przetwarzania wstępnego, pokonuje wewnętrzne ograniczenia skali i zapewnia wyższy poziom szczegółowości niż wcześniejsze podobne prace, bez poświęcania interaktywności lub konieczności wielodniowego szkolenia .
Naukowcy udostępniają także wielkoskalowe zbiory danych zawierające tysiące obrazów o wysokiej rozdzielczości uzyskanych z materiału filmowego zarejestrowanego z drona na powierzchni ponad 100,000 XNUMX metrów kwadratowych wokół kompleksu przemysłowego. Dostępne są dwa zbiory danych 'Budynek' i 'Gruz'.
Udoskonalanie wcześniejszej pracy
W artykule zauważono, że wcześniejsze wysiłki w podobnym duchu, m.in SneRG, PlenOctree i SzybkiNeRFwszystkie opierają się na pewnego rodzaju buforowaniu lub przetwarzaniu wstępnym, które zwiększa obciążenie obliczeniowe i/lub czasowe, co jest nieodpowiednie do tworzenia wirtualnych środowisk poszukiwawczo-ratowniczych.
Chociaż KiloNeRF wywodzi sub-NeRF z istniejącej kolekcji perceptronów wielowarstwowych (MLP), jest architektonicznie ograniczony do scen wewnętrznych o ograniczonej rozszerzalności lub możliwości obsługi środowisk o większej skali. Tymczasem FastNeRF przechowuje „upieczoną”, wstępnie obliczoną wersję modelu NeRF w dedykowanej strukturze danych i umożliwia użytkownikowi końcowemu poruszanie się po nim za pośrednictwem dedykowanego MLP lub obliczeń w oparciu o bazę sferyczną.
W scenariuszu KiloNeRF maksymalna rozdzielczość każdego aspektu sceny jest już obliczona i większa rozdzielczość nie będzie dostępna, jeśli użytkownik zdecyduje się na „powiększenie”.
Natomiast NeRF++ może natywnie obsługiwać nieograniczone środowiska zewnętrzne, dzieląc potencjalną przestrzeń do eksploracji na obszary pierwszego planu i tła, z których każdy jest nadzorowany przez dedykowany model MLP, który wykonuje rzutowanie promieni przed ostateczną kompozycją.
Wreszcie, NeRF w dziczy, który nie dotyczy bezpośrednio nieograniczonej przestrzeni, poprawia jednak jakość obrazu w formacie Zbiór danych fototurystycznych, a jego osadzenie wyglądu zostało zastosowane w architekturze Mega-NeRF.
Autorzy przyznają również, że Mega-NeRF jest inspirowany projektami Structure-from-Motion (SfM), w szczególności projektem Washington University Budowa Rzymu w jeden dzień projekt.
Spójność czasowa
Podobnie jak PlenOctree, Mega-NeRF wstępnie oblicza przybliżoną pamięć podręczną kolorów i krycia w obszarze, na którym aktualnie skupia się użytkownik. Jednakże zamiast obliczać ścieżki za każdym razem, gdy znajdują się w pobliżu obliczonej ścieżki, jak robi to PlenOctree, Mega-NeRF „zapisuje” i ponownie wykorzystuje te informacje, dzieląc obliczone drzewo, zgodnie z rosnącą tendencją do rozwikłania ściśle powiązanej etykiety przetwarzania NeRF .
Zdaniem autorów ta ekonomia obliczeń znacznie zmniejsza obciążenie przetwarzania, wykorzystując obliczenia w locie jako lokalną pamięć podręczną, zamiast z wyprzedzeniem szacować i buforować je wszystkie, zgodnie z najnowszą praktyką.
Próbkowanie z przewodnikiem
Po wstępnym próbkowaniu, zgodnie z dotychczasowymi standardowymi modelami, Mega-NeRF przeprowadza drugą rundę sterowanego próbkowania promieni po udoskonaleniu oktree, w celu poprawy jakości obrazu. W tym celu Mega-NeRF wykorzystuje tylko pojedynczy przebieg w oparciu o istniejące wagi w strukturze danych Octree.
Jak widać na powyższym obrazku, z nowego artykułu, standardowe próbkowanie marnuje zasoby obliczeniowe poprzez ocenę nadmiernej ilości obszaru docelowego, podczas gdy Mega-NeRF ogranicza obliczenia w oparciu o wiedzę o tym, gdzie występuje geometria, ograniczając obliczenia powyżej wstępnego -ustawić próg.
Dane i szkolenia
Naukowcy przetestowali Mega-NeRF na różnych zbiorach danych, w tym na dwóch wyżej wymienionych, ręcznie wykonanych zestawach pobranych z materiału filmowego z drona nad terenem przemysłowym. Pierwszy zbiór danych, Młyn 19 – Budynek, zawiera materiał filmowy nakręcony na obszarze 500 x 250 metrów kwadratowych. Drugi, Młyn 19 – Gruz, przedstawia podobny materiał filmowy zarejestrowany na sąsiednim placu budowy, na którym badacze umieścili manekiny przedstawiające potencjalnych ocalałych w ramach scenariusza poszukiwawczo-ratowniczego.
Dodatkowo architekturę przetestowano na podstawie kilku scen z UrbanScene3Dz Centrum Badań nad Obliczeniami Wizualnymi na Uniwersytecie w Shenzhen w Chinach, na które składa się materiał filmowy HD zarejestrowany dronem, przedstawiający duże środowiska miejskie; i Zestaw danych Quad 6kz Laboratorium Wizji Komputerowej IU Uniwersytetu Indiana.
Szkolenie odbyło się w 8 submodułach, każdy z 8 warstwami po 256 jednostek ukrytych i kolejną 128-kanałową warstwą ReLU. W przeciwieństwie do NeRF, ten sam MLP został wykorzystany do przeszukiwania próbek zgrubnych i wyrafinowanych, zmniejszając ogólny rozmiar modelu i umożliwiając ponowne wykorzystanie zgrubnych wyników sieciowych na kolejnym etapie renderowania. Autorzy szacują, że pozwala to zaoszczędzić 25% zapytań o model dla każdego promienia.
Pobrano próbki 1024 promieni na partię pod okiem Adama przy początkowej szybkości uczenia się 5×104, malejący do 5×10-5. Osadzanie wyglądu zostało potraktowane w taki sam sposób jak powyżej NeRF w dziczy. Pobieranie próbek o mieszanej precyzji (trening z mniejszą precyzją niż 32-bitowy zmiennoprzecinkowy), a szerokość MLP ustalona na 2048 jednostek ukrytych.
Testowanie i wyniki
W testach naukowców Mega-NeRF był w stanie znacznie przewyższać NeRF, NeRF++ i Głęboki widok po przeszkoleniu przez 500,000 24 iteracji w wyżej wymienionych zbiorach danych. Ponieważ docelowy scenariusz Mega-NeRF jest ograniczony czasowo, badacze pozwolili wolniejszym wcześniejszym frameworkom na dodatkowy czas poza limit XNUMX godzin i stwierdzili, że Mega-NeRF nadal przewyższa je, nawet biorąc pod uwagę te zalety.
Zastosowanymi metrykami był szczytowy stosunek sygnału do szumu (PSNR), Wersja VGG LPIPS, SIM. Szkolenie odbywało się na jednej maszynie wyposażonej w osiem procesorów graficznych V100 – efektywnie na 256 GB pamięci VRAM i 5120 rdzeniach Tensor.
Strona projektu znajduje się pod adresem https://meganerf.cmusatyalab.org/, a wydany kod znajduje się pod adresem https://github.com/cmusatyalab/mega-nerf.
Opublikowano po raz pierwszy 21 grudnia 2021 r.