stub Tworzenie środowisk przelotowych poszukiwań i ratownictwa neuronowego za pomocą Mega-NeRF — Unite.AI
Kontakt z nami

Artificial Intelligence

Tworzenie środowisk przelotowych poszukiwań i ratownictwa neuronowego za pomocą Mega-NeRF

mm
Zaktualizowano on

W ramach nowej współpracy badawczej pomiędzy Carnegie Mellon i firmą Argo AI zajmującą się technologią jazdy autonomicznej opracowano ekonomiczną metodę generowania dynamicznych środowisk przelotowych w oparciu o pola promieniowania neuronowego (NeRF) z wykorzystaniem materiału filmowego zarejestrowanego przez drony.

Mega-NeRF oferuje interaktywne przeloty w oparciu o nagrania z dronów, z LOD na żądanie. Źródło: Mega-NeRF-Full – Przelot przez gruz. Aby uzyskać więcej szczegółów (w lepszej rozdzielczości), obejrzyj film umieszczony na końcu tego artykułu. - https://www.youtube.com/watch?v=t_xfRmZtR7k

Mega-NeRF oferuje interaktywne przeloty w oparciu o nagrania z dronów, z LOD na żądanie. Aby uzyskać więcej szczegółów (w lepszej rozdzielczości), obejrzyj film umieszczony na końcu tego artykułu. Źródło: Mega-NeRF-Full – Przelot przez gruz  – https://www.youtube.com/watch?v=t_xfRmZtR7k

Nowe podejście, zwane Mega-NeRF, zapewnia 40-krotne przyspieszenie w porównaniu ze średnim standardem renderowania Neural Radiance Fields, a także oferuje coś znacznie różniącego się od standardu czołgi i świątynie które powtarzają się w nowych artykułach NeRF.

Połączenia nowy papier jest zatytułowany Mega-NeRF: skalowalna konstrukcja wielkoskalowych NeRF do wirtualnych przelotówi pochodzi od trzech badaczy z Carnegie Mellon, z których jeden reprezentuje również Argo AI.

Modelowanie krajobrazu NeRF na potrzeby poszukiwań i ratownictwa

Autorzy uważają, że akcja poszukiwawczo-ratownicza (SAR) jest prawdopodobnie optymalnym przypadkiem zastosowania ich techniki. Podczas oceny krajobrazu SAR drony są obecnie ograniczone zarówno przepustowością, jak i żywotnością baterii, w związku z czym zwykle nie są w stanie uzyskać szczegółowego ani kompleksowego zasięgu przed koniecznością powrotu do bazy, gdzie zebrane przez nich dane są przeliczone do statycznych map lotniczych 2D.

Autorzy stwierdzają:

„Wyobrażamy sobie przyszłość, w której renderowanie neuronowe przenosi tę analizę do postaci 3D, umożliwiając zespołom reagowania inspekcję pola tak, jakby latały dronem w czasie rzeczywistym na poziomie szczegółowości znacznie wykraczającym poza możliwości osiągnięcia klasycznej struktury z ruchu ( SfM).

Mając do czynienia z tym przypadkiem użycia, autorzy starali się stworzyć złożony model oparty na NeRF, który można wytrenować w ciągu jednego dnia, biorąc pod uwagę, że oczekiwana długość życia ocalałych w operacjach poszukiwawczo-ratowniczych zmniejsza się nawet o 80% w ciągu jednego dnia. pierwsze 24 godziny.

Autorzy zauważają, że zbiory danych przechwyconych dronami niezbędne do wyszkolenia modelu Mega-NeRF są o „rzędy wielkości” większe niż standardowy zbiór danych dla NeRF, a pojemność modelu musi być znacznie większa niż w przypadku domyślnego forka lub pochodnej NeRF. Ponadto interaktywność i możliwość eksploracji są niezbędne na mapie terenu poszukiwawczo-ratowniczego, podczas gdy standardowe rendery NeRF w czasie rzeczywistym wymagają znacznie bardziej ograniczonego zakresu wstępnie obliczonego możliwego ruchu.

Dziel i rządź

Aby rozwiązać te problemy, autorzy stworzyli algorytm grupowania geometrycznego, który dzieli zadanie na podmoduły i skutecznie tworzy macierz pod-NeRF, które są szkolone jednocześnie.

W momencie renderowania autorzy wdrażają również algorytm wizualizacji just-in-time, który jest na tyle responsywny, aby umożliwić pełną interaktywność bez nadmiernego przetwarzania wstępnego, podobnie jak w grach wideo zwiększanie szczegółowości elementów w miarę zbliżania się do użytkownika punktu widzenia, ale które w oddali zachowują energooszczędną i bardziej podstawową skalę.

Autorzy twierdzą, że korzyści te prowadzą do większej szczegółowości niż poprzednie metody, które próbowały zająć się bardzo szerokimi obszarami tematycznymi w kontekście interaktywnym. Jeśli chodzi o ekstrapolację szczegółów z materiału wideo o ograniczonej rozdzielczości, autorzy zauważają również poprawę wizualną Mega-NeRF w porównaniu z równoważną funkcjonalnością w PlenOctrees Uniwersytetu Kalifornijskiego w Berkeley.

Wykorzystanie w projekcie połączonych pod-NeRF opiera się na KiloNeRF możliwości renderowania w czasie rzeczywistym– przyznają autorzy. Jednakże Mega-NeRF odchodzi od tego podejścia, faktycznie wykonując „sharding” (dyskretne manewrowanie aspektami sceny) podczas szkolenia, zamiast stosować podejście KiloNeRF do przetwarzania końcowego, które pobiera już obliczoną scenę NeRF, a następnie przekształca ją w nadającą się do eksploracji przestrzeń.

Dla podmodułów tworzony jest dyskretny zbiór uczący, składający się z pikseli obrazu szkoleniowego, których trajektoria może obejmować reprezentowaną przez nie komórkę. W rezultacie każdy moduł jest szkolony całkowicie niezależnie od sąsiednich komórek. Źródło: https://arxiv.org/pdf/2112.10703.pdf

Dla podmodułów tworzony jest dyskretny zbiór uczący, składający się z pikseli obrazu szkoleniowego, których trajektoria może obejmować reprezentowaną przez nie komórkę. W rezultacie każdy moduł jest szkolony całkowicie niezależnie od sąsiednich komórek. Źródło: https://arxiv.org/pdf/2112.10703.pdf

Autorzy charakteryzują Mega-NeRF jako „przeformułowanie architektury NeRF, które sparsyfikuje połączenia warstw w sposób świadomy przestrzennie, ułatwiając poprawę wydajności w czasie szkolenia i renderowania”.

Koncepcyjne porównanie uczenia i dyskretyzacji danych w NeRF, NeRF++ i Mega-NeRF. Źródło: https://meganerf.cmusatyalab.org/

Porównanie koncepcyjne uczenia i dyskretyzacji danych w NeRF, NeRF++i Mega-NeRF. Źródło: https://meganerf.cmusatyalab.org/

Autorzy twierdzą, że zastosowanie w Mega-NeRF nowatorskich strategii spójności czasowej pozwala uniknąć konieczności nadmiernego przetwarzania wstępnego, pokonuje wewnętrzne ograniczenia skali i zapewnia wyższy poziom szczegółowości niż wcześniejsze podobne prace, bez poświęcania interaktywności lub konieczności wielodniowego szkolenia .

Naukowcy udostępniają także wielkoskalowe zbiory danych zawierające tysiące obrazów o wysokiej rozdzielczości uzyskanych z materiału filmowego zarejestrowanego z drona na powierzchni ponad 100,000 XNUMX metrów kwadratowych wokół kompleksu przemysłowego. Dostępne są dwa zbiory danych 'Budynek' i 'Gruz'.

Udoskonalanie wcześniejszej pracy

W artykule zauważono, że wcześniejsze wysiłki w podobnym duchu, m.in SneRG, PlenOctree i SzybkiNeRFwszystkie opierają się na pewnego rodzaju buforowaniu lub przetwarzaniu wstępnym, które zwiększa obciążenie obliczeniowe i/lub czasowe, co jest nieodpowiednie do tworzenia wirtualnych środowisk poszukiwawczo-ratowniczych.

Chociaż KiloNeRF wywodzi sub-NeRF z istniejącej kolekcji perceptronów wielowarstwowych (MLP), jest architektonicznie ograniczony do scen wewnętrznych o ograniczonej rozszerzalności lub możliwości obsługi środowisk o większej skali. Tymczasem FastNeRF przechowuje „upieczoną”, wstępnie obliczoną wersję modelu NeRF w dedykowanej strukturze danych i umożliwia użytkownikowi końcowemu poruszanie się po nim za pośrednictwem dedykowanego MLP lub obliczeń w oparciu o bazę sferyczną.

W scenariuszu KiloNeRF maksymalna rozdzielczość każdego aspektu sceny jest już obliczona i większa rozdzielczość nie będzie dostępna, jeśli użytkownik zdecyduje się na „powiększenie”.

Natomiast NeRF++ może natywnie obsługiwać nieograniczone środowiska zewnętrzne, dzieląc potencjalną przestrzeń do eksploracji na obszary pierwszego planu i tła, z których każdy jest nadzorowany przez dedykowany model MLP, który wykonuje rzutowanie promieni przed ostateczną kompozycją.

Wreszcie, NeRF w dziczy, który nie dotyczy bezpośrednio nieograniczonej przestrzeni, poprawia jednak jakość obrazu w formacie Zbiór danych fototurystycznych, a jego osadzenie wyglądu zostało zastosowane w architekturze Mega-NeRF.

Autorzy przyznają również, że Mega-NeRF jest inspirowany projektami Structure-from-Motion (SfM), w szczególności projektem Washington University Budowa Rzymu w jeden dzień projekt.

Spójność czasowa

Podobnie jak PlenOctree, Mega-NeRF wstępnie oblicza przybliżoną pamięć podręczną kolorów i krycia w obszarze, na którym aktualnie skupia się użytkownik. Jednakże zamiast obliczać ścieżki za każdym razem, gdy znajdują się w pobliżu obliczonej ścieżki, jak robi to PlenOctree, Mega-NeRF „zapisuje” i ponownie wykorzystuje te informacje, dzieląc obliczone drzewo, zgodnie z rosnącą tendencją do rozwikłania ściśle powiązanej etykiety przetwarzania NeRF .

Po lewej stronie obliczenia jednorazowego użytku PlenOctree. Środek, dynamiczna ekspansja oktree Mega-NeRF w stosunku do aktualnej pozycji przelotu. Zgadza się, oktree jest ponownie wykorzystywane do późniejszej nawigacji.

Po lewej stronie obliczenia jednorazowego użytku PlenOctree. Środek, dynamiczna ekspansja oktree Mega-NeRF w stosunku do aktualnej pozycji przelotu. Zgadza się, oktree jest ponownie wykorzystywane do późniejszej nawigacji.

Zdaniem autorów ta ekonomia obliczeń znacznie zmniejsza obciążenie przetwarzania, wykorzystując obliczenia w locie jako lokalną pamięć podręczną, zamiast z wyprzedzeniem szacować i buforować je wszystkie, zgodnie z najnowszą praktyką.

Próbkowanie z przewodnikiem

Po wstępnym próbkowaniu, zgodnie z dotychczasowymi standardowymi modelami, Mega-NeRF przeprowadza drugą rundę sterowanego próbkowania promieni po udoskonaleniu oktree, w celu poprawy jakości obrazu. W tym celu Mega-NeRF wykorzystuje tylko pojedynczy przebieg w oparciu o istniejące wagi w strukturze danych Octree.

Jak widać na powyższym obrazku, z nowego artykułu, standardowe próbkowanie marnuje zasoby obliczeniowe poprzez ocenę nadmiernej ilości obszaru docelowego, podczas gdy Mega-NeRF ogranicza obliczenia w oparciu o wiedzę o tym, gdzie występuje geometria, ograniczając obliczenia powyżej wstępnego -ustawić próg.

Dane i szkolenia

Naukowcy przetestowali Mega-NeRF na różnych zbiorach danych, w tym na dwóch wyżej wymienionych, ręcznie wykonanych zestawach pobranych z materiału filmowego z drona nad terenem przemysłowym. Pierwszy zbiór danych, Młyn 19 – Budynek, zawiera materiał filmowy nakręcony na obszarze 500 x 250 metrów kwadratowych. Drugi, Młyn 19 – Gruz, przedstawia podobny materiał filmowy zarejestrowany na sąsiednim placu budowy, na którym badacze umieścili manekiny przedstawiające potencjalnych ocalałych w ramach scenariusza poszukiwawczo-ratowniczego.

Z materiałów dodatkowych gazety: Po lewej stronie ćwiartki, które ma objąć dron Parrot Anafi (na zdjęciu pośrodku i w oddali na zdjęciu po prawej stronie).

Z materiałów dodatkowych artykułu: Po lewej ćwiartki, które mają być objęte Dron Parrot Anafi (na zdjęciu pośrodku i w oddali na zdjęciu po prawej stronie).

Dodatkowo architekturę przetestowano na podstawie kilku scen z UrbanScene3Dz Centrum Badań nad Obliczeniami Wizualnymi na Uniwersytecie w Shenzhen w Chinach, na które składa się materiał filmowy HD zarejestrowany dronem, przedstawiający duże środowiska miejskie; i Zestaw danych Quad 6kz Laboratorium Wizji Komputerowej IU Uniwersytetu Indiana.

Szkolenie odbyło się w 8 submodułach, każdy z 8 warstwami po 256 jednostek ukrytych i kolejną 128-kanałową warstwą ReLU. W przeciwieństwie do NeRF, ten sam MLP został wykorzystany do przeszukiwania próbek zgrubnych i wyrafinowanych, zmniejszając ogólny rozmiar modelu i umożliwiając ponowne wykorzystanie zgrubnych wyników sieciowych na kolejnym etapie renderowania. Autorzy szacują, że pozwala to zaoszczędzić 25% zapytań o model dla każdego promienia.

Pobrano próbki 1024 promieni na partię pod okiem Adama przy początkowej szybkości uczenia się 5×104, malejący do 5×10-5. Osadzanie wyglądu zostało potraktowane w taki sam sposób jak powyżej NeRF w dziczy. Pobieranie próbek o mieszanej precyzji (trening z mniejszą precyzją niż 32-bitowy zmiennoprzecinkowy), a szerokość MLP ustalona na 2048 jednostek ukrytych.

Testowanie i wyniki

W testach naukowców Mega-NeRF był w stanie znacznie przewyższać NeRF, NeRF++ i Głęboki widok po przeszkoleniu przez 500,000 24 iteracji w wyżej wymienionych zbiorach danych. Ponieważ docelowy scenariusz Mega-NeRF jest ograniczony czasowo, badacze pozwolili wolniejszym wcześniejszym frameworkom na dodatkowy czas poza limit XNUMX godzin i stwierdzili, że Mega-NeRF nadal przewyższa je, nawet biorąc pod uwagę te zalety.

Zastosowanymi metrykami był szczytowy stosunek sygnału do szumu (PSNR), Wersja VGG LPIPS, SIM. Szkolenie odbywało się na jednej maszynie wyposażonej w osiem procesorów graficznych V100 – efektywnie na 256 GB pamięci VRAM i 5120 rdzeniach Tensor.

Przykładowe wyniki eksperymentów Mega-NeRF (więcej informacji można znaleźć w artykule, aby uzyskać bardziej szczegółowe wyniki we wszystkich frameworkach i zestawach danych) pokazują, że PlenOctree powoduje zauważalną wokselizację, podczas gdy KiloNeRF generuje artefakty i ogólnie bardziej rozmyte wyniki.

Przykładowe wyniki eksperymentów Mega-NeRF (więcej informacji można znaleźć w artykule, aby uzyskać bardziej szczegółowe wyniki we wszystkich frameworkach i zestawach danych) pokazują, że PlenOctree powoduje zauważalną wokselizację, podczas gdy KiloNeRF generuje artefakty i ogólnie bardziej rozmyte wyniki.

Strona projektu znajduje się pod adresem https://meganerf.cmusatyalab.org/, a wydany kod znajduje się pod adresem https://github.com/cmusatyalab/mega-nerf.

Opublikowano po raz pierwszy 21 grudnia 2021 r.