Umělá inteligence

Nová CGI: Vytvoření neuronových sousedství s Block-NeRF

Published February 11, 2022

Updated April 5, 2026

Martin Anderson

Neuronové radiance fields (NeRF) umožňují rekreaci a prohlížení objektů uvnitř neuronových sítí pomocí pouze několika snímků z různých úhlů, bez složitosti a nákladů tradičních CGI metod.

Nicméně, proces je výpočetně nákladný, což inicialně omezilo NeRF prostředí na modely stolů. Přestože NeRF byl přijat vědeckou komunitou, která za poslední rok povolila exteriérové rekonstrukce a editovatelné neuronové lidi, kromě mnoha dalších inovací.

Nyní nová výzkumná iniciativa, která zahrnuje účast Google Research, rozpoznává možné tvrdé limity na optimalizaci NeRF a soustředí se místo toho na šití NeRF prostředí, aby vytvořila na vyžádání sousedství skládající se z více koordinovaných NeRF instancí.

Pohled z Block-NeRF sítě propojených NeRF. Viz vložené video na konci článku a také zdroj odkazu pro vysoké rozlišení plné délky doplňkových videí. Source: https://waymo.com/research/block-nerf/

Navigace v síti propojených NeRF efektivně dělá NeRF škálovatelným a modulárním, poskytujícím procházející prostředí, která načítají další části sousedství, jak jsou potřebné, způsobem podobným optimalizačním metodám zdrojů ve videohrách, kde co je za rohem je zřídka načteno, dokud není jasné, že prostředí bude potřeba.

V rámci velkého úsilí disentanglement samostatných aspektů, jako je počasí a hodina, Block-NeRF také zavedl ‘appearance codes’, umožňující dynamicky měnit čas dne:

Změna času dne s Block-NeRF. Viz vložené video na konci článku a také zdroj odkazu pro vysoké rozlišení plné délky doplňkových videí. Source: https://waymo.com/research/block-nerf/

Nová práce naznačuje, že optimalizace NeRF se blíží své vlastní tepelné limity a že budoucí nasazení neuronových radiance prostředí ve virtuální realitě, jiných typech interaktivních sfér a VFX práci, budou pravděpodobně záviset na paralelních operacích, podobně jako to, jak Mooreův zákon nakonec ustoupil multi-jádrovým architekturám, paralelním optimalizacím a novým přístupům ke cache.

Autoři práce (nazvané Block-NeRF: Škálovatelná velká scéna neuronové syntézy pohledu) použili 2,8 milionu obrazů k vytvoření největší neuronové scény, která byla dosud pokusu – série sousedství v San Francisku.

Block-NeRF prochází katedrálou Grace v San Francisku. Viz vložené video na konci článku a také zdroj odkazu pro vysoké rozlišení plné délky doplňkových videí. Source: https://waymo.com/research/block-nerf/

Vedoucí autor práce, zastupující UC Berkley, je Matthew Tancik, spolu-vynálezce Neuronových radiance fields, který provedl práci jako stážista ve společnosti Waymo, hostující projektové stránky. Iniciativa také nabízí video přehled na YouTube, vložený na konci tohoto článku, kromě mnoha podpůrných a doplňkových video příkladů na projektové stránce.

Práce je spoluvytvořena několika dalšími původci NeRF, včetně Ben Mildenhall (Google Research), Pratul P. Srinivasan (Google Research) a Jonathan T. Barron (Google Research). Ostatní přispěvatelé jsou Vincent Casser, Xinchen Yan, Sabeek Pradhan, Henrik Kretzschmar a Vincent Casser, všichni z Waymo.

Block-NeRF byl vyvinut primárně jako výzkum do virtuálních prostředí pro autonomní vozidla, včetně samořízených aut a dronů.

Silnice Embarcadero z 180-stupňového pohledu v Block-NeRF. Viz vložené video na konci článku a také zdroj odkazu pro vysoké rozlišení plné délky doplňkových videí. Source: https://waymo.com/research/block-nerf/

Jiné faktory, které lze dynamicky měnit v Block-NeRF, jsou clona objektivu (viz obrázek výše), počasí a roční období.

Nicméně, změna ročního období může způsobit související změny v prostředí, jako je absence listí na stromech, což vyžaduje ještě rozsáhlejší vstupní dataset, než byl vytvořen pro Block-NeRF. Práce uvádí:

‘[Listí] se mění sezónně a pohybuje ve větru; to vede k rozostřeným reprezentacím stromů a rostlin. Podobně, temporální nekonzistence ve výcvikových datech, jako je stavební práce, nejsou automaticky zpracovány a vyžadují manuální přeškolování postižených bloků.’

Apokalyptické vykreslování

Pokud se podíváte na video vložené na konci, budete si všimnout Walking Dead-stylu prázdnoty v síti Block-NeRF. Z různých důvodů, nejméně z důvodu poskytnutí simulovaného startovacího prostředí pro robotická systémy, auta, chodce a další přechodné objekty byly úmyslně vymazány z materiálu, ale to zanechalo některé artefakty, jako jsou stíny “vymazaných” zaparkovaných vozidel:

Fantomový stín vymazaného auta. Source: https://waymo.com/research/block-nerf/

Aby se přizpůsobily různým osvětlením, jako je den nebo noc, sítě byly trénovány k zahrnutí disentangled datových proudů souvisejících s každým požadovaným stavem. Na obrázku níže vidíme přispívající proudy pro Block-NeRF záběry dálnice ve dne a v noci:

Požadované proudy pro Block-NeRF render, umožňující uživateli přepnout na noc, jak je požadováno. Source: https://waymo.com/research/block-nerf/

Environmentální a etické úvahy

V posledních letech výzkumné příspěvky začaly zahrnovat varování a upozornění týkající se možných etických a environmentálních dopadů navrhované práce. V případě Block-NeRF autoři poznamenávají, že energetické požadavky jsou vysoké a že zohlednění krátkodobých a dlouhodobých přechodných objektů (jako listí na stromech a stavební práce) by vyžadovalo pravidelné opětovné skenování vstupních dat, vedoucí k zvýšené “dozoru” v městských oblastech, jejichž neuronové modely potřebují být udržovány aktuální.

Autoři uvádějí:

‘V závislosti na měřítku, na kterém je tato práce aplikována, její výpočetní nároky mohou vést k nebo zhoršit environmentální poškození, pokud energie použité pro výpočet vede ke zvýšeným emisím skleníkových plynů. Jak je uvedeno v práci, předvídáme další práci, jako jsou metody cache, které by mohly snížit výpočetní nároky a tím zmírnit environmentální poškození.’

Pokud jde o dohled, pokračují:

‘Budoucí aplikace této práce mohou zahrnovat ještě rozsáhlejší úsilí o sběr dat, což vyvolává další obavy o soukromí. Zatímco podrobné obrázky veřejných cest lze již nalézt na službách jako Google Street View, naše metodika by mohla podpořit opakované a pravidelnější skenování prostředí. Některé společnosti v oblasti autonomních vozidel jsou také známy tím, že pravidelně skenují oblasti pomocí svých vozidel; nicméně některé z nich mohou využívat pouze skenování LiDAR, které může být méně citlivé než sběr kamerových obrazů.’

Metody a řešení

Jednotlivé NeRF prostředí lze teoreticky zmenšit na libovolnou velikost, než jsou sestaveny do pole Block-NeRF. To otevírá cestu k zahrnutí obsahu, který je určitě předmětem změny, jako jsou stromy, a k identifikaci a správě stavebních prací, které mohou trvat v čase i roky, ale jsou pravděpodobně vyvinout a nakonec se stát konsolidovanými entitami.

Nicméně, v této počáteční výzkumné cestě, diskrétní NeRF bloky jsou omezeny na skutečné městské bloky každého zobrazeného prostředí, sešitého dohromady, s 50% překrytí zajišťujícím konzistentní přechod z jednoho bloku na druhý, jak uživatel prochází sítí.

Každý blok je omezen geografickým filtrem. Autoři poznamenávají, že tato část rámce je otevřena automatizaci a překvapivě, že jejich implementace spoléhá na OpenStreetMap spíše než na Google Maps.

Intersekční poloměr pro Block-NeRF ‘aktivní’ renderovací prostor. Source: Waymo

Bloky jsou trénovány paralelně, s potřebnými bloky vykreslenými na vyžádání. Inovativní appearance codes jsou také orchestrovány mezi bloky, zajišťující, že jeden necestuje neočekávaně do různých povětrnostních podmínek, času dne nebo dokonce ročního období.

Block-NeRF segmenty jsou podmíněny expozicí způsobem analogickým k High Dynamic Range (HDR) ve fotografickém zdrojovém materiálu. Source: Waymo

Schopnost přepnout osvětlení a další environmentální proměnné je odvozena z Generative Latent Optimizations zavedených v NeRF v divočině (NeRF-W), které samo odvodilo metodu z výzkumné práce Facebook AI z roku 2019 Optimizing the Latent Space of Generative Networks.

Sémantický segmentační model původně vytvořený pro Panoptic-DeepLab v roce 2020 je použit k vyřazení nežádoucích prvků (jako lidé a vozidla)

Data

Zjistilo se, že běžné městské datové sady, jako je CityScapes, nebyly vhodné pro tak intenzivní detailní práci, jako je Block-NeRF, a výzkumníci vytvořili svou vlastní datovou sadu. Obrázky byly pořízeny z 12 kamer pokrývajících 360stupňový pohled, s záběry pořízenými při 10 Hz s měřítkem expozice.

Sousedství v San Francisku, která byla pokryta, byla Alamo Square a Mission Bay. Pro záběry Alamo Square byla pokryta oblast přibližně 960m x 570m, rozdělená do 35 instancí Block-NeRF, každý trénovaný na datech z 38 až 48 různých běhů sběru dat, s celkovým časem jízdy 18-28 minut.

Počet přispívajících obrázků pro každý Block-NeRF se pohyboval mezi 64 575 a 108 216, a celkový čas jízdy reprezentovaný pro tuto oblast byl 13,4 hodiny přes 1 330 různých běhů sběru dat. To vedlo k 2 818 745 trénovacím obrázkům pouze pro Alamo Square. Viz práci pro další podrobnosti o sběru dat pro Mission Bay.

Poprvé zveřejněno 11. února 2022.

Martin Anderson

Spisovatel o strojovém učení, doménový specialista na syntézu lidského obrazu. Bývalý vedoucí výzkumného obsahu ve společnosti Metaphysic.ai.
Osobní stránky: martinanderson.ai

Unite.AI

Nová CGI: Vytvoření neuronových sousedství s Block-NeRF

Apokalyptické vykreslování

Environmentální a etické úvahy

Metody a řešení

Data

You may like