toco O novo CGI: criando vizinhanças neurais com Block-NeRF - Unite.AI
Entre em contato

Inteligência artificial

O novo CGI: criando vizinhanças neurais com Block-NeRF

mm
Atualização do on

Campos de radiação neural (NeRF) permitem que objetos sejam recriados e explorados dentro de redes neurais usando apenas fotografias de vários pontos de vista como entrada, sem a complexidade e o custo dos métodos CGI tradicionais.

No entanto, o processo é computacionalmente caro, o que inicialmente limitava os ambientes NeRF a modelo de mesa cenários. No entanto, o NeRF foi adotado por uma comunidade de pesquisa dedicada e frenética, que no ano passado reconstruções externas habilitadas assim como humanos neurais editáveis, além de muitas outras inovações.

Agora, uma nova iniciativa de pesquisa, que inclui a participação do Google Research, reconhece os possíveis limites rígidos na otimização do NeRF e, em vez disso, concentra-se em unir ambientes NeRF para criar bairros sob demanda que compreendem várias instâncias NeRF coordenadas.

Ponto de vista de uma rede Block-NeRF de NeRFs vinculados. . Veja o vídeo incorporado no final do artigo e também o link da fonte para vídeos complementares completos em alta resolução. Fonte: https://waymo.com/research/block-nerf/

Ponto de vista de uma rede Block-NeRF de NeRFs vinculados. Veja o vídeo incorporado no final do artigo e também o link da fonte para vídeos complementares completos em alta resolução. Fonte: https://waymo.com/research/block-nerf/

Navegar na rede de NeRFs vinculados efetivamente torna o NeRF escalável e modular, fornecendo ambientes navegáveis ​​que carregam partes extras da vizinhança conforme necessário, de maneira semelhante aos métodos de otimização de recursos dos videogames, onde o que está ao virar da esquina raramente é carregado até fica claro que o ambiente vai ser necessário.

Em um grande impulso para desenredar facetas separadas, como clima e hora, o Block-NeRF também introduz 'códigos de aparência', tornando possível alterar dinamicamente a hora do dia:

Alterar a hora do dia com Block-NeRF. Veja o vídeo incorporado no final do artigo e também o link da fonte para vídeos complementares completos em alta resolução. Fonte: https://waymo.com/research/block-nerf/

Alterar a hora do dia com Block-NeRF. Veja o vídeo incorporado no final do artigo e também o link da fonte para vídeos complementares completos em alta resolução. Fonte: https://waymo.com/research/block-nerf/

O novo artigo sugere que a otimização NeRF está se aproximando de seu próprio limite térmico, e que futuras implantações de ambientes de radiância neural em realidade virtual, outros tipos de esferas interativas e trabalho VFX provavelmente dependerão de operações paralelas, semelhante à maneira como o de Moore Law eventualmente deu lugar a arquiteturas multi-core, otimizações paralelas e novas abordagens para cache.

Os autores do papel (intitulado Block-NeRF: Síntese de visão neural de cena grande escalável) usou 2.8 milhões de imagens para criar a maior cena neural já tentada – uma série de bairros em San Francisco.

Block-NeRF navega na Catedral da Graça de São Francisco. Veja o vídeo incorporado no final do artigo e também o link da fonte para vídeos complementares completos em alta resolução. Fonte: https://waymo.com/research/block-nerf/

Block-NeRF navega na Catedral da Graça de São Francisco. Veja o vídeo incorporado no final do artigo e também o link da fonte para vídeos complementares completos em alta resolução. Fonte: https://waymo.com/research/block-nerf/

O principal autor do artigo, representando a UC Berkley, é Matthew Tancik, o co-inventor de Neural Radiance Fields, que realizou o trabalho como estagiário na empresa de desenvolvimento de tecnologia de direção autônoma Waymo, anfitriã do página do projeto. A iniciativa também oferece uma visão geral em vídeo no YouTube, incorporada ao final deste artigo, além de vários exemplos de vídeos de apoio e complementares na página do projeto.

O artigo é co-autor de vários outros criadores do NeRF, incluindo Ben Mildenhall (Google Research), Pratul P. Srinivasan (Google Research) e Jonathan T. Barron (Google Research). Os outros colaboradores são Vincent Casser, Xinchen Yan, Sabeek Pradhan, Henrik Kretzschmar e Vincent Casser, todos da Waymo.

O Block-NeRF foi desenvolvido principalmente como pesquisa em ambientes virtuais para sistemas de veículos autônomos, incluindo carros autônomos e drones.

A estrada Embarcadero de uma posição de visão de 180 graus no Bloco-NeRF. Veja o vídeo incorporado no final do artigo e também o link da fonte para vídeos complementares completos em alta resolução. Fonte: https://waymo.com/research/block-nerf/

A estrada Embarcadero de uma posição de visão de 180 graus no Bloco-NeRF. Veja o vídeo incorporado no final do artigo e também o link da fonte para vídeos complementares completos em alta resolução. Fonte: https://waymo.com/research/block-nerf/

Outros fatores que podem ser alterados dinamicamente no Block-NeRF são a abertura da lente (veja a imagem acima), clima e estações do ano.

No entanto, a mudança de estação pode causar mudanças relacionadas no ambiente, como árvores sem folhas, o que requer um conjunto de dados de entrada ainda mais extenso do que o construído para o Block-NeRF. O papel afirma:

'[A folhagem] muda sazonalmente e se move com o vento; isso resulta em representações borradas de árvores e plantas. Da mesma forma, inconsistências temporais nos dados de treinamento, como trabalhos de construção, não são tratadas automaticamente e requerem o retreinamento manual dos blocos afetados.'

Renderização Apocalíptica

Se você der uma olhada no vídeo embutido no final, notará uma Walking Dead-estilo esparso para o ambiente Block-NeRF em rede. Por várias razões, não menos para fornecer um ambiente inicial simulado para sistemas robóticos, carros, pedestres e outros objetos transitórios foram deliberadamente separados do material de origem, mas isso deixou alguns artefatos para trás, como as sombras de veículos estacionados 'apagados' :

A sombra fantasma de um carro apagado. Fonte: https://waymo.com/research/block-nerf/

A sombra fantasma de um carro apagado. Fonte: https://waymo.com/research/block-nerf/

Para acomodar uma variedade de ambientes de iluminação, como dia ou noite, as redes foram treinadas para incorporar fluxos de dados desembaraçados relacionados a cada condição desejada. Na imagem abaixo, vemos os fluxos de contribuição para a filmagem Block-NeRF de uma rodovia durante o dia e a noite:

As facetas sob demanda por trás de uma renderização Block-NeRF aparentemente 'cozida', permitindo que um usuário ligue a noite conforme necessário. Fonte: https://waymo.com/research/block-nerf/

As facetas sob demanda por trás de uma renderização Block-NeRF aparentemente 'cozida', permitindo que um usuário ligue a noite conforme necessário. Fonte: https://waymo.com/research/block-nerf/

Considerações Ambientais e Éticas

Nos últimos anos, as submissões de pesquisas começaram a incluir ressalvas e isenções de responsabilidade sobre possíveis ramificações éticas e ambientais do trabalho proposto. No caso do Block-NeRF, os autores observam que os requisitos de energia são altos e que a contabilização de objetos transitórios de curto e longo prazo (como folhas em árvores e trabalhos de construção, respectivamente) exigiria uma nova varredura regular de os dados de origem, levando a uma maior 'vigilância' em áreas urbanas cujos modelos neurais precisam ser mantidos atualizados.

Os autores declaram:

'Dependendo da escala em que este trabalho está sendo aplicado, suas demandas de computação podem levar ou piorar os danos ambientais se a energia usada para computação levar ao aumento das emissões de carbono. Conforme mencionado no documento, prevemos mais trabalhos, como métodos de cache, que podem reduzir as demandas de computação e, assim, mitigar os danos ambientais.'

Em relação à vigilância, eles continuam:

'Aplicações futuras deste trabalho podem envolver esforços de coleta de dados ainda maiores, o que levanta mais preocupações com a privacidade. Embora imagens detalhadas de vias públicas já possam ser encontradas em serviços como o Google Street View, nossa metodologia pode promover verificações repetidas e mais regulares do ambiente. Várias empresas no espaço de veículos autônomos também são conhecidas por realizar varreduras de área regulares usando sua frota de veículos; no entanto, alguns podem utilizar apenas varreduras LiDAR, que podem ser menos sensíveis do que a coleta de imagens da câmera.'

Métodos e Soluções

Os ambientes NeRF individuais podem ser reduzidos, em teoria, para qualquer tamanho antes de serem montados em uma matriz Block-NeRF. Isso abre caminho para a inclusão granular de conteúdos que estão definitivamente sujeitos a mudanças, como árvores, e para a identificação e gerenciamento de obras, que podem persistir no tempo ao longo de anos de recaptura, mas são susceptíveis de evoluir e eventualmente se tornam entidades consistentes.

No entanto, nesta pesquisa inicial, os blocos NeRF discretos são limitados aos quarteirões reais de cada ambiente representado, costurados juntos, com uma sobreposição de 50%, garantindo uma transição consistente de um bloco para o outro enquanto o usuário navega na rede.

Cada bloco é limitado por um filtro geográfico. Os autores observam que esta parte da estrutura está aberta à automação e, surpreendentemente, que sua implementação depende do OpenStreetMap em vez do Google Maps.

O raio de interseção para um espaço de renderização Block-NeRF 'ativo'. Fonte: Waymo

O raio de interseção para um espaço de renderização Block-NeRF 'ativo'. Fonte: Waymo

Os blocos são treinados em paralelo, com os blocos necessários renderizados sob demanda. Os códigos de aparência inovadores também são orquestrados entre o conjunto de blocos, garantindo que ninguém viaje inesperadamente para um clima, hora do dia ou até mesmo uma estação diferente.

Os segmentos Block-NeRF são condicionados à exposição de maneira análoga ao High Dynamic Range (HDR) em material de origem fotográfica. Fonte: Waymo

Os segmentos Block-NeRF são condicionados à exposição de maneira análoga ao High Dynamic Range (HDR) em material de origem fotográfica. Fonte: Waymo

A capacidade de mudar a iluminação e outras variáveis ​​ambientais é derivada das Otimizações Gerativas Latentes introduzidas em NeRF na natureza (NeRF-W), que derivou o método do 2019 Facebook AI trabalho de pesquisa Otimizando o Espaço Latente das Redes Gerativas.

Um modelo de segmentação semântica originado para Panóptico-DeepLab em 2020 é usado para bloquear elementos indesejados (como pessoas e veículos)

Data

Descobrir que conjuntos de dados urbanos comuns, como paisagens urbanas não eram adequados para um trabalho detalhado tão intensivo como o Block-NeRF implica, os pesquisadores criaram seu próprio conjunto de dados. Os dados da imagem foram capturados de 12 câmeras abrangendo uma visão de 360 ​​graus, com filmagens feitas a 10 Hz com um valor de exposição escalar.

Os bairros de São Francisco cobertos foram Alamo Square e Mission Bay. Para as capturas da Alamo Square, uma área de aproximadamente 960m x 570m foi coberta, dividida em 35 instâncias Block-NeRF, cada uma treinada com dados de 38 a 48 execuções de coleta de dados diferentes, com um tempo total de condução de 18 a 28 minutos.

O número de imagens de contribuição para cada Block-NeRF variou entre 64,575 e 108,216, e o tempo total de condução representado para esta área foi de 13.4 horas em 1,330 diferentes execuções de coleta de dados. Isso resultou em 2,818,745 imagens de treinamento apenas para a Alamo Square. Consulte o documento para obter detalhes adicionais sobre a coleta de dados para Mission Bay.

 

Publicado pela primeira vez em 11 de fevereiro de 2022.