Inteligência artificial
NeRF: O Desafio de Editar o Conteúdo de Campos de Radiância Neurais

No início deste ano, a NVIDIA avançou a pesquisa de Campos de Radiância Neurais (NeRF) de forma notável com o InstantNeRF, aparentemente capaz de gerar cenas neurais exploráveis em apenas segundos – a partir de uma técnica que, quando surgiu em 2020, frequentemente levava horas ou até dias para treinar.

O InstantNeRF da NVIDIA fornece resultados impressionantes e rápidos. Fonte: https://www.youtube.com/watch?v=DJ2hcC1orc4
Embora esse tipo de interpolação produza uma cena estática, o NeRF também é capaz de representar movimento, e de edição básica ‘copiar-e-colar’, onde NeRFs individuais podem ser reunidos em cenas compostas ou inseridos em cenas existentes.

NeRFs aninhados, apresentados em uma pesquisa de 2021 da Universidade de Tecnologia de Xangai e da DGene Digital Technology. Fonte: https://www.youtube.com/watch?v=Wp4HfOwFGP4
No entanto, se você está procurando intervir em um NeRF calculado e realmente mudar algo que está acontecendo dentro dele (da mesma forma que você pode mudar elementos em uma cena CGI tradicional), o ritmo acelerado do interesse setorial encontrou muito poucas soluções até agora, e nenhuma que comece a igualar as capacidades dos fluxos de trabalho CGI.
Embora a estimativa da geometria seja essencial para criar uma cena NeRF, o resultado final é composto por valores bastante ‘travados’. Embora haja algum progresso sendo feito para mudar os valores de textura no NeRF, os objetos reais em uma cena NeRF não são malhas paramétricas que possam ser editadas e manipuladas, mas mais parecidas com nuvens de pontos congeladas e frágeis.
Nesse cenário, uma pessoa renderizada em um NeRF é essencialmente uma estátua (ou uma série de estátuas, em NeRFs de vídeo); as sombras que ela projeta em si mesma e em outros objetos são texturas, e não cálculos flexíveis baseados em fontes de luz; e a editabilidade do conteúdo NeRF é limitada às escolhas feitas pelo fotógrafo que tira as fotos de fonte esparsas a partir das quais o NeRF é gerado. Parâmetros como sombras e pose permanecem não editáveis, em qualquer sentido criativo.
NeRF-Edição
Uma nova colaboração de pesquisa acadêmica entre a China e o Reino Unido aborda esse desafio com NeRF-Edição, onde malhas CGI de proxy são extraídas de um NeRF, deformadas à vontade pelo usuário e as deformações passadas de volta para os cálculos neurais do NeRF:

Marionetismo NeRF com NeRF-edição, à medida que as deformações calculadas a partir de footage são aplicadas a pontos equivalentes dentro de uma representação NeRF. Fonte: http://geometrylearning.com/NeRFEditing/
O método adapta a técnica reconstrutiva NeuS de 2021 dos EUA/China, que extrai uma Função de Distância Assinada (SDF, um método muito mais antigo de reconstrução volumétrica) que consegue aprender a geometria representada dentro do NeRF.
Esse objeto SDF se torna a base de escultura do usuário, com capacidades de deformação e modelagem fornecidas pela técnica venerável As-Rigid-As-Possible (ARAP).

O ARAP permite que os usuários deformem a malha SDF extraída, embora outros métodos, como abordagens baseadas em esqueleto e gaiola (i.e. NURBs), também funcionem bem. Fonte: https://arxiv.org/pdf/2205.04978.pdf
Com as deformações aplicadas, é necessário traduzir essas informações de vetor para o nível RGB/pixel nativo do NeRF, o que é uma jornada um pouco mais longa.
Os vértices triangulares da malha que o usuário deformou são traduzidos primeiro em uma malha tetraédrica, que forma uma pele em torno da malha do usuário. Um campo de deformação discreto espacial é extraído dessa malha adicional, e finalmente um campo de deformação contínuo amigável ao NeRF é obtido, que pode ser passado de volta para o ambiente de radiância neural, refletindo as alterações e edições do usuário e afetando diretamente os raios interpretados no NeRF alvo.

Objetos deformados e animados pelo novo método.
O artigo afirma:
‘Depois de transferir a deformação da superfície para a malha tetraédrica, podemos obter o campo de deformação discreto do “espaço eficaz”. Agora, utilizamos essas transformações discretas para curvar os raios de lançamento. Para gerar uma imagem do campo de radiância deformado, lançamos raios no espaço que contém a malha tetraédrica deformada.’
O artigo é intitulado NeRF-Edição: Edição de Geometria de Campos de Radiância Neurais, e vem de pesquisadores de três universidades chinesas e instituições, juntamente com um pesquisador da Escola de Ciência da Computação e Informática da Universidade de Cardiff, e outros dois pesquisadores do Grupo Alibaba.
Limitações
Como mencionado anteriormente, a geometria transformada não ‘atualizará’ nenhum aspecto relacionado no NeRF que não tenha sido editado, nem refletirá consequências secundárias do elemento deformado, como sombras. Os pesquisadores fornecem um exemplo, onde as sombras sob uma figura humana em um NeRF permanecem inalteradas, mesmo que a deformação deva alterar a iluminação:

Do artigo: vemos que a sombra horizontal no braço da figura permanece no lugar, mesmo quando o braço é movido para cima.
Experimentos
Os autores observam que, atualmente, não há métodos comparáveis para intervenção direta na geometria do NeRF. Portanto, os experimentos realizados para a pesquisa foram mais exploratórios do que comparativos.
Os pesquisadores demonstraram a edição NeRF em vários conjuntos de dados públicos, incluindo personagens do Mixamo, e o icônico buldôzer e cadeira Lego da implementação original do NeRF. Eles também experimentaram em uma estátua de cavalo real capturada do conjunto de dados FVS, bem como suas próprias capturas originais.

A cabeça de um cavalo inclinada.
Para trabalhos futuros, os autores pretendem desenvolver seu sistema no framework de aprendizado de máquina compilado just-in-time (JIT) Jittor.
Publicado pela primeira vez em 16 de maio de 2022.












