Inteligência artificial

ST-NeRF: Composição e Edição para Síntese de Vídeo

Published May 7, 2021

Updated April 27, 2026

Martin Anderson

Um consórcio de pesquisa chinês desenvolveu técnicas para trazer capacidades de edição e composição para um dos setores de pesquisa de síntese de imagens mais quentes do último ano – Campos de Radiância Neural (NeRF). O sistema é intitulado ST-NeRF (Campo de Radiância Neural Coerente Espaço-Temporal).

O que parece ser uma panorâmica de câmera física na imagem abaixo é, na verdade, apenas um usuário “rolando” por pontos de vista em conteúdo de vídeo que existe em um espaço 4D. O POV não está bloqueado para o desempenho das pessoas retratadas no vídeo, cujos movimentos podem ser vistos de qualquer parte de um raio de 180 graus.

ST-NeRF

Cada faceta dentro do vídeo é um elemento capturado discretamente, composto em uma cena coesa que pode ser explorada dinamicamente.

As facetas podem ser duplicadas livremente dentro da cena, ou redimensionadas:

ST-NeRF

Além disso, o comportamento temporal de cada faceta pode ser facilmente alterado, desacelerado, executado em reverso ou manipulado de várias maneiras, abrindo o caminho para arquiteturas de filtros e um nível extremamente alto de interpretabilidade.

Duas facetas NeRF separadas executadas em velocidades diferentes na mesma cena. Fonte: https://www.youtube.com/watch?v=Wp4HfOwFGP4

Não há necessidade de rotoscopiar performers ou ambientes, ou ter performers executarem seus movimentos cegamente e fora do contexto da cena pretendida. Em vez disso, as filmagens são capturadas naturalmente por meio de uma matriz de 16 câmeras de vídeo que cobrem 180 graus:

16 câmeras ST-NeRF

Os três elementos retratados acima, as duas pessoas e o ambiente, são distintos e delineados apenas para fins ilustrativos. Cada um pode ser trocado, e cada um pode ser inserido na cena em um ponto anterior ou posterior em sua linha do tempo de captura individual.

ST-NeRF é uma inovação na pesquisa em Campos de Radiância Neural (NeRF), uma estrutura de aprendizado de máquina pela qual capturas de múltiplos pontos de vista são sintetizadas em um espaço virtual navegável por meio de treinamento extensivo (embora a captura de um único ponto de vista também seja um sub-setor da pesquisa NeRF).

Campos de Radiância Neural funcionam colligindo múltiplos pontos de vista de captura em um único espaço 3D coeso e navegável, com as lacunas entre a cobertura estimadas e renderizadas por uma rede neural. Onde o vídeo (em vez de imagens estáticas) é usado, os recursos de renderização necessários são frequentemente consideráveis. Fonte: https://www.matthewtancik.com/nerf

O interesse em NeRF se tornou intenso nos últimos nove meses, e uma lista mantida pelo Reddit de projetos derivados ou exploratórios de NeRF atualmente lista sessenta projetos.

Apenas alguns dos muitos ramos do artigo original NeRF. Fonte: https://crossminds.ai/graphlist/nerf-neural-radiance-fields-ai-research-graph-60708936c8663c4cfa875fc2/

Treinamento Acessível

O artigo é uma colaboração entre pesquisadores da Universidade de Tecnologia de Xangai e DGene Digital Technology, e foi aceito com algum entusiasmo no Open Review.

ST-NeRF oferece várias inovações sobre as iniciativas anteriores em espaços de vídeo navegáveis derivados de ML. Não menos, ele alcança um alto nível de realismo com apenas 16 câmeras. Embora o DyNeRF do Facebook use apenas duas câmeras a mais do que isso, ele oferece um arco navegável muito mais restrito.

Um exemplo do ambiente DyNeRF do Facebook, com um campo de movimento mais limitado, e mais câmeras por metro quadrado necessárias para reconstruir a cena. Fonte: https://neural-3d-video.github.io

Além de falta a capacidade de editar e compor facetas individuais, o DyNeRF é particularmente caro em termos de recursos computacionais. Em contraste, os pesquisadores chineses afirmam que o custo de treinamento de seus dados sai em torno de $900-$3.000, em comparação com os $30.000 para o modelo de geração de vídeo de estado da arte DVDGAN, e sistemas intensivos como o DyNeRF.

Os revisores também notaram que o ST-NeRF faz uma inovação significativa ao desacoplar o processo de aprendizado de movimento do processo de síntese de imagem. Essa separação é o que permite a edição e a composição, com as abordagens anteriores restritivas e lineares em comparação.

Embora 16 câmeras sejam uma matriz muito limitada para um semicírculo de visão tão amplo, os pesquisadores esperam reduzir ainda mais esse número em trabalhos futuros por meio do uso de fundos estáticos pré-escaneados e abordagens de modelagem de cena mais orientadas a dados. Eles também esperam incorporar capacidades de re-iluminação, uma inovação recente na pesquisa NeRF.

Abordando Limitações do ST-NeRF

No contexto de artigos de pesquisa acadêmica de CS que tendem a descartar a usabilidade real de um novo sistema em um parágrafo final descartável, até mesmo as limitações que os pesquisadores reconhecem para o ST-NeRF são incomuns.

Eles observam que o sistema não pode atualmente individuar e renderizar objetos específicos em uma cena, porque as pessoas nas filmagens são segmentadas em entidades individuais por meio de um sistema projetado para reconhecer humanos e não objetos – um problema que parece facilmente solucionado com YOLO e frameworks semelhantes, com o trabalho mais difícil de extrair vídeo humano já realizado.

Embora os pesquisadores notem que atualmente não é possível gerar movimento lento, parece haver pouco que impeça a implementação disso usando inovações existentes em interpolação de quadros, como DAIN e RIFE.

Como em todas as implementações NeRF, e em muitos outros setores de pesquisa de visão computacional, o ST-NeRF pode falhar em instâncias de oclusão severa, onde o assunto é temporariamente obscurecido por outra pessoa ou objeto, e pode ser difícil de acompanhar continuamente ou re-acquistar com precisão após. Como em outros lugares, essa dificuldade pode ter que aguardar soluções upstream. Enquanto isso, os pesquisadores concordam que a intervenção manual é necessária em esses quadros ocluídos.

Finalmente, os pesquisadores observam que os procedimentos de segmentação humana atualmente dependem de diferenças de cor, o que pode levar à colação involuntária de duas pessoas em um bloco de segmentação – um obstáculo não limitado ao ST-NeRF, mas inerente à biblioteca sendo usada, e que talvez possa ser solucionado por meio de análise de fluxo óptico e outras técnicas emergentes.

Publicado pela primeira vez em 7 de maio de 2021.