toco ST-NeRF: composição e edição para síntese de vídeo - Unite.AI
Entre em contato

Inteligência artificial

ST-NeRF: composição e edição para síntese de vídeo

mm
Atualização do on
ST-NeRF

Um consórcio de pesquisa chinês desenvolvido técnicas para trazer recursos de edição e composição para um dos setores de pesquisa de síntese de imagem mais quentes do ano passado - Neural Radiance Fields (NeRF). O sistema é intitulado ST-NeRF (Spatio-Temporal Coherent Neural Radiance Field).

O que parece ser uma panorâmica física da câmera na imagem abaixo é, na verdade, apenas um usuário 'rolando' pelos pontos de vista do conteúdo de vídeo que existe em um espaço 4D. O ponto de vista não está limitado ao desempenho das pessoas retratadas no vídeo, cujos movimentos podem ser vistos de qualquer parte de um raio de 180 graus.

ST-NeRF

Cada aspecto do vídeo é um elemento capturado discretamente, composto em uma cena coesa que pode ser explorada dinamicamente.

As facetas podem ser duplicadas livremente dentro da cena ou redimensionadas:

ST-NeRF

Além disso, o comportamento temporal de cada faceta pode ser facilmente alterado, desacelerado, retrocedido ou manipulado de várias maneiras, abrindo caminho para arquiteturas de filtro e um nível extremamente alto de interpretabilidade.

Duas facetas NeRF separadas rodam em velocidades diferentes na mesma cena. Fonte: https://www.youtube.com/watch?v=Wp4HfOwFGP4

Duas facetas NeRF separadas rodam em velocidades diferentes na mesma cena. Fonte: https://www.youtube.com/watch?v=Wp4HfOwFGP4

Não há necessidade de rotoscopia de artistas ou ambientes, ou fazer com que os artistas executem seus movimentos às cegas e fora do contexto da cena pretendida. Em vez disso, a filmagem é capturada naturalmente por meio de um conjunto de 16 câmeras de vídeo que cobrem 180 graus:

16 câmeras ST-NeRF

Os três elementos descritos acima, as duas pessoas e o ambiente, são distintos e descritos apenas para fins ilustrativos. Cada um pode ser trocado e cada um pode ser inserido na cena em um ponto anterior ou posterior em sua linha de tempo de captura individual.

Os três elementos descritos acima, as duas pessoas e o ambiente, são distintos e descritos apenas para fins ilustrativos. Cada um pode ser trocado e cada um pode ser inserido na cena em um ponto anterior ou posterior em sua linha de tempo de captura individual.

ST-NeRF é uma inovação na pesquisa em Campos de Radiância Neural (NeRF), uma estrutura de aprendizado de máquina em que capturas de múltiplos pontos de vista são sintetizadas em um espaço virtual navegável por meio de treinamento extensivo (embora a captura de ponto de vista único também seja um subsetor da pesquisa NeRF).

Os campos de radiância neural funcionam agrupando vários pontos de vista de captura em um único espaço 3D coerente e navegável, com as lacunas entre a cobertura estimada e renderizada por uma rede neural. Onde o vídeo (em vez de imagens estáticas) é usado, os recursos de renderização necessários geralmente são consideráveis. Fonte: https://www.matthewtancik.com/nerf

Os campos de radiância neural funcionam agrupando vários pontos de vista de captura em um único espaço 3D coerente e navegável, com as lacunas entre a cobertura estimada e renderizada por uma rede neural. Onde o vídeo (em vez de imagens estáticas) é usado, os recursos de renderização necessários geralmente são consideráveis. Fonte: https://www.matthewtancik.com/nerf

O interesse no NeRF tornou-se intenso nos últimos nove meses, e um relatório mantido pelo Reddit Lista de papéis NeRF derivados ou exploratórios lista atualmente sessenta projetos.

 

Apenas algumas das muitas ramificações do papel NeRF original. Fonte: https://crossminds.ai/graphlist/nerf-neural-radiance-fields-ai-research-graph-60708936c8663c4cfa875fc2/

Apenas algumas das muitas ramificações do papel NeRF original. Fonte: https://crossminds.ai/graphlist/nerf-neural-radiance-fields-ai-research-graph-60708936c8663c4cfa875fc2/

Treinamento acessível

O artigo é uma colaboração entre pesquisadores da Shanghai Tech University e DGene Tecnologia Digital, e foi aceito com algum entusiasmo em revisão aberta.

ST-NeRF oferece uma série de inovações em relação a iniciativas anteriores em espaços de vídeo navegáveis ​​derivados de ML. Não menos importante, atinge um alto nível de realismo com apenas 16 câmeras. Embora o Facebook DyNeRF usa apenas duas câmeras a mais, oferece um arco navegável muito mais restrito.

Um exemplo do ambiente DyNeRF do Facebook, com um campo de movimento mais limitado e mais câmeras por metro quadrado necessárias para reconstruir a cena. Fonte: https://neural-3d-video.github.io

Um exemplo do ambiente DyNeRF do Facebook, com um campo de movimento mais limitado e mais câmeras por metro quadrado necessárias para reconstruir a cena. Fonte: https://neural-3d-video.github.io

Além de não ter a capacidade de editar e compor facetas individuais, o DyNeRF é particularmente caro em termos de recursos computacionais. Por outro lado, os pesquisadores chineses afirmam que o custo de treinamento de seus dados fica entre US$ 900 e US$ 3,000, em comparação com os US$ 30,000 do modelo de geração de vídeo de última geração DVDGAN e sistemas intensivos como DyNeRF.

Os revisores também notaram que o ST-NeRF faz uma grande inovação ao separar o processo de aprendizagem do movimento do processo de síntese de imagem. Essa separação é o que permite editar e compor, com abordagens anteriores restritivas e lineares em comparação.

Embora 16 câmeras seja um conjunto muito limitado para um meio-círculo completo de visão, os pesquisadores esperam reduzir ainda mais esse número em trabalhos posteriores por meio do uso de fundos estáticos pré-digitalizados por proxy e abordagens de modelagem de cena mais baseadas em dados. Eles também esperam incorporar recursos de reiluminação, um inovação recente na pesquisa de NeRF.

Lidando com as limitações do ST-NeRF

No contexto de trabalhos acadêmicos de CS que tendem a descartar a usabilidade real de um novo sistema em um parágrafo final descartável, até mesmo as limitações que os pesquisadores reconhecem para o ST-NeRF são incomuns.

Eles observam que o sistema atualmente não pode individualizar e renderizar separadamente objetos específicos em uma cena, porque as pessoas na filmagem são segmentadas em entidades individuais por meio de um sistema projetado para reconhecer humanos e não objetos – um problema que parece facilmente resolvido com YOLO e similares frameworks, com o trabalho mais difícil de extração de vídeo humano já realizado.

Embora os pesquisadores observem que atualmente não é possível gerar câmera lenta, parece haver pouco para impedir a implementação disso usando inovações existentes na interpolação de quadros, como DAIN e RIFE.

Tal como acontece com todas as implementações de NeRF, e em muitos outros setores de pesquisa de visão computacional, o ST-NeRF pode falhar em casos de oclusão grave, onde o sujeito é temporariamente obscurecido por outra pessoa ou objeto, e pode ser difícil de rastrear continuamente ou de rastrear com precisão. readquirir depois. Tal como noutros casos, esta dificuldade poderá ter de aguardar soluções a montante. Entretanto, os investigadores admitem que a intervenção manual é necessária nestes quadros ocluídos.

Por fim, os pesquisadores observam que os procedimentos de segmentação humana atualmente dependem de diferenças de cores, o que pode levar ao agrupamento não intencional de duas pessoas em um bloco de segmentação - um obstáculo não limitado ao ST-NeRF, mas intrínseco à biblioteca que está sendo usada e que talvez pudesse ser resolvido por análise de fluxo óptico e outras técnicas emergentes.

Publicado pela primeira vez em 7 de maio de 2021.