Ângulo de Anderson

O Ambiente de Realidade Aumentada com HDR da Apple Pode Resolver Reflexos para Renderização Neural?

mm

O investimento vigoroso e de longo prazo da Apple em tecnologias de Realidade Aumentada está acelerando este ano, com uma nova série de ferramentas de desenvolvedor para capturar e converter objetos do mundo real em facetas de RA, e uma convicção crescente na indústria de que óculos de RA dedicados estão vindo para apoiar as experiências imersivas que essa tempestade de P&D pode habilitar.

Entre uma série de novas informações sobre os esforços da Apple em Realidade Aumentada, um novo artigo da divisão de pesquisa de visão computacional da empresa revela um método para usar imagens panorâmicas de 360 graus de alta amplitude dinâmica (HDR) para fornecer reflexos e iluminação específicos da cena para objetos superpostos em cenas de realidade aumentada.

Intitulado Estimativa de Mapa de Ambiente HDR para Realidade Aumentada em Tempo Real, o artigo, dos engenheiros da Apple Computer Vision Research, Gowri Somanath e Daniel Kurz, propõe a criação dinâmica de ambientes HDR em tempo real por meio de uma rede neural convolucional (CNN) executada em um ambiente de processamento móvel. O resultado é que objetos reflexivos podem literalmente espelhar ambientes novos e não vistos por demanda:

No novo fluxo de trabalho de geração de objetos de RA da Apple, uma panela de pressão é instanciada por fotogrametria completa com seu ambiente circundante, levando a reflexos convincentes que não são 'assados' na textura. Fonte: https://docs-assets.developer.apple.com/

No novo fluxo de trabalho de geração de objetos de RA da Apple, uma panela de pressão é instanciada por fotogrametria completa com seu ambiente circundante, levando a reflexos convincentes que não são ‘assados’ na textura. Fonte: https://docs-assets.developer.apple.com/

O método, estreado no CVPR 2021, tira uma foto de toda a cena e usa a EnvMapNet CNN para estimar uma imagem panorâmica HDR visualmente completa, também conhecida como ‘sonda de luz’.

O mapa resultante identifica fontes de luz fortes (contornadas no final da animação acima) e as leva em conta ao renderizar os objetos virtuais.

A arquitetura da EnvMapNet, que processa imagens limitadas em sondas de luz HDR de cena completa. Fonte: https://arxiv.org/pdf/2011.10687.pdf

A arquitetura da EnvMapNet, que processa imagens limitadas em sondas de luz HDR de cena completa. Fonte: https://arxiv.org/pdf/2011.10687.pdf

O algoritmo pode ser executado em menos de 9ms em um iPhone XS e é capaz de renderizar objetos com reflexos em tempo real, com um erro direcional reduzido de 50% em comparação com abordagens anteriores e diferentes para o problema.

Sondas de Luz

Ambientes de iluminação HDR têm sido um fator nos efeitos visuais desde que as imagens de alta amplitude dinâmica (inventadas em 1986) se tornaram uma força notável por meio de avanços na tecnologia de computador na década de 1990. Quem assiste a imagens por trás das cenas pode ter notado a presença surreal de técnicos segurando bolas espelhadas em varas – imagens de referência a serem incorporadas como fatores ambientais ao reconstruir elementos de CGI para a cena.

Fonte: https://beforesandafters.com/

Fonte: https://beforesandafters.com/

No entanto, o uso de bolas cromadas para mapeamento de reflexos de texturas predatam a década de 1990, remontando a 1983, com o artigo do SIGGRAPH Pyramidal Parametrics, que apresentou imagens estáticas de um robô de CGI reflexivo em um estilo que se tornaria famoso quase uma década depois, por meio dos efeitos de ‘metal líquido’ do filme Terminator 2: Judgement Day de James Cameron.

Ambientes HDR na Renderização Neural?

A renderização neural oferece a possibilidade de gerar vídeo fotorealista a partir de entradas muito esparsas, incluindo mapas de segmentação cruas.

Renderização de imagem para segmentação neural da Intel ISL (2017). Fonte: https://awesomeopensource.com/project/CQFIO/PhotographicImageSynthesis

Renderização de imagem para segmentação neural da Intel ISL (2017). Fonte: https://awesomeopensource.com/project/CQFIO/PhotographicImageSynthesis

Em maio, pesquisadores da Intel revelaram uma nova iniciativa em síntese de imagem neural, onde imagens do jogo Grand Theft Auto V foram usadas para gerar saída fotorealista com base em conjuntos de dados de imagens de ruas alemãs.

Fonte: https://www.youtube.com/watch?v=0fhUJT21-bs

Fonte: https://www.youtube.com/watch?v=0fhUJT21-bs

O desafio no desenvolvimento de ambientes de renderização neural que possam ser adaptados a várias condições de iluminação é separar o conteúdo do objeto dos fatores ambientais que o afetam.

Como está, reflexos e efeitos anisotrópicos permanecem funções do conjunto de dados de footage original (o que os torna inflexíveis), ou exigem o mesmo tipo de esquema que os pesquisadores da Intel empregaram, que gera saída semi-fotorealista a partir de um (jogo de) motor, realiza segmentação nele e, em seguida, aplica transferência de estilo de um conjunto de dados ‘assado’ (como o conjunto de vistas de rua Mapillary alemão usado na pesquisa recente).

Nesta renderização neural (o footage do GTA V está à esquerda), o veículo à frente demonstra clarão convincente e até saturação do sensor da câmera virtual com reflexos do sol. Mas esse aspecto de iluminação é derivado do footage do jogo original, pois as facetas neurais na cena não têm estruturas de iluminação autônomas e auto-referenciais que possam ser alteradas.

Nesta renderização neural derivada do footage do GTA V (à esquerda), o veículo à frente demonstra clarão convincente e até saturação do sensor da câmera virtual com reflexos do sol. Mas esse aspecto de iluminação é derivado do motor de iluminação do footage do jogo original, pois as facetas neurais na cena não têm estruturas de iluminação autônomas e auto-referenciais que possam ser alteradas.

Reflexão em NeRF

Imagens derivadas de Campos de Radiância Neural (NeRF) são desafiadas de forma semelhante. Embora pesquisas recentes sobre NeRF tenham feito progressos na separação dos elementos que compõem uma cena neural (por exemplo, a colaboração MIT/Google sobre NeRFactor), reflexos permanecem um obstáculo.

A abordagem NeRFactor da MIT e Google separa normais, visibilidade (sombras), textura e albedo local, mas não reflete um ambiente, pois existe em um vácuo. Fonte: https://arxiv.org/pdf/2106.01970.pdf

A abordagem NeRFactor da MIT e Google separa normais, visibilidade (sombras), textura e albedo local, mas não reflete um ambiente mais amplo (ou em movimento), pois essencialmente existe em um vácuo. Fonte: https://arxiv.org/pdf/2106.01970.pdf

NeRF pode resolver esse problema com o mesmo tipo de mapeamento HDR que a Apple está usando. Cada pixel em um campo de radiância neural é calculado em uma trajetória a partir de uma câmera virtual até o ponto onde o ‘raio’ pode viajar mais longe, semelhante ao ray-tracing em CGI tradicional. Adicionar entrada HDR ao cálculo desse raio é um método potencial para alcançar reflexão ambiental genuína e é, em essência, um análogo aos métodos de iluminação global ou renderização de radiossidade do CGI, nos quais uma cena ou objeto é parcialmente iluminado por reflexos percebidos de seu próprio ambiente.

Embora seja garantido que uma matriz HDR não faça nada para aliviar as notáveis cargas computacionais de NeRF, uma grande quantidade de pesquisa nesse campo no momento está se concentrando em abordar esse aspecto da pipeline de processamento. Inevitavelmente, reflexão é um dos muitos fatores que esperam para reabastecer e desafiar essa nova arquitetura otimizada. No entanto, NeRF não pode alcançar seu pleno potencial como uma metodologia de síntese de imagem e vídeo neural discreta sem adotar uma maneira de levar em conta um ambiente circundante.

Reflexão em Pipelines de Renderização Neural

Em uma versão putativa do cenário de renderização neural do GTA V com HDR, um único HDR não poderia acomodar os reflexos dinâmicos que precisam ser expressos em objetos em movimento. Por exemplo, para ver o próprio veículo refletido no veículo à frente enquanto se aproxima dos semáforos, a entidade do veículo à frente poderia ter sua própria sonda de luz HDR animada, cuja resolução degrada incrementalmente à medida que se afasta do ponto de vista do usuário, tornando-se de baixa resolução e meramente representativa à medida que se afasta para a distância – um LOD baseado na proximidade semelhante aos delimitadores de ‘distância de desenho’ em jogos de vídeo.

O verdadeiro potencial do trabalho da Apple em iluminação HDR e mapas de reflexos não está no fato de ser particularmente inovador, pois se baseia em trabalhos anteriores em síntese de imagem geral e em desenvolvimento de cena de RA. Em vez disso, a possível quebra de barreira é representada pela maneira como as restrições computacionais locais severas se combinaram com as inovações de hardware de aprendizado de máquina da Apple para produzir mapeamento HDR leve e de baixa latência projetado para operar sob recursos restritos.

Se esse problema puder ser resolvido economicamente, a chegada da síntese de vídeo fotorealista por segmentação semântica pode estar um passo mais próxima.

Fonte: https://docs-assets.developer.apple.com/

Escritor sobre aprendizado de máquina, especialista em síntese de imagem humana. Ex-chefe de conteúdo de pesquisa da Metaphysic.ai.