Inteligência artificial

Renderização Neural: Quão Baixo Você Pode Ir em Termos de Entrada?

Publicado em 13 de maio de 2021

Atualizado em 25 de maio de 2026

Por

Martin Anderson

Ontem, um novo trabalho extraordinário em síntese de imagens neurais chamou a atenção e a imaginação da internet, à medida que os pesquisadores da Intel revelaram um novo método para melhorar a realismo de imagens sintéticas.

O sistema, como demonstrado em um vídeo da Intel, intervém diretamente no pipeline de imagem do jogo Grand Theft Auto V e melhora automaticamente as imagens por meio de um algoritmo de síntese de imagens treinado em uma rede neural convolucional (CNN), usando imagens do mundo real do conjunto de dados Mapillary e substituindo a iluminação e texturização menos realistas do motor do jogo GTA.

Comentários, em uma ampla gama de reações em comunidades como Reddit e Hacker News, estão colocando não apenas que a renderização neural desse tipo pode substituir efetivamente a saída menos fotorealista dos motores de jogos tradicionais e CGI de nível VFX, mas que esse processo pode ser alcançado com entrada muito mais básica do que o demonstrado no demo do GTA5 da Intel — criando efetivamente ‘fantoches’ de entrada de proxy com saídas realistas massivamente.

Conjuntos de Dados Emparelhados

O princípio foi exemplificado por uma nova geração de sistemas GAN e codificador/decodificador nos últimos três anos, como o GauGAN da NVIDIA, que gera imagens cênicas fotorealistas a partir de pinceladas grosseiras.

Essencialmente, esse princípio inverte o uso convencional da segmentação semântica na visão computacional de um método passivo que permite que os sistemas de máquina identifiquem e isolam objetos observados em uma entrada criativa, onde o usuário ‘pinta’ uma mapa de segmentação semântica falsa e o sistema gera imagens consistentes com as relações que entende por já ter classificado e segmentado um domínio específico, como paisagens.

Um framework de aprendizado de máquina aplica segmentação semântica a várias cenas exteriores, fornecendo o paradigma arquitetônico que permite o desenvolvimento de sistemas interativos, onde o usuário pinta um bloco de segmentação semântica e o sistema preenche o bloco com imagens apropriadas de um conjunto de dados específico do domínio, como o conjunto de vistas de rua da Alemanha da Mapillary, usado no demo de renderização neural do GTA5 da Intel. Fonte: http://ais.informatik.uni-freiburg.de/publications/papers/valada17icra.pdf

Sistemas de síntese de imagens de conjuntos de dados emparelhados funcionam correlacionando rótulos semânticos em dois conjuntos de dados: um conjunto de imagens rico e completo, gerado a partir de imagens do mundo real (como o conjunto Mapillary usado para melhorar o GTA5 no demo da Intel) ou de imagens sintéticas, como imagens CGI.

Exemplos de conjuntos de dados emparelhados para um sistema de síntese de imagens projetado para criar personagens renderizados neuralmente a partir de esboços desajeitados. À esquerda, amostras do conjunto de dados CGI. Meio, amostras correspondentes do conjunto de dados ‘esboço’. Direita, renderizações neurais que traduziram esboços de volta em imagens de alta qualidade. Fonte: https://www.youtube.com/watch?v=miLIwQ7yPkA

Ambientes exteriores são relativamente desafiadores quando se cria transformações de conjuntos de dados emparelhados desse tipo, porque as protuberâncias são geralmente bastante limitadas, a topografia tem uma variedade limitada que pode ser capturada de forma abrangente em um conjunto de dados e não precisamos lidar com a criação de pessoas artificiais ou negociar o Vale da Incerteza (ainda).

Invertendo Mapas de Segmentação

O Google desenvolveu uma versão animada do esquema GauGAN, chamada Infinite Nature, capaz de deliberadamente ‘alucinar’ paisagens fictícias contínuas e intermináveis, traduzindo mapas semânticos falsos em imagens fotorealistas por meio do sistema de preenchimento SPADE da NVIDIA:

Fonte: https://www.youtube.com/watch?v=oXUf6anNAtc

No entanto, a Infinite Nature usa uma imagem como ponto de partida e usa o SPADE apenas para pintar as seções ausentes em frames sucessivos, enquanto o próprio SPADE cria transformações de imagens diretamente a partir de mapas de segmentação.

Fonte: https://nvlabs.github.io/SPADE/

É essa capacidade que parece ter inspirado admiradores do sistema de melhoria de imagem da Intel – a possibilidade de derivar imagens fotorealistas de alta qualidade, mesmo em tempo real (eventualmente), a partir de entrada extremamente crua.

Substituindo Texturas e Iluminação com Renderização Neural

No caso da entrada do GTA5, alguns se perguntaram se alguma das texturizações e iluminações procedurais e de bitmap computacionalmente caras do motor do jogo de fato seriam necessárias em sistemas de renderização neural futuros, ou se poderia ser possível transformar entrada de baixa resolução e nível de fio em vídeo fotorealista que supere as capacidades de sombreamento, texturização e iluminação dos motores de jogos, criando cenas hiper-realistas a partir de entrada de proxy ‘placeholder’.

Pode parecer óbvio que facetas do jogo, como reflexos, texturas e outros tipos de detalhes ambientais, são fontes essenciais de informação para um sistema de renderização neural do tipo demonstrado pela Intel. No entanto, já se passaram alguns anos desde que a NVIDIA demonstrou que apenas o domínio é importante e que até aspectos abrangentes, como ‘noite ou dia’, são basicamente questões a serem tratadas por transferência de estilo:

Em termos de entrada necessária, isso potencialmente deixa o motor do jogo apenas precisando gerar geometria básica e simulações de física, desde que o motor de renderização neural possa repintar todos os outros aspectos, sintetizando a imagem desejada a partir do conjunto de dados capturado, usando mapas semânticos como uma camada de interpretação.

O sistema da Intel melhora um quadro completamente terminado e renderizado do GTA5, adicionando segmentação e mapas de profundidade avaliados — dois aspectos que poderiam potencialmente ser fornecidos diretamente por um motor de jogo simplificado. Fonte: https://www.youtube.com/watch?v=P1IcaBn3ej0

A abordagem de renderização neural da Intel envolve a análise de quadros completamente renderizados a partir dos buffers do GTA5, e o sistema neural tem a carga adicional de criar tanto os mapas de profundidade quanto os mapas de segmentação. Como os mapas de profundidade estão implicitamente disponíveis em pipelines 3D tradicionais (e são menos exigentes para gerar do que texturização, ray-tracing ou iluminação global), pode ser um melhor uso de recursos permitir que o motor do jogo lide com eles.

Entrada Simplificada para um Motor de Renderização Neural

A implementação atual da rede de melhoria de imagem da Intel, portanto, pode envolver muitos ciclos de computação redundantes, pois o motor do jogo gera texturização e iluminação computacionalmente caras que o motor de renderização neural não precisa realmente. O sistema parece ter sido projetado dessa forma não porque essa é necessariamente uma abordagem ótima, mas porque é mais fácil adaptar um motor de renderização neural a um pipeline existente do que criar um novo motor de jogo otimizado para uma abordagem de renderização neural.

O uso mais econômico de recursos em um sistema de jogos dessa natureza poderia ser a completa co-optação da GPU pelo sistema de renderização neural, com a entrada de proxy simplificada tratada pela CPU.

Além disso, o motor do jogo poderia facilmente produzir mapas de segmentação representativos por si mesmo, desligando todo o sombreamento e iluminação em sua saída. Além disso, poderia fornecer vídeo em uma resolução muito mais baixa do que o normalmente exigido dele, desde que o vídeo precisaria apenas ser amplamente representativo do conteúdo, com detalhes de alta resolução tratados pelo motor neural, libertando ainda mais recursos de computação locais.

Trabalho Anterior da Intel ISL com Segmentação>Imagem

A tradução direta de segmentação para vídeo fotorealista está longe de ser hipotética. Em 2017, a Intel ISL, criadora do alvoroço de ontem, lançou uma pesquisa inicial capaz de realizar síntese de vídeo urbano diretamente a partir de segmentação semântica.

Trabalho da Intel ISL com segmentação para imagem de 2017. Fonte: https://awesomeopensource.com/project/CQFIO/PhotographicImageSynthesis

Na verdade, aquela pipeline original de 2017 foi simplesmente estendida para se adequar à saída completamente renderizada do GTA5.

Renderização Neural em VFX

A renderização neural a partir de mapas de segmentação artificiais também parece ser uma tecnologia promissora para VFX, com a possibilidade de traduzir diretamente videogramas básicos em footage de efeitos visuais terminados, gerando conjuntos de dados específicos do domínio a partir de modelos ou imagens sintéticas (CGI).

Um sistema de renderização neural hipotético, onde a cobertura extensiva de cada objeto de destino é abstraída em um conjunto de dados contribuinte, e onde mapas de segmentação artificialmente gerados são usados como base para saída fotorealista de alta resolução. Fonte: https://rossdawson.com/futurist/implications-of-ai/comprehensive-guide-ai-artificial-intelligence-visual-effects-vfx/

O desenvolvimento e adoção de tais sistemas mudariam o foco do esforço artístico de um fluxo de trabalho interpretativo para um representativo e elevariam a coleta de dados orientada por domínio de um papel de apoio para um papel central nas artes visuais.