Entre em contato

Transmissão de avatares de IA como se fosse 1999

Ângulo de Anderson

Transmissão de avatares de IA como se fosse 1999

mm
Montagem de imagens relacionadas ao streaming de avatares Gaussianos, apresentando rostos 3DGS. Fonte: https://ustc3dv.github.io/ProgressiveAvatars/

Uma nova pesquisa apresenta uma maneira de transmitir avatares 3D realistas que aparecem quase instantaneamente e se tornam mais nítidos em tempo real, em vez de obrigar os usuários a esperar que downloads massivos sejam concluídos.

 

Em muitos aspectos, as enormes demandas de recursos da IA ​​generativa e dos sistemas de renderização assistida por IA atrasaram a disponibilidade para o consumidor em vinte anos ou mais. Até 2023, uma alocação de 64 GB de RAM em um laptop ou computador desktop parecia um exagero; agora, com a crescente popularidade da RAM e/ou Descarregamento da CPU64 GB é bastante modesto para necessidades locais de IA; e esses elementos antes banais e acessíveis dos PCs continuam a... preço dispara enquanto as empresas lutam para atender à demanda por serviços de IA.

A escala e a ganância da IA, seus processos e ambientes, normalmente superam em muito o hardware de nível consumidor, e até mesmo a execução de modelos locais "simplificados" como versões GGUF Normalmente, isso sobrecarregará o sistema médio.

Até mesmo serviços de IA baseados em texto, como o ChatGPT, são sujeito a tensão significativa tanto no nível do cliente quanto no do servidor. Portanto, uma vez que a IA seja incumbida de fornecer experiências multimídia online em tempo real, podemos razoavelmente esperar algumas concessões muito sérias em termos de latência e/ou qualidade – semelhantes às dificuldades iniciais da internet com o streaming de mídia e os tão odiados ícones animados de "carregamento" da internet. Jogador real e ferrolhos de sobrepor podem ser usados para proteger uma porta de embutir pelo lado de fora. Alguns kits de corrente de segurança também permitem travamento externo com chave ou botão giratório. Tempo rápido.

A última vez que problemas de multimídia e rede causaram atrito na experiência do usuário, o hardware de nível consumidor estava... ainda evoluindo através da Lei de Moore, melhorando quase exponencialmente a cada ano, mesmo com a evolução dos sistemas operacionais, redes e outras infraestruturas de suporte para atender à demanda; e, nos últimos dez anos, mais ou menos, as capacidades da tecnologia de consumo superaram as demandas multimídia (talvez até ao ponto de causar rotatividade). precisava de um impulso inicial a fim de manter as vendas).

Mas esse excesso de capacidade local pode estar chegando ao fim em breve, já que O hardware local torna-se de especificações inferiores e mais caro.E, à medida que os serviços baseados em IA exigem mais recursos locais e do lado do servidor.

Obtendo uma vantagem

Na era pré-banda larga, mesmo antes dos primeiros vídeos em streaming utilizáveis, os usuários da web estavam acostumados a ver as imagens ganhando foco lentamente, como JPEGs progressivos permitia ao usuário com pouca largura de banda observar a imagem sendo baixada, às vezes. dolorosamente devagar, à medida que mais dados de imagem eram carregados localmente.

Agora, ao que parece, poderemos ter uma experiência semelhante com o auxílio de IA. Avatares Gaussianos Splat:

Clique para jogar.  Do novo projeto ProgressiveAvatars, uma comparação de avatares Gaussianos em fluxo contínuo. À esquerda, o projeto GaussianAvatars mais antigo obtém novos dados lentamente, mas apresenta uma aparência ruim à medida que os dados se acumulam; à direita, a versão ProgressiveAvatars também constrói detalhes lentamente, mas o faz de forma inteligente, proporcionando uma semelhança humana básica desde o início. fonte

Acima, vemos duas versões de um Avatar baseado em Gaussian Splat (GSplat) – uma representação humana possibilitada parcialmente por uma técnica de renderização não baseada em IA que remonta ao início da década de 1990, e também por métodos mais modernos, como o FLAME Modelo humano paramétrico e abordagens de treinamento baseadas em IA:

A técnica Gaussian Splatting utiliza uma representação gaussiana de cor e informação 3D em vez de um pixel ou voxel, e mapeia essa textura ultrarrealista em uma malha CGI mais tradicional, que por sua vez é facilitada por um "humano paramétrico", um rosto e/ou corpo em CGI, em sistemas como FLAME e STARR. Fonte - https://arxiv.org/pdf/2312.02069.pdf

O Gaussian Splatting utiliza uma representação gaussiana de cor e informação 3D em vez de um pixel ou voxel, e mapeia essa textura ultrarrealista em um tipo mais tradicional de malha CGI, que por sua vez é facilitada por um 'humano paramétrico', um rosto e/ou corpo em CGI, em sistemas como... FLAME e ferrolhos de sobrepor podem ser usados para proteger uma porta de embutir pelo lado de fora. Alguns kits de corrente de segurança também permitem travamento externo com chave ou botão giratório. ESTRELA fonte

No vídeo acima, à esquerda, podemos ver que uma implementação tradicional de um avatar Gaussiano com efeito de mancha tem uma aparência bastante horrível enquanto aguardamos o carregamento dos dados. À direita, uma nova implementação da China, chamada... Avatares progressivos, consegue resolver de forma muito mais elegante à medida que os dados são carregados, apresentando uma imagem humana não alarmante desde o início.

Os autores afirmam que seu método é o primeiro a realmente "transmitir" um avatar gaussiano e, certamente, o primeiro a fazê-lo de forma progressiva, onde a imagem se constrói de maneira elegante e as áreas mais importantes – como olhos e lábios – podem ser priorizadas, de modo que o avatar possa se tornar conversacional mesmo quando apenas parcialmente carregado:

Clique para jogar. Do site do projeto ProgressiveAvatars, uma ilustração do carregamento com reconhecimento de atenção.

Anteriormente, uma abordagem de 'nível de detalhe' (LOD, na sigla em inglês) foi usada em tentativas anteriores de reduzir a espessura dos avatares do 'GSplat', semelhante às otimizações de videogames, onde versões sucessivamente mais detalhadas de uma pessoa são carregadas de acordo com se elas ocupam espaço suficiente na tela ou atenção do espectador para justificar o esforço.

É claro que isso implica uma quantidade considerável de avatares "sobressalentes" redundantes, e os autores apresentam sua abordagem como um sistema mais racional. Por implicação, um método desse tipo também permite que alterações sejam feitas em uma figura do GSplat (ou seja, personalização) sem a necessidade de propagar essas alterações por meio de uma cadeia de vários avatares "gêmeos" de diferentes níveis de detalhe (LOD).

Um domínio emergente

Se isso parece um problema específico, bem, o mesmo acontecia com o streaming de vídeo, na época em que fazer os primeiros plugins funcionarem era tarefa delegada ao nerd mais próximo. Além disso, o potencial das representações de streaming baseadas em IA vai além de avatares humanos, estendendo-se a geração da cidade, jogose versões em 3D* de praticamente qualquer domínio online – como Prova Virtual, para compras de roupas:

Clique para jogar. De um projeto de 2024, um vislumbre do futuro da experimentação virtual de roupas. Outros projetos buscam adicionar movimento e interatividade – aspectos complexos para transmitir e gerenciar. fonte

Assim como as abordagens baseadas em LOD (nível de detalhe) têm sido utilizadas principalmente em videogames até o momento, muitas outras considerações que antes eram exclusivas do desenvolvimento de jogos provavelmente influenciarão as representações baseadas em manchas. Por exemplo, a maioria dessas primeiras tentativas com GSplat retratam um único humano caretas e expressões faciais, ou talvez conversas; mas muitas situações serão necessárias que apresentem vários humanos, bem como características ambientais e de ambiência – um cenário em que sistemas de 'triagem' de alto desempenho determinarão onde os dados de streaming precisam ser priorizados, a fim de manter o espectador imerso no momento.

O processo de novo papel é intitulado ProgressiveAvatars: Avatares Gaussianos 3D Progressivos e Animáveise provém de três pesquisadores da Universidade de Ciência e Tecnologia da China em Hefei.

Forma

A abordagem utiliza inicialmente um vídeo da cabeça de uma pessoa. Para cada quadro, um padrão FLAME Um modelo facial paramétrico é ajustado, de modo que a forma e a expressão mudem ao longo do tempo, enquanto a estrutura da malha subjacente permanece fixa. Como a topologia base não se altera, um modelo FLAME estável pode ser reutilizado e refinado em vez de ser reconstruído do zero a cada instante, como ocorre em trabalhos anteriores semelhantes.

O vídeo da cabeça é inicialmente ajustado com uma malha FLAME rastreada, após o que gaussianas 3D são anexadas a cada face e expandidas hierarquicamente onde os gradientes no espaço da tela indicam detalhes ausentes. Durante o treinamento, essa subdivisão adaptativa constrói uma representação multinível sob supervisão multiview e, na inferência, as pontuações de importância por face determinam quais gaussianas são transmitidas primeiro, permitindo que o avatar apareça rapidamente e se refine progressivamente à medida que níveis de detalhes mais altos são adicionados.

O vídeo da cabeça é inicialmente ajustado com uma malha FLAME rastreada, após o que gaussianas 3D são anexadas a cada face e expandidas hierarquicamente onde os gradientes no espaço da tela indicam detalhes ausentes. Durante o treinamento, essa subdivisão adaptativa constrói uma representação multinível sob supervisão multiview e, na inferência, as pontuações de importância por face determinam quais gaussianas são transmitidas primeiro, permitindo que o avatar apareça rapidamente e se refine progressivamente à medida que níveis de detalhes mais altos são adicionados.

Sobre essa estrutura base, os detalhes são adicionados em camadas; a superfície é implicitamente subdividida em uma hierarquia, e pequenas gaussianas tridimensionais são anexadas às faces em cada nível de detalhe.

Embora as camadas iniciais mais grosseiras capturem o formato e o movimento geral da cabeça, as camadas subsequentes mais finas fornecem rugas, deformações sutis e textura de alta frequência. As imagens são então renderizadas a partir dessas gaussianas usando um rasterizador gaussiano diferenciável e treinadas com filmagens de referência multiview, para que o avatar aprenda a reproduzir a aparência da pessoa real.

Durante o treinamento, essa hierarquia cresce automaticamente: as regiões que precisam de mais detalhes são subdivididas, guiadas por sinais do espaço da tela, de modo que o esforço computacional se concentre onde o olho do observador tem maior probabilidade de notar erros.

Durante a inferência, essa mesma hierarquia permite streaming progressivo, onde uma versão aproximada de um avatar pode ser exibida primeiro e, à medida que camadas adicionais são carregadas, novas Gaussianas podem ser adicionadas sem alterar o que já está sendo mostrado, permitindo um avatar de cabeça animável que aparece rapidamente e se torna mais nítido e detalhado conforme mais dados chegam.

Os autores observam que todo o sistema depende da priorização dos dados recebidos:

Quando todas as Gaussianas em um determinado nível estão disponíveis, o modelo completo é renderizado com fidelidade máxima; porém, durante o streaming, enviar primeiro as Gaussianas de maior contribuição permite que os resultados parciais iniciais correspondam de perto à imagem final, enquanto transmitir primeiro as Gaussianas de baixa contribuição distorce o equilíbrio de cores e enfatiza componentes menores.

Quando todas as Gaussianas em um determinado nível estão disponíveis, o modelo completo é renderizado com fidelidade máxima; porém, durante o streaming, enviar primeiro as Gaussianas de maior contribuição permite que os resultados parciais iniciais correspondam de perto à imagem final, enquanto transmitir primeiro as Gaussianas de baixa contribuição distorce o equilíbrio de cores e enfatiza componentes menores.

Dados e testes

Para os testes, o novo método foi avaliado no NeRSemble Conjunto de dados, que consiste em vídeos com múltiplas visualizações para cada assunto abordado, com parâmetros calibrados em todas as visualizações:

Exemplos de diversas interpretações de assuntos incluídos no conjunto de dados NeRSemble usado em testes para ProgressiveAvatars. Fonte - https://tobias-kirschstein.github.io/nersemble/

Exemplos de diversas interpretações de assuntos incluídos no conjunto de dados NeRSemble usado em testes para ProgressiveAvatars. fonte

Em conformidade com o original Avatares Gaussianos Na metodologia, as imagens foram reduzidas para 802x550px, uma máscara de primeiro plano foi gerada e o conjunto de treinamento/teste do projeto original foi utilizado. divisão adotado.

O processo de Otimizador Adam foi usado para atualizações de parâmetros, com um taxa de Aprendizagem de 1 × 10-2 em todos baricêntrico coordenadas. O treinamento foi executado por 60,000 iterações, com a hierarquia sendo expandida automaticamente a cada 2,000 iterações.

Inicialmente, os autores testaram para reconstrução e animação – a tarefa de converter vídeo plano em um sistema 3D (x/y/x), usando o FLAME canônico Representação CGI como malha de ancoragem. Para isso, todas as linhas de base foram treinadas do zero, e as estruturas concorrentes testadas foram as já mencionadas GaussianAvatars e PointAvatar.

Para esses testes, as métricas utilizadas foram: Relação sinal-ruído de pico (PSNR), Índice de similaridade estrutural (SSIM), e Aprendizado de similaridade de patch de imagem perceptual (LPIPS):

Comparação qualitativa na síntese de novas perspectivas e novas expressões. O GaussianAvatars de referência apresenta dificuldades com detalhes finos ao redor dos olhos, rugas e textura da pele, enquanto o método proposto já preserva a estrutura facial principal com aproximadamente cinco por cento dos dados transmitidos e converge para a verdade fundamental à medida que mais Gaussianas são transmitidas, aproximando-se bastante do modelo completo e das imagens de referência (verdade fundamental).

Comparação qualitativa na síntese de novas perspectivas e novas expressões. O GaussianAvatars de referência apresenta dificuldades com detalhes finos ao redor dos olhos, rugas e textura da pele, enquanto o método proposto já preserva a estrutura facial principal com aproximadamente cinco por cento dos dados transmitidos e converge para a verdade fundamental à medida que mais Gaussianas são transmitidas, aproximando-se bastante do modelo completo e das imagens de referência (verdade fundamental).

Com relação a esses resultados, os autores afirmam:

Nosso método reconstrói detalhes mais nítidos em diversas regiões, particularmente ao redor do pescoço, ombros e roupas. Essas áreas são tesseladas de forma relativamente grosseira no modelo FLAME em comparação com zonas faciais de alta saliência (por exemplo, a região periocular).

Consequentemente, os métodos anteriores frequentemente alocavam um número insuficiente de gaussianas 3D a essas regiões para capturar fielmente seus detalhes em escala fina. Em contraste, nossa estratégia de crescimento adaptativo aumenta o número de gaussianas e refina a hierarquia apenas onde necessário, tornando a alocação insensível à tesselação não uniforme do FLAME.

Os autores observam ainda que sua abordagem está em pé de igualdade com os métodos mais modernos, resultando em um avatar funcional com uma tolerância de largura de banda trivial de 5%:

Comparação quantitativa da síntese de novas visões e expressões usando PSNR, SSIM e LPIPS. Com transmissão total, o método proposto alcança o maior PSNR em ambas as tarefas e permanece competitivo com o GaussianAvatars em métricas perceptivas, enquanto a configuração de 5% ilustra a compensação de qualidade sob restrições extremas de largura de banda.

Comparação quantitativa da síntese de novas visões e expressões usando PSNR, SSIM e LPIPS. Com transmissão total, o método proposto alcança o maior PSNR em ambas as tarefas e permanece competitivo com o GaussianAvatars em métricas perceptivas, enquanto a configuração de 5% ilustra a compensação de qualidade sob restrições extremas de largura de banda.

Em seguida, os pesquisadores testaram a renderização progressiva em si. Isso foi realizado em uma NVIDIA RTX 4090, com 24 GB de VRAM, na resolução de 550x802 pixels. Nesse cenário, os autores apontam que um orçamento de 25% utilizaria todas as gaussianas de 'nível 1', bem como um subconjunto de gaussianas de nível 2, o que fornece uma visão geral de como os agrupamentos gaussianos acumulam detalhes nos grupos de números mais altos e como os grupos de números mais baixos essencialmente constroem a tela base.

Desempenho sob diferentes orçamentos de transmissão para síntese de novas visualizações e expressões, mostrando que a qualidade se aproxima ou supera a do GaussianAvatars à medida que mais Gaussianas e dados são transmitidos, enquanto as velocidades em tempo real são mantidas, em uma RTX 4090.

Desempenho sob diferentes orçamentos de transmissão para síntese de novas visualizações e expressões, mostrando que a qualidade se aproxima ou supera a do GaussianAvatars à medida que mais Gaussianas e dados são transmitidos, enquanto as velocidades em tempo real são mantidas, em uma RTX 4090.

Os autores comentam:

Com apenas 2.60 MB transmitidos (5% do orçamento), o avatar já atinge uma qualidade razoável. À medida que gaussianas de nível superior são transmitidas, estruturas finas como botões de camisa, dentes e cabelo tornam-se gradualmente mais nítidas, enquanto a estabilidade temporal é mantida.

'Com 100% de transmissão, nossa abordagem alcança uma qualidade de renderização comparável aos métodos de última geração. Notavelmente, as taxas de quadros não caem significativamente, provavelmente porque a carga de trabalho do 3DGS ainda não saturou a GPU.'

No entanto, os autores apontam que, em cenários de realidade virtual multiusuário, o número de Gaussianas 3D cresceria rapidamente a ponto de a rasterização por GPU se tornar um gargalo. Nesses cenários mais exigentes, a abordagem proposta oferece uma vantagem ao permitir que o sistema equilibre o número de primitivas com a qualidade visual, aliviando a carga sem comprometer a renderização.

Embora o artigo não detalhe isso, o site do projeto apresenta comparações de testes adicionais, incluindo também o Mega Projeto de avatar híbrido de malha-Gaussiano:

Clique para jogar. Este é um de uma série de vídeos complementares do site do projeto que acompanha o artigo, comparando a nova abordagem em termos de síntese de novas perspectivas.

Conclusão

O Gaussian Splatting pode ou não perdurar, ou mesmo ser mais lembrado do que o RealPlayer é atualmente, no contexto do surgimento do streaming interativo: experiências representativas em 3D impulsionadas ou auxiliadas por IA, incluindo bate-papo por vídeo, compras virtuais, navegação por rotas e diversos aplicativos de entretenimento. Pode ser que tecnologias ou abordagens alternativas se consolidem, ou que o GSplat se prove a representação de vídeo por IA mais confiável.

No mínimo, este interessante novo artigo anuncia um pouco do alcance deste novo domínio, ao mesmo tempo que nos lembra, talvez com nostalgia, da internet com largura de banda limitada do passado.

 

* Por '3D', não me refiro ao tipo de experiência que exige óculos especiais, mas sim a experiências em que o conteúdo multimídia possui algum tipo de compreensão das coordenadas X/Y/Z.

Primeira publicação quarta-feira, 18 de março de 2026

Escritor sobre machine learning, especialista em domínio em síntese de imagem humana. Ex-chefe de conteúdo de pesquisa na Metaphysic.ai.
Site pessoal: martinanderson.ai
Contato: [email protected]
Twitter: @manders_ai