Contáctenos

Transmitiendo avatares de IA como si fuera 1999.

El ángulo de Anderson

Transmitiendo avatares de IA como si fuera 1999.

mm
Montaje de imágenes relacionadas con la transmisión de avatares gaussianos, con rostros 3DGS. Fuente: https://ustc3dv.github.io/ProgressiveAvatars/

Una nueva investigación presenta una forma de transmitir avatares 3D realistas que aparecen casi instantáneamente y se perfeccionan en tiempo real, en lugar de obligar a los usuarios a esperar a que finalicen descargas masivas.

 

En muchos sentidos, las enormes demandas de recursos de la IA generativa y los sistemas de renderizado asistido por IA han retrasado la preparación del consumidor veinte años o más. Solo en 2023, una asignación de 64 GB de RAM en una computadora portátil o de escritorio parecía excesiva; ahora, con la creciente popularidad de la RAM y/o Descarga de CPU, 64 GB es bastante modesto para las necesidades de IA local; y estos elementos de PC que antes eran banales y asequibles continúan cohete en precio mientras las corporaciones luchan por satisfacer la demanda de servicios de IA.

La escala y la codicia de la IA y sus procesos y entornos suelen empequeñecer el hardware de nivel de consumo, e incluso ejecutar modelos locales "reducidos" como Versiones GGUF Normalmente, esto pondrá a prueba el sistema promedio.

Incluso los servicios de IA basados ​​en texto como ChatGPT son sujeto a una tensión significativa tanto a nivel de cliente como de servidor. Por lo tanto, una vez que la IA se encarga de ofrecer experiencias multimedia en línea en tiempo real, podemos esperar razonablemente algunos compromisos muy serios en latencia y/o calidad, similares a las dificultades iniciales de Internet con la transmisión de medios y los tan odiados iconos animados de "almacenamiento en búfer" de Un jugador verdadero Tiempo rapido.

La última vez que los problemas multimedia y de red crearon fricción en la experiencia del usuario, el hardware de nivel de consumo fue... aún evolucionando a través de la Ley de Moore, mejorando casi exponencialmente cada año, incluso a medida que los sistemas operativos, las redes y otras infraestructuras de soporte evolucionaron para satisfacer la demanda; y durante los últimos diez años, más o menos, las capacidades de la tecnología de consumo han superado las demandas multimedia (quizás incluso hasta el punto en que la rotación necesitaba un impulso inicial para mantener las ventas).

Pero ese exceso de capacidad local podría estar llegando a su fin pronto, ya que El hardware local se vuelve de menor calidad y más caro.y dado que los servicios basados ​​en IA requieren mayores recursos tanto del lado del servidor como locales.

Obtener una cabeza

En la era anterior a la banda ancha, incluso antes de los primeros vídeos en streaming utilizables, los usuarios de la web estaban acostumbrados a que las imágenes se enfocaran lentamente, ya que JPEG progresivos permitía al usuario con poco ancho de banda observar cómo se formaba la imagen que se descargaba, a veces dolorosamente lento, a medida que se cargaban más datos de imagen localmente.

Ahora, al parecer, podríamos estar ante una experiencia similar con la ayuda de la IA. Avatares de Gaussian Splat:

Dele "click" para jugar.  Del nuevo proyecto ProgressiveAvatars, una comparación de avatares Gaussianos en tiempo real. A la izquierda, el proyecto GaussianAvatars, más antiguo, va obteniendo nuevos datos poco a poco, pero su aspecto es pésimo a medida que se acumulan; a la derecha, la versión de Progressive Avatars también va añadiendo detalles lentamente, pero lo hace de forma inteligente, logrando una apariencia humana básica desde el principio. Fuente

Arriba vemos dos versiones de un avatar basado en Gaussian Splat (GSplat), una representación humana posibilitada en parte por una técnica de renderizado sin IA que se remonta a principios de la década de 1990, y también por métodos más modernos, como el LLAMA Modelo humano paramétrico y enfoques de entrenamiento basados ​​en IA:

La técnica Gaussian Splatting utiliza una representación gaussiana del color y la información 3D en lugar de un píxel o vóxel, y mapea esta textura ultrarrealista sobre una malla CGI más tradicional. Esto se facilita mediante un "humano paramétrico", un rostro o cuerpo CGI, en sistemas como FLAME y STARR. Fuente: https://arxiv.org/pdf/2312.02069.pdf

Gaussian Splatting utiliza una representación gaussiana de color e información 3D en lugar de un píxel o vóxel, y mapea esta textura ultrarrealista sobre un tipo más tradicional de malla CGI, que a su vez se facilita mediante un 'humano paramétrico', una cara y/o cuerpo CGI, en sistemas como LLAMA STAR Fuente

A la izquierda en el video de arriba podemos ver que una implementación tradicional de un avatar de mancha gaussiana se ve bastante horrible mientras esperamos a que se carguen los datos. A la derecha, una nueva implementación de China, denominada Avatares progresivos, es capaz de resolverlo de forma mucho más elegante a medida que se cargan los datos, presentando una imagen humana que no resulta alarmante desde el principio.

Los autores afirman que su método es el primero en "transmitir" realmente un avatar gaussiano, y sin duda el primero en hacerlo de forma progresiva, donde la imagen se construye elegantemente y se pueden priorizar las áreas más importantes, como los ojos y los labios, de modo que el avatar pueda conversar incluso cuando solo se ha cargado parcialmente:

Dele "click" para jugar. Desde el sitio web del proyecto ProgressiveAvatars, una ilustración de la carga que tiene en cuenta la atención del usuario.

Anteriormente, en intentos previos por reducir el tamaño de los avatares de 'GSplat', se había utilizado un enfoque de "nivel de detalle" (LOD), similar a las optimizaciones de videojuegos, donde se cargan versiones sucesivamente más detalladas de una persona según si ocupan suficiente espacio en la ventana gráfica o captan la atención del espectador como para que merezca la pena el esfuerzo.

Por supuesto, esto implica una gran cantidad de avatares redundantes, y los autores presentan su enfoque como un sistema más racional. En consecuencia, este método también permite realizar cambios en una figura GSplat (es decir, personalización) sin necesidad de propagar dichos cambios a través de una cadena de varios avatares LOD idénticos.

Un dominio emergente

Si esto parece un problema de nicho, bueno, también lo parecía el video en streaming, en aquellos tiempos en que hacer funcionar los primeros complementos se delegaba al nerd más cercano disponible. Además, el potencial de las representaciones de streaming basadas en IA va más allá de los avatares humanos, extendiéndose a generación de ciudades, juegosy versiones basadas en 3D* de prácticamente cualquier dominio en línea, como Prueba virtual, para comprar ropa:

Dele "click" para jugar. Un proyecto de 2024 ofrece una visión preliminar del futuro de la prueba virtual de ropa. Otros proyectos buscan incorporar movimiento e interactividad, aspectos complejos que requieren transmisión y gestión. Fuente

Así como los enfoques basados ​​en LOD se han aprovechado hasta ahora principalmente en los videojuegos, es probable que muchas otras consideraciones que antes eran dominio exclusivo del desarrollo de juegos lleguen a las representaciones basadas en salpicaduras. Por ejemplo, la mayoría de estas primeras salidas de GSplat representan una un solo ser humano muecas y gestos exagerados, o tal vez conversaciones; pero se necesitarán muchas situaciones que involucren a múltiples personas, así como elementos ambientales y ambiente, un escenario donde los sistemas de "clasificación" de alto rendimiento determinarán dónde se debe priorizar la transmisión de datos para mantener al espectador en el momento.

El nuevo documento se titula ProgressiveAvatars: Avatares gaussianos 3D animables progresivosy proviene de tres investigadores de la Universidad de Ciencia y Tecnología de China en Hefei.

Método

El método inicialmente aprovecha el video de la cabeza de una persona. Para cada fotograma, un estándar LLAMA Se ajusta un modelo facial paramétrico, de modo que la forma y la expresión cambian con el tiempo, mientras que la estructura de malla subyacente permanece fija. Dado que la topología base no cambia, se puede reutilizar y refinar una plantilla FLAME estable en lugar de reconstruirla desde cero cada vez, como ocurre en trabajos anteriores similares.

El vídeo de la cabeza se ajusta primero a una malla FLAME con seguimiento, tras lo cual se adjuntan gaussianas 3D a cada rostro y se desarrollan jerárquicamente donde los gradientes en el espacio de la pantalla indican detalles faltantes. Durante el entrenamiento, esta subdivisión adaptativa crea una representación multinivel bajo supervisión multivista, y en la inferencia, las puntuaciones de importancia por rostro determinan qué gaussianas se transmiten primero, lo que permite que el avatar aparezca rápidamente y se refine progresivamente a medida que se agregan niveles de detalle más altos.

El vídeo de la cabeza se ajusta primero a una malla FLAME con seguimiento, tras lo cual se adjuntan gaussianas 3D a cada rostro y se desarrollan jerárquicamente donde los gradientes en el espacio de la pantalla indican detalles faltantes. Durante el entrenamiento, esta subdivisión adaptativa crea una representación multinivel bajo supervisión multivista, y en la inferencia, las puntuaciones de importancia por rostro determinan qué gaussianas se transmiten primero, lo que permite que el avatar aparezca rápidamente y se refine progresivamente a medida que se agregan niveles de detalle más altos.

Sobre esta estructura base, se añaden detalles por capas; la superficie se subdivide implícitamente en una jerarquía, y se adjuntan pequeñas funciones gaussianas tridimensionales a las caras en cada nivel de detalle.

Si bien las capas iniciales, más gruesas, capturan la forma y el movimiento general de la cabeza, las capas subsiguientes, más finas, proporcionan arrugas, deformaciones sutiles y texturas de alta frecuencia. A continuación, se renderizan imágenes a partir de estas gaussianas mediante un rasterizador gaussiano diferenciable y se entrenan con secuencias de referencia multivista, de modo que el avatar aprende a reproducir la apariencia de la persona real.

Durante el entrenamiento, esta jerarquía crece automáticamente: las regiones que necesitan más detalle se subdividen aún más, guiadas por las señales del espacio de la pantalla, de modo que el esfuerzo computacional se concentra donde es más probable que el ojo del espectador note errores.

Durante la inferencia, esta misma jerarquía permite transmisión progresiva, en el que primero se puede mostrar una versión preliminar de un avatar y, a medida que se cargan capas adicionales, se pueden agregar nuevas gaussianas sin alterar lo que ya se muestra, lo que permite un avatar de cabeza animable que aparece rápidamente y se vuelve más nítido y detallado a medida que llegan más datos.

Los autores observan que todo el sistema depende de la priorización de los datos entrantes:

Cuando todas las gaussianas de un nivel determinado están disponibles, el modelo completo se renderiza con la máxima fidelidad; pero durante la transmisión, enviar primero las gaussianas de mayor contribución permite que los primeros resultados parciales se ajusten mejor a la imagen final, mientras que transmitir primero las gaussianas de baja contribución distorsiona el equilibrio de color y enfatiza los componentes menores.

Cuando todas las gaussianas de un nivel determinado están disponibles, el modelo completo se renderiza con la máxima fidelidad; pero durante la transmisión, enviar primero las gaussianas de mayor contribución permite que los primeros resultados parciales se ajusten mejor a la imagen final, mientras que transmitir primero las gaussianas de baja contribución distorsiona el equilibrio de color y enfatiza los componentes menores.

Datos y Pruebas

Para las pruebas, el nuevo método fue evaluado en el NeRSemble conjunto de datos, que consta de vídeos multivista para cada sujeto tratado, con parámetros calibrados en todas las vistas:

Ejemplos de diversas interpretaciones de los temas incluidos en el conjunto de datos NeRSemble utilizado en las pruebas de ProgressiveAvatars. Fuente: https://tobias-kirschstein.github.io/nersemble/

Ejemplos de diversas interpretaciones de los temas incluidos en el conjunto de datos NeRSemble utilizado en las pruebas de ProgressiveAvatars. Fuente

En consonancia con el original Avatares gaussianos Metodología, las imágenes se redujeron a 802x550px, se generó una máscara de primer plano y se realizó el entrenamiento/prueba del proyecto original. split adoptado.

El Optimizador de Adam se utilizó para actualizaciones de parámetros, con un tasa de aprendizaje de 1 × 10-2 sobre todo baricéntrico coordenadas. El entrenamiento se ejecutó durante 60,000 iteraciones, y la jerarquía se expandió automáticamente cada 2,000 iteraciones.

Inicialmente, los autores probaron para reconstrucción y animación – la tarea de convertir vídeo plano en un sistema 3D (x/y/x), utilizando FLAME. canónico Representación CGI como malla de anclaje. Para ello, todas las líneas base se entrenaron desde cero, y los marcos rivales probados fueron los mencionados GaussianAvatars y PuntoAvatar.

Para estas pruebas, se utilizaron las siguientes métricas: Relación señal-ruido máxima (PSNR), Índice de similitud estructural (SSIM) y Similitud de parches de imágenes perceptuales aprendidas (LPIPS):

Comparación cualitativa de la síntesis de nuevas vistas y nuevas expresiones. El método GaussianAvatars de referencia tiene dificultades con los detalles finos alrededor de los ojos, las arrugas y la textura de la piel, mientras que el método propuesto ya conserva la estructura facial clave con aproximadamente el cinco por ciento de los datos transmitidos y converge hacia la verdad fundamental a medida que se transmiten más gaussianas, coincidiendo estrechamente con el modelo completo y las imágenes de referencia (verdad fundamental).

Comparación cualitativa de la síntesis de nuevas vistas y nuevas expresiones. El método GaussianAvatars de referencia tiene dificultades con los detalles finos alrededor de los ojos, las arrugas y la textura de la piel, mientras que el método propuesto ya conserva la estructura facial clave con aproximadamente el cinco por ciento de los datos transmitidos y converge hacia la verdad fundamental a medida que se transmiten más gaussianas, coincidiendo estrechamente con el modelo completo y las imágenes de referencia (verdad fundamental).

Respecto a estos resultados, los autores afirman:

Nuestro método reconstruye detalles más nítidos en varias regiones, especialmente alrededor del cuello, los hombros y la ropa. Estas áreas presentan una teselación relativamente tosca en la plantilla FLAME en comparación con las zonas faciales de mayor prominencia (por ejemplo, la región periocular).

«Por consiguiente, los métodos anteriores suelen asignar muy pocas gaussianas 3D a estas regiones para capturar fielmente sus detalles a pequeña escala. En cambio, nuestra estrategia de crecimiento adaptativo aumenta el número de gaussianas y refina la jerarquía solo donde es necesario, lo que hace que la asignación sea insensible a la teselación no uniforme de FLAME.»

Los autores señalan además que su enfoque está a la par con los métodos más avanzados, lo que permite obtener un avatar funcional con un mínimo de asignación de ancho de banda del 5%:

Comparación cuantitativa de la síntesis de nuevas vistas y la síntesis de nuevas expresiones mediante PSNR, SSIM y LPIPS. Con transmisión completa, el método propuesto alcanza el PSNR más alto en ambas tareas y se mantiene competitivo con GaussianAvatars en métricas perceptuales, mientras que la configuración del 5 % ilustra la compensación de calidad bajo restricciones extremas de ancho de banda.

Comparación cuantitativa de la síntesis de nuevas vistas y la síntesis de nuevas expresiones mediante PSNR, SSIM y LPIPS. Con transmisión completa, el método propuesto alcanza el PSNR más alto en ambas tareas y se mantiene competitivo con GaussianAvatars en métricas perceptuales, mientras que la configuración del 5 % ilustra la compensación de calidad bajo restricciones extremas de ancho de banda.

A continuación, los investigadores probaron el renderizado progresivo. Esto se realizó en una NVIDIA RTX 4090, con 24 GB de VRAM, a una resolución de 550 x 802 píxeles. En este escenario, señalan los autores, un presupuesto del 25 % consumiría todas las gaussianas de nivel 1, así como un subconjunto de gaussianas de nivel 2, lo que ofrece una visión general de cómo las agrupaciones de gaussianas acumulan detalles en los grupos de mayor número, y cómo los grupos de menor número construyen esencialmente el lienzo base.

Rendimiento bajo diferentes presupuestos de transmisión para la síntesis de nuevas vistas y nuevas expresiones, demostrando que la calidad se aproxima o supera progresivamente a la de GaussianAvatars a medida que se transmiten más gaussianas y datos, manteniendo al mismo tiempo velocidades en tiempo real, en una RTX 4090.

Rendimiento bajo diferentes presupuestos de transmisión para la síntesis de nuevas vistas y nuevas expresiones, demostrando que la calidad se aproxima o supera progresivamente a la de GaussianAvatars a medida que se transmiten más gaussianas y datos, manteniendo al mismo tiempo velocidades en tiempo real, en una RTX 4090.

Los autores comentan:

Con tan solo 2.60 MB transmitidos (5 % del presupuesto), el avatar ya alcanza una calidad razonable. A medida que se transmiten gaussianas de nivel superior, las estructuras finas, como los botones de la camisa, los dientes y el cabello, se van definiendo gradualmente mientras se mantiene la estabilidad temporal.

«Con una transmisión del 100%, nuestro método logra una calidad de renderizado comparable a la de los métodos de última generación. Cabe destacar que la velocidad de fotogramas no disminuye significativamente, probablemente porque la carga de trabajo del sistema 3D aún no ha saturado la GPU.»

Sin embargo, los autores señalan que en escenarios de realidad virtual multiusuario, el número de gaussianas 3D aumentaría rápidamente hasta el punto en que la rasterización de la GPU se convertiría en un cuello de botella. En esos escenarios más exigentes, el enfoque propuesto ofrece una ventaja al permitir que el sistema equilibre el número de primitivas con la calidad visual, aliviando la carga sin que se produzca un colapso en el renderizado.

Aunque el documento no lo detalla, el sitio del proyecto presenta comparaciones de pruebas adicionales, que también incluyen: Mega Proyecto de avatar híbrido malla-gaussiano:

Dele "click" para jugar. Este es uno de una serie de vídeos complementarios del sitio web del proyecto que acompaña al artículo, en el que se compara el nuevo enfoque en términos de síntesis de perspectivas novedosas.

Conclusión

Gaussian Splatting podría perdurar o no, e incluso ser recordado mucho más que RealPlayer, en lo que respecta al inicio del streaming interactivo: experiencias representativas en 3D impulsadas o asistidas por IA, que incluyen videollamadas, compras virtuales, navegación y diversas aplicaciones de entretenimiento. Podría ser que otras tecnologías o enfoques se impongan, o que GSplat demuestre ser la representación de vídeo con IA más fiable.

Como mínimo, este interesante nuevo artículo anuncia una pequeña muestra del alcance de este nuevo campo, al tiempo que nos recuerda, quizás con nostalgia, la escasez de ancho de banda de internet de antaño.

 

* Con "3D" no me refiero al tipo de experiencia que requiere gafas especiales, sino más bien a experiencias en las que el contenido multimedia tiene algún tipo de comprensión de las coordenadas X/Y/Z.

Publicado por primera vez el miércoles 18 de marzo de 2026

Escritor sobre aprendizaje automático, especialista en síntesis de imágenes humanas. Exdirector de contenido de investigación en Metaphysic.ai.
sitio personal: martinanderson.ai
Contacto: [email protected]
Gorjeo: @manders_ai