Inteligencia artificial
Un Nuevo Sistema para Personajes de Video de Difusión Estable con Coherencia Temporal

Una nueva iniciativa del Grupo Alibaba ofrece uno de los mejores métodos que he visto para generar avatares humanos de cuerpo completo a partir de un modelo de foundation basado en Difusión Estable.
Titled MIMO (MIMicking con Object Interactions), el sistema utiliza una serie de tecnologías y módulos populares, incluyendo modelos humanos basados en CGI y AnimateDiff, para permitir el reemplazo de personajes en videos de manera coherente en el tiempo – o para controlar un personaje con una pose esquelética definida por el usuario.
Aquí vemos personajes interpolados a partir de una sola fuente de imagen, y controlados por una secuencia de movimiento predefinida:
[Haga clic en el video a continuación para reproducir]
Desde fuentes de imagen únicas, tres personajes diversos son controlados por una secuencia de pose 3D (lejos a la izquierda) utilizando el sistema MIMO. Consulte la página del proyecto y el video de YouTube acompañante (incrustado al final de este artículo) para más ejemplos y una resolución superior. Fuente: https://menyifang.github.io/projects/MIMO/index.html
Los personajes generados, que también pueden ser obtenidos a partir de fotogramas de videos y de diversas otras maneras, se pueden integrar en metrajes del mundo real.
MIMO ofrece un sistema novedoso que genera tres codificaciones discretas, cada una para personaje, escena y occlusión (es decir, matting, cuando algún objeto o persona pasa frente al personaje que se está representando). Estas codificaciones se integran en el momento de la inferencia.
[Haga clic en el video a continuación para reproducir]
MIMO puede reemplazar personajes originales con personajes fotorealistas o estilizados que siguen el movimiento del video objetivo. Consulte la página del proyecto y el video de YouTube acompañante (incrustado al final de este artículo) para más ejemplos y una resolución superior.
El sistema se entrena sobre el modelo Difusión Estable V1.5, utilizando un conjunto de datos personalizado curado por los investigadores, y compuesto igualmente de videos del mundo real y simulados.
El gran problema de la difusión de video es la estabilidad temporal, donde el contenido del video parpadea o “evoluciona” de maneras no deseadas para una representación de personaje coherente.
MIMO, en cambio, utiliza efectivamente una sola imagen como mapa para una guía coherente, que se puede orquestar y limitar por el modelo CGI SMPL intersticial.
Dado que la referencia de origen es coherente, y el modelo base sobre el que se entrena el sistema se ha mejorado con ejemplos de movimiento representativos adecuados, las capacidades del sistema para la salida coherente en el tiempo están bien por encima del estándar general para avatares basados en difusión.
[Haga clic en el video a continuación para reproducir]
Más ejemplos de personajes MIMO controlados por pose. Consulte la página del proyecto y el video de YouTube acompañante (incrustado al final de este artículo) para más ejemplos y una resolución superior.
Está volviéndose más común que las imágenes únicas se utilicen como fuente para representaciones neuronales efectivas, ya sea por sí solas o de manera multimodal, combinadas con textos de inicio. Por ejemplo, el popular sistema de transferencia facial LivePortrait también puede generar caras deepfaked muy creíbles a partir de imágenes faciales únicas.
Los investigadores creen que los principios utilizados en el sistema MIMO se pueden extender a otros tipos de sistemas y marcos generativos.
El nuevo artículo se titula MIMO: Síntesis de Video de Personaje Controlable con Modelado Descompuesto Espacial, y proviene de cuatro investigadores del Instituto de Computación Inteligente del Grupo Alibaba. El trabajo tiene una página del proyecto con videos y un video de YouTube acompañante, que también se incrusta al final de este artículo.
Método
MIMO logra la separación automática y no supervisada de los tres componentes espaciales mencionados, en una arquitectura de extremo a extremo (es decir, todos los subprocesos se integran en el sistema, y el usuario solo necesita proporcionar el material de entrada).

El esquema conceptual para MIMO. Fuente: https://arxiv.org/pdf/2409.16160
Los objetos en los videos de origen se traducen de 2D a 3D, inicialmente utilizando el estimador de profundidad monocular Depth Anything. El elemento humano en cualquier cuadro se extrae con métodos adaptados del proyecto Tune-A-Video.
Estos características se traducen luego en facetas volumétricas basadas en video a través de la arquitectura Segment Anything 2 de Facebook Research.
La capa de la escena en sí se obtiene eliminando los objetos detectados en las otras dos capas, proporcionando efectivamente una máscara de rotoscopio de estilo automático.
Para el movimiento, un conjunto de códigos latentes extraídos para el elemento humano se anclan a un modelo CGI de humano SMPL predeterminado, cuyos movimientos proporcionan el contexto para el contenido humano renderizado.
Un mapa de características 2D para el contenido humano se obtiene mediante un rasterizador diferenciable derivado de una iniciativa de 2020 de NVIDIA. Combinando los datos 3D obtenidos de SMPL con los datos 2D obtenidos por el método de NVIDIA, los códigos latentes que representan la ‘persona neural’ tienen una correspondencia sólida con su contexto eventual.
En este punto, es necesario establecer una referencia comúnmente necesaria en arquitecturas que utilizan SMPL – una pose canónica. Esto es ampliamente similar al ‘hombre vitruviano’ de Da Vinci, en que representa una plantilla de cero-pose que puede aceptar contenido y luego deformarse, llevando el contenido (efectivamente) mapeado de texturas con él.
Estas deformaciones, o ‘desviaciones de la norma’, representan el movimiento humano, mientras que el modelo SMPL conserva los códigos latentes que constituyen la identidad humana que se ha extraído, y así representa el avatar resultante correctamente en términos de pose y textura.

Un ejemplo de pose canónica en una figura SMPL. Fuente: https://www.researchgate.net/figure/Layout-of-23-joints-in-the-SMPL-models_fig2_351179264
En cuanto al problema de entrelazamiento (el grado en que los datos entrenados pueden resultar inflexibles cuando se estiran más allá de sus confines y asociaciones entrenadas), los autores afirman*:
‘Para desentrelazar completamente la apariencia de los fotogramas de video con pose, una solución ideal es aprender la representación humana dinámica a partir del video monocular y transformarla desde el espacio con pose al espacio canónico.
‘Considerando la eficiencia, empleamos un método simplificado que transforma directamente la imagen humana con pose en el resultado canónico en la pose estándar A utilizando un modelo de reposesión humana preentrenado. La imagen de apariencia canónica sintetizada se alimenta a los codificadores de ID para obtener el código de identidad.
‘Este diseño simple permite un desentrelazamiento completo de los atributos de identidad y movimiento. Siguiendo [Animate Anyone], los codificadores de ID incluyen un codificador de imagen CLIP y una arquitectura de red de referencia para incrustar las características globales y locales, [respectivamente].’
Para los aspectos de la escena y la occlusión, se utiliza un Autoencoder Variacional (VAE – en este caso derivado de una publicación de 2013) compartido y fijo para incrustar los elementos de la escena y la occlusión en el espacio latente. Las incongruencias se manejan mediante un método de pintura del proyecto ProPainter de 2023.
Una vez ensamblados y retocados de esta manera, tanto el fondo como cualquier objeto que oculta en el video proporcionarán una máscara para el avatar humano en movimiento.
Estos atributos descompuestos se alimentan luego en una arquitectura U-Net basada en la arquitectura Difusión Estable V1.5. El código de escena completo se concatena con el ruido latente nativo del sistema de host. El componente humano se integra a través de capas de autoatención y capas de atención cruzada, respectivamente.
Luego, el resultado desenoizado se produce a través del decodificador VAE.
Datos y Pruebas
Para el entrenamiento, los investigadores crearon un conjunto de datos de video humano titulado HUD-7K, que consistió en 5,000 videos de personajes reales y 2,000 animaciones sintéticas creadas por el sistema En3D. Los videos reales no requirieron anotación, debido a la naturaleza no semántica de los procedimientos de extracción de figuras en la arquitectura de MIMO. Los datos sintéticos estaban completamente anotados.
El modelo se entrenó en ocho GPUs NVIDIA A100 (aunque el artículo no especifica si eran los modelos de 40GB o 80GB de VRAM), durante 50 iteraciones, utilizando 24 fotogramas de video y un tamaño de lote de cuatro, hasta convergencia.
El módulo de movimiento para el sistema se entrenó sobre los pesos de AnimateDiff. Durante el proceso de entrenamiento, los pesos del codificador/decodificador VAE y el codificador de imagen CLIP se congelaron (en contraste con el ajuste fino completo, que tendría un efecto mucho más amplio en un modelo de foundation).
Aunque MIMO no se probó contra sistemas análogos, los investigadores lo probaron en secuencias de movimiento de difícil distribución fuera del conjunto de datos, obtenidas de AMASS y Mixamo. Estos movimientos incluían escalada, juego y baile.
También probaron el sistema en videos humanos del mundo real. En ambos casos, el artículo informa de ‘alta robustez’ para estos movimientos 3D no vistos, desde diferentes puntos de vista.
Aunque el artículo ofrece múltiples resultados de imágenes estáticas que demuestran la efectividad del sistema, el rendimiento real de MIMO se evalúa mejor con los resultados de video extensos proporcionados en la página del proyecto y en el video de YouTube incrustado a continuación (del que se derivan los videos al principio de este artículo).






