Connect with us

Ángulo de Anderson

Un Avance Notable en Video de IA Impulsada por Humanos

mm
Examples from the DreamActor project page.

Nota: La página del proyecto para este trabajo incluye 33 videos de alta resolución que se reproducen automáticamente y que en total suman medio gigabyte, lo que desestabilizó mi sistema al cargar. Por esta razón, no enlazaré directamente a ella. Los lectores pueden encontrar la URL en el resumen o PDF del documento si así lo desean.

Uno de los objetivos principales en la investigación actual de síntesis de video es generar un rendimiento de video de IA impulsado completamente a partir de una sola imagen. Esta semana, un nuevo documento de Bytedance Intelligent Creation describió lo que puede ser el sistema más completo de este tipo hasta ahora, capaz de producir animaciones de cuerpo completo y semi-cuerpo que combinan detalles faciales expresivos con movimiento a gran escala preciso, mientras también logra una mejor consistencia de identidad, un área donde incluso los sistemas comerciales líderes a menudo fallan.

En el ejemplo a continuación, vemos un rendimiento impulsado por un actor (arriba a la izquierda) y derivado de una sola imagen (arriba a la derecha), que proporciona una representación notablemente flexible y diestra, sin ninguno de los problemas habituales al crear movimientos grandes o ‘adivinar’ sobre áreas ocultas (es decir, partes de la ropa y ángulos faciales que deben inferirse o inventarse porque no son visibles en la foto de origen única):

CONTENIDO DE AUDIO. Haga clic para reproducir. Un rendimiento nace de dos fuentes, incluyendo lip-sync, que normalmente es el preserve de sistemas auxiliares dedicados. Esta es una versión reducida del sitio de origen (ver nota al comienzo del artículo – se aplica a todos los demás videos incrustados aquí).

Aunque podemos ver algunos desafíos residuales con respecto a la persistencia de la identidad a medida que cada clip procede, este es el primer sistema que he visto que sobresale en general (aunque no siempre) al mantener la ID durante un período sostenido sin el uso de LoRAs:

CONTENIDO DE AUDIO. Haga clic para reproducir. Más ejemplos del proyecto DreamActor.

El nuevo sistema, titulado DreamActor, utiliza un sistema de control híbrido de tres partes que da atención dedicada a la expresión facial, la rotación de la cabeza y el diseño del esqueleto central, lo que permite rendimientos de IA impulsados donde ni el aspecto facial ni el corporal sufren a expensas del otro, una capacidad rara, y posiblemente desconocida entre sistemas similares.

A continuación, vemos una de estas facetas, rotación de la cabeza, en acción. La pelota de colores en la esquina de cada miniatura hacia la derecha indica una especie de cardán virtual que define la orientación de la cabeza de forma independiente del movimiento y la expresión facial, que aquí está impulsada por un actor (abajo a la izquierda).

Haga clic para reproducir. La pelota multicolor visualizada aquí representa el eje de rotación de la cabeza del avatar, mientras que la expresión está alimentada por un módulo separado e informado por el rendimiento de un actor (visto aquí abajo a la izquierda).

Una de las funcionalidades más interesantes del proyecto, que no se incluye adecuadamente en las pruebas del documento, es su capacidad para derivar el movimiento de lip-sync directamente desde el audio, una capacidad que funciona de manera inusual incluso sin un video de actor que impulse.

Los investigadores han asumido a los mejores incumbentes en esta búsqueda, incluyendo el muy elogiado Runway Act-One y LivePortrait, y informan que DreamActor fue capaz de lograr mejores resultados cuantitativos.

Dado que los investigadores pueden establecer sus propios criterios, los resultados cuantitativos no son necesariamente un estándar empírico; pero las pruebas cualitativas que los acompañan parecen respaldar las conclusiones de los autores.

Desafortunadamente, este sistema no está destinado a ser lanzado al público, y el único valor que la comunidad puede derivar del trabajo es en potencialmente reproducir las metodologías descritas en el documento (como se hizo con un efecto notable para el igualmente de código cerrado Google Dreambooth en 2022).

El documento establece*:

‘La animación de imágenes humanas tiene riesgos sociales posibles, como ser utilizada para crear videos falsos. La tecnología propuesta podría usarse para crear videos falsos de personas, pero las herramientas de detección existentes [Demamba, Dormant] pueden detectar estos falsos.

‘Para reducir estos riesgos, se necesitan reglas éticas claras y directrices de uso responsable. Restringiremos estrictamente el acceso a nuestros modelos y códigos básicos para prevenir el mal uso.’

Naturalmente, consideraciones éticas de este tipo son convenientes desde un punto de vista comercial, ya que proporcionan una justificación para el acceso solo a la API del modelo, que luego se puede monetizar. ByteDance ya ha hecho esto una vez en 2025, al hacer que el muy elogiado OmniHuman estuviera disponible para créditos pagados en el sitio web Dreamina. Por lo tanto, dado que DreamActor es posiblemente un producto aún más fuerte, esto parece el resultado probable. Lo que queda por ver es la medida en que sus principios, en la medida en que se explican en el documento, puedan ayudar a la comunidad de código abierto.

El nuevo documento se titula DreamActor-M1: Animación de Imágenes Humanas Holística, Expresiva y Robusta con Guía Híbrida, y proviene de seis investigadores de Bytedance.

Método

El sistema DreamActor propuesto en el documento tiene como objetivo generar animación humana a partir de una imagen de referencia y un video que impulsa, utilizando un marco de Transformador de Difusión (DiT) adaptado para espacio latente (aparentemente algún sabor de Difusión Estable, aunque el documento solo cita la publicación de lanzamiento de referencia de 2022).

En lugar de confiar en módulos externos para controlar la condición de referencia, los autores fusionan las características de apariencia y movimiento directamente dentro del esqueleto de DiT, lo que permite la interacción a través del espacio y el tiempo a través de la atención:

Esquema para el nuevo sistema: DreamActor codifica la pose, el movimiento facial y la apariencia en latentes separados, combinándolos con latentes de video ruidosos producidos por un VAE 3D. Estas señales se fusionan dentro de un Transformador de Difusión utilizando autoatención y cross-atención, con pesos compartidos en las ramas. El modelo está supervisado comparando salidas desruidadas con latentes de video limpios. Fuente: https://arxiv.org/pdf/2504.01724

Esquema para el nuevo sistema: DreamActor codifica la pose, el movimiento facial y la apariencia en latentes separados, combinándolos con latentes de video ruidosos producidos por un VAE 3D. Estas señales se fusionan dentro de un Transformador de Difusión utilizando autoatención y cross-atención, con pesos compartidos en las ramas. El modelo está supervisado comparando salidas desruidadas con latentes de video limpios. Fuente: https://arxiv.org/pdf/2504.01724

Para hacer esto, el modelo utiliza un VAE 3D preentrenado para codificar tanto el video de entrada como la imagen de referencia. Estos latentes se patchifican, concatenan y se alimentan al DiT, que los procesa conjuntamente.

Esta arquitectura se aparta de la práctica común de adjuntar una red secundaria para la inyección de referencia, que fue el enfoque para los influyentes proyectos Animate Anyone y Animate Anyone 2.

En su lugar, DreamActor incorpora la fusión en el propio modelo, simplificando el diseño mientras mejora el flujo de información entre las pistas de apariencia y movimiento. El modelo se entrena utilizando coincidencia de flujo en lugar del objetivo de difusión estándar (la coincidencia de flujo entrena modelos de difusión prediciendo directamente campos de velocidad entre datos y ruido, omitiendo la estimación de puntuación).

Guía de Movimiento Híbrida

El método de Guía de Movimiento Híbrida que informa los renderizados neuronales combina tokens de pose derivados de esqueletos de cuerpo 3D y esferas de cabeza; representaciones faciales implícitas extraídas por un codificador de cara preentrenado; y tokens de apariencia de referencia muestreados de la imagen de origen.

Estos elementos se integran dentro del Transformador de Difusión utilizando mecanismos de atención distintos, lo que permite al sistema coordinar el movimiento global, la expresión facial y la identidad visual durante todo el proceso de generación.

Para el primero de estos, en lugar de confiar en puntos de referencia faciales, DreamActor utiliza representaciones faciales implícitas para guiar la generación de expresiones, lo que aparentemente permite un control más fino sobre la dinámica facial mientras desacopla la identidad y la pose de la cabeza de la expresión.

Para crear estas representaciones, la tubería primero detecta y recorta la región de la cara en cada cuadro del video que impulsa, redimensionándola a 224×224. Las caras recortadas se procesan por un codificador de movimiento de cara preentrenado en el conjunto de datos PD-FGC, que luego se condiciona por una capa MLP.

PD-FGC, empleado en DreamActor, genera una cabeza que habla a partir de una imagen de referencia con control desacoplado de sincronización de labios (desde audio), pose de cabeza, movimiento de ojos y expresión (desde videos separados), lo que permite una manipulación precisa e independiente de cada uno. Fuente: https://arxiv.org/pdf/2211.14506

PD-FGC, empleado en DreamActor, genera una cabeza que habla a partir de una imagen de referencia con control desacoplado de sincronización de labios (desde audio), pose de cabeza, movimiento de ojos y expresión (desde videos separados), lo que permite una manipulación precisa e independiente de cada uno. Fuente: https://arxiv.org/pdf/2211.14506

El resultado es una secuencia de tokens de movimiento facial, que se inyectan en el Transformador de Difusión a través de una capa de cross-atención.

El mismo marco también admite una variante impulsada por audio, en la que un codificador separado se entrena que asigna entrada de habla directamente a tokens de movimiento facial. Esto hace posible generar animación facial sincronizada, incluyendo movimientos de labios, sin un video que impulsa.

CONTENIDO DE AUDIO. Haga clic para reproducir. Sincronización de labios derivada puramente desde audio, sin una referencia de actor. La única entrada de personaje es la foto estática que se ve arriba a la derecha.

En segundo lugar, para controlar la pose de la cabeza de forma independiente de la expresión facial, el sistema introduce una representación de esfera de cabeza 3D (ver video incrustado anteriormente en este artículo), que desacopla la dinámica facial del movimiento de cabeza global, mejorando la precisión y la flexibilidad durante la animación.

Las esferas de cabeza se generan extrayendo parámetros faciales 3D, como la rotación y la pose de la cámara, del video que impulsa utilizando el método de seguimiento FaceVerse.

Esquema para el proyecto FaceVerse. Fuente: https://www.liuyebin.com/faceverse/faceverse.html

Esquema para el proyecto FaceVerse. Fuente: https://www.liuyebin.com/faceverse/faceverse.html

Estos parámetros se utilizan para renderizar una esfera de color proyectada en el plano de imagen 2D, alineada espacialmente con la cabeza que impulsa. El tamaño de la esfera coincide con la cabeza de referencia, y su color refleja la orientación de la cabeza. Esta abstracción reduce la complejidad de aprender el movimiento de cabeza 3D, lo que ayuda a preservar formas de cabeza estilizadas o exageradas en personajes dibujados a partir de animación.

Visualización de la esfera de control que influye en la orientación de la cabeza.

Visualización de la esfera de control que influye en la orientación de la cabeza.

Finalmente, para guiar el movimiento corporal completo, el sistema utiliza esqueletos de cuerpo 3D con normalización de longitud de hueso adaptable. Los parámetros de cuerpo y mano se estiman utilizando 4DHumans y el enfoque en mano HaMeR, ambos de los cuales operan en el modelo de cuerpo SMPL-X.

SMPL-X aplica una malla paramétrica sobre el cuerpo humano completo en una imagen, alineándose con la pose y la expresión estimadas para permitir la manipulación de pose utilizando la malla como guía volumétrica. Fuente: https://arxiv.org/pdf/1904.05866

SMPL-X aplica una malla paramétrica sobre el cuerpo humano completo en una imagen, alineándose con la pose y la expresión estimadas para permitir la manipulación de pose utilizando la malla como guía volumétrica. Fuente: https://arxiv.org/pdf/1904.05866

A partir de estas salidas, se seleccionan las articulaciones clave, se proyectan en 2D y se conectan en mapas de esqueleto basados en líneas. A diferencia de métodos como Champ, que renderizan mallas de cuerpo completo, este enfoque evita imponer priores de forma predefinidos, y al confiar únicamente en la estructura esquelética, el modelo se ve animado a inferir la forma y la apariencia del cuerpo directamente a partir de las imágenes de referencia, reduciendo el sesgo hacia tipos de cuerpo fijos y mejorando la generalización a través de una variedad de poses y constituciones.

Durante el entrenamiento, los esqueletos de cuerpo 3D se concatenan con las esferas de cabeza y se pasan a través de un codificador de pose, que produce características que luego se combinan con latentes de video ruidosos para producir los tokens de ruido utilizados por el Transformador de Difusión.

En el momento de la inferencia, el sistema tiene en cuenta las diferencias esqueléticas entre sujetos normalizando las longitudes de los huesos. El modelo de edición de imagen preentrenado SeedEdit transforma tanto las imágenes de referencia como las de conducción en una configuración canónica estándar. RTMPose se utiliza luego para extraer las proporciones esqueléticas, que se utilizan para ajustar el esqueleto de conducción para que coincida con la anatomía del sujeto de referencia.

Visión general de la tubería de inferencia. Las referencias pseudo pueden generarse para enriquecer las pistas de apariencia, mientras que las señales de control híbridas - movimiento facial implícito y pose explícita de las esferas de cabeza y los esqueletos de cuerpo - se extraen del video que impulsa. Estos se alimentan luego a un modelo DiT para producir salida animada, con el movimiento facial desacoplado de la pose del cuerpo, lo que permite el uso de audio como conductor.

Visión general de la tubería de inferencia. Las referencias pseudo pueden generarse para enriquecer las pistas de apariencia, mientras que las señales de control híbridas – movimiento facial implícito y pose explícita de las esferas de cabeza y los esqueletos de cuerpo – se extraen del video que impulsa. Estos se alimentan luego a un modelo DiT para producir salida animada, con el movimiento facial desacoplado de la pose del cuerpo, lo que permite el uso de audio como conductor.

Guía de Apariencia

Para mejorar la fidelidad de la apariencia, particularmente en áreas ocultas o raramente visibles, el sistema complementa la imagen de referencia principal con referencias pseudo muestreadas del video de entrada.

Haga clic para reproducir. El sistema anticipa la necesidad de representar con precisión y consistencia las regiones ocultas. Esto está cerca de lo que he visto, en un proyecto de este tipo, a un enfoque de textura de mapa de bits similar al de CGI.

Estos marcos adicionales se eligen por diversidad de pose utilizando RTMPose, y se filtran utilizando una similitud basada en CLIP para garantizar que permanezcan consistentes con la identidad del sujeto.

Todas las imágenes de referencia (principal y pseudo) se codifican con el mismo codificador visual y se fusionan a través de un mecanismo de autoatención, lo que permite al modelo acceder a pistas de apariencia complementarias. Esta configuración mejora la cobertura de detalles como vistas de perfil o texturas de extremidades. Las referencias pseudo siempre se utilizan durante el entrenamiento y opcionalmente durante la inferencia.

Entrenamiento

DreamActor se entrenó en tres etapas para introducir gradualmente la complejidad y mejorar la estabilidad.

En la primera etapa, solo se utilizaron esqueletos de cuerpo 3D y esferas de cabeza como señales de control, excluyendo las representaciones faciales. Esto permitió que el modelo base de generación de video, inicializado desde MMDiT, se adaptara a la animación humana sin ser abrumado por controles de grano fino.

En la segunda etapa, se agregaron representaciones faciales implícitas, pero todos los demás parámetros se congelaron. Solo el codificador de movimiento facial y las capas de atención facial se entrenaron en este punto, lo que permitió al modelo aprender detalles expresivos en aislamiento.

En la etapa final, todos los parámetros se descongelaron para la optimización conjunta a través de la apariencia, la pose y la dinámica facial.

Datos y Pruebas

Para la fase de prueba, el modelo se inicializa a partir de un punto de partida preentrenado de DiT de imagen a video y se entrena en tres etapas: 20,000 pasos para cada una de las dos primeras etapas y 30,000 pasos para la tercera.

Para mejorar la generalización a través de diferentes duraciones y resoluciones, los clips de video se muestrearon aleatoriamente con longitudes entre 25 y 121 cuadros. Estos se redimensionaron a 960x640px, manteniendo la relación de aspecto.

El entrenamiento se realizó en ocho (NVIDIA H20 enfocados en China) con 96GB de VRAM cada uno, utilizando el optimizador AdamW con una tasa de aprendizaje (tolerablemente alta) de 5e−6.

En el momento de la inferencia, cada segmento de video contenía 73 cuadros. Para mantener la coherencia a través de los segmentos, el latente final de un segmento se reutilizó como el latente inicial para el siguiente, lo que contextualiza la tarea como generación de imagen a video secuencial.

Se aplicó guía de clasificador libre con un peso de 2.5 para ambas imágenes de referencia y señales de control de movimiento.

Los autores construyeron un conjunto de datos de entrenamiento (no se mencionan fuentes en el documento) que comprende 500 horas de video procedentes de dominios diversos, que presentan instancias de (entre otros) baile, deportes, cine y discursos públicos. El conjunto de datos se diseñó para capturar un amplio espectro de movimiento y expresión humanos, con una distribución equitativa entre tomas de cuerpo completo y medio cuerpo.

Para mejorar la calidad de síntesis facial, Nersemble se incorporó en el proceso de preparación de datos.

Ejemplos del conjunto de datos Nersemble, utilizado para aumentar los datos para DreamActor. Fuente: https://www.youtube.com/watch?v=a-OAWqBzldU

Ejemplos del conjunto de datos Nersemble, utilizado para aumentar los datos para DreamActor. Fuente: https://www.youtube.com/watch?v=a-OAWqBzldU

Para la evaluación, los investigadores utilizaron su conjunto de datos también como una referencia para evaluar la generalización a través de varios escenarios.

El rendimiento del modelo se midió utilizando métricas estándar del trabajo previo: Fréchet Inception Distance (FID); Índice de Similitud Estructural (SSIM); Similitud de Parches de Imagen Aprendida (LPIPS); y Relación de Señal a Ruido Pico (PSNR) para la calidad de cuadro. Fréchet Video Distance (FVD) se utilizó para evaluar la coherencia temporal y la fidelidad general del video.

Los autores realizaron experimentos en tareas de animación de cuerpo y animación de retrato, todas empleando una sola imagen de referencia (objetivo).

Para la animación de cuerpo, DreamActor-M1 se comparó con Animate Anyone; Champ; MimicMotion, y DisPose.

Comparaciones cuantitativas con marcos rivales.

Comparaciones cuantitativas con marcos rivales.

Aunque el PDF proporciona una imagen estática como una comparación visual, uno de los videos del sitio del proyecto puede resaltar las diferencias de manera más clara:

CONTENIDO DE AUDIO. Haga clic para reproducir. Una comparación visual a través de los marcos desafiantes. El video que impulsa se ve arriba a la izquierda, y la conclusión de los autores de que DreamActor produce los mejores resultados parece razonable.

Para las pruebas de animación de retrato, el modelo se evaluó contra LivePortrait; X-Portrait; SkyReels-A1; y Act-One.

Comparaciones cuantitativas para la animación de retrato.

Comparaciones cuantitativas para la animación de retrato.

Los autores señalan que su método se destaca en las pruebas cuantitativas, y sostienen que también es superior cualitativamente.

CONTENIDO DE AUDIO. Haga clic para reproducir. Ejemplos de comparaciones de animación de retrato.

Posiblemente el tercer y último de los clips mostrados en el video anterior exhibe una sincronización de labios menos convincente en comparación con algunos de los marcos rivales, aunque la calidad general es notablemente alta.

Conclusión

Al anticipar la necesidad de texturas que se implican pero no están realmente presentes en la imagen de referencia única que alimenta estas recreaciones, Bytedance ha abordado uno de los desafíos más grandes que enfrenta la generación de video basada en difusión, texturas coherentes y persistentes. El siguiente paso lógico después de perfeccionar este enfoque sería crear de alguna manera un atlas de referencia a partir del clip generado inicial que podría aplicarse a generaciones posteriores y diferentes, para mantener la apariencia sin LoRAs.

Aunque este enfoque sería efectivamente una referencia externa, no es diferente a la texturización en técnicas de CGI tradicionales, y la calidad de realismo y plausibilidad es mucho mayor que la que pueden obtener estos métodos antiguos.

Dicho esto, el aspecto más impresionante de DreamActor es el sistema de guía combinado de tres partes, que une la división tradicional entre síntesis humana enfocada en la cara y enfocada en el cuerpo de una manera ingeniosa.

Solo queda por ver si algunos de estos principios básicos pueden aprovecharse en ofertas más accesibles; como está, DreamActor parece destinado a convertirse en otra oferta de síntesis como servicio, severamente limitada por restricciones de uso y por la impracticabilidad de experimentar extensivamente con una arquitectura comercial.

 

* Mi sustitución de hipervínculos por los autores; citas en línea

Como se mencionó anteriormente, no está claro qué sabor de Difusión Estable se utilizó en este proyecto.

Publicado por primera vez el viernes 4 de abril de 2025

Escritor sobre aprendizaje automático, especialista en síntesis de imágenes humanas. Anterior jefe de contenido de investigación en Metaphysic.ai.