Contáctenos

Un avance notable en el vídeo con IA controlado por humanos

El ángulo de Anderson

Un avance notable en el vídeo con IA controlado por humanos

mm
Ejemplos de la página del proyecto DreamActor.

Nota: La página del proyecto de este trabajo incluye 33 vídeos de alta resolución con reproducción automática que ocupan medio gigabyte, lo que desestabilizó mi sistema al cargarlo. Por esta razón, no incluiré un enlace directo. Los lectores pueden encontrar la URL en el resumen o el PDF del artículo si lo desean.

Uno de los principales objetivos de la investigación actual en síntesis de vídeo es generar un rendimiento de vídeo completo basado en IA a partir de una sola imagen. Esta semana, un nuevo artículo de Bytedance Intelligent Creation describió lo que podría ser el sistema más completo de este tipo hasta la fecha, capaz de producir animaciones de cuerpo completo y semicuerpo que combinan detalles faciales expresivos con un movimiento preciso a gran escala, a la vez que logra una mayor consistencia de la identidad, un aspecto en el que incluso los sistemas comerciales líderes suelen fallar.

En el ejemplo siguiente, vemos una actuación impulsada por un actor (arriba a la izquierda) y derivada de una sola imagen (arriba a la derecha), que proporciona una representación notablemente flexible y diestra, sin ninguno de los efectos habituales. cuestiones en torno a la creación de grandes movimientos o 'adivinar' áreas ocluidas (es decir, partes de la ropa y ángulos faciales que deben inferirse o inventarse porque no son visibles en la única foto fuente):

CONTENIDO DE AUDIO. Haz clic para reproducir.Una actuación nace de dos fuentes, incluyendo la sincronización labial, que normalmente se reserva para sistemas auxiliares especializados. Esta es una versión reducida del sitio web original (véase la nota al principio del artículo; se aplica a todos los demás vídeos incrustados aquí).

Aunque podemos ver algunos desafíos residuales con respecto a la persistencia de la identidad a medida que avanza cada clip, este es el primer sistema que he visto que se destaca en mantener la identidad en general (aunque no siempre) durante un período sostenido sin el uso de LoRA:

CONTENIDO DE AUDIO. Haz clic para reproducir.. Más ejemplos del proyecto DreamActor.

El nuevo sistema, denominado Actor de sueños, utiliza un sistema de control híbrido de tres partes que brinda atención dedicada a la expresión facial, la rotación de la cabeza y el diseño del esqueleto central, lo que permite actuaciones impulsadas por IA en las que ni el aspecto facial ni el corporal sufren a expensas del otro: una capacidad rara y posiblemente desconocida entre sistemas similares.

A continuación vemos una de estas facetas, rotación de la cabezaEn acción. La bola de color en la esquina derecha de cada miniatura indica una especie de cardán virtual que define la orientación de la cabeza independientemente del movimiento y la expresión facial, y que en este caso es controlado por un actor (abajo a la izquierda).

Haga clic para jugarLa bola multicolor visualizada aquí representa el eje de rotación de la cabeza del avatar, mientras que la expresión es impulsada por un módulo separado e informada por la actuación de un actor (visto aquí abajo a la izquierda).

Una de las funcionalidades más interesantes del proyecto, que ni siquiera está incluida adecuadamente en las pruebas del artículo, es su capacidad para derivar el movimiento de sincronización de labios directamente del audio, una capacidad que funciona inusualmente bien incluso sin un actor que conduzca el vídeo.

Los investigadores han elegido a los mejores en esta búsqueda, incluidos los muy elogiados Pasarela, acto uno Retrato en vivo, e informan que DreamActor pudo lograr mejores resultados cuantitativos.

Dado que los investigadores pueden establecer sus propios criterios, los resultados cuantitativos no son necesariamente un estándar empírico; pero las pruebas cualitativas que los acompañan parecen respaldar las conclusiones de los autores.

Lamentablemente, este sistema no está destinado a ser publicado y el único valor que la comunidad puede derivar potencialmente del trabajo es reproducir potencialmente las metodologías descritas en el documento (como se hizo con un efecto notable para el código igualmente cerrado). Google Dreambooth en 2022).

El documento dice*:

La animación de imágenes humanas conlleva posibles riesgos sociales, como su uso indebido para crear vídeos falsos. La tecnología propuesta podría utilizarse para crear vídeos falsos de personas, pero las herramientas de detección existentes [Demamba, Inactivo] pueden detectar estas falsificaciones.

Para reducir estos riesgos, se requieren normas éticas claras y directrices de uso responsable. Restringiremos estrictamente el acceso a nuestros modelos y códigos principales para evitar el uso indebido.

Naturalmente, consideraciones éticas de este tipo son convenientes desde un punto de vista comercial, ya que justifican el acceso exclusivo a la API al modelo, que luego puede monetizarse. ByteDance ya lo hizo una vez en 2025, al hacer que El muy elogiado OmniHuman Disponible con créditos de pago en el sitio web de Dreamina. Por lo tanto, dado que DreamActor es posiblemente un producto aún más potente, este parece ser el resultado más probable. Queda por ver hasta qué punto sus principios, tal como se explican en el documento, pueden ayudar a la comunidad de código abierto.

El nuevo documento se titula DreamActor-M1: Animación de imágenes humanas holística, expresiva y robusta con guía híbrida, y proviene de seis investigadores de Bytedance.

Método

El sistema DreamActor propuesto en el artículo tiene como objetivo generar animación humana a partir de una imagen de referencia y un vídeo de conducción, utilizando un Transformador de difusión (DiT) marco adaptado para espacio latente (aparentemente, algún sabor de difusión estable, aunque el artículo sólo cita el Publicación de lanzamiento histórico de 2022).

En lugar de confiar en módulos externos para manejar el condicionamiento de referencia, los autores fusionan características de apariencia y movimiento directamente dentro de la estructura principal de DiT, lo que permite la interacción a través del espacio y el tiempo mediante la atención:

Esquema del nuevo sistema: DreamActor codifica la pose, el movimiento facial y la apariencia en latentes independientes, combinándolas con latentes de vídeo con ruido generadas por un VAE 3D. Estas señales se fusionan en un Transformador de Difusión mediante autoatención y atención cruzada, con pesos compartidos entre las ramas. El modelo se supervisa comparando las salidas sin ruido con latentes de vídeo limpias. Fuente: https://arxiv.org/pdf/2504.01724

Esquema del nuevo sistema: DreamActor codifica la pose, el movimiento facial y la apariencia en latentes independientes, combinándolas con latentes de vídeo con ruido generadas por un VAE 3D. Estas señales se fusionan en un Transformador de Difusión mediante autoatención y atención cruzada, con pesos compartidos entre las ramas. El modelo se supervisa comparando las salidas sin ruido con latentes de vídeo limpias. Fuente: https://arxiv.org/pdf/2504.01724

Para ello, el modelo utiliza un modelo 3D preentrenado. codificador automático variacional para codificar tanto el vídeo de entrada como la imagen de referencia. Estas latentes son parcheado, se concatenan y se introducen en el DiT, que los procesa conjuntamente.

Esta arquitectura se aparta de la práctica común de adjuntar una red secundaria para la inyección de referencia, que era el enfoque del influyente Animar a cualquiera Animar a cualquiera 2 de proyectos.

En cambio, DreamActor integra la fusión en el propio modelo principal, simplificando el diseño y mejorando el flujo de información entre la apariencia y las señales de movimiento. El modelo se entrena posteriormente utilizando coincidencia de flujo en lugar del objetivo de difusión estándar (la correspondencia de flujo entrena los modelos de difusión prediciendo directamente los campos de velocidad entre los datos y el ruido, omitiendo estimación de puntuación).

Guía de movimiento híbrida

El método de guía de movimiento híbrido que informa las representaciones neuronales combina tokens de pose derivados de esqueletos corporales 3D y esferas de cabeza; representaciones faciales implícitas extraídas por un codificador facial preentrenado; y tokens de apariencia de referencia muestreados de la imagen de origen.

Estos elementos se integran dentro del Transformador de Difusión utilizando mecanismos de atención distintos, lo que permite al sistema coordinar el movimiento global, la expresión facial y la identidad visual a lo largo del proceso de generación.

Para el primero de ellos, en lugar de basarse en puntos de referencia faciales, DreamActor utiliza representaciones faciales implícitas para guiar la generación de expresiones, lo que aparentemente permite un control más preciso sobre la dinámica facial al tiempo que desenreda la identidad y la pose de la cabeza de la expresión.

Para crear estas representaciones, la canalización primero detecta y recorta la región del rostro en cada fotograma del vídeo de conducción, redimensionándolo a 224 × 224. Los rostros recortados son procesados ​​por un codificador de movimiento facial preentrenado en el PD-FGC conjunto de datos, que luego está condicionado por un MLP capa.

PD-FGC, empleado en DreamActor, genera una cabeza parlante a partir de una imagen de referencia con control preciso de la sincronización labial (a partir del audio), la postura de la cabeza, el movimiento ocular y la expresión (a partir de vídeos separados), lo que permite una manipulación precisa e independiente de cada uno. Fuente: https://arxiv.org/pdf/2211.14506

PD-FGC, empleado en DreamActor, genera una cabeza parlante a partir de una imagen de referencia con control desenredado de sincronización de labios (de audio), postura de la cabeza, movimiento de los ojos y expresión (de videos separados), lo que permite una manipulación precisa e independiente de cada uno. Fuente: https://arxiv.org/pdf/2211.14506

El resultado es una secuencia de tokens de movimiento facial, que se inyectan en el Transformador de Difusión a través de un atención cruzada capa.

El mismo marco también admite una impulsado por audio Variante en la que se entrena un codificador independiente que asigna la entrada de voz directamente a los tokens de movimiento facial. Esto permite generar animación facial sincronizada, incluyendo movimientos de labios, sin necesidad de un vídeo de conducción.

CONTENIDO DE AUDIO. Haz clic para reproducir.La sincronización labial se basa únicamente en el audio, sin referencias a un actor conductor. La única entrada del personaje es la foto estática que se ve en la esquina superior derecha.

En segundo lugar, para controlar la postura de la cabeza independientemente de la expresión facial, el sistema introduce una representación esférica de la cabeza en 3D (ver el vídeo incluido anteriormente en este artículo), que desacopla la dinámica facial del movimiento global de la cabeza, mejorando la precisión y la flexibilidad durante la animación.

Las esferas de la cabeza se generan extrayendo parámetros faciales 3D (como la rotación y la pose de la cámara) del video de conducción utilizando el FaceVerse método de seguimiento.

Esquema del proyecto FaceVerse. Fuente: https://www.liuyebin.com/faceverse/faceverse.html

Esquema para el proyecto FaceVerse. Fuente: https://www.liuyebin.com/faceverse/faceverse.html

Estos parámetros se utilizan para renderizar una esfera de color proyectada sobre el plano de la imagen 2D, alineada espacialmente con el cabezal conductor. El tamaño de la esfera coincide con el del cabezal de referencia y su color refleja su orientación. Esta abstracción reduce la complejidad del aprendizaje del movimiento 3D de la cabeza, lo que ayuda a conservar las formas estilizadas o exageradas de la cabeza en personajes extraídos de la animación.

Visualización de la esfera de control que influye en la orientación de la cabeza.

Visualización de la esfera de control que influye en la orientación de la cabeza.

Finalmente, para guiar el movimiento corporal completo, el sistema utiliza esqueletos corporales 3D con normalización adaptativa de la longitud ósea. Los parámetros corporales y de la mano se estiman utilizando 4DHumanos y la mano enfocada HaMeR, ambos de los cuales operan en el SMPL-X modelo de cuerpo.

SMPL-X aplica una malla paramétrica sobre el cuerpo humano completo en una imagen, alineándola con la pose y la expresión estimadas para permitir la manipulación teniendo en cuenta la pose, utilizando la malla como guía volumétrica. Fuente: https://arxiv.org/pdf/1904.05866

SMPL-X aplica una malla paramétrica sobre todo el cuerpo humano en una imagen, alineándola con la pose y la expresión estimadas para permitir una manipulación teniendo en cuenta la pose utilizando la malla como guía volumétrica. Fuente: https://arxiv.org/pdf/1904.05866

A partir de estos resultados, se seleccionan las articulaciones clave, se proyectan en 2D y se conectan en mapas de esqueleto basados ​​en líneas. A diferencia de métodos como Champ, que renderizan mallas de cuerpo completo, este enfoque evita imponer formas previas predefinidas y, al confiar únicamente en la estructura esquelética, se alienta al modelo a inferir la forma y apariencia del cuerpo directamente de las imágenes de referencia, lo que reduce el sesgo hacia tipos de cuerpo fijos y mejora la generalización en una variedad de poses y construcciones.

Durante el entrenamiento, los esqueletos corporales 3D se concatenan con esferas de la cabeza y pasan a través de un codificador de pose, que genera Características que luego se combinan con latentes de video ruidosos para producir los tokens de ruido utilizados por el Transformador de Difusión.

En el momento de la inferencia, el sistema tiene en cuenta las diferencias esqueléticas entre los sujetos al normalizar las longitudes de los huesos. SemillaEditar El modelo de edición de imágenes preentrenado transforma tanto las imágenes de referencia como las de conducción en un estándar configuración canónica. RTMPose Luego se utiliza para extraer proporciones esqueléticas, que se utilizan para ajustar el esqueleto conductor para que coincida con la anatomía del sujeto de referencia.

Descripción general del proceso de inferencia. Se pueden generar pseudorreferencias para enriquecer las señales de apariencia, mientras que las señales de control híbridas (movimiento facial implícito y pose explícita de las esferas de la cabeza y los esqueletos corporales) se extraen del vídeo de conducción. Estas señales se introducen en un modelo DiT para generar una salida animada, con el movimiento facial desacoplado de la pose corporal, lo que permite el uso del audio como controlador.

Descripción general del proceso de inferencia. Se pueden generar pseudorreferencias para enriquecer las señales de apariencia, mientras que las señales de control híbridas (movimiento facial implícito y pose explícita de las esferas de la cabeza y los esqueletos corporales) se extraen del vídeo de conducción. Estas señales se introducen en un modelo DiT para generar una salida animada, con el movimiento facial desacoplado de la pose corporal, lo que permite el uso del audio como controlador.

Guía de apariencia

Para mejorar la fidelidad de la apariencia, particularmente en áreas ocluidas o raramente visibles, el sistema complementa la imagen de referencia principal con pseudorreferencias extraídas del video de entrada.

Haga clic para jugarEl sistema anticipa la necesidad de renderizar las regiones ocluidas con precisión y consistencia. Esto es lo más cercano que he visto, en un proyecto de este tipo, a un enfoque de textura de mapa de bits estilo CGI.

Estos cuadros adicionales se seleccionan para la diversidad de poses usando RTMPose y se filtran usando similitud basada en CLIP para garantizar que permanezcan consistentes con la identidad del sujeto.

Todos los marcos de referencia (primarios y pseudorreferenciales) están codificados por el mismo codificador visual y se fusionan mediante un mecanismo de autoatención, lo que permite al modelo acceder a claves de apariencia complementarias. Esta configuración mejora la cobertura de detalles como vistas de perfil o texturas de extremidades. Las pseudorreferencias se utilizan siempre durante el entrenamiento y, opcionalmente, durante la inferencia.

Formación

DreamActor fue entrenado en tres etapas para introducir gradualmente complejidad y mejorar la estabilidad.

En la primera etapa, solo se utilizaron esqueletos corporales 3D y esferas de cabeza 3D como señales de control, excluyendo las representaciones faciales. Esto permitió el modelo base de generación de video, inicializado desde MMDiT, para adaptarse a la animación humana sin verse abrumado por controles de grano fino.

En la segunda etapa, se agregaron representaciones faciales implícitas, pero todos los demás parámetros frozenEn este punto, solo se entrenaron las capas de codificador de movimiento facial y de atención facial, lo que permitió que el modelo aprendiera detalles expresivos de forma aislada.

En la etapa final, se descongelaron todos los parámetros para optimizar la apariencia, la pose y la dinámica facial.

Datos y Pruebas

Para la fase de prueba, el modelo se inicializa desde un punto de control DiT de imagen a video entrenado previamente. y entrenado en tres etapas: 20,000 pasos para cada una de las dos primeras etapas y 30,000 pasos para la tercera.

Para mejorar generalización Se seleccionaron aleatoriamente videoclips de diferentes duraciones y resoluciones, con una duración de entre 25 y 121 fotogramas. Posteriormente, se redimensionaron a 960 x 640 px, conservando la relación de aspecto.

El entrenamiento se realizó en ocho (Centrado en China) GPU NVIDIA H20, cada una con 96 GB de VRAM, que utilizan el AdánW optimizador con un (tolerablemente alto) tasa de aprendizaje de 5e−6.

En la inferencia, cada segmento de video contenía 73 fotogramas. Para mantener la coherencia entre los segmentos, la latente final de un segmento se reutilizó como latente inicial para el siguiente, lo que contextualiza la tarea como generación secuencial de imagen a video.

Orientación sin clasificadores Se aplicó con un peso de 2.5 tanto para las imágenes de referencia como para las señales de control de movimiento.

Los autores crearon un conjunto de datos de entrenamiento (no se mencionan las fuentes en el artículo) compuesto por 500 horas de vídeo de diversos ámbitos, que incluyen ejemplos de danza, deportes, cine y oratoria, entre otros. El conjunto de datos se diseñó para capturar un amplio espectro de movimiento y expresión humana, con una distribución uniforme entre tomas de cuerpo entero y de medio cuerpo.

Para mejorar la calidad de la síntesis facial, Nersemble Se incorporó al proceso de preparación de datos.

Ejemplos del conjunto de datos Nersemble, utilizados para ampliar los datos de DreamActor. Fuente: https://www.youtube.com/watch?v=a-OAWqBzldU

Ejemplos del conjunto de datos Nersemble, utilizados para ampliar los datos de DreamActor. Fuente: https://www.youtube.com/watch?v=a-OAWqBzldU

Para la evaluación, los investigadores utilizaron su conjunto de datos también como punto de referencia para evaluar la generalización en varios escenarios.

El rendimiento del modelo se midió utilizando métricas estándar de trabajos anteriores: Fréchet Inicio Distancia (DEFENSOR); Índice de similitud estructural (SIM); Similitud de parches de imágenes perceptuales aprendidas (LPIPS); y Relación señal-ruido máxima (PSNR) para calidad a nivel de cuadro. Distancia del vídeo de Fréchet (FVD) se utilizó para evaluar la coherencia temporal y la fidelidad general del video.

Los autores llevaron a cabo experimentos tanto en tareas de animación corporal como de animación de retratos, todos empleando una única imagen de referencia (objetivo).

Para la animación corporal, se comparó DreamActor-M1 con Animate Either; Champ; Movimiento mímicoy Disponer.

Comparaciones cuantitativas con marcos rivales.

Comparaciones cuantitativas con marcos rivales.

Aunque el PDF proporciona una imagen estática como comparación visual, uno de los vídeos del sitio del proyecto puede resaltar las diferencias con mayor claridad:

CONTENIDO DE AUDIO. Haga clic para jugarUna comparación visual entre los frameworks Challenger. El video de conducción se ve en la esquina superior izquierda, y la conclusión de los autores de que DreamActor produce los mejores resultados parece razonable.

Para las pruebas de animación de retratos, el modelo se evaluó frente a LivePortrait; X-Retrato; SkyReels-A1; y Acto Uno.

Comparaciones cuantitativas para la animación de retratos.

Comparaciones cuantitativas para la animación de retratos.

Los autores señalan que su método gana en las pruebas cuantitativas y sostienen que también es superior cualitativamente.

CONTENIDO DE AUDIO. Haz clic para reproducir.. Ejemplos de comparaciones de animación de retratos.

Podría decirse que el tercero y último de los clips mostrados en el video de arriba muestra una sincronización de labios menos convincente en comparación con un par de marcos rivales, aunque la calidad general es notablemente alta.

Conclusión

Al anticipar la necesidad de texturas implícitas, pero no presentes en la imagen objetivo que alimenta estas recreaciones, ByteDance ha abordado uno de los mayores desafíos de la generación de video basada en difusión: texturas consistentes y persistentes. El siguiente paso lógico tras perfeccionar este enfoque sería crear un atlas de referencia a partir del clip generado inicialmente, que pudiera aplicarse a generaciones posteriores para mantener la apariencia sin LoRA.

Aunque este enfoque seguiría siendo en realidad una referencia externa, no es diferente del mapeo de texturas en las técnicas CGI tradicionales, y la calidad del realismo y la plausibilidad es mucho mayor que la que pueden obtener los métodos más antiguos.

Dicho esto, el aspecto más impresionante de DreamActor es el sistema de guía combinado de tres partes, que une la división tradicional entre la síntesis humana centrada en el rostro y la centrada en el cuerpo de una manera ingeniosa.

Sólo queda por ver si algunos de estos principios básicos se pueden aprovechar en ofertas más accesibles; tal como están las cosas, DreamActor parece destinado a convertirse en otra oferta de síntesis como servicio, severamente limitada por restricciones de uso y por la impracticabilidad de experimentar ampliamente con una arquitectura comercial.

 

* Mi sustitución de hipervínculos por los autores; citas en línea

Como se mencionó anteriormente, no está claro qué sabor de Stable Diffusion se utilizó en este proyecto.

Primera publicación: viernes 4 de abril de 2025