Contáctenos

AniPortrait: síntesis basada en audio de animación de retratos fotorrealistas

Inteligencia Artificial

AniPortrait: síntesis basada en audio de animación de retratos fotorrealistas

mm

A lo largo de los años, la creación de animaciones de retratos realistas y expresivos a partir de imágenes estáticas y audio ha encontrado una variedad de aplicaciones que incluyen juegos, medios digitales, realidad virtual y mucho más. A pesar de su potencial aplicación, todavía resulta difícil para los desarrolladores crear marcos capaces de generar animaciones de alta calidad que mantengan la coherencia temporal y sean visualmente cautivadoras. Una de las principales causas de esta complejidad es la necesidad de una intrincada coordinación de los movimientos de los labios, las posiciones de la cabeza y las expresiones faciales para crear un efecto visualmente atractivo. 

En este artículo, hablaremos de AniPortrait, un marco novedoso diseñado para generar animaciones de alta calidad impulsadas por una imagen de retrato de referencia y una muestra de audio. El funcionamiento del marco AniPortrait se divide en dos etapas. Primero, el marco AniPortrait extrae las representaciones 3D intermedias de las muestras de audio y las proyecta en una secuencia de puntos de referencia faciales 2D. Después de esto, el marco emplea un modelo de difusión robusto junto con un módulo de movimiento para convertir las secuencias de puntos de referencia en animaciones fotorrealistas y temporalmente consistentes. Los resultados experimentales demuestran la superioridad y capacidad del marco AniPortrait para generar animaciones de alta calidad con una calidad visual excepcional, diversidad de poses y naturalidad facial, ofreciendo así una experiencia perceptiva mejorada y enriquecida. Además, el marco AniPortrait tiene un potencial notable en términos de controlabilidad y flexibilidad, y se puede aplicar de manera efectiva en áreas que incluyen recreación facial, edición de movimientos faciales y más. Este artículo tiene como objetivo cubrir el marco AniPortrait en profundidad y exploramos el mecanismo, la metodología, la arquitectura del marco junto con su comparación con los marcos más avanzados. Entonces empecemos. 

AniPortrait: Animación de retratos fotorrealistas

La creación de animaciones de retratos realistas y expresivas ha sido el foco de los investigadores desde hace un tiempo debido a su increíble potencial y sus aplicaciones que abarcan desde medios digitales y realidad virtual hasta juegos y más. A pesar de años de investigación y desarrollo, producir animaciones de alta calidad que mantengan la coherencia temporal y sean visualmente cautivadoras todavía presenta un desafío importante. Un obstáculo importante para los desarrolladores es la necesidad de una coordinación compleja entre las posiciones de la cabeza, las expresiones visuales y los movimientos de los labios para crear un efecto visualmente atractivo. Los métodos existentes no han logrado abordar estos desafíos, principalmente porque la mayoría de ellos dependen de generadores de capacidad limitada como NeRF, decodificadores basados ​​en movimiento y GAN para la creación de contenido visual. Estas redes exhiben capacidades de generalización limitadas y son inestables a la hora de generar contenido de alta calidad. Sin embargo, la reciente aparición de modelos de difusión ha facilitado la generación de imágenes de alta calidad, y algunos marcos construidos sobre modelos de difusión junto con módulos temporales han facilitado la creación de vídeos atractivos, permitiendo que los modelos de difusión sobresalgan. 

Aprovechando los avances de los modelos de difusión, el marco AniPortrait tiene como objetivo generar retratos animados de alta calidad utilizando una imagen de referencia y una muestra de audio. El funcionamiento del marco AniPortrait se divide en dos etapas. En la primera etapa, el marco AniPortrait emplea modelos basados ​​en transformadores para extraer una secuencia de malla facial 3D y postura de la cabeza a partir de la entrada de audio, y los proyecta posteriormente en una secuencia de puntos de referencia faciales 2D. La primera etapa facilita el marco AniPortrait para capturar movimientos de labios y expresiones sutiles del audio, además de movimientos de cabeza que se sincronizan con el ritmo de la muestra de audio. La segunda etapa, el marco AniPortrait, emplea un modelo de difusión robusto y lo integra con un módulo de movimiento para transformar la secuencia de puntos faciales en un retrato animado fotorrealista y temporalmente consistente. Para ser más específico, el marco AniPortrait se basa en la arquitectura de red del modelo AnimateAnyone existente que emplea Stable Diffusion 1.5, un potente modelo de difusión para generar realista y fluido basado en una imagen de referencia y una secuencia de movimiento corporal. Lo que vale la pena señalar es que el marco AniPortrait no utiliza el módulo de guía de pose dentro de esta red tal como se implementó en el marco AnimateAnyone, sino que lo rediseña, lo que permite que el marco AniPortrait no solo mantenga un diseño liviano sino que también exhiba una precisión mejorada en la generación de labios. movimientos. 

Los resultados experimentales demuestran la superioridad del marco AniPortrait en la creación de animaciones con una naturalidad facial impresionante, excelente calidad visual y poses variadas. Al emplear representaciones faciales 3D como características intermedias, el marco AniPortrait gana la flexibilidad de modificar estas representaciones según sus requisitos. La adaptabilidad mejora significativamente la aplicabilidad del marco AniPortrait en todos los dominios, incluida la recreación facial y la edición de movimientos faciales. 

AniPortrait: Trabajo y Metodología

El marco AniPortrait propuesto consta de dos módulos, a saber, Lmk2Video y Audio2Lmk. El módulo Audio2Lmk intenta extraer una secuencia de puntos de referencia que captura movimientos intrincados de los labios y expresiones faciales a partir de la entrada de audio, mientras que el módulo Lmk2Video utiliza esta secuencia de puntos de referencia para generar vídeos de retratos de alta calidad con estabilidad temporal. La siguiente figura presenta una descripción general del funcionamiento del marco AniPortrait. Como se puede observar, el marco AniPortrait primero extrae la malla facial 3D y la pose de la cabeza del audio, y posteriormente proyecta estos dos elementos en puntos clave 2D. En la segunda etapa, el marco emplea un modelo de difusión para transformar los puntos clave 2D en un video de retrato con dos etapas entrenadas simultáneamente dentro de la red. 

Audio2Lmk

Para una secuencia determinada de fragmentos de voz, el objetivo principal del marco AniPortrait es predecir la secuencia de malla facial 3D correspondiente con representaciones vectoriales de traslación y rotación. El marco AniPortrait emplea el método wav2vec previamente entrenado para extraer características de audio, y el modelo exhibe un alto grado de generalización y es capaz de reconocer la entonación y la pronunciación del audio con precisión, lo que desempeña un papel crucial en la generación. animaciones faciales realistas. Al aprovechar las sólidas características del habla adquiridas, el marco AniPortrait puede emplear de manera efectiva una arquitectura simple que consta de dos capas fc para convertir estas características en mallas faciales 3D. El marco AniPortrait observa que este diseño sencillo implementado por el modelo no solo mejora la eficiencia del proceso de inferencia, sino que también garantiza la precisión. Al convertir audio en pose, el marco AniPortrait emplea la misma red wav2vec como columna vertebral, aunque el modelo no comparte los pesos con el módulo de audio a malla. Se debe principalmente al hecho de que la pose se asocia más con el tono y el ritmo presentes en el audio, lo que tiene un énfasis diferente en comparación con las tareas de audio y malla. Para tener en cuenta el impacto de los estados anteriores, el marco AniPortrait emplea un decodificador transformador para decodificar la secuencia de pose. Durante este proceso, el marco integra las funciones de audio en el decodificador mediante mecanismos de atención cruzada y, para ambos módulos, el marco los entrena utilizando la pérdida L1. Una vez que el modelo obtiene la pose y la secuencia de malla, emplea proyección en perspectiva para transformar estas secuencias en una secuencia 2D de puntos de referencia faciales que luego se utilizan como señales de entrada para la etapa siguiente. 

Lmk2Video

Para una imagen de retrato de referencia dada y una secuencia de puntos de referencia faciales, el módulo Lmk2Video propuesto crea una animación de retrato temporalmente consistente, y esta animación alinea el movimiento con la secuencia de puntos de referencia y mantiene una apariencia que está en coherencia con la imagen de referencia, y finalmente , el marco representa la animación del retrato como una secuencia de fotogramas de retrato. El diseño de la estructura de red de Lmk2Video busca inspiración en el marco AnimateAnyone ya existente. El marco AniPortrait emplea un Difusión estable 1.5, un modelo de difusión extremadamente potente como columna vertebral, e incorpora un módulo de movimiento temporal que convierte efectivamente entradas de ruido de múltiples cuadros en una secuencia de cuadros de video. Al mismo tiempo, un componente de red ReferencenNet refleja la estructura de Stable Diffusion 1.5 y la emplea para extraer la información de apariencia de la imagen de referencia y la integra en la red troncal. El diseño estratégico garantiza que la identificación facial se mantenga constante durante todo el vídeo de salida. A diferencia del marco AnimateAnyone, el marco AniPortrait mejora la complejidad del diseño de PoseGuider. La versión original del marco AnimateAnyone comprende solo unas pocas capas de convolución después de las cuales las características de referencia se fusionan con las latentes en la capa de entrada de la columna vertebral. El marco AniPortrait descubre que el diseño no logra capturar movimientos intrincados de los labios y, para abordar este problema, el marco adopta la estrategia de múltiples escalas de la arquitectura ConvNet e incorpora características emblemáticas de las escalas correspondientes en diferentes bloques de la columna vertebral. Además, el marco AniPortrait introduce una mejora adicional al incluir los puntos de referencia de la imagen de referencia como entrada adicional. El módulo de atención cruzada del componente PoseGuider facilita la interacción entre los puntos de referencia de cada cuadro y los puntos de referencia. Este proceso proporciona a la red pistas adicionales para comprender la correlación entre la apariencia y los puntos de referencia faciales, ayudando así a generar animaciones de retratos con movimientos más precisos. 

AniPortrait: implementación y resultado

Para la etapa Audio2Lmk, el marco AniPortrait adopta el componente wav2vec2.0 como columna vertebral y aprovecha la arquitectura MediaPipe para extraer mallas 3D y poses 6D para anotaciones. El modelo obtiene los datos de entrenamiento para el componente Audio2Mesh de su conjunto de datos interno que comprende casi 60 minutos de datos de voz de alta calidad procedentes de un solo hablante. Para garantizar que la malla 3D extraída por el componente MediaPipe sea estable, se le indica al actor de voz que mire a la cámara y mantenga una posición estable de la cabeza durante todo el proceso de grabación. Para el módulo Lmk2Video, el marco AniPortrait implementa un enfoque de capacitación en dos etapas. En la primera etapa, el marco se centra en entrenar ReferenceNet y PoseGuider, el componente 2D de la columna vertebral, y deja de lado el módulo de movimiento. En el segundo paso, el marco AniPortrait congela todos los demás componentes y se concentra en entrenar el módulo de movimiento. Para esta etapa, el marco utiliza dos conjuntos de datos de videos faciales de alta calidad a gran escala para entrenar el modelo y procesa todos los datos usando el componente MediaPipe para extraer puntos de referencia faciales 2D. Además, para mejorar la sensibilidad de la red hacia los movimientos de los labios, el modelo AniPortrait diferencia los labios superiores e inferiores con distintos colores al representar la imagen de la pose a partir de puntos de referencia 2D. 

Como se demuestra en la siguiente imagen, el marco AniPortrait genera una serie de animaciones que demuestran una calidad y realismo superiores.

Luego, el marco utiliza una representación 3D intermedia que se puede editar para manipular la salida según los requisitos. Por ejemplo, los usuarios pueden extraer puntos de referencia de una determinada fuente y modificar su identificación, lo que permite que el marco AniPortrait cree un efecto de recreación facial. 

Conclusión

En este artículo, hemos hablado de AniPortrait, un marco novedoso diseñado para generar animaciones de alta calidad impulsadas por una imagen de retrato de referencia y una muestra de audio. Simplemente ingresando una imagen de referencia y un clip de audio, el marco AniPortrait es capaz de generar un video de retrato que presenta el movimiento natural de las cabezas y el movimiento suave de los labios. Al aprovechar las sólidas capacidades de generalización del modelo de difusión, el marco AniPortrait genera animaciones que muestran una calidad de imagen realista impresionante y un movimiento realista. El funcionamiento del marco AniPortrait se divide en dos etapas. Primero, el marco AniPortrait extrae las representaciones 3D intermedias de las muestras de audio y las proyecta en una secuencia de puntos de referencia faciales 2D. Después de esto, el marco emplea un modelo de difusión robusto junto con un módulo de movimiento para convertir las secuencias de puntos de referencia en animaciones fotorrealistas y temporalmente consistentes. Los resultados experimentales demuestran la superioridad y capacidad del marco AniPortrait para generar animaciones de alta calidad con una calidad visual excepcional, diversidad de poses y naturalidad facial, ofreciendo así una experiencia perceptiva mejorada y enriquecida. Además, el marco AniPortrait tiene un potencial notable en términos de controlabilidad y flexibilidad, y se puede aplicar de manera efectiva en áreas que incluyen recreación facial, edición de movimientos faciales y más.

"Ingeniero de profesión, escritor de corazón". Kunal es un escritor técnico con un profundo amor y comprensión de AI y ML, dedicado a simplificar conceptos complejos en estos campos a través de su atractiva e informativa documentación.