Ángulo de Anderson

Agregar diálogo a video real con IA

mm
Montage of subjects from the demonstration video-clips for FacEDiT. Source: https://facedit.github.io/

Un nuevo marco de trabajo de IA puede reescribir, eliminar o agregar las palabras de una persona en un video sin volver a grabar, en un solo sistema de extremo a extremo.

 

Hace tres años, internet se habría sorprendido con cualquiera de los 20-30 marcos de trabajo de video alterados por IA que se publican semanalmente en portales académicos; como es el caso, esta popular rama de investigación ahora se ha vuelto tan prolífica que casi constituye otra rama de ‘basura de IA’, y cubro mucho menos de estos lanzamientos de lo que lo habría hecho hace dos o tres años.

No obstante, un lanzamiento actual en esta línea llamó mi atención: un sistema integrado que puede intervenir en clips de video reales e interponer nuevo diálogo en el video existente (en lugar de crear un clip generativo completo a partir de una cara o un marco, lo que es mucho más común).

En los ejemplos a continuación, que edité juntos a partir de múltiples videos de muestra disponibles en el sitio web del proyecto, primero vemos el clip de origen real, y debajo, el discurso de IA impuesto en el medio del clip, incluyendo síntesis de voz y sincronización de labios:

Haz clic para reproducir. Edición local con costura – uno de los varios modos ofrecidos por FacEDiT. Por favor, consulte el sitio web de origen para una mejor resolución. Fuente – https://facedit.github.io/

Este enfoque es uno de los tres desarrollados para el nuevo método, este titulado ‘edición local con costura’, y el que más interesa a los autores (así como a mí). Esencialmente, el clip se extiende utilizando uno de los marcos del medio como punto de partida para la interpretación de IA novel, y su marco sucesivo (real) como objetivo que el clip generativo insertado debe tratar de emparejar. En los clips vistos arriba, estos ‘semilla’ y ‘objetivo’ marcos están representados por el video superior que se detiene mientras el video modificado debajo proporciona relleno generativo.

Los autores enmarcan este enfoque de síntesis facial y vocal como el primer método completamente integrado de extremo a extremo para ediciones de video de IA de este tipo, observando el potencial de un marco de trabajo completamente desarrollado como este para la producción de TV y películas:

‘Los cineastas y productores de medios a menudo necesitan revisar partes específicas de videos grabados – quizás una palabra se pronunció mal o el guión cambió después de la filmación. Por ejemplo, en la escena icónica de Titanic (1997) donde Rose dice, “Nunca te dejaré ir, Jack,” el director podría decidir más tarde que debería ser “Nunca te olvidaré, Jack”.

‘Tradicionalmente, estos cambios requieren volver a grabar toda la escena, lo que es costoso y consume mucho tiempo. La síntesis de cara hablante ofrece una alternativa práctica al modificar automáticamente el movimiento facial para que coincida con el discurso revisado, eliminando la necesidad de volver a grabar.’

Aunque las interposiciones de IA de este tipo pueden enfrentar resistencia cultural o de la industria, también pueden constituir un nuevo tipo de funcionalidad en sistemas y suites de herramientas de efectos visuales dirigidos por humanos. En cualquier caso, por el momento, los desafíos son estrictamente técnicos.

Además de extender un clip a través de diálogo de IA adicional, el nuevo sistema también puede alterar el discurso existente:

Haz clic para reproducir. Un ejemplo de cambiar el diálogo existente en lugar de interponer diálogo adicional. Por favor, consulte el sitio web de origen para una mejor resolución.

Estado del arte

Actualmente no hay sistemas de extremo a extremo que ofrezcan esta capacidad de síntesis; aunque una creciente cantidad de plataformas de IA generativas como la serie Veo de Google pueden generar audio, y diversas otras arquitecturas pueden crear audio deepfake, actualmente hay que crear una especie de tubería involucrada de diversas arquitecturas y trucos para interferir con metraje real de la manera en que el nuevo sistema – titulado FacEDiT – puede lograr.

El sistema utiliza Transformadores de difusión (DiT) en combinación con Flow Matching para crear movimientos faciales condicionados en movimientos contextuales y contenido de audio de discurso. El sistema aprovecha paquetes populares existentes que tratan con la reconstrucción facial, incluyendo LivePortrait (recientemente adquirido por Kling).

Además de este método, dado que su enfoque es el primero en integrar estos desafíos en una sola solución, los autores han creado un benchmark novel llamado FacEDiTBench, junto con varias métricas de evaluación completamente nuevas y apropiadas para esta tarea específica.

El nuevo trabajo se titula FacEDiT: Edición y generación unificada de cara hablante a través del relleno de movimiento facial, y proviene de cuatro investigadores de la Universidad de Ciencia y Tecnología de Pohang (POSTECH), el Instituto Avanzado de Ciencia y Tecnología de Corea (KAIST) y la Universidad de Texas en Austin.

Método

FacEDiT se entrena para reconstruir el movimiento facial aprendiendo a rellenar partes faltantes del rendimiento original de un actor, basándose en el movimiento circundante y el audio de discurso. Como se muestra en el esquema a continuación, este proceso permite que el modelo actúe como un relleno de brechas durante el entrenamiento, prediciendo movimientos faciales que coinciden con la voz mientras se mantiene coherente con el video original:

Visión general del sistema FacEDiT, que muestra cómo se aprende el movimiento facial a través del relleno auto-supervisado durante el entrenamiento, guiado por el discurso editado en la inferencia, y finalmente se representa en video reutilizando la apariencia del metraje original mientras se reemplaza solo el movimiento objetivo.. Fuente - https://arxiv.org/pdf/2512.14056

Visión general del sistema FacEDiT, que muestra cómo se aprende el movimiento facial a través del relleno auto-supervisado durante el entrenamiento, guiado por el discurso editado en la inferencia, y finalmente se representa en video reutilizando la apariencia del metraje original mientras se reemplaza solo el movimiento objetivo. Fuente

En el momento de la inferencia, la misma arquitectura admite dos salidas diferentes dependiendo de cuánto del video esté enmascarado: ediciones parciales, donde solo se altera una frase y el resto se deja intacto; o generación de oraciones completas, donde se sintetiza movimiento nuevo enteramente desde cero.

El modelo se entrena a través de Flow Matching, que trata las ediciones de video como una especie de camino entre dos versiones de movimiento facial.

En lugar de aprender a adivinar cómo debería verse una cara editada desde cero, el Flow Matching aprende a moverse gradual y suavemente entre un marcador de posición ruidoso y el movimiento correcto. Para facilitar esto, el sistema representa el movimiento facial como un conjunto compacto de números extraídos de cada cuadro utilizando una versión del sistema LivePortrait mencionado anteriormente (ver esquema anterior).

Estos vectores de movimiento están diseñados para describir expresiones y postura de la cabeza sin enredar la identidad, para que los cambios en el discurso puedan localizarse sin afectar la apariencia general de la persona.

Entrenamiento de FacEDiT

Para entrenar a FacEDiT, cada clip de video se dividió en una serie de instantáneas de movimiento facial, y cada cuadro se emparejó con el trozo correspondiente de audio. Se ocultaron partes aleatorias de los datos de movimiento, y se le pidió al modelo que adivinara cómo deberían verse esos movimientos faltantes, utilizando tanto el discurso como el movimiento no enmascarado circundante como contexto.

Debido a que los espacios enmascarados y sus posiciones varían de un ejemplo de entrenamiento a otro, el modelo aprende gradualmente a manejar tanto ediciones internas pequeñas como brechas más largas, para la generación de secuencias completas, según la cantidad de información que se le proporcione.

El Transformador de difusión del sistema aprende a recuperar el movimiento enmascarado refinando las entradas ruidosas con el tiempo. En lugar de alimentar el discurso y el movimiento en el modelo todo a la vez, el audio se introduce en cada bloque de procesamiento a través de atención cruzada, lo que ayuda al sistema a emparejar los movimientos de los labios con mayor precisión al discurso.

Para preservar la realidad a lo largo de las ediciones, la atención se sesga hacia los cuadros vecinos en lugar de toda la línea de tiempo, lo que fuerza al modelo a centrarse en la continuidad local y evita parpadeos o saltos de movimiento en los bordes de las regiones alteradas. Las incrustaciones posicionales (que le dicen al modelo dónde aparece cada cuadro en la secuencia) también ayudan al modelo a mantener el flujo temporal y el contexto natural.

During el entrenamiento, el sistema aprende a predecir el movimiento facial faltante reconstruyendo los espacios enmascarados basándose en el discurso y el movimiento no enmascarado circundante. En el momento de la inferencia, este mismo conjunto se vuelve a utilizar, pero con las máscaras ahora guiadas por ediciones en el discurso.

Cuando se inserta, elimina o cambia una palabra o frase, el sistema localiza la región afectada, la enmascara y regenera el movimiento que coincide con el nuevo audio. La generación de secuencias completas se trata como un caso especial, donde toda la región se enmascara y se sintetiza desde cero.

Datos y pruebas

La columna vertebral del sistema comprende 22 capas para el Transformador de difusión, cada una con 16 cabezas de atención y dimensiones de alimentación directa de 1024 y 2024 píxeles. Las características de movimiento y apariencia se extraen utilizando componentes congelados de LivePortrait, y el discurso se codifica a través de WavLM y se modifica utilizando VoiceCraft.

Una capa de proyección dedicada asigna las características de discurso de 786 dimensiones al espacio latente de DiT, con solo DiT y los módulos de proyección entrenados desde cero.

El entrenamiento se realizó bajo el optimizador AdamW con una tasa de aprendizaje objetivo de 1e-4, durante un millón de pasos, en dos GPU A6000 (cada una con 48 GB de VRAM), con un tamaño de lote total de ocho.

FacEDiTBench

El conjunto de datos FacEDiTBench contiene 250 ejemplos, cada uno con un clip de video del discurso original y editado, y las transcripciones para ambos. Los videos provienen de tres fuentes, con 100 clips de HDTF, 100 de Hallo3, y 50 de CelebV-Dub. Cada uno se verificó manualmente para confirmar que tanto el audio como el video fueran lo suficientemente claros para la evaluación.

GPT-4o se utilizó para revisar cada transcripción para crear ediciones gramaticalmente válidas. Estas transcripciones revisadas, junto con el discurso original, se pasaron a VoiceCraft para producir nuevo audio; y en cada etapa, tanto la transcripción como el discurso generado se revisaron manualmente para la calidad.

Cada muestra se etiquetó con el tipo de edición, el momento del cambio y la longitud del tramo modificado, y las ediciones se clasificaron como inserciones, eliminaciones o sustituciones. El número de palabras cambiadas varió desde ediciones cortas de 1 a 3 palabras, ediciones medias de 4 a 6 palabras y ediciones más largas de 7 a 10 palabras.

Se definieron tres métricas personalizadas para evaluar la calidad de edición. Continuidad fotométrica, para medir cómo se mezcla la iluminación y el color de un segmento editado con el video circundante, comparando las diferencias a nivel de píxel en los bordes; continuidad de movimiento, para evaluar la coherencia del movimiento facial, midiendo los cambios en el flujo óptico a través de los cuadros editados y no editados; y preservación de identidad, para estimar si la apariencia del sujeto permanece coherente después de la edición, comparando las incrustaciones faciales del original y las secuencias generadas utilizando el modelo de reconocimiento facial ArcFace.

Pruebas

El modelo de prueba se entrenó con material de los tres conjuntos de datos mencionados anteriormente, totalizando alrededor de 200 horas de contenido de video, incluyendo vlogs y películas, así como videos de YouTube de alta resolución.

Para evaluar la edición de cara hablante, se utilizó FacEDiTBench, además de la división de prueba de HDTF, que se ha convertido en un estándar para esta suite de tareas.

Dado que no había sistemas directamente comparables capaces de encapsular esta funcionalidad de extremo a extremo, los autores eligieron una variedad de marcos que reproducían al menos parte de la funcionalidad objetivo, y que podrían operar como líneas de base; a saber, KeyFace; EchoMimic; EchoMimicV2; Hallo; Hallo2; Hallo3; V-Express; AniPortrait; y SadTalker.

Se utilizaron varias métricas establecidas para evaluar la calidad de generación y edición, con la precisión de sincronización de labios evaluada a través de SyncNet, informando tanto el error absoluto entre los movimientos de los labios y el audio (LSE-D) como una puntuación de confianza (LSE-C); Fréchet Video Distance (FVD) cuantificando lo realista que parece el video en general; y Métricas de similitud perceptual aprendidas (LPIPS), midiendo la similitud perceptual entre los cuadros generados y originales.

Para la edición, todas las métricas excepto LPIPS se aplicaron solo al segmento modificado; para la generación, se evaluó todo el video, con la continuidad de los bordes excluida.

Cada modelo se hizo para sintetizar un segmento de video coincidente, que luego se insertó en el clip original (los investigadores señalan que este método a menudo introdujo discontinuidades visibles, donde el segmento editado se encontraba con el metraje circundante). También se probó un segundo enfoque, en el que se regeneró todo el video desde el audio modificado – pero esto inevitablemente sobrescribió las regiones no editadas y no preservó el rendimiento original:

Comparación del rendimiento de edición en sistemas originalmente diseñados para la generación de cara hablante, con FacEDiT superando a todas las líneas de base en todas las métricas, logrando un error de sincronización de labios más bajo (LSE-D), una mayor confianza de sincronización (LSE-C), una mayor preservación de identidad (IDSIM), una mayor realismo perceptual (FVD) y transiciones más suaves en los bordes de edición (Pcontinuidad, Mcontinuidad). Las columnas sombreadas en gris resaltan los criterios clave para evaluar la calidad de los bordes; los valores en negrita y subrayados indican los mejores y segundos mejores resultados, respectivamente

Comparación del rendimiento de edición en sistemas originalmente diseñados para la generación de cara hablante, con FacEDiT superando a todas las líneas de base en todas las métricas, logrando un error de sincronización de labios más bajo (LSE-D), una mayor confianza de sincronización (LSE-C), una mayor preservación de identidad (IDSIM), una mayor realismo perceptual (FVD) y transiciones más suaves en los bordes de edición (Pcontinuidad, Mcontinuidad). Las columnas sombreadas en gris resaltan los criterios clave para evaluar la calidad de los bordes; los valores en negrita y subrayados indican los mejores y segundos mejores resultados, respectivamente

En cuanto a estos resultados, los autores comentan:

‘[Nuestro] modelo supera significativamente a los métodos existentes en la tarea de edición. Logra una fuerte continuidad de bordes y una alta preservación de identidad, demostrando su capacidad para mantener la coherencia temporal y visual durante la edición. Además, su precisión de sincronización de labios superior y su bajo FVD reflejan el realismo del video sintetizado.’

Haz clic para reproducir. Resultados, ensamblados por este autor a partir de los videos publicados en el sitio web del proyecto. Por favor, consulte el sitio web de origen para una mejor resolución.

Además, se realizó un estudio humano para evaluar la calidad percibida en ambas edición y generación.

Para cada comparación, los participantes vieron seis videos y los clasificaron por calidad general, considerando la precisión de sincronización de labios, naturalidad y realismo del movimiento de la cabeza:

Puntuaciones promedio asignadas por los evaluadores humanos, donde menor es mejor. En ambas edición y generación, los participantes juzgaron qué tan natural y sincronizado parecía cada video. Para la edición, también calificaron lo suave que era la transición entre el discurso editado y no editado.Bold y subrayado indican las dos mejores puntuaciones.

Puntuaciones promedio asignadas por los evaluadores humanos, donde menor es mejor. En ambas edición y generación, los participantes juzgaron qué tan natural y sincronizado parecía cada video. Para la edición, también calificaron lo suave que era la transición entre el discurso editado y no editado.Bold y subrayado indican las dos mejores puntuaciones.

En el estudio, FacEDiT se clasificó consistentemente como el más alto por una ventaja clara, tanto para la calidad de edición como para la suavidad de la transición, también recibiendo puntuaciones fuertes en el escenario de generación, lo que sugiere que sus ventajas medidas se traducen en salidas perceptualmente preferidas.

Debido a la falta de espacio, remitimos al lector al artículo de origen para obtener más detalles sobre los estudios de abstracción y las pruebas adicionales que se realizaron y se informaron en el nuevo trabajo. En verdad, las ofertas de investigación prototípicas de este tipo luchan por generar secciones de resultados de prueba significativos, ya que la oferta central en sí misma es inevitablemente una posible línea de base para trabajos posteriores.

Conclusión

Incluso para la inferencia, los sistemas como este pueden requerir recursos computacionales significativos en el momento de la inferencia, lo que dificulta que los usuarios posteriores – aquí, presumiblemente, tiendas de efectos visuales – mantengan el trabajo en las instalaciones. Por lo tanto, los enfoques que se pueden adaptar a recursos locales realistas siempre serán preferidos por los proveedores, que están bajo la obligación legal de proteger el metraje del cliente y la propiedad intelectual general.

Eso no es para criticar la nueva oferta, que puede funcionar perfectamente bajo pesos cuantizados u otras optimizaciones, y que es la primera oferta de su tipo que me atrae hacia esta avenida de investigación en bastante tiempo.

 

Publicado por primera vez el miércoles 17 de diciembre de 202. Editado el 20.10 EET, mismo día, para agregar espacio en el primer párrafo del cuerpo.

Escritor sobre aprendizaje automático, especialista en síntesis de imágenes humanas. Anterior jefe de contenido de investigación en Metaphysic.ai.