Ángulo de Anderson

La Desvinculación es la Próxima Revolución de los Deepfakes

Publicado el 17 de noviembre de 2021

Actualizado el 24 de mayo de 2026

Por

Martin Anderson

La augmentación de datos de CGI se está utilizando en un nuevo proyecto para obtener un mayor control sobre las imágenes de deepfakes. Aunque todavía no se pueden utilizar de manera efectiva las cabezas de CGI para llenar los espacios faltantes en los conjuntos de datos de deepfakes faciales, una nueva ola de investigación sobre la desvinculación de la identidad del contexto significa que pronto es posible que no tenga que hacerlo.

Los creadores de algunos de los videos de deepfakes más exitosos de los últimos años seleccionan sus videos de origen muy cuidadosamente, evitando tomas de perfil sostenidas (es decir, el tipo de fotos de perfil popularizadas por los procedimientos de arresto policial), ángulos agudos y expresiones inusuales o exageradas. Cada vez más, los videos de demostración producidos por los creadores de deepfakes virales son compilaciones editadas que seleccionan los ángulos y expresiones “más fáciles” para deepfakes.

De hecho, el video de destino más adecuado para insertar un deepfake de una celebridad es aquel en el que la persona original (cuya identidad será borrada por el deepfake) mira directamente a la cámara, con un rango mínimo de expresiones.

La mayoría de los deepfakes populares de los últimos años han mostrado a los sujetos enfrentando directamente a la cámara, y ya sea con expresiones populares (como sonreír), que se pueden extraer fácilmente de la salida de los paparazzi en la alfombra roja, o (como en el caso del deepfake de 2019 de Sylvester Stallone como el Terminator, que se muestra a la izquierda), idealmente sin expresión alguna, ya que las expresiones neutras son extremadamente comunes, lo que las hace fáciles de incorporar en los modelos de deepfakes.

Debido a que las tecnologías de deepfakes como DeepFaceLab y FaceSwap realizan estos intercambios simples muy bien, estamos lo suficientemente impresionados por lo que logran como para no darnos cuenta de lo que no pueden hacer, y a menudo ni siquiera lo intentan:

Capturas de un video de deepfake aclamado donde Arnold Schwarzenegger se transforma en Sylvester Stallone – a menos que los ángulos sean demasiado complicados. Los perfiles siguen siendo un problema persistente con los enfoques actuales de deepfakes, en parte porque el software de código abierto utilizado para definir los gestos faciales en los marcos de deepfakes no está optimizado para vistas laterales, pero principalmente debido a la falta de material de origen adecuado en uno o ambos conjuntos de datos necesarios. Fuente: https://www.youtube.com/watch?v=AQvCmQFScMA

Nueva investigación de Israel propone un método novedoso para utilizar datos sintéticos, como cabezas de CGI, para llevar a los deepfakes a los años 2020, separando verdaderamente las identidades faciales (es decir, las características faciales esenciales de ‘Tom Cruise’, desde todos los ángulos) de su contexto (es decir, mirar hacia arriba, mirar hacia los lados, fruncir el ceño, fruncir el ceño en la oscuridad, cejas fruncidas, ojos cerrados, etc.).

El nuevo sistema separa discretamente la pose y el contexto (es decir, guiñar un ojo) de la codificación de identidad del individuo, utilizando datos faciales sintéticos no relacionados (que se muestra a la izquierda). En la fila superior, vemos un ‘guiño’ transferido a la identidad de Barack Obama, impulsado por la ruta no lineal aprendida del espacio latente de un GAN, representado por la imagen de CGI a la izquierda. En la fila debajo, vemos la esquina de la boca estirada transferida al expresidente. En la esquina inferior derecha, vemos ambas características aplicadas simultáneamente.

Esto no es simplemente titiritería de deepfakes, una técnica más adecuada para avatares y lip-sincronización parcial, y que tiene un potencial limitado para transformaciones de video de deepfakes completas.

Más bien, esto representa una forma de avanzar hacia una separación fundamental de la instrumentación (como ‘cambiar el ángulo de la cabeza’, ‘crear un ceño fruncido’) de la identidad, ofreciendo un camino hacia un marco de deepfakes de síntesis de imágenes de alto nivel en lugar de uno basado en la derivación.

El nuevo artículo se titula Codificador Delta-GAN: codificación de cambios semánticos para edición de imagen explícita, utilizando pocas muestras sintéticas, y proviene de investigadores de la Technion – Israel Institute of Technology.

Para entender lo que significa este trabajo, veamos cómo se producen actualmente los deepfakes en todos los lugares, desde sitios web de deepfakes hasta Industrial Light and Magic (ya que el repositorio de código abierto DeepFaceLab es actualmente dominante en ambos deepfakes ‘aficionados’ y profesionales).

¿Qué Está Deteniendo a la Tecnología Actual de Deepfakes?

Los deepfakes se crean actualmente entrenando un modelo de aprendizaje automático de codificador/decodificador en dos carpetas de imágenes faciales: la persona que desea ‘pintar’ (en el ejemplo anterior, es Arnie) y la persona que desea superponer en la película (Sly).

Ejemplos de condiciones de pose y iluminación variables en dos conjuntos de caras diferentes. Tenga en cuenta la expresión distintiva al final de la tercera fila en la columna A, que es poco probable que tenga un equivalente cercano en el otro conjunto de datos.

El sistema de codificador/decodificador luego compara cada imagen en cada carpeta con cada otra, sosteniendo, mejorando y repitiendo esta operación durante cientos de miles de iteraciones (a menudo durante tanto como una semana), hasta que comprenda las características esenciales de ambas identidades lo suficientemente bien como para intercambiarlas a voluntad.

Para cada una de las dos personas que se intercambian en el proceso, lo que la arquitectura de deepfakes aprende sobre la identidad está entrelazado con el contexto. No puede aprender y aplicar principios sobre una pose genérica ‘para siempre’, sino que necesita abundantes ejemplos en el conjunto de datos de entrenamiento, para cada identidad que estará involucrada en el intercambio de caras.

Por lo tanto, si desea intercambiar dos identidades que están haciendo algo más inusual que simplemente sonreír o mirar directamente a la cámara, necesitará muchas instancias de esa pose/identidad en particular en los dos conjuntos de caras:

Debido a que las características de la identidad facial y la pose están actualmente tan entrelazadas, se necesita una amplia paridad de expresión, pose de la cabeza y (en menor medida) iluminación en dos conjuntos de datos faciales para entrenar un modelo de deepfakes efectivo en sistemas como DeepFaceLab. Cuanto menos se presente una configuración particular (como ‘vista lateral/sonriendo/iluminada por el sol’) en ambos conjuntos de caras, menos precisamente se representará en un video de deepfakes, si es necesario.

Si el conjunto A contiene la pose inusual, pero el conjunto B carece de ella, está prácticamente fuera de suerte; no importa cuánto tiempo entrene el modelo, nunca aprenderá a reproducir esa pose bien entre las identidades, porque solo tenía la mitad de la información necesaria cuando se entrenó.

Incluso si tiene imágenes coincidentes, puede que no sea suficiente: si el conjunto A tiene la pose coincidente, pero con iluminación lateral dura, en comparación con la pose equivalente con iluminación plana en el otro conjunto de caras, la calidad del intercambio no será tan buena como si cada uno compartiera características de iluminación comunes.

¿Por Qué los Datos son Escasos?

A menos que sea arrestado con frecuencia, probablemente no tenga muchas fotos de perfil de sí mismo. Cualquiera que se presente, es probable que lo haya tirado. Dado que las agencias de fotos también lo hacen, las fotos de perfil son difíciles de encontrar.

Los creadores de deepfakes a menudo incluyen múltiples copias de los datos de perfil lateral limitados que tienen para una identidad en un conjunto de caras, solo para que esa pose reciba al menos un poco de atención y tiempo durante el entrenamiento, en lugar de ser descartado como un valor atípico.

Pero hay muchos más tipos de fotos de caras laterales posibles de los que es probable que estén disponibles para su inclusión en un conjunto de datos – sonriendo, frunciendo el ceño, gritando, llorando, iluminado de manera oscura, despreciativo, aburrido, alegre, iluminado por un flash, mirando hacia arriba, mirando hacia abajo, ojos abiertos, ojos cerrados… y así sucesivamente. Cualquiera de estas poses, en combinaciones múltiples, podría ser necesaria en un video de deepfakes objetivo.

Y eso es solo perfiles. ¿Cuántas fotos tiene de sí mismo mirando hacia arriba? ¿Tiene suficientes para representar ampliamente las 10,000 expresiones posibles que podría estar usando mientras mantiene exactamente esa pose desde exactamente ese ángulo de cámara, cubriendo al menos algunos de los un millón de entornos de iluminación posibles?

Es probable que no tenga ni una foto de sí mismo mirando hacia arriba. Y eso es solo dos ángulos de los cien o más necesarios para una cobertura completa.

Incluso si fuera posible generar una cobertura completa de una cara desde todos los ángulos en una variedad de condiciones de iluminación, el conjunto de datos resultante sería demasiado grande para entrenar, del orden de cientos de miles de imágenes; y incluso si se pudiera entrenar, la naturaleza del proceso de entrenamiento para los marcos de deepfakes actuales descartaría la mayoría de esos datos extra en favor de un número limitado de características derivadas, porque los marcos actuales son reduccionistas y no muy escalables.

Sustitución Sintética

Desde el amanecer de los deepfakes, los creadores de deepfakes han experimentado con el uso de imágenes de estilo CGI, cabezas creadas en aplicaciones 3D como Cinema4D y Maya, para generar esas ‘poses faltantes’.

No se necesita IA; una actriz se recrea en un programa de CGI tradicional, Cinema 4D, utilizando mallas y texturas mapeadas – tecnología que se remonta a la década de 1960, aunque logró un uso generalizado solo a partir de la década de 1990 en adelante. En teoría, este modelo de cara podría usarse para generar datos de origen de deepfakes para poses, estilos de iluminación y expresiones faciales inusuales. En la práctica, ha sido de poco o ningún uso en deepfakes, ya que la ‘falsedad’ de los renderizados tiende a filtrarse en los videos intercambiados. Fuente: Esta imagen del autor del artículo en https://rossdawson.com/futurist/implications-of-ai/comprehensive-guide-ai-artificial-intelligence-visual-effects-vfx/

Este método generalmente se abandona temprano por los nuevos practicantes de deepfakes, porque aunque puede proporcionar poses y expresiones que de otro modo no estarían disponibles, la apariencia sintética de las caras de CGI generalmente se filtra en los intercambios debido al entrelazamiento de la ID y la información contextual/semántica.

Esto puede provocar el destello repentino de caras del ‘valle inquietante’ en un video de deepfakes de otro modo convincente, ya que el algoritmo comienza a basarse en los únicos datos que puede tener para una pose o expresión inusual – caras manifiestamente falsas.

Entre los sujetos más populares para los creadores de deepfakes, un algoritmo de deepfakes 3D para la actriz australiana Margot Robbie se incluye en la instalación predeterminada de DeepFaceLive, una versión de DeepFaceLab que puede realizar deepfakes en una transmisión en vivo, como una sesión de webcam. Una versión de CGI, como se muestra arriba, podría usarse para obtener ángulos ‘faltantes’ inusuales en los conjuntos de datos de deepfakes. Fuente: https://sketchfab.com/3d-models/margot-robbie-bust-for-full-color-3d-printing-98d15fe0403b4e64902332be9cfb0ace

Caras de CGI como Pautas Conceptuales Desvinculadas

En cambio, el nuevo método del codificador Delta-GAN (DGE) de los investigadores israelíes es más efectivo, porque la información de pose y contexto de las imágenes de CGI se ha separado completamente de la ‘información de identidad’ del objetivo.

Podemos ver este principio en acción en la imagen de abajo, donde se han obtenido varias orientaciones de la cabeza utilizando la imagen de CGI como pauta. Dado que las características de identidad no están relacionadas con las características contextuales, no hay filtrado de la apariencia falsa de la cara de CGI ni de la identidad representada en ella:

Con el nuevo método, no necesita encontrar tres imágenes de origen de la vida real separadas para realizar un deepfake desde múltiples ángulos – simplemente puede girar la cabeza de CGI, cuyas características abstractas de alto nivel se imponen a la identidad sin filtrar ninguna información de ID.

Codificador Delta-GAN. Grupo superior izquierdo: el ángulo de una imagen de origen se puede cambiar en un segundo para renderizar una nueva imagen de origen, que se refleja en la salida; grupo superior derecho: la iluminación también se desvincula de la identidad, lo que permite la superposición de estilos de iluminación; grupo inferior izquierdo: se alteran varios detalles faciales para crear una expresión ‘triste’; grupo inferior derecho: se cambia un solo detalle de expresión facial, de modo que los ojos están entrecerrados.

Esta separación de identidad y contexto se logra en la etapa de entrenamiento. La canalización para la nueva arquitectura de deepfakes busca el vector latente en una Red Generativa Adversaria (GAN) preentrenada que coincida con la imagen que se va a transformar – una metodología Sim2Real que se basa en un proyecto de 2018 de la sección de investigación de IA de IBM.

Los investigadores observan:

‘Con solo unas pocas muestras, que difieren por un atributo específico, se puede aprender el comportamiento desvinculado de un modelo generativo preentrenado entrelazado. No hay necesidad de muestras del mundo real exactas para alcanzar ese objetivo, que no es necesariamente factible.

‘Al utilizar muestras de datos no realistas, se puede lograr el mismo objetivo gracias a aprovechar la semántica de los vectores latentes codificados. Se pueden aplicar cambios deseados sobre muestras de datos existentes sin explorar explícitamente el comportamiento del espacio latente.’

Los investigadores anticipan que los principios básicos de desvinculación explorados en el proyecto podrían transferirse a otros dominios, como simulaciones de arquitectura de interiores, y que el método Sim2Real adoptado para el codificador Delta-GAN podría permitir eventualmente la instrumentación de deepfakes basada en simples bocetos, en lugar de entrada de estilo CGI.

Puede argumentarse que el grado en que el nuevo sistema israelí pueda o no sintetizar videos de deepfakes es mucho menos significativo que el progreso que la investigación ha hecho en la desvinculación del contexto de la identidad, al ganar un mayor control sobre el espacio latente de un GAN.

La desvinculación es un campo de investigación activo en síntesis de imágenes; en enero de 2021, un artículo de investigación liderado por Amazon demostró un control de pose y desvinculación similar, y en 2018 un artículo de los Institutos de Tecnología Avanzada de Shenzhen de la Academia China de Ciencias hizo progresos en la generación de puntos de vista arbitrarios en un GAN.