Inteligencia artificial

Por qué los deepfakes no pueden transmitir actualmente la sutileza de la emoción

Published February 3, 2022

Updated April 5, 2026

Martin Anderson

El debut de ayer del episodio 6 de la serie derivada de Star Wars The Book of Boba Fett parece haber dividido la opinión de los fanáticos. Recibido con una aprobación general, hay una suposición generalizada en las redes sociales de que la recreación mucho mejorada de un Mark Hamill rejuvenecido (en comparación con la aparición anterior del personaje en el final de la temporada 2 de The Mandalorian en 2020) es el resultado directo de que Industrial Light and Magic contrató al practicante de deepfakes amateur Shamook (quien había mejorado radicalmente su trabajo con software de código abierto); y que las representaciones del personaje deben ser una combinación de tecnología de deepfake, perhaps limpiada con CGI.

Actualmente, hay una confirmación limitada de esto, aunque Shamook ha dicho poco al mundo desde que descendió el NDA contractual de ILM. Sin embargo, el trabajo es una mejora extraordinaria con respecto al CGI de 2020; exhibe algunos de los ‘brillos’ asociados con los modelos de deepfake derivados de obras de archivo; y en general se ajusta al mejor estándar visual actual para los deepfakes.

La otra vertiente de la opinión de los fanáticos es que el nuevo intento de ‘Joven Luke’ tiene un conjunto diferente de defectos que el anterior. Quizás lo más revelador sea la falta de expresividad y emociones sutiles y apropiadas en las muy largas secuencias que presentan la nueva recreación de Skywalker son más típicas de los deepfakes que de CGI; The Verge ha descrito la simulación de Boba Fett en términos de la ‘uncanny, rostro en blanco congelado de Mark Hamill de 1983’.

Independientemente de las tecnologías detrás de la nueva recreación de ILM, las transformaciones de deepfake tienen un problema fundamental con la sutileza de la emoción que es difícil de abordar ya sea mediante cambios en la arquitectura o mediante la mejora del material de entrenamiento de origen, y que generalmente se evita mediante las elecciones cuidadosas que los creadores de deepfakes virales hacen al seleccionar un video objetivo.

Limitaciones de alineación facial

Los dos repositorios de código abierto de deepfakes más comúnmente utilizados son DeepFaceLab (DFL) y FaceSwap, ambos derivados del código fuente anónimo y controvertido de 2017, con DFL teniendo una enorme ventaja en la industria de los efectos visuales, a pesar de su limitada instrumentación.

Cada uno de estos paquetes se encarga, inicialmente, de extraer puntos de referencia faciales de las caras que ha podido identificar del material de origen (es decir, fotogramas de videos y/o imágenes fijas).

Adrian Bulat's Facial Alignment Network (FAN) en acción, desde el repositorio oficial. Fuente: https://github.com/1adrianb/face-alignment

La Red de Alineación Facial (FAN) en acción, desde el repositorio oficial. Fuente: https://github.com/1adrianb/face-alignment

Tanto DFL como FaceSwap utilizan la biblioteca de Red de Alineación Facial (FAN). FAN puede crear puntos de referencia 2D y 3D (ver imagen anterior) para caras extraídas. Los puntos de referencia 3D pueden tener en cuenta extensivamente la orientación percibida de la cara, hasta perfiles extremos y ángulos relativamente agudos.

Sin embargo, es evidente que estas son directrices muy rudimentarias para guiar y evaluar píxeles:

Desde el foro de FaceSwap, un indicador aproximado de los puntos de referencia disponibles para los lineamientos faciales. Fuente: https://forum.faceswap.dev/viewtopic.php?f=25&t=27

Los lineamientos más básicos de la cara se permiten: los ojos pueden abrirse y cerrarse, al igual que la mandíbula, mientras que las configuraciones básicas de la boca (como sonreír, fruncir el ceño, etc.) pueden trazarse y adaptarse. La cara puede rotar en cualquier dirección hasta alrededor de 200 grados desde el punto de vista de la cámara.

Más allá de eso, estas son vallas bastante toscas para la forma en que los píxeles se comportarán dentro de estos límites, y representan las únicas pautas faciales matemáticas y precisas en todo el proceso de deepfake. El propio proceso de entrenamiento simplemente compara la forma en que los píxeles están dispuestos dentro o cerca de estos límites.

Entrenamiento en DeepFaceLab. Fuente: https://medium.com/geekculture/realistic-deepfakes-with-deepfacelab-530e90bd29f2

Dado que no hay disposición para la topología de subpartes de la cara (convexidad y concavidad de las mejillas, detalles de envejecimiento, hoyuelos, etc.), no es posible intentar coincidir con tales ‘sutiles’ subcaracterísticas entre una fuente (‘cara que desea escribir’) y una destino (‘cara que desea pegar’) identidad.

Hacer lo mejor con datos limitados

Obtener datos coincidentes entre dos identidades para fines de entrenamiento de deepfakes no es fácil. Cuanto más inusual sea el ángulo que necesite coincidir, más puede tener que comprometer si ese (raro) ángulo coincide entre las identidades A y B que realmente presenta la misma expresión.

Cerca, pero no exactamente una coincidencia.

En el ejemplo anterior, las dos identidades son bastante similares en disposición, pero esta es tan cerca como este conjunto de datos puede llegar a una coincidencia exacta.