talón Por qué Deepfakes actualmente no puede transmitir la sutileza de la emoción - Unite.AI
Contáctanos

Inteligencia artificial

Por qué Deepfakes actualmente no puede transmitir la sutileza de la emoción

mm
Actualizado on
El libro de Boba Fett - Disney
El libro de Boba Fett - Disney

El debut de ayer del episodio 6 de la Star Wars spin-off El libro de Boba Fett parece haber dividido la opinión de los fanáticos. Recibido con aprobación general, hay una suposición generalizada en las redes sociales de que la recreación muy mejorada de un Mark Hamill envejecido (en comparación con el personaje) aparición previa en el final de la temporada 2 de El mandaloriano en 2020) es el resultado directo de la contratación por parte de Industrial Light and Magic del practicante aficionado de deepfakes Shamook (que habían mejorado radicalmente su trabajo con software de código abierto); y que las representaciones del personaje deben ser una combinación de tecnología deepfake, quizás arreglada con CGI.

Actualmente hay una confirmación limitada de esto, aunque Shamook ha dicho poco al mundo desde que llegó la NDA contractual de ILM. No obstante, el trabajo es una mejora extraordinaria con respecto al CGI de 2020; exhibe algo del "brillo" asociado con los modelos deepfake derivados de obras de archivo; y en general concuerda con el mejor estándar visual actual para deepfakes.

La otra línea de opinión de los fanáticos es que el nuevo intento de 'Young Luke' tiene un conjunto diferente de defectos que el anterior. Quizás lo más revelador es que la falta de expresividad y las emociones sutiles y apropiadas en las secuencias muy largas que presentan la nueva recreación de Skywalker son más típicas de los deepfakes que de CGI; El borde tiene descrito las boba Fett simulación en términos de 'rostro extraño y en blanco de la cara congelada de Mark Hamill en 1983'.

Independientemente de las tecnologías detrás del nuevo juego ILM, las transformaciones profundas tienen un problema fundamental con la sutileza de la emoción que es difícil de abordar mediante cambios en la arquitectura o mejorando el material de entrenamiento de origen, y que generalmente se evade mediante las decisiones cuidadosas que viral. los deepfakers hacen al seleccionar un video de destino.

Limitaciones de alineación facial

Los dos repositorios de FOSS falsos más utilizados son ProfundoFaceLab (DFL) y Intercambio cara, ambos derivados del anónimo y polémico código fuente de 2017, con DFL teniendo un enorme ventaja en la industria de VFX, a pesar de su instrumentalidad limitada.

Cada uno de estos paquetes tiene la tarea, inicialmente, de extraer marcas faciales de los rostros que ha podido identificar del material de origen (es decir, fotogramas de videos y/o imágenes fijas).

La Red de Alineación Facial (FAN) de Adrian Bulat en acción, del repositorio oficial. Fuente: https://github.com/1adrianb/face-alignment

La Red de Alineación Facial (FAN) en acción, del repositorio oficial. Fuente: https://github.com/1adrianb/face-alignment

Tanto DFL como FaceSwap utilizan el Red de alineación facial (VENTILADOR) biblioteca. FAN puede crear puntos de referencia en 2D y 3D (ver imagen arriba) para las caras extraídas. Los puntos de referencia 3D pueden tener muy en cuenta la orientación percibida de la cara, hasta perfiles extremos y ángulos relativamente agudos.

Sin embargo, es evidente que estas son pautas muy rudimentarias para agrupar y evaluar píxeles:

Del foro FaceSwap, un indicador aproximado de los puntos de referencia disponibles para los rasgos faciales. Fuente: https://forum.faceswap.dev/viewtopic.php?f=25&t=27

Del foro FaceSwap, un indicador aproximado de los puntos de referencia disponibles para los rasgos faciales. Fuente: https://forum.faceswap.dev/viewtopic.php?f=25&t=27

Se permiten los rasgos más básicos de la cara: los ojos pueden abrirse y cerrarse, al igual que la mandíbula, mientras que las configuraciones básicas de la boca (como sonreír, fruncir el ceño, etc.) se pueden trazar y adaptar. La cara puede girar en cualquier dirección hasta unos 200 grados desde el punto de vista de la cámara.

Más allá de eso, estas son vallas bastante toscas para las formas en que los píxeles se comportarán dentro de estos límites, y representan las únicas pautas faciales verdaderamente matemáticas y precisas en todo el proceso de deepfake. El proceso de entrenamiento en sí mismo simplemente compara la forma en que se disponen los píxeles dentro o cerca de estos límites.

Entrenamiento en DeepFaceLab. Fuente: https://medium.com/geekculture/realistic-deepfakes-with-deepfacelab-530e90bd29f2

Entrenamiento en DeepFaceLab. Fuente: https://medium.com/geekculture/realistic-deepfakes-with-deepfacelab-530e90bd29f2

Dado que no hay provisión para la topología de las subpartes de la cara (convexidad y concavidad de las mejillas, detalles de envejecimiento, hoyuelos, etc.), ni siquiera es posible intento para hacer coincidir tales subcaracterísticas 'sutiles' entre una fuente ('cara sobre la que quieres escribir') y un objetivo ('la cara que quieres pegar') identidad.

Hacerlo con datos limitados

Obtener datos coincidentes entre dos identidades con el fin de entrenar deepfakes es no es fácil. Cuanto más inusual sea el ángulo que necesita hacer coincidir, más tendrá que comprometer si esa (rara) coincidencia de ángulo entre las identidades A y B realmente presenta la misma expresión.

Cerca, pero no exactamente un partido.

Cerca, pero no exactamente un partido.

En el ejemplo anterior, las dos identidades tienen una disposición bastante similar, pero esto es lo más cerca que este conjunto de datos puede llegar a una coincidencia exacta.

Quedan claras diferencias: el ángulo y la lente no coinciden exactamente, y tampoco la iluminación; el sujeto A no tiene los ojos completamente cerrados, a diferencia del sujeto B; la calidad de la imagen y la compresión es peor en el sujeto A; y de alguna manera el tema B parece mucho más feliz que el sujeto A.

Pero, ya sabes, es todo lo que tenemos, así que vamos a tener que entrenar en eso de todos modos.

Porque esto A> desequilibrado Él o sobreajustado él.

Desajustado: Si esta coincidencia es una verdadera minoría (es decir, el conjunto de datos principal es bastante grande y no suele presentar las características de estas dos fotos), no obtendrá mucho tiempo de entrenamiento en comparación con más 'popular' (es decir, fácil/ emparejamientos neutros). En consecuencia, este ángulo/expresión no estará bien representado en un deepfake hecho con el modelo entrenado.

Sobreajuste: Desesperado por las escasas coincidencias de datos para tan raros A> duplicar el emparejamiento muchas veces en el conjunto de datos, para que tenga una mejor oportunidad de convertirse en una característica en el modelo final. Esto conducirá a un sobreajuste, donde es probable que los videos falsos hechos con el modelo repetir pedantemente los desajustes que son evidentes entre las dos fotos, como el distinto grado de cierre de los ojos.

En la imagen a continuación, vemos a Vladimir Putin siendo entrenado en DeepFaceLab para realizar un intercambio con Kevin Spacey. Aquí, el entrenamiento es relativamente avanzado en 160,000 iteraciones.

Fuente: https://i.imgur.com/OdXHLhU.jpg (originalmente de un sitio al que no puedo enlazar aquí).

Fuente: https://i.imgur.com/OdXHLhU.jpg

El observador casual podría sostener que Putin se ve un poco, bueno, más espacioso que Spacey en estos intercambios de prueba. Veamos qué hace un programa de reconocimiento de emociones en línea con la falta de coincidencia en las expresiones:

Fuente: https://www.noldus.com/facereader/measure-your-emotions

Fuente: https://www.noldus.com/facereader/measure-your-emotions

Según este oráculo en particular, que analiza una topografía facial mucho más detallada que DFL y Faceswap, Spacey es menos enojado, disgustadoy desdeñoso que el deepfake de Putin resultante en este emparejamiento.

Las expresiones desiguales vienen como parte de un paquete enredado, ya que las populares aplicaciones de falsificación profunda no tienen capacidad para registrar o hacer coincidir expresiones o emociones, excepto tácitamente, como un mapeo píxel>píxel sin procesar.

Para nosotros, las diferencias son enormes. aprendemos a leer expresiones faciales como una técnica básica de supervivencia desde nuestros primeros años, y seguir confiando en esta habilidad en la edad adulta con fines de integración y progresión social, apareamiento y como un marco de evaluación de amenazas en curso. Dado que estamos tan sensibilizados con las microexpresiones, las tecnologías de falsificación profunda eventualmente tendrán que dar cuenta de esto.

A contrapelo

Aunque la revolución de las falsificaciones profundas ha traído consigo la promesa de insertar estrellas de cine 'clásicas' en las películas y la televisión modernas, la IA no puede retroceder en el tiempo y filmar sus obras clásicas con una definición y calidad más compatibles, lo cual es fundamental para este caso de uso.

En el supuesto (y para nuestros propósitos, no importa si es incorrecto) que el boba Fett La reconstrucción de Hamill fue en gran parte el trabajo de un modelo falso profundo entrenado, el conjunto de datos para el modelo habría necesitado explotar imágenes del período cercano a la línea de tiempo del programa (es decir, Hamill cuando tenía treinta y tantos años en el momento de la producción de El Retorno del Jedi, 1981-83).

La pelicula era Disparo en papel Eastman Color Negative 250T 5293/7293, una emulsión 250ASA que se consideraba de grano medio a fino en ese momento, pero que fue superada en claridad, gama de colores y fidelidad incluso a fines de la década de 1980. Es un stock de su tiempo, y el ámbito operístico de Jedi proporcionó pocos primeros planos, incluso a sus actores principales, lo que hace que los problemas de granos sean aún más críticos, ya que las caras de origen ocupan solo una parte del marco.

Una serie de escenas de Hamill en El retorno del Jedi (1983).

Una serie de escenas de Hamill en El Retorno del Jedi (1983).

Además, muchas de las imágenes cargadas de VFX con Hamill se habrían pasado por una impresora óptica, aumentando el grano de la película. Sin embargo, el acceso a los archivos de Lucasfilm, que presumiblemente han cuidado bien los negativos maestros y podrían ofrecer horas de metraje en bruto adicional sin usar, podría solucionar este problema.

A veces es posible cubrir un rango de años de la producción de un actor para aumentar y diversificar el conjunto de datos de deepfakes. En el caso de Hamill, los deepfakers están paralizados por su cambio de apariencia después de un accidente automovilístico en 1977, y el hecho de que casi de inmediato comenzó su segunda carrera como actor de doblaje aclamado después Jedi, lo que hace que el material de origen sea relativamente escaso.

¿Rango limitado de emociones?

Si necesita que su actor falsificado se mastique el escenario, necesitará imágenes de origen que contengan una gama inusualmente amplia de expresiones faciales. Puede ser que el único metraje apropiado para la edad disponible no presente muchas de esas expresiones.

Por ejemplo, en el momento en que el arco de la historia de El Retorno del Jedi Cuando llegó el momento, el personaje de Hamill había dominado en gran medida sus emociones, un desarrollo absolutamente central para la mitología original de la franquicia. Por lo tanto, si haces un modelo deepfake de Hamill a partir de Jedi data, tendrá que trabajar con la gama más limitada de emociones y la compostura facial poco común que el papel de Hamill le exigía en ese momento, en comparación con sus entradas anteriores en la franquicia.

Incluso si consideras que hay momentos en El Retorno del Jedi donde el personaje de Skywalker está bajo estrés y podría proporcionar material para una mayor variedad de expresiones, el material facial en estas escenas es fugaz y está sujeto al desenfoque de movimiento y la edición rápida típica de las escenas de acción; por lo que los datos están bastante desequilibrados.

Generalización: la fusión de las emociones

Si boba Fett La recreación de Skywalker es, de hecho, una falsificación profunda, la falta de rango expresivo que se ha nivelado en su contra desde algunos sectores no se debe por completo al material de origen limitado. El proceso de entrenamiento codificador-decodificador de deepfakes está buscando un Generalizado modelo que destila con éxito las características centrales de miles de imágenes, y puede al menos intento para falsificar un ángulo que faltaba o era raro en el conjunto de datos.

Si no fuera por esta flexibilidad, una arquitectura deepfake simplemente estaría copiando y pegando morfos base por cuadro, sin considerar la adaptación temporal o el contexto.

Sin embargo, la dolorosa compensación por esta versatilidad es que la fidelidad de expresión probablemente sea una víctima del proceso, y cualquier expresión que en 'sutiles' pueden no ser los correctos. Todos tocamos nuestras caras como orquestas de 100 piezas, y estamos bien equipados para hacerlo, mientras que podría decirse que al software deepfake le falta al menos la sección de cuerdas.

Disparidad de afecto en las expresiones

Los movimientos faciales y sus efectos sobre nosotros no son un lenguaje uniforme en todos los rostros; la ceja levantada que parece despreocupada en Roger Moore podría parecer menos sofisticada en Seth Rogan, mientras que el encanto seductor de Marilyn Monroe podría traducirse en una emoción más negativa si se le reprocha a una persona cuyo rol más conocido es "enojado" o "descontento". (como el personaje de Aubrey Plaza en siete temporadas de Parques y Recreación).

Por lo tanto píxel>

Podría decirse que lo que se necesita es un marco falso profundo que no solo pueda reconocer expresiones e inferir emociones, sino que tenga la capacidad de incorporar conceptos de alto nivel como enojado, seductor, aburrido, cansado, etc., y categorizar esas emociones y sus expresiones relacionadas en cada una de las dos identidades de conjuntos de rostros, en lugar de examinar y replicar la disposición de una boca o un párpado.

 

 

Publicado por primera vez el 3 de febrero de 2022. Actualizado a las 7:47 p. m. EET, atribución de nombre incorrecta.