Inteligencia artificial
Un Nuevo y Más Simple Método de Deepfake que Supera a los Enfoques Anteriores

Una colaboración entre un grupo de investigación de inteligencia artificial china y investigadores con sede en EE. UU. ha desarrollado lo que puede ser la primera innovación real en la tecnología de deepfakes desde que el fenómeno surgió hace cuatro años.
El nuevo método puede realizar intercambios de caras que superan a todos los marcos existentes en pruebas perceptuales estándar, sin necesidad de recopilar y curar exhaustivamente grandes conjuntos de datos dedicados y entrenarlos durante hasta una semana para solo una identidad. Para los ejemplos presentados en el nuevo documento, los modelos se entrenaron en la totalidad de dos conjuntos de datos de celebridades populares, en un solo GPU NVIDIA Tesla P40 durante aproximadamente tres días.

Video completo disponible al final de este artículo. En esta muestra de un video en materiales suplementarios proporcionados por uno de los autores del nuevo documento, la cara de Scarlett Johansson se transfiere a la video fuente. CihaNet elimina el problema de la máscara de borde al realizar un intercambio, al formar y ejecutar relaciones más profundas entre las identidades de origen y destino, lo que significa el fin de los ‘bordes obvios’ y otros errores de superposición que ocurren en los enfoques tradicionales de deepfake. Fuente: Fuente: https://mitchellx.github.io/#video
El nuevo enfoque elimina la necesidad de ‘pegar’ la identidad trasplantada de manera burda en la video destino, lo que con frecuencia conduce a artefactos que aparecen donde termina la cara falsa y comienza la cara real subyacente. En cambio, se utilizan ‘mapas de alucinación’ para realizar una mezcla más profunda de facetas visuales, porque el sistema separa la identidad del contexto de manera más efectiva que los métodos actuales, y por lo tanto puede mezclar la identidad de destino a un nivel más profundo.

Del documento. Las transformaciones de CihaNet se facilitan a través de mapas de alucinación (fila inferior). El sistema utiliza información de contexto (es decir, dirección de la cara, cabello, gafas y otros obstáculos, etc.) enteramente de la imagen en la que se superpondrá la nueva identidad, y la información de identidad facial enteramente de la persona que se insertará en la imagen. Esta capacidad de separar la cara del contexto es fundamental para el éxito del sistema. Fuente: https://dl.acm.org/doi/pdf/10.1145/3474085.3475257
En efecto, el nuevo mapa de alucinación proporciona un contexto más completo para el intercambio, en lugar de las máscaras rígidas que a menudo requieren una curación extensa (y en el caso de DeepFaceLab, entrenamiento separado) mientras proporcionan flexibilidad limitada en términos de incorporación real de las dos identidades.

De las muestras proporcionadas en los materiales suplementarios, utilizando ambos conjuntos de datos FFHQ y Celeb-A HQ, en VGGFace y Forensics++. Las dos primeras columnas muestran las imágenes reales seleccionadas al azar para ser intercambiadas. Las siguientes cuatro columnas muestran los resultados del intercambio utilizando los cuatro métodos más efectivos disponibles actualmente, mientras que la última columna muestra el resultado de CihaNet. El repositorio FaceSwap se ha utilizado, en lugar del más popular DeepFaceLab, ya que ambos proyectos son bifurcaciones del código original de 2017 de Deepfakes en GitHub. Aunque cada proyecto ha agregado modelos, técnicas, interfaces de usuario diversas y herramientas suplementarias, el código subyacente que hace posible los deepfakes nunca ha cambiado y sigue siendo común a ambos. Fuente: https://dl.acm.org/action/downloadSupplement?doi=10.1145%2F3474085.3475257&file=mfp0519aux.zip
El documento, titulado Red de Alucinación de Contexto e Identidad de Un Solo Escenario, está escrito por investigadores afiliados a JD AI Research y la Universidad de Massachusetts Amherst, y fue apoyado por el Programa Nacional de Investigación y Desarrollo de China bajo la subvención núm. 2020AAA0103800. Se presentó en la 29ª Conferencia Internacional de Multimedia de la ACM, del 20 al 24 de octubre, en Chengdu, China.
No Hay Necesidad de ‘Paridad de Cara’
Tanto el software de deepfake más popular actual, DeepFaceLab, como el fork competidor FaceSwap, realizan flujos de trabajo tortuosos y a menudo curados manualmente para identificar hacia dónde se inclina una cara, qué obstáculos están en el camino que deben tenerse en cuenta (nuevamente, manualmente), y deben lidiar con muchos otros impedimentos irritantes (incluyendo la iluminación) que hacen que su uso esté lejos de la experiencia ‘punto y haz clic’ descrita incorrectamente en los medios desde el advenimiento de los deepfakes.
Por el contrario, CihaNet no requiere que dos imágenes miren directamente a la cámara para extraer y explotar información de identidad útil de una sola imagen.

En estos ejemplos, una serie de contendientes de software de deepfake se enfrentan a la tarea de intercambiar caras que no solo son disímiles en identidad, sino que no miran en la misma dirección. El software derivado del repositorio original de deepfakes (como el muy popular DeepFaceLab y FaceSwap, mostrado arriba) no puede manejar la disparidad en los ángulos entre las dos imágenes que se van a intercambiar (ver tercera columna). Mientras que CihaNet puede abstraer la identidad correctamente, ya que la ‘pose’ de la cara no es intrínsecamente parte de la información de identidad.
Arquitectura
El proyecto CihaNet, según los autores, se inspiró en la colaboración de 2019 entre Microsoft Research y la Universidad de Pekín, llamada FaceShifter, aunque hace algunos cambios notables y críticos en la arquitectura básica del método más antiguo.
FaceShifter utiliza dos redes de Normalización de Instancia Adaptativa (AdaIN) para manejar la información de identidad, que luego se transpone a la imagen de destino a través de una máscara, de una manera similar a la del software de deepfake popular actual (y con todas sus limitaciones relacionadas), utilizando una HEAR-Net adicional (que incluye una subred entrenada por separado en obstáculos de occlusión – una capa adicional de complejidad).
En cambio, la nueva arquitectura utiliza directamente esta información ‘contextual’ para el proceso de transformación en sí, a través de una operación de Normalización de Instancia Adaptativa en Cascada (C-AdaIN) de dos pasos, que proporciona consistencia de contexto (es decir, piel de la cara y occlusiones) de áreas relevantes para la identidad.
La segunda subred crucial para el sistema se llama Bloque de Intercambio (SwapBlk), que genera una característica integrada del contexto de la imagen de referencia y la información de identidad incrustada de la imagen de origen, evitando las múltiples etapas necesarias para lograr esto mediante los medios convencionales.
Para ayudar a distinguir entre contexto e identidad, se genera un mapa de alucinación para cada nivel, que actúa como una máscara de segmentación suave, y actúa en un rango más amplio de características para esta parte crítica del proceso de deepfake.

A medida que crece el valor del mapa de alucinación (mostrado a la derecha), emerge un camino más claro entre las identidades.
De esta manera, todo el proceso de intercambio se logra en una sola etapa y sin procesamiento posterior.
Datos y Pruebas
Para probar el sistema, los investigadores entrenaron cuatro modelos en dos conjuntos de datos de imágenes abiertas y variados – CelebA-HQ y el conjunto de datos Flickr-Faces-HQ de NVIDIA (FFHQ), cada uno con 30,000 y 70,000 imágenes, respectivamente.
No se realizó poda ni filtrado en estos conjuntos de datos base. En cada caso, los investigadores entrenaron la totalidad de cada conjunto de datos en un solo GPU Tesla durante tres días, con una tasa de aprendizaje de 0,0002 en la optimización de Adam.
Luego, renderizaron una serie de intercambios aleatorios entre las miles de personalidades presentadas en los conjuntos de datos, sin considerar si las caras eran similares o incluso coincidían en género, y compararon los resultados de CihaNet con la salida de cuatro marcos de deepfake líderes: FaceSwap (que actúa como el más popular DeepFaceLab, ya que comparte una base de código en el repositorio original de 2017 que trajo los deepfakes al mundo); el mencionado FaceShifter; FSGAN; y SimSwap.
Al comparar los resultados a través de VGG-Face, FFHQ, CelebA-HQ y FaceForensics++, los autores encontraron que su nuevo modelo superó a todos los modelos anteriores, como se indica en la tabla a continuación.

Las tres métricas utilizadas para evaluar los resultados fueron Similitud Estructural (SSIM), error de estimación de pose y precisión de recuperación de identidad, que se calcula en función del porcentaje de pares recuperados con éxito.
Los investigadores sostienen que CihaNet representa un enfoque superior en términos de resultados cualitativos, y un avance notable en el estado actual de la técnica en tecnologías de deepfake, al eliminar la carga de arquitecturas y metodologías de máscara extensas y laboriosas, y lograr una separación más útil y accionable de la identidad del contexto.
Mire a continuación para ver más ejemplos de video de la nueva técnica. Puede encontrar el video de duración completa aquí.
De los materiales suplementarios para el nuevo documento, CihaNet realiza intercambios de caras en varias identidades. Fuente: https://mitchellx.github.io/#video












