Contáctenos

El nuevo método Deepfake resuelve el problema del 'Face Host'

Inteligencia Artificial

El nuevo método Deepfake resuelve el problema del 'Face Host'

mm

A pesar de varios años de exageración mediática sobre el potencial de las imágenes deepfake para socavar nuestra fe de larga data en la autenticidad de las secuencias de video, todos los métodos populares actualmente se basan en encontrar "caras host" que sean ampliamente similares en forma a la cara objetivo.

Cuando el metraje original presenta una cara ancha, pero el sujeto de destino tiene una cara estrecha, los resultados siempre han sido problemáticos, porque dicha transferencia implica cortar parte de la cara original y reconstruir el fondo ahora expuesto. Los paquetes actuales, como DeepFaceLab y FaceSwap, pueden producir resultados limitados cuando la configuración se invierte (estrecha>ancha), pero no tienen la capacidad de abordar este escenario de manera convincente.

Ahora, una colaboración entre Tencent y la Universidad Xiamen de China ha desarrollado un nuevo enfoque, titulado HifiFace, diseñado para corregir este déficit.

Dos deepfakes de HifiFace, el primero de Anne Hathaway, donde se obtiene un buen parecido a pesar de la forma incompatible de la cara del anfitrión. HifiFace también funciona bien en objetivos con gafas, tradicionalmente un obstáculo en las falsificaciones profundas. Fuente: https://arxiv.org/pdf/2106.09965.pdf

Dos deepfakes de HifiFace, el primero de Anne Hathaway, donde se obtiene un buen parecido a pesar de la forma incompatible de la cara del anfitrión. HifiFace también funciona bien en objetivos con gafas, tradicionalmente un obstáculo en los deepfakes. Fuente: https://arxiv.org/pdf/2106.09965.pdf

Remodelación de una cara Deepfake

Enfoques anteriores, como el de 2019 Recreación e intercambio de rostros agnósticos de sujetos (FSGAN), han dependido de Ajuste 3DMM (modelos morfables 3D) u otras metodologías basadas en el reconocimiento o transformación de puntos de referencia faciales, donde los lineamientos faciales del rostro que se va a "sobrescribir" prácticamente dictan los límites del intercambio:

Fuente: https://github.com/Yinghao-Li/3DMM-fitting

Detección de puntos de referencia faciales 3DMM. Fuente: https://github.com/Yinghao-Li/3DMM-fitting

Aunque los métodos competitivos se han basado en características derivadas de redes de reconocimiento facial, estos están orientados principalmente a reconstruir la textura más que la estructura, y de manera similar producen un efecto "similar a una máscara" en los casos en que el rostro anfitrión no es totalmente compatible (es decir, los límites y la forma de la línea del cabello, la mandíbula y los pómulos).

Para abordar estos problemas, los investigadores chinos, con base en el Laboratorio de Análisis y Computación de Medios del Departamento de Inteligencia Artificial de la universidad, desarrollaron una red de extremo a extremo que regresiona los coeficientes del rostro objetivo y el rostro fuente utilizando un modelo de reconstrucción 3D, que luego se vuelve a combinar como información de forma y se concatena con información del vector de identidad de una red de reconocimiento facial.

Estos datos geométricos se introducen luego en un modelo codificador-descodificador como información estructural y se combinan con la expresión y la disposición del rostro objetivo, que se aprovechan como fuentes auxiliares para una transferencia precisa.

Fusión facial semántica

Además, HifiFace incluye un componente de fusión facial semántica (SFF), que utiliza una característica de bajo nivel en el codificador para preservar la información espacial y de textura, sin sacrificar la identidad de la imagen de destino. Las funciones del codificador y del decodificador se integran en una máscara adaptativa aprendida, y la información de fondo se mezcla con la salida por medio de la máscara facial aprendida.

Hifi Face en acción. Fuente: https://johann.wang/HifiFace/

Hifi Face en acción. Fuente: https://johann.wang/HifiFace/

De esta manera, HifiFace se aparta del uso de los límites de la cara del material original como un límite estricto, mediante el uso de la segmentación semántica de la cara dilatada, en la que el modelo puede realizar una mejor fusión adaptativa en los límites de los bordes de la cara.

Dos enfoques anteriores (arriba y abajo a la izquierda) y la nueva arquitectura HifiFace, que consta de un codificador, un decodificador, un extractor de identidad con reconocimiento de forma 3D y un módulo SFF.

Dos enfoques anteriores (arriba y abajo a la izquierda) y la nueva arquitectura HifiFace, que consta de un codificador, un decodificador, un extractor de identidad con reconocimiento de forma 3D y un módulo SFF.

En una comparación con métodos anteriores FSGAN, Intercambiar Sim y Cambiador de caraHifiFace demuestra una reconstrucción superior de la forma del rostro, ya que no aproxima elementos "fantasmas" donde las delimitaciones faciales confunden el mapeo identidad>identidad, sino que los reconstruye definitivamente.

Pruebas

Los investigadores implementaron el sistema usando el VGGFace2 y los conjuntos de datos de DeepGlint Asian-Celeb. Las caras se alinearon mediante 5 puntos de referencia externos y se volvieron a recortar a 256 × 256 píxeles. También se utilizó una red de mejora de retratos para generar una versión de 512 × 512 píxeles, para un modelo adicional de mayor resolución. El modelo fue entrenado bajo Adam.

Aunque FaceShifter conserva bien la identidad, no puede abordar problemas como la expresión, el color y la oclusión con la misma eficacia que HifiFace, y tiene una estructura de red más compleja. FSGAN tiene problemas para transferir la iluminación de la fuente al objetivo.

Los investigadores utilizan CaraForense++ para comparaciones cuantitativas, muestreando diez cuadros cada uno en un lote de videos convertidos a través de los métodos de la competencia, y descubriendo que HifiFace logró un puntaje de recuperación de ID superior. Al probar una variedad de otros factores, como la calidad de la imagen, los investigadores también descubrieron que su método superó a las metodologías rivales.

Los rasgos faciales de Benedict Cumberbatch se reproducen fielmente.

Los rasgos faciales de Benedict Cumberbatch se reproducen fielmente.

El trabajo representa un paso más hacia la abstracción del material original, convirtiéndolo en una plantilla preliminar a la que se puedan transferir identidades precisas. Algunos de los paquetes FOSS actuales, como DeepFaceLab, incorporan funciones emergentes para el reemplazo completo de la cabeza, pero, al igual que HifiFace, no tienen en cuenta el cabello y son más eficaces para "construir" un rostro que para desbaratarlo para que coincida con la fuente objetivo deseada.

 

Escritor sobre aprendizaje automático, especialista en síntesis de imágenes humanas. Exdirector de contenido de investigación en Metaphysic.ai.
sitio personal: martinanderson.ai
Contacto: [email protected]
Gorjeo: @manders_ai