Contáctenos

Un método nuevo y más simple de falsificación profunda que supera a los enfoques anteriores

Inteligencia Artificial

Un método nuevo y más simple de falsificación profunda que supera a los enfoques anteriores

mm

Una colaboración entre un grupo chino de investigación de IA e investigadores estadounidenses ha desarrollado lo que puede ser la primera innovación real en tecnología deepfakes desde que surgió el fenómeno hace cuatro años.

El nuevo método puede realizar intercambios de rostros que superan a todos los demás marcos existentes en las pruebas de percepción estándar, sin necesidad de recopilar y seleccionar exhaustivamente grandes conjuntos de datos dedicados y entrenarlos durante hasta una semana para una sola identidad. Para los ejemplos presentados en el nuevo documento, los modelos fueron entrenados en el totalidad de dos conjuntos de datos de celebridades populares, en una GPU NVIDIA Tesla P40 durante unos tres días.

Video completo incrustado al final de este artículo. En esta muestra de un video en materiales complementarios para el nuevo artículo, el rostro de Scarlett Johansson se transfiere al video original. CihaNet elimina el problema del enmascaramiento de bordes cuando se realiza un intercambio, al formar y promulgar relaciones más profundas entre las identidades de origen y de destino, lo que significa el fin de las "fronteras obvias" y otras fallas de superposición que ocurren en los enfoques tradicionales de falsificación profunda. Fuente: Fuente: https://mitchellx.github.io/#video

Video completo disponible al final de este artículo. En esta muestra de un video en materiales complementarios proporcionados por uno de los autores del nuevo artículo, el rostro de Scarlett Johansson se transfiere al video original. CihaNet elimina el problema del enmascaramiento de bordes cuando se realiza un intercambio, al formar y promulgar relaciones más profundas entre las identidades de origen y de destino, lo que significa el fin de las "fronteras obvias" y otras fallas de superposición que ocurren en los enfoques tradicionales de falsificación profunda. Fuente: Fuente: https://mitchellx.github.io/#video

El nuevo enfoque elimina la necesidad de "pegar" crudamente la identidad trasplantada en el video de destino, lo que con frecuencia conduce a revelaciones artefactos que aparecen donde termina la cara falsa y comienza la cara real subyacente. Más bien, los 'mapas de alucinaciones' se utilizan para realizar una mezcla más profunda de facetas visuales, porque el sistema separa la identidad del contexto de manera mucho más efectiva que los métodos actuales y, por lo tanto, puede combinar la identidad objetivo en un nivel más profundo.

Del papel. Las transformaciones de CihaNet se facilitan a través de mapas de alucinaciones (fila inferior). El sistema utiliza información de contexto (es decir, dirección de la cara, cabello, anteojos y otras oclusiones, etc.) completamente de la imagen en la que se superpondrá la nueva identidad, e información de identidad facial completamente de la persona que se insertará en la imagen. Esta capacidad de separar la cara del contexto es fundamental para el éxito del sistema. Fuente: https://dl.acm.org/doi/pdf/10.1145/3474085.3475257

Del papel. Las transformaciones de CihaNet se facilitan a través de mapas de alucinaciones (fila inferior). El sistema utiliza información de contexto (es decir, dirección de la cara, cabello, anteojos y otras oclusiones, etc.) completamente de la imagen en la que se superpondrá la nueva identidad, e información de identidad facial completamente de la persona que se insertará en la imagen. Esta capacidad de separar la cara del contexto es fundamental para el éxito del sistema. Fuente: https://dl.acm.org/doi/pdf/10.1145/3474085.3475257

Efectivamente, el nuevo mapa de alucinaciones proporciona un contexto más completo para el intercambio, a diferencia de las máscaras duras que a menudo requieren una curación extensa (y en el caso de DeepFaceLab, entrenamiento separado) al tiempo que proporciona una flexibilidad limitada en términos de incorporación real de las dos identidades.

A partir de muestras proporcionadas en los materiales complementarios, utilizando los conjuntos de datos FFHQ y Celeb-A HQ, en VGGFace y Forensics++. Las dos primeras columnas muestran las imágenes seleccionadas aleatoriamente (reales) que se van a intercambiar. Las siguientes cuatro columnas muestran los resultados del intercambio usando los cuatro métodos más efectivos actualmente disponibles, mientras que la columna final muestra el resultado de CihaNet. Se ha utilizado el repositorio FaceSwap, en lugar del más popular DeepFaceLab, ya que ambos proyectos son bifurcaciones del código Deepfakes original de 2017 en GitHub. Aunque desde entonces cada proyecto ha agregado modelos, técnicas, diversas interfaces de usuario y herramientas complementarias, el código subyacente que hace posibles las falsificaciones profundas nunca ha cambiado y sigue siendo común a ambos. Fuente: https://dl.acm.org/action/downloadSupplement?doi=10.1145%2F3474085.3475257&file=mfp0519aux.zip

El , Titulado Red de alucinaciones de identidad y contexto de una etapa, está escrito por investigadores afiliados a JD AI Research y la Universidad de Massachusetts Amherst, y fue apoyado por el Programa Nacional de Investigación y Desarrollo de China bajo la Subvención No. 2020AAA0103800. Se presentó en la 29.ª Conferencia Internacional ACM sobre Multimedia, del 20 al 24 de octubre, en Chengdu, China.

No hay necesidad de paridad 'cara a cara'

Tanto el software deepfake actual más popular, DeepFaceLab, como la bifurcación FaceSwap de la competencia, realizan flujos de trabajo tortuosos y frecuentemente seleccionados a mano para identificar en qué dirección está inclinada una cara, qué obstáculos hay en el camino que deben tenerse en cuenta (nuevamente, manualmente) , y debe hacer frente a muchos otros impedimentos irritantes (incluida la iluminación) que hacen que su uso se aleje de la experiencia de "apuntar y hacer clic" retratada de manera incorrecta en los medios desde la llegada de las falsificaciones profundas.

Por el contrario, CihaNet no requiere que dos imágenes estén frente a la cámara directamente para extraer y explotar información de identidad útil de una sola imagen.

En estos ejemplos, se desafía a un conjunto de competidores de software deepfake con la tarea de intercambiar caras que no solo son diferentes en identidad, sino que no se enfrentan de la misma manera. El software derivado del repositorio original de deepfakes (como DeepFaceLab y FaceSwap, enormemente populares, que se muestran arriba) no puede manejar la disparidad de ángulos entre las dos imágenes que se van a intercambiar (consulte la tercera columna). Mientras tanto, Cihanet puede abstraer la identidad correctamente, ya que la 'postura' del rostro no es intrínsecamente parte de la información de identidad.

En estos ejemplos, se desafía a un conjunto de competidores de software deepfake con la tarea de intercambiar caras que no solo son diferentes en identidad, sino que no se enfrentan de la misma manera. El software derivado del repositorio original de deepfakes (como DeepFaceLab y FaceSwap, enormemente populares, que se muestran arriba) no puede manejar la disparidad de ángulos entre las dos imágenes que se van a intercambiar (consulte la tercera columna). Mientras tanto, CihaNet puede abstraer la identidad correctamente, ya que la 'postura' del rostro no es intrínsecamente parte de la información de identidad.

Arquitectura

El proyecto CihaNet, según los autores, se inspiró en la colaboración de 2019 entre Microsoft Research y la Universidad de Pekín, llamada Cambiador de cara, aunque realiza algunos cambios notables y críticos en la arquitectura central del método anterior.

FaceShifter utiliza dos normalizaciones de instancias adaptables (AdaIN) redes para manejar la información de identidad, cuyos datos luego se transponen a la imagen de destino a través de una máscara, de una manera similar al popular software deepfake actual (y con todas sus limitaciones relacionadas), utilizando un adicional OÍR-Net (que incluye una subred entrenada por separado entrenada en obstáculos de oclusión, una capa adicional de complejidad).

En su lugar, la nueva arquitectura utiliza directamente esta información 'contextual' para el proceso de transformación en sí mismo, a través de una única operación de normalización de instancia adaptativa en cascada (C-AdaIN) de dos pasos, que proporciona coherencia de contexto (es decir, piel facial y oclusiones) de ID- áreas relevantes.

La segunda subred crucial para el sistema se llama Swapping Block (SwapBlk), que genera una función integrada a partir del contexto de la imagen de referencia y la información de "identidad" incrustada de la imagen de origen, sin pasar por las múltiples etapas necesarias para lograr esto al medios actuales convencionales.

Para ayudar a distinguir entre contexto e identidad, un mapa de alucinaciones se genera para cada nivel, reemplazando una máscara de segmentación suave y actuando en una gama más amplia de características para esta parte crítica del proceso de deepfake.

A medida que crece el valor del mapa de alucinaciones (en la foto de abajo a la derecha), surge un camino más claro entre las identidades.

A medida que crece el valor del mapa de alucinaciones (en la foto de abajo a la derecha), surge un camino más claro entre las identidades.

De esta forma, todo el proceso de intercambio se realiza en una sola etapa y sin procesamiento posterior.

Datos y pruebas

Para probar el sistema, los investigadores entrenaron cuatro modelos en dos conjuntos de datos de imágenes abiertas muy populares y variados: CelebA-HQ  y el conjunto de datos Flickr-Faces-HQ de NVIDIA (FFHQ), cada uno con 30,000 y 70,000 imágenes respectivamente.

No se realizó ninguna poda ni filtrado en estos conjuntos de datos básicos. En cada caso, los investigadores entrenaron la totalidad de cada conjunto de datos en la única GPU de Tesla durante tres días, con una tasa de aprendizaje de 0.0002 en la optimización de Adam.

Luego generaron una serie de intercambios aleatorios entre las miles de personalidades que aparecen en los conjuntos de datos, sin tener en cuenta si las caras eran similares o si tenían el mismo género, y compararon los resultados de CihaNet con los resultados de cuatro marcos principales de falsificación profunda: Intercambio cara (que representa el más popular ProfundoFaceLab, ya que comparte una base de código raíz en el repositorio original de 2017 que trajo deepfakes al mundo); el mencionado FaceShifter; FSGAN; y Intercambiar Sim.

Al comparar los resultados a través de VGG-Cara, FFHQ, CelebA-HQ y CaraForense++, los autores encontraron que su nuevo modelo superó a todos los modelos anteriores, como se indica en la siguiente tabla.

Las tres métricas utilizadas en la evaluación de los resultados fueron Similitud estructural (SSIM), error de estimación de pose y Precisión de recuperación de ID, que se calcula en función del porcentaje de pares recuperados correctamente.

Los investigadores sostienen que CihaNet representa un enfoque superior en términos de resultados cualitativos y un avance notable en el estado actual de las tecnologías de falsificación profunda, al eliminar la carga de arquitecturas y metodologías de enmascaramiento extensas y laboriosas, y al lograr un enfoque más útil. y la separación accionable de la identidad del contexto.

Mire a continuación para ver más ejemplos en video de la nueva técnica. Puedes encontrar el video completo aquí.

A partir de materiales complementarios para el nuevo documento, CihaNet realiza intercambio de rostros en varias identidades. Fuente: https://mitchellx.github.io/#video

 

Escritor sobre aprendizaje automático, especialista en síntesis de imágenes humanas. Exdirector de contenido de investigación en Metaphysic.ai.
sitio personal: martinanderson.ai
Contacto: [email protected]
Gorjeo: @manders_ai