Inteligencia artificial

Identificando Fuentes de Datos de Deepfake con Etiquetado Basado en IA

Published July 30, 2021

Updated April 5, 2026

Martin Anderson

Una colaboración entre investigadores en China, Singapur y EE. UU. ha producido un sistema resistente para “etiquetar” fotos de rostros de manera tan robusta que los marcadores de identificación no se destruyen durante un deepfake proceso de entrenamiento, allanando el camino para reclamos de propiedad intelectual que podrían afectar la capacidad de los sistemas de generación de imágenes sintéticas para “anonimizar” datos de origen ilegítimamente extraídos.

El sistema, titulado FakeTagger, utiliza un proceso de codificador/decodificador para incorporar información de ID visualmente indiscernible en imágenes a un nivel lo suficientemente bajo como para que la información inyectada se interprete como datos de características faciales esenciales, y por lo tanto se transmita a través de procesos de abstracción intactos, de la misma manera, por ejemplo, que los datos de los ojos o la boca.

Un resumen de la arquitectura de FakeTagger. Los datos de origen se utilizan para generar una característica facial ‘redundante’, ignorando los elementos de fondo que se mascararán a través de un flujo de trabajo de deepfake típico. El mensaje es recuperable al final del proceso y se puede identificar a través de un algoritmo de reconocimiento apropiado. Fuente: http://xujuefei.com/felix_acmmm21_faketagger.pdf

La investigación proviene de la Escuela de Ciencia y Ingeniería Cibernética de Wuhan, el Laboratorio Clave de Seguridad de la Información Aeroespacial y Computación de Confianza del Ministerio de Educación de China, el Grupo Alibaba en EE. UU., la Universidad del Noreste en Boston y la Universidad Tecnológica de Nanyang en Singapur.

Los resultados experimentales con FakeTagger indican una tasa de reidentificación de hasta casi el 95% en cuatro tipos comunes de metodologías de deepfake: intercambio de identidad (es decir, DeepFaceLab, FaceSwap); reencarnación de rostro; edición de atributos; y síntesis total.

Limitaciones de la Detección de Deepfake

Aunque los últimos tres años han traído una cosecha de nuevos enfoques para las metodologías de identificación de deepfake, todos estos enfoques se centran en debilidades remediables de los flujos de trabajo de deepfake, como brillo en los ojos en modelos subentrenados, y falta de parpadeo en deepfakes anteriores con conjuntos de rostros poco diversificados. A medida que se identifican nuevas claves, los repositorios de software de código abierto han obviado, ya sea intencionalmente o como subproducto de mejoras en las técnicas de deepfake.

El nuevo documento observa que el método de detección post-facto más efectivo producido por la competencia de detección de deepfake de Facebook (DFDC) está limitado a una precisión del 70%, en términos de detectar deepfakes en la naturaleza. Los investigadores atribuyen este fracaso representativo a una mala generalización contra nuevos y innovadores sistemas de deepfake GAN y codificador/decodificador, y a la calidad a menudo degradada de las sustituciones de deepfake.

En el último caso, esto puede ser causado por un trabajo de baja calidad por parte de los creadores de deepfakes, o artefactos de compresión cuando los videos se suben a plataformas de intercambio que buscan limitar los costos de ancho de banda y vuelven a codificar los videos a tasas de bits drásticamente más bajas que las presentaciones. Irónicamente, no solo esta degradación de la imagen no interfere con la aparente autenticidad de un deepfake, sino que también puede realzar la ilusión, ya que el video de deepfake se subsume en un idioma visual común y de baja calidad que se percibe como auténtico.

Etiquetado Superviviente como Ayuda a la Inversión de Modelo

Identificar los datos de origen a partir de la salida de aprendizaje automático es un campo relativamente nuevo y en crecimiento, y uno que hace posible una nueva era de litigios basados en la propiedad intelectual, a medida que las actuales regulaciones de pantalla raspada del gobierno (diseñadas para no sofocar la preeminencia nacional en la investigación frente a una carrera armamentista global de IA) evolucionan hacia legislaciones más estrictas a medida que el sector se comercializa.

Inversión de Modelo se ocupa del mapeo y la identificación de los datos de origen a partir de la salida generada por los sistemas de síntesis en una serie de dominios, incluida la Generación de Lenguaje Natural (NLG) y la síntesis de imágenes. La inversión de modelo es particularmente efectiva para reidentificar rostros que fueron borrosos, pixelados o que han pasado por el proceso de abstracción de una Red Generativa Adversaria o un sistema de transformación codificador/decodificador como DeepFaceLab.

Agregar etiquetado dirigido a nuevas o existentes imágenes faciales es una posible nueva ayuda a las técnicas de inversión de modelo, con marcado de agua un campo emergente.

Etiquetado Post-Facto

FakeTagger está destinado a ser un enfoque de post-procesamiento. Por ejemplo, cuando un usuario sube una foto a una red social (que generalmente implica algún tipo de proceso de optimización y rara vez una transferencia directa y no adulterada de la imagen original), el algoritmo procesaría la imagen para aplicar características supuestamente indelebles al rostro.

Alternativamente, el algoritmo podría aplicarse en colecciones históricas de imágenes, como ha sucedido varias veces en los últimos veinte años, cuando grandes sitios de colecciones de fotos de stock y comerciales han buscado métodos para identificar contenido que se ha vuelto a utilizar sin permiso.

FakeTagger busca incorporar características de ID recuperables de varios procesos de deepfake.

Desarrollo y Pruebas

Los investigadores probaron FakeTagger contra una serie de aplicaciones de software de deepfake en las cuatro aproximaciones mencionadas, incluyendo el repositorio más ampliamente utilizado, DeepFaceLab; Face2Face de Stanford, que puede transferir expresiones faciales entre imágenes e identidades; y STGAN, que puede editar atributos faciales.

Las pruebas se realizaron con CelebA-HQ, un repositorio público popular que contiene 30,000 imágenes de rostros de celebridades en varias resoluciones de hasta 1024 x 1024 píxeles.

Como referencia, los investigadores probaron inicialmente técnicas de marcado de agua de imagen convencionales para ver si las etiquetas impuestas sobrevivirían a los procesos de entrenamiento de los flujos de trabajo de deepfake, pero los métodos fallaron en las cuatro aproximaciones.

Los datos incorporados de FakeTagger se inyectaron en la etapa del codificador en las imágenes del conjunto de rostros utilizando una arquitectura basada en la red de convolución U-Net para la segmentación de imágenes biomédicas, lanzada en 2015. Posteriormente, la sección decodificadora del marco se entrenó para encontrar la información incorporada.

El proceso se probó en un simulador GAN que utilizó las aplicaciones/algoritmos de código abierto mencionados anteriormente, en un entorno de caja negra sin acceso discreto o especial a los flujos de trabajo de cada sistema. Se adjuntaron señales aleatorias a las imágenes de celebridades y se registraron como datos relacionados con cada imagen.

En un entorno de caja negra, FakeTagger pudo lograr una precisión que superó el 88,95% en las cuatro aproximaciones de las aplicaciones. En un escenario de caja blanca paralelo, la precisión aumentó a casi el 100%. Sin embargo, dado que esto sugiere futuras iteraciones de software de deepfake que incorpora FakeTagger directamente, es un escenario poco probable en el futuro cercano.

Cuánto Cuesta

Los investigadores señalan que el escenario más desafiante para FakeTagger es la síntesis de imagen completa, como la generación abstracta basada en CLIP, ya que los datos de entrenamiento de entrada están sujetos a los niveles más profundos de abstracción en tal caso. Sin embargo, esto no se aplica a los flujos de trabajo de deepfake que han dominado los titulares en los últimos años, ya que estos dependen de la reproducción fiel de las características faciales que definen la identidad.

El documento también señala que los atacantes adversarios podrían intentar agregar perturbaciones, como ruido artificial y grano, para frustrar un sistema de etiquetado como este, aunque esto probablemente tendría un efecto perjudicial en la autenticidad de la salida de deepfake.

Además, señalan que FakeTagger necesita agregar datos redundantes a las imágenes para garantizar la supervivencia de las etiquetas que incorpora, y que esto podría tener un costo computacional notable a gran escala.

Los autores concluyen señalando que FakeTagger puede tener potencial para el seguimiento de la procedencia en otros dominios, como ataques de lluvia adversariales y otros tipos de ataques basados en imágenes, como exposición adversaria, niebla, desenfoque, vigneteado y alteración de color.