Contáctenos

Los deepfakes más pequeños pueden ser la mayor amenaza

El ángulo de Anderson

Los deepfakes más pequeños pueden ser la mayor amenaza

mm
Imágenes de dominio público + Flux.1 Kontext Pro y Adobe Firefly

Herramientas de IA conversacional como ChatGPT y Google Gemini se utilizan actualmente para crear deepfakes que no intercambian rostros, sino que, de forma más sutil, pueden reescribir la historia completa dentro de una imagen. Al cambiar gestos, accesorios y fondos, estas ediciones engañan tanto a los detectores de IA como a los humanos, lo que aumenta la dificultad para detectar la realidad en línea.

 

En el clima actual, en particular a raíz de una legislación importante como la BÁJALA De hecho, muchos de nosotros asociamos los deepfakes y la síntesis de identidad impulsada por IA con la pornografía de IA no consensuada y la manipulación política; en general, bruto distorsiones de la verdad.

Esto nos acostumbra a esperar que las imágenes manipuladas por IA siempre se utilicen para contenido de alto riesgo, donde la calidad de la representación y la manipulación del contexto pueden lograr un golpe de credibilidad, al menos en el corto plazo.

Históricamente, sin embargo, alteraciones mucho más sutiles a menudo han tenido un efecto más siniestro y duradero, como el truco fotográfico de última generación que permitió a Stalin eliminar esos que había caído en desgracia en el registro fotográfico, como se satiriza en la novela de George Orwell 1984, donde el protagonista Winston Smith pasa sus días reescribiendo la historia y haciendo que se creen, destruyan y "modifiquen" fotografías.

En el siguiente ejemplo, el problema con el second La imagen es que "no sabemos lo que no sabemos" – que el ex jefe de la policía secreta de Stalin, Nikolai Yezhov, solía ocupar el espacio donde ahora solo hay una barrera de seguridad:

Ahora lo ves, ahora es… vapor. La manipulación fotográfica de la era de Stalin borra de la historia a un miembro del partido caído en desgracia. Fuente: Dominio público, vía https://www.rferl.org/a/soviet-airbrushing-the-censors-who-scratched-out-history/29361426.html

Ahora lo ves, ahora es… vapor. La manipulación fotográfica de la era de Stalin borra de la historia a un miembro del partido caído en desgracia. Fuente: Dominio público, vía https://www.rferl.org/a/soviet-airbrushing-the-censors-who-scratched-out-history/29361426.html

Corrientes de este tipo, que se repiten con frecuencia, persisten de muchas maneras; no solo culturalmente, sino también en la propia visión artificial, que deriva tendencias de temas y motivos estadísticamente dominantes en los conjuntos de datos de entrenamiento. Por ejemplo, el hecho de que los teléfonos inteligentes hayan reducido la barrera de entrada, y macizamente La reducción del coste de la fotografía significa que su iconografía se ha asociado inevitablemente con muchos conceptos abstractos, Incluso cuando esto no sea apropiado.

Si el deepfaking convencional puede percibirse como un acto de agresión, las alteraciones menores, perniciosas y persistentes en los medios audiovisuales se asemejan más a la manipulación. Además, la capacidad de este tipo de deepfaking para pasar desapercibido dificulta su identificación mediante sistemas de detección de deepfakes de última generación (que buscan cambios significativos). Este enfoque se asemeja más al desgaste por agua de una roca durante un período prolongado que a una piedra dirigida a la cabeza.

MultiFakeVerse

Investigadores de Australia han hecho un esfuerzo para abordar la falta de atención al deepfaking "sutil" en la literatura, seleccionando un nuevo conjunto de datos sustancial sobre manipulaciones de imágenes centradas en la persona que alteran el contexto, la emoción y la narrativa sin cambiar la identidad central del sujeto:

Extraído de la nueva colección, pares real/falso, con algunas alteraciones más sutiles que otras. Nótese, por ejemplo, la pérdida de autoridad de la mujer asiática (abajo a la derecha), al ser retirada por la IA el estetoscopio de su médico. Al mismo tiempo, la sustitución del portapapeles por el bloc de notas del médico no tiene un significado semántico evidente. Fuente: https://huggingface.co/datasets/parulgupta/MultiFakeVerse_preview

Muestras de la nueva colección: pares real/falso, con algunas alteraciones más sutiles que otras. Nótese, por ejemplo, la pérdida de autoridad de la mujer asiática (abajo a la derecha), al ser retirada por IA el estetoscopio de su médico. Al mismo tiempo, la sustitución del portapapeles por el bloc de notas del médico carece de un significado semántico evidente.Fuente: https://huggingface.co/datasets/parulgupta/MultiFakeVerse_preview

Bajo el título MultiFakeVerseLa colección consta de 845,826 imágenes generadas a través de modelos de lenguaje de visión (VLM), que pueden ser accedido en línea y descargado, con permiso.

Los autores declaran:

'Este enfoque impulsado por VLM permite alteraciones semánticas y conscientes del contexto, como la modificación de acciones, escenas e interacciones entre humanos y objetos, en lugar de intercambios de identidad sintéticos o de bajo nivel y ediciones específicas de la región que son comunes en los conjuntos de datos existentes.

'Nuestros experimentos revelan que los modelos de detección de deepfakes de última generación y los observadores humanos tienen dificultades para detectar estas manipulaciones sutiles pero significativas'.

Los investigadores probaron tanto a humanos como a los principales sistemas de detección de deepfakes en su nuevo conjunto de datos para comprobar la eficacia de la identificación de estas sutiles manipulaciones. Los participantes humanos tuvieron dificultades para clasificar correctamente las imágenes como reales o falsas solo en un 62 % de los casos, y tuvieron aún más dificultades para identificar qué partes de la imagen habían sido alteradas.

Los detectores de deepfakes existentes, entrenados principalmente con conjuntos de datos de intercambio de rostros o pintura facial más obvios, también tuvieron un rendimiento deficiente, y a menudo no registraron ninguna manipulación. Incluso después sintonia FINA En MultiFakeVerse, las tasas de detección se mantuvieron bajas, lo que expone cuán mal los sistemas actuales manejan estas ediciones sutiles impulsadas por la narrativa.

El nuevo documento se titula Multiverso a través de deepfakes: el conjunto de datos MultiFakeVerse de manipulaciones visuales y conceptuales centradas en la persona, y proviene de cinco investigadores de la Universidad de Monash en Melbourne y la Universidad de Curtin en Perth. El código y los datos relacionados se han publicado. en GitHub, además del alojamiento Hugging Face mencionado anteriormente.

Método

El conjunto de datos MultiFakeVerse se creó a partir de cuatro conjuntos de imágenes del mundo real que presentan personas en diversas situaciones: EMOTICO; PISC, COMETA y PIC 2.0A partir de 86,952 imágenes originales, los investigadores produjeron 758,041 versiones manipuladas.

El Géminis-2.0-Flash ChatGPT-4o Se utilizaron marcos para proponer seis ediciones mínimas para cada imagen: ediciones diseñadas para alterar sutilmente cómo el espectador percibiría a la persona más prominente de la imagen.

Se instruyó a los modelos para que generaran modificaciones que harían que el sujeto pareciera ingenuo, orgullosos, arrepentido, inexperto o despreocupado, o para ajustar algún elemento factual dentro de la escena. Junto con cada edición, los modelos también produjeron un expresión de referencia para identificar claramente el objetivo de la modificación, garantizando que el proceso de edición posterior pueda aplicar los cambios a la persona u objeto correcto dentro de cada imagen.

Los autores aclaran:

'Tenga en cuenta que expresión de referencia es un dominio ampliamente explorado en la comunidad, lo que significa una frase que puede desambiguar el objetivo en una imagen, por ejemplo, para una imagen que tiene dos hombres sentados en un escritorio, uno hablando por teléfono y el otro mirando documentos, una expresión de referencia adecuada de este último sería El hombre de la izquierda sosteniendo un trozo de papel. "

Una vez definidas las ediciones, se llevó a cabo la manipulación de la imagen, solicitando a los modelos de lenguaje visual que aplicaran los cambios especificados, dejando el resto de la escena intacta. Los investigadores probaron tres sistemas para esta tarea: Imagen GPT-1; Generación de imágenes Flash Gemini-2.0; y ICEditar.

Después de generar veintidós mil imágenes de muestra, Gemini-2.0-Flash emergió como el método más consistente, produciendo ediciones que se mezclaban naturalmente con la escena sin introducir artefactos visibles; ICEdit a menudo producía falsificaciones más obvias, con fallas notables en las regiones alteradas; y GPT-Image-1 ocasionalmente afectaba partes no deseadas de la imagen, en parte debido a su conformidad con las relaciones de aspecto de salida fijas.

Análisis de imagen

Cada imagen manipulada se comparó con su original para determinar cuánto de la imagen había sido alterada. Se calcularon las diferencias a nivel de píxel entre las dos versiones, filtrando el ruido aleatorio menor para centrarse en las ediciones significativas. En algunas imágenes, solo se vieron afectadas pequeñas áreas; en otras, hasta... el ochenta por ciento de la escena fue modificado.

Para evaluar cuánto cambió el significado de cada imagen a la luz de estas alteraciones, se generaron títulos tanto para las imágenes originales como para las manipuladas utilizando el CompartirGPT-4V modelo visión-lenguaje.

Estos subtítulos luego se convirtieron en incrustaciones utilizando Clip largo, lo que permitió comparar la divergencia del contenido entre versiones. Los cambios semánticos más marcados se observaron en los casos en que se alteraron objetos cercanos o que involucraban directamente a la persona, ya que estos pequeños ajustes podían alterar significativamente la interpretación de la imagen.

Luego se utilizó Gemini-2.0-Flash para clasificar el tipo El tipo de manipulación aplicada a cada imagen, según dónde y cómo se realizaron las ediciones, se agruparon en tres categorías: nivel de persona las ediciones implicaron cambios en la expresión facial, la pose, la mirada, la ropa u otras características personales del sujeto; nivel de objeto Las ediciones afectaron los elementos conectados con la persona, como los objetos que sostenía o con los que interactuaba en primer plano; y nivel de escena Las ediciones involucraron elementos de fondo o aspectos más amplios del entorno que no involucraban directamente a la persona.

El proceso de generación del conjunto de datos MultiFakeVerse comienza con imágenes reales, donde los modelos de visión y lenguaje proponen ediciones narrativas dirigidas a personas, objetos o escenas. Estas instrucciones son aplicadas por los modelos de edición de imágenes. El panel derecho muestra la proporción de manipulaciones a nivel de persona, objeto y escena en el conjunto de datos. Fuente: https://arxiv.org/pdf/2506.00868

El flujo de generación del conjunto de datos de MultiFakeVerse comienza con imágenes reales, donde los modelos de visión y lenguaje proponen ediciones narrativas dirigidas a personas, objetos o escenas. Estas instrucciones son aplicadas por los modelos de edición de imágenes. El panel derecho muestra la proporción de manipulaciones a nivel de persona, objeto y escena en el conjunto de datos. Fuente: https://arxiv.org/pdf/2506.00868

Dado que las imágenes individuales podían contener varios tipos de ediciones a la vez, se mapeó la distribución de estas categorías en el conjunto de datos. Aproximadamente un tercio de las ediciones se centraron únicamente en la persona, alrededor de una quinta parte afectó solo a la escena y alrededor de una sexta parte se limitó a los objetos.

Evaluación del impacto perceptual

Se utilizó Gemini-2.0-Flash para evaluar cómo las manipulaciones podrían alterar la percepción del espectador en seis áreas: emoción, Identidad personal, industria dinámica, narrativa de la escena, intención de manipulación y preocupaciones éticas.

Para emociónLas ediciones a menudo se describían con términos como alegre, Interesantes o accesible, lo que sugiere cambios en la forma en que los sujetos fueron enmarcados emocionalmente. En términos narrativos, palabras como Profesional or una experiencia diferente cambios indicados en la historia o el entorno implícito:

Se solicitó a Gemini-2.0-Flash que evaluara cómo cada manipulación afectaba seis aspectos de la percepción del espectador. Izquierda: Ejemplo de estructura de la indicación que guía la evaluación del modelo. Derecha: Nubes de palabras que resumen los cambios en la emoción, la identidad, la narrativa de la escena, la intención, la dinámica de poder y las preocupaciones éticas en el conjunto de datos.

Se solicitó a Gemini-2.0-Flash que evaluara cómo cada manipulación afectaba seis aspectos de la percepción del espectador. Izquierda: Ejemplo de estructura de la indicación que guía la evaluación del modelo. Derecha: Nubes de palabras que resumen los cambios en la emoción, la identidad, la narrativa de la escena, la intención, la dinámica de poder y las preocupaciones éticas en el conjunto de datos.

Las descripciones de los cambios de identidad incluían términos como más joven, juguetón y vulnerable, mostrando cómo pequeños cambios podían influir en la percepción de las personas. La intención detrás de muchas ediciones fue etiquetada como persuasivo, engañoso o estéticoSi bien se consideró que la mayoría de las ediciones planteaban solo preocupaciones éticas leves, una pequeña fracción fue vista como con implicaciones éticas moderadas o graves.

Ejemplos de MultiFakeVerse que muestran cómo pequeñas ediciones modifican la percepción del espectador. Los recuadros amarillos resaltan las regiones alteradas, junto con un análisis de los cambios en la emoción, la identidad, la narrativa y las preocupaciones éticas.

Ejemplos de MultiFakeVerse que muestran cómo pequeñas ediciones modifican la percepción del espectador. Los recuadros amarillos resaltan las regiones alteradas, junto con un análisis de los cambios en la emoción, la identidad, la narrativa y las preocupaciones éticas.

Métrica

La calidad visual de la colección MultiFakeVerse se evaluó utilizando tres métricas estándar: Relación señal-ruido máxima (PSNR); Índice de similitud estructural (SSIM); y Fréchet Inicio Distancia (DEFENSOR):

Puntuaciones de calidad de imagen para MultiFakeVerse medidas por PSNR, SSIM y FID.

Puntuaciones de calidad de imagen para MultiFakeVerse medidas por PSNR, SSIM y FID.

La puntuación SSIM de 0.5774 refleja un grado moderado de similitud, coherente con el objetivo de preservar la mayor parte de la imagen al aplicar ediciones específicas; la puntuación FID de 3.30 sugiere que las imágenes generadas mantienen una alta calidad y diversidad; y un valor PSNR de 66.30 decibeles indica que las imágenes conservan una buena fidelidad visual después de la manipulación.

Estudio de usuarios

Se realizó un estudio de usuarios para comprobar la capacidad de los usuarios para detectar las sutiles falsificaciones en MultiFakeVerse. Se mostraron cincuenta imágenes a dieciocho participantes, divididas equitativamente entre ejemplos reales y manipulados, que abarcaban diversos tipos de edición. Se pidió a cada persona que clasificara si la imagen era real o falsa y, en caso de ser falsa, que identificara el tipo de manipulación.

La precisión general para decidir si algo era real o falso fue del 61.67 por ciento, lo que significa que los participantes clasificaron erróneamente las imágenes más de un tercio de las veces.

Los autores declaran:

'Al analizar las predicciones humanas de los niveles de manipulación de las imágenes falsas, se encontró que la intersección promedio sobre la unión entre los niveles de manipulación previstos y reales fue del 24.96%.

'Esto demuestra que no es trivial para los observadores humanos identificar las regiones de manipulaciones en nuestro conjunto de datos'.

La creación del conjunto de datos MultiFakeVerse requirió una gran cantidad de recursos computacionales: para generar instrucciones de edición, se realizaron más de 845,000 1000 llamadas API a los modelos Gemini y GPT, con un coste aproximado de 2,867 USD para estas tareas de solicitud; la producción de imágenes basadas en Gemini costó aproximadamente 1 USD; y la generación de imágenes con GPT-Image-200 costó aproximadamente 6000 USD. Las imágenes de ICEdit se crearon localmente en una GPU NVIDIA AXNUMX, completando la tarea en aproximadamente veinticuatro horas.

Examenes

Antes de las pruebas, el conjunto de datos fue dividido En conjuntos de entrenamiento, validación y prueba, seleccionándose primero el 70 % de las imágenes reales para el entrenamiento, el 10 % para la validación y el 20 % para la prueba. Las imágenes manipuladas generadas a partir de cada imagen real se asignaron al mismo conjunto que su original correspondiente.

Más ejemplos de contenido real (izquierda) y alterado (derecha) del conjunto de datos.

Más ejemplos de contenido real (izquierda) y alterado (derecha) del conjunto de datos.

El rendimiento en la detección de falsificaciones se midió utilizando la precisión a nivel de imagen (si el sistema clasifica correctamente toda la imagen como real o falsa) y Puntuaciones F1Para localizar regiones manipuladas, la evaluación utilizada Área bajo la curva (AUC), puntuaciones F1 y intersección sobre unión (Pagaré).

El conjunto de datos MultiFakeVerse se utilizó contra los principales sistemas de detección de deepfakes en el conjunto de pruebas completo, mientras que los marcos rivales se utilizaron CNNSpot; Aviso antifalsificación; TruFor; y el lenguaje basado en la visión SIDACada modelo se evaluó primero en tiro cero modo, utilizando su preentrenado original pesos sin más ajustes.

Se crearon entonces dos modelos: CNNSpot y SIDA. afinado en los datos de entrenamiento de MultiFakeVerse para evaluar si el reentrenamiento mejoró el rendimiento.

Resultados de la detección de deepfakes en MultiFakeVerse en condiciones de cero disparos y ajustadas. Los números entre paréntesis muestran los cambios después de la corrección.

Resultados de la detección de deepfakes en MultiFakeVerse en condiciones de cero disparos y ajustadas. Los números entre paréntesis muestran los cambios después de la corrección.

De estos resultados, los autores afirman:

Los modelos entrenados con falsificaciones anteriores basadas en la restauración tienen dificultades para identificar nuestras falsificaciones basadas en la edición VLM; en particular, CNNSpot tiende a clasificar casi todas las imágenes como reales. AntifakePrompt ofrece el mejor rendimiento de disparo cero, con una precisión promedio del 66.87 % por clase y una puntuación F55.55 del 1 %.

'Después de realizar ajustes en nuestro conjunto de trenes, observamos una mejora en el rendimiento tanto en CNNSpot como en SIDA-13B, con CNNSpot superando a SIDA-13B tanto en precisión promedio por clase (en un 1.92 %) como en F1-Score (en un 1.97 %).'

SIDA-13B se evaluó en MultiFakeVerse para medir su precisión en la localización de las regiones manipuladas dentro de cada imagen. El modelo se probó tanto en modo de disparo cero como tras el ajuste fino del conjunto de datos.

En su estado original, alcanzó un puntaje de intersección sobre unión de 13.10, un puntaje F1 de 19.92 y un AUC de 14.06, lo que refleja un desempeño de localización débil.

Tras el ajuste, las puntuaciones mejoraron a 24.74 para IoU, 39.40 para F1 y 37.53 para AUC. Sin embargo, incluso con entrenamiento adicional, el modelo seguía teniendo dificultades para encontrar exactamente dónde se habían realizado las modificaciones, lo que pone de manifiesto la dificultad de detectar este tipo de cambios pequeños y específicos.

Conclusión

El nuevo estudio expone un punto ciego tanto en la percepción humana como en la de las máquinas: si bien gran parte del debate público en torno a los deepfakes se ha centrado en intercambios de identidad que acaparan titulares, estas "ediciones narrativas" más silenciosas son más difíciles de detectar y potencialmente más corrosivas a largo plazo.

A medida que sistemas como ChatGPT y Gemini asumen un papel más activo en la generación de este tipo de contenido, y como nosotros mismos participar cada vez más Al alterar la realidad de nuestras propias transmisiones fotográficas, los modelos de detección que se basan en detectar manipulaciones burdas pueden ofrecer una defensa inadecuada.

Lo que demuestra MultiFakeVerse no es que la detección haya fallado, sino que al menos parte del problema puede estar transformándose en una forma más difícil y de evolución más lenta: una en la que pequeñas mentiras visuales se acumulan sin ser detectadas.

 

Primera publicación: jueves 5 de junio de 2025

Escritor sobre aprendizaje automático, especialista en síntesis de imágenes humanas. Exdirector de contenido de investigación en Metaphysic.ai.
sitio personal: martinanderson.ai
Contacto: [email protected]
Gorjeo: @manders_ai