talón Fidelidad versus realismo en videos deepfake - Unite.AI
Contáctanos

Inteligencia artificial

Fidelidad versus realismo en videos deepfake

mm
Actualizado on

No todos los practicantes de deepfake comparten el mismo objetivo: el ímpetu del sector de investigación de síntesis de imágenes, respaldado por defensores influyentes como adobe, NVIDIA y Facebook – es avanzar en el estado del arte para que las técnicas de aprendizaje automático puedan eventualmente recrear o sintetizar la actividad humana en alta resolución y en las condiciones más desafiantes (fidelidad).

Por el contrario, el objetivo de quienes desean utilizar tecnologías deepfake para difundir desinformación es crear simulaciones plausibles de personas reales mediante muchos otros métodos además de la mera veracidad de rostros deepfake. En este escenario, los factores adjuntos, como el contexto y la plausibilidad, son casi iguales al potencial de un video para simular rostros. (realismo).

Este enfoque de 'prestidigitación' se extiende a la degradación de la calidad de la imagen final de un video falso, de modo que todo el video (y no solo la parte engañosa representada por una cara falsa) tiene un 'aspecto' cohesivo que es preciso para el calidad esperada para el medio.

'Cohesivo' no tiene por qué significar 'bueno'; basta con que la calidad sea uniforme en el contenido original e insertado, adulterado, y se adhiera a las expectativas. En términos de salida de transmisión de VOIP en plataformas como Skype y Zoom, la barra puede ser notablemente baja, con tartamudeo, video entrecortado y una amplia gama de posibles artefactos de compresión, así como algoritmos de "suavizado" diseñados para reducir sus efectos, que en sí mismos constituyen una gama adicional de efectos 'no auténticos' que hemos aceptado como corolarios de las limitaciones y excentricidades de la transmisión en vivo.

DeepFaceLive en acción: esta versión de streaming del software de deepfakes de primer nivel, DeepFaceLab, puede proporcionar realismo contextual al presentar falsificaciones en el contexto de una calidad de video limitada, con problemas de reproducción y otros artefactos de conexión recurrentes. Fuente: https://www.youtube.com/watch?v=IL517EgYH8U

DeepFaceLive en acción: esta versión de transmisión del principal software de falsificación profunda DeepFaceLab puede proporcionar realismo contextual al presentar falsificaciones en el contexto de una calidad de video limitada, con problemas de reproducción y otros artefactos de conexión recurrentes. Fuente: https://www.youtube.com/watch?v=IL517EgYH8U

Degradación incorporada

De hecho, los dos paquetes de deepfake más populares (ambos derivados del controvertido código fuente de 2017) contienen componentes destinados a integrar la cara deepfake en el contexto del video 'histórico' o de menor calidad al degradar la cara generada. En ProfundoFaceLab, la potencia_degradada_bicúbica parámetro logra esto, y en Intercambio cara, la configuración de 'grano' en la configuración de Ffmpeg también ayuda a la integración de la cara falsa al preservar el grano durante la codificación*.

La configuración de "grano" en FaceSwap ayuda a la integración auténtica en contenido de video que no es de alta calidad y contenido heredado que puede presentar efectos de granulado de película que son relativamente raros en estos días.

La configuración de "grano" en FaceSwap ayuda a la integración auténtica en contenido de video que no es de alta calidad y contenido heredado que puede presentar efectos de granulado de película que son relativamente raros en estos días.

A menudo, en lugar de un video deepfake completo e integrado, los deepfakers generarán una serie aislada de archivos PNG con canales alfa, cada imagen que muestra solo la salida de la cara sintética, de modo que el flujo de imágenes se pueda convertir en video en plataformas más sofisticadas.capacidades de efectos degradantes, como Adobe After Effects, antes de unir los elementos falsos y reales para el video final.

Además de estas degradaciones intencionales, el contenido del trabajo deepfake se vuelve a comprimir con frecuencia, ya sea algorítmicamente (donde las plataformas de redes sociales buscan ahorrar ancho de banda produciendo versiones más ligeras de las cargas de los usuarios) en plataformas como YouTube y Facebook, o mediante el reprocesamiento del trabajo original en GIF animados, secciones de detalles u otros flujos de trabajo de motivación diversa que tratan el lanzamiento original como punto de partida y, posteriormente, introducen compresión adicional.

Contextos realistas de detección de falsificaciones profundas

Con esto en mente, un nuevo artículo de Suiza ha propuesto una renovación de la metodología detrás de los enfoques de detección de deepfake, al enseñar a los sistemas de detección a aprender las características del contenido de deepfake cuando se presenta en contextos degradados deliberadamente.

Aumento de datos estocásticos aplicado a uno de los conjuntos de datos utilizados en el nuevo documento, que presenta ruido gaussiano, corrección gamma y desenfoque gaussiano, así como artefactos de la compresión JPEG. Fuente: https://arxiv.org/pdf/2203.11807.pdf

Aumento de datos estocásticos aplicado a uno de los conjuntos de datos utilizados en el nuevo documento, que presenta ruido gaussiano, corrección gamma y desenfoque gaussiano, así como artefactos de la compresión JPEG. Fuente: https://arxiv.org/pdf/2203.11807.pdf

En el nuevo artículo, los investigadores argumentan que los paquetes vanguardistas de detección de falsificaciones profundas se basan en condiciones de referencia poco realistas para el contexto de las métricas que aplican, y que la salida de falsificaciones profundas 'degradadas' puede caer por debajo del umbral mínimo de calidad para la detección, a pesar de que son realistas. Es probable que el contenido 'grungy' engañe a los espectadores debido a una correcta atención al contexto.

Los investigadores han instituido un novedoso proceso de degradación de datos del "mundo real" que logra mejorar la capacidad de generalización de los principales detectores de falsificación profunda, con solo una pérdida marginal de precisión en las tasas de detección originales obtenidas por los datos "limpios". También ofrecen un nuevo marco de evaluación que puede evaluar la solidez de los detectores de falsificaciones profundas en condiciones del mundo real, respaldado por extensos estudios de ablación.

El se titula Un nuevo enfoque para mejorar la detección de falsificaciones profundas basada en el aprendizaje en condiciones realistas, y proviene de investigadores del Multimedia Signal Processing Group (MMSPG) y la Ecole Polytechnique Federale de Lausanne (EPFL), ambos con sede en Lausana.

Confusión útil

Los esfuerzos anteriores para incorporar la salida degradada en los enfoques de detección de deepfake incluyen el Red neuronal mixta, una oferta de 2018 de MIT y FAIR, y AgoMix, una colaboración de 2020 entre DeepMind y Google, ambos métodos de aumento de datos que intentan "enturbiar" el material de capacitación de una manera que tiende a ayudar a la generalización.

Los investigadores del nuevo trabajo también señalan antes estudios que aplicó ruido gaussiano y artefactos de compresión a datos de entrenamiento para establecer los límites de la relación entre una característica derivada y el ruido en el que está incrustado.

El nuevo estudio ofrece una canalización que simula las condiciones comprometidas tanto del proceso de adquisición de imágenes como de la compresión y otros algoritmos diversos que pueden degradar aún más la salida de imágenes en el proceso de distribución. Al incorporar este flujo de trabajo del mundo real en un marco de evaluación, es posible producir datos de entrenamiento para detectores de falsificación profunda que sean más resistentes a los artefactos.

La lógica conceptual y el flujo de trabajo para el nuevo enfoque.

La lógica conceptual y el flujo de trabajo para el nuevo enfoque.

El proceso de degradación se aplicó a dos conjuntos de datos populares y exitosos utilizados para la detección de falsificaciones profundas: CaraForense++ y Celeb-DFv2. Además, los principales marcos de detectores de falsificaciones profundas Cápsula-forense y XceptionNet fueron entrenados en las versiones adulteradas de los dos conjuntos de datos.

Los detectores fueron entrenados con el optimizador Adam para 25 y 10 épocas respectivamente. Para la transformación del conjunto de datos, se tomaron muestras aleatorias de 100 cuadros de cada video de entrenamiento, con 32 cuadros extraídos para la prueba, antes de agregar los procesos de degradación.

Las distorsiones consideradas para el flujo de trabajo fueron ruido, donde se aplicó ruido gaussiano de media cero en seis niveles diferentes; cambio de tamaño, para simular la resolución reducida de las típicas tomas al aire libre, que pueden suelen afectar detectores; compresión, donde se aplicaron varios niveles de compresión JPEG a los datos; suavizar, donde se evalúan para el marco tres filtros de suavizado típicos utilizados en la "eliminación de ruido"; Estrategias orientadas, donde se ajustaron el contraste y el brillo; y combinaciones, donde cualquier combinación de tres de los métodos antes mencionados se aplicó simultáneamente a una sola imagen.

Pruebas y resultados

Al probar los datos, los investigadores adoptaron tres métricas: Precisión (ACC); Área bajo la curva característica de funcionamiento del receptor (AUC); y Puntuación F1.

Los investigadores probaron las versiones estándar entrenadas de los dos detectores de falsificación profunda contra los datos adulterados y encontraron que carecían de ellos:

'En general, la mayoría de las distorsiones y el procesamiento realistas son extremadamente dañinos para los detectores de falsificaciones profundas basados ​​en el aprendizaje entrenados normalmente. Por ejemplo, el método Capsule-Forensics muestra puntajes de AUC muy altos en el conjunto de pruebas FFpp y Celeb-DFv2 sin comprimir después del entrenamiento en los conjuntos de datos respectivos, pero luego sufre una caída drástica del rendimiento en los datos modificados de nuestro marco de evaluación. Se han observado tendencias similares con el detector XceptionNet.'

Por el contrario, el rendimiento de los dos detectores mejoró notablemente al ser entrenados en los datos transformados, con cada detector ahora más capaz de detectar medios engañosos invisibles.

"El esquema de aumento de datos mejora significativamente la solidez de los dos detectores y, mientras tanto, mantienen un alto rendimiento en los datos originales inalterados".

Comparaciones de rendimiento entre los conjuntos de datos sin procesar y aumentados utilizados en los dos detectores de falsificación profunda evaluados en el estudio.

Comparaciones de rendimiento entre los conjuntos de datos sin procesar y aumentados utilizados en los dos detectores de falsificación profunda evaluados en el estudio.

El artículo concluye:

'Los métodos de detección actuales están diseñados para lograr el mayor rendimiento posible en puntos de referencia específicos. Esto a menudo resulta en sacrificar la capacidad de generalización a escenarios más realistas. En este artículo, se propone un esquema de aumento de datos cuidadosamente concebido basado en el proceso natural de degradación de imágenes.

"Extensos experimentos muestran que la técnica simple pero efectiva mejora significativamente la solidez del modelo contra varias distorsiones realistas y operaciones de procesamiento en flujos de trabajo de imágenes típicos".

 

* Hacer coincidir el grano en la cara generada es una función de la transferencia de estilo durante el proceso de conversión.

Publicado por primera vez el 29 de marzo de 2022. Actualizado a las 8:33 p. m. EST para aclarar el uso de granos en Ffmpeg.