Inteligencia Artificial
Detección de falsificación profunda basada en rasgos biométricos humanos originales

Un nuevo artículo de investigadores en Italia y Alemania propone un método para detectar videos falsos profundos basado en el comportamiento biométrico de la cara y la voz, en lugar de artefactos creados por sistemas de síntesis facial, costosas soluciones de marcas de agua u otros enfoques más difíciles de manejar.
El marco requiere una entrada de 10 o más videos variados y no falsos del tema. Sin embargo, no requiere ser entrenado, vuelto a entrenar o aumentado específicamente en videos por caso, ya que su modelo incorporado ya ha abstraído las posibles distancias vectoriales entre videos reales y falsos de una manera ampliamente aplicable.

El aprendizaje contrastivo sustenta el enfoque de POI-Forensics. Los vectores derivados del material de origen en cada caso se comparan con los mismos vectores en un posible video falso, con facetas y características extraídas de los componentes de video y audio del metraje potencialmente falsificado. Fuente: https://arxiv.org/pdf/2204.03083.pdf
Bajo el título PDI-forense, el enfoque se basa en el movimiento y las señales de audio exclusivas del individuo real que se está falsificando.
Si bien un sistema de este tipo podría permitir marcos de autenticación completamente automatizados y "pre-renderizados" para celebridades, políticos, personas influyentes de YouTube y otras personas para las que hay una gran cantidad de material de video disponible, también podría adaptarse a un marco en el que las víctimas comunes de tecnologías deepfake podrían potencialmente tener una plataforma para demostrar la falta de autenticidad de los ataques en su contra.

Visualizaciones de características extraídas de videos genuinos y falsos en cuatro temas en POI-Forensics, a través de la marco t-SNE.
Los autores afirman que POI-Forensics alcanza un nuevo nivel de tecnología en la detección de deepfakes. En diversos conjuntos de datos comunes en este campo, se ha reportado que el marco logra una mejora en las puntuaciones AUC del 3 %, 10 % y 7 % para videos de alta calidad, baja calidad y "atacados", respectivamente. Los investigadores prometen publicar... el código en breve.

Rendimiento de POI-Forensics frente a los marcos SOTA rivales pDFDC, DeepFakeTIMIT, FalsoAVCelebV2 y KoDF. El entrenamiento en cada caso se realizó en CaraForense++ y los propios autores ID-Revelar en VoxCeleb2. Los resultados incluyen videos de alta y baja calidad.
Los autores declaran:
El entrenamiento se realiza exclusivamente con videos reales de caras parlantes, por lo que el detector no depende de ningún método de manipulación específico y ofrece la máxima capacidad de generalización. Además, nuestro método puede detectar ataques monomodales (solo audio, solo video) y multimodales (audio-video), y es robusto ante videos de baja calidad o corruptos al basarse únicamente en características semánticas de alto nivel.
El nuevo edificio corporativo de , que incorpora elementos de la visión basada en algunos de los autores. ID-Revelar proyecto de 2021, se titula Detección de DeepFake de persona de interés audiovisual, y es un esfuerzo conjunto entre la Universidad de Federico II en Nápoles y la Universidad Técnica de Munich.
La carrera armamentista Deepfake
Para derrotar un sistema de detección de esta naturaleza, los sistemas de síntesis humano y deepfake requerirían la capacidad de al menos simular señales biométricas visuales y de audio del objetivo previsto de la síntesis: tecnología que está a muchos años de distancia y probablemente permanecerá en el ámbito de costosos y propietarios sistemas cerrados desarrollados por empresas VFX, que tendrán la ventaja de la cooperación y participación de los objetivos previstos (o sus patrimonios, en el caso de simulación de personas fallecidas).

El enfoque anterior de los autores, ID-Reveal, se centraba enteramente en la información visual. Fuente: https://arxiv.org/pdf/2012.02512.pdf
Métodos deepfake exitosos y populares como Intercambio cara ProfundoFaceLab/En vivo actualmente no tienen capacidad para crear tales aproximaciones biométricas granulares, confiando en el mejor de los casos en talentosos imitadores A quienes se les impone la identidad falsa, y con mucha mayor frecuencia, a imágenes reales de personas "similares". La estructura del código principal de 2017, poco modular y que sigue siendo la fuente original de DFL y FaceSwap, tampoco permite añadir este tipo de funcionalidad.
Estos dos paquetes dominantes de falsificación profunda se basan en codificadores automáticos. Los métodos alternativos de síntesis humana pueden usar una Red adversa generativa (GAN) o un Campo de radiación neuronal (NERF) enfoque para recrear la identidad humana; pero ambas líneas de investigación tienen años de trabajo por delante incluso para producir videos humanos totalmente fotorrealistas.
Con la excepción del audio (voces simuladas), la simulación biométrica ocupa un lugar muy bajo en la lista de desafíos que enfrenta la síntesis de imágenes humanas. En cualquier caso, reproducir el timbre y otras cualidades de la voz humana no reproduce sus excentricidades ni sus "señales", ni la forma en que el sujeto real utiliza la construcción semántica. Por lo tanto, ni siquiera la perfección de la simulación de voz generada por IA resuelve el posible obstáculo a la autenticidad biométrica.
Solo en Arxiv, se están implementando varias estrategias e innovaciones de detección de falsificaciones profundas. lanzado cada semana. Los enfoques recientes se han basado en Homogeneidad voz-rostro, Histograma de patrón binario local (FF-LBPH), percepción humana de audio deepfakes, analizando los bordes de la cara, teniendo en cuenta la degradación del video y 'Balística forense' - Entre muchos otros.

El análisis de histogramas segmentados es una de las últimas técnicas que se ofrecen para mejorar la detección de falsificaciones profundas. Fuente: https://arxiv.org/pdf/2203.09928.pdf
Enfoque, Datos y Arquitectura
POI-Forensics adopta un enfoque multimodal para la verificación de identidad, aprovechando la biometría suave basada en señales visuales y de audio. El marco presenta redes de audio y video separadas, que en última instancia derivan datos vectoriales característicos que se pueden comparar con las mismas características extraídas en un posible video falso bajo estudio.

La arquitectura conceptual de POI-Forensics.
Tanto el análisis separado (audio o video) como el de fusión se pueden efectuar en los clips de destino, llegando finalmente a un índice de similitud de PDI. La función de pérdida contrastiva empleada se basa en un 2021 colaboración académica entre Google Research, la Universidad de Boston, Snap Inc. y el MIT.
El conjunto de datos base se dividió por identidad. Se usaron 4608 identidades para entrenamiento, con 512 restantes para validación. Las 500 identidades utilizadas en FakeAVCelebV2 (un candidato de prueba, ver más abajo) se excluyeron para obtener resultados no polarizados.
Las dos redes se entrenaron para 12 épocas en un tamaño de lote inusualmente grande de 2304 lotes por época, con cada lote compuesto por 8 × 8 segmentos de video: 8 segmentos para 8 identidades diferentes. El optimizador de Adam se usó con caída de peso desacoplada a una tasa de aprendizaje de 10-4, y una caída de peso de 0.01.
Pruebas y resultados
Los conjuntos de datos deepfake probados para el proyecto fueron los Vista previa del conjunto de datos del Desafío de detección de DeepFake, que presenta intercambios de rostros en 68 temas, de los cuales se seleccionaron 44 identidades que tienen más de nueve videos relacionados, con un total de 920 videos reales y 2925 videos falsos; DeepFake-TIMIT, un conjunto de datos basado en GAN que incluye 320 vídeos de 32 sujetos, con un total de 290 vídeos reales y 580 vídeos falsos de al menos cuatro segundos de duración; FalsoAVCelebV2, compuesto por 500 videos reales de Voxceleb2, y aproximadamente 20,000 XNUMX videos falsos de varios conjuntos de datos, a los que se agregó audio clonado falso con SV2TTS por compatibilidad; y KoDF, un conjunto de datos deepfake coreano con 403 identidades falsificadas a través de FaceSwap, DeepFaceLab y FSGAN, así como tres modelos de movimiento de primer orden (FOMM).
Este último también cuenta con síntesis facial impulsada por audio. ATFHPy salida de Wav2Labio, con los autores utilizando un conjunto de datos derivado con 276 videos reales y 544 videos falsos.
Las métricas utilizadas incluyeron el área bajo la curva característica operativa del receptor (AUC) y una "tasa de falsas alarmas" aproximada del 10%, lo que sería problemático en marcos que incorporan y entrenan con datos falsos, pero esa preocupación se elimina por el hecho de que POI-Forensics solo toma material de video genuino como entrada.
Los métodos fueron probados contra el Seferbekov detector de deepfake, que logró el primer lugar en Kaggle Deepfake Detection Desafío; FTCN (Red de convolución totalmente temporal), una colaboración entre la Universidad de Xiamen de China y Microsoft Research Asia; labioforense, un trabajo conjunto de 2021 entre Imperial College London y Facebook; y ID-Revelar, un proyecto anterior de varios de los investigadores del nuevo artículo, que omite un aspecto de audio y que utiliza modelos morfables 3D en combinación con un escenario de juego adversarial para detectar resultados falsos.
En los resultados (consulte la tabla anterior), POI-Forensics superó al líder de referencia Seferbekov en un 2.5 % en AUC y en un 1.5 % en términos de precisión. El rendimiento fue más competitivo que otros conjuntos de datos en la sede.
Sin embargo, el nuevo enfoque demostró una ventaja notable sobre todos los métodos de referencia de la competencia para videos de baja calidad, que siguen siendo los escenario más probable en el que los deepfakes tienden a engañar a los espectadores ocasionales, basándose en contextos del "mundo real".
Los autores afirman:
'De hecho, en este desafiante escenario, solo los enfoques basados en la identidad siguen ofreciendo un buen rendimiento, ya que se basan en características semánticas de alto nivel, bastante robustas ante alteraciones de la imagen.'
Teniendo en cuenta que PIO-Forensics utiliza solo videos reales como material fuente, el logro se magnifica, y sugiere que usar los rasgos biométricos nativos de las potenciales víctimas de deepfake es un camino que vale la pena para escapar de la "guerra fría de artefactos" entre el software de deepfake y las soluciones de detección de deepfake.
En una prueba final, los investigadores agregaron ruido adverso a la entrada, un método que puede engañar de manera confiable a los clasificadores. El ahora venerable método de signo de gradiente rápido todavía resulta particularmente eficaz, en este sentido.
Como era de esperar, las estrategias de ataque adversarial redujeron la tasa de éxito en todos los métodos y conjuntos de datos, con un descenso del AUC en incrementos de entre el 10 % y el 38 %. Sin embargo, solo POI-Forensics y el método anterior de los autores, ID-Reveal, lograron mantener un rendimiento razonable en este escenario de ataque, lo que sugiere que las características de alto nivel asociadas con la biometría blanda son extraordinariamente resistentes a la evasión de la detección de deepfakes.
Los autores concluyen:
En general, creemos que nuestro método es un primer paso; en particular, el uso de características semánticas de alto nivel es una prometedora línea de investigación futura. Además, el análisis multimodal podría enriquecerse aún más al incluir más información de otros dominios, como los datos textuales.
Publicado por primera vez el 8 de abril de 2022.












