Connect with us

Ciberseguridad

Detección de deepfakes en videoconferencias con la función ‘vibrar’ de un smartphone

mm
An AI-generated illustration: 'a gorgeous panoramic picture of a man sitting in an office, looking into his smartphone, which he is holding; the man is wearing a Guy Fawkes mask; photorealistic, UHQ' - ChatGPT 3, Tuesday, September 24, 2024 13:27:31

Nueva investigación de Singapur ha propuesto un método novedoso para detectar si alguien en el otro extremo de una herramienta de videoconferencia de smartphone está utilizando métodos como DeepFaceLive para impersonar a alguien más.

Titled SFake, el nuevo enfoque abandona los métodos pasivos empleados por la mayoría de los sistemas, y hace que el teléfono del usuario vibre (utilizando los mismos mecanismos de ‘vibrar’ comunes en smartphones), y borra sutilmente su rostro.

Aunque los sistemas de deepfaking en vivo son capaces de replicar el desenfoque de movimiento, siempre y cuando el material de video borroso estuviera incluido en los datos de entrenamiento, o al menos en los datos de pre-entrenamiento, no pueden responder lo suficientemente rápido al desenfoque inesperado de este tipo, y continúan saliendo secciones no borrosas de caras, revelando la existencia de una llamada de videoconferencia deepfake.

DeepFaceLive no puede responder lo suficientemente rápido para simular el desenfoque causado por las vibraciones de la cámara. Fuente: https://arxiv.org/pdf/2409.10889v1

DeepFaceLive no puede responder lo suficientemente rápido para simular el desenfoque causado por las vibraciones de la cámara. Fuente: https://arxiv.org/pdf/2409.10889v1

Los resultados de las pruebas en el conjunto de datos auto-curado de los investigadores (ya que no existen conjuntos de datos que presenten sacudida de cámara activa) encontraron que SFake superó a los métodos de detección de deepfakes basados en video competidores, incluso cuando se enfrentó a circunstancias desafiantes, como el movimiento natural de la mano que ocurre cuando la otra persona en una videoconferencia sostiene la cámara con la mano, en lugar de utilizar un soporte de teléfono estático.

La creciente necesidad de detección de deepfakes basada en video

La investigación sobre detección de deepfakes basada en video ha aumentado recientemente. En el contexto de varios años de estafas de deepfakes de voz exitosas, a principios de este año un trabajador de finanzas fue engañado para transferir $25 millones de dólares a un estafador que estaba impersonando a un director financiero en una llamada de videoconferencia deepfake.

Aunque un sistema de este tipo requiere un alto nivel de acceso al hardware, muchos usuarios de smartphones ya están acostumbrados a servicios de verificación financieros y otros tipos de servicios que nos piden grabar nuestras características faciales para la autenticación basada en el rostro (de hecho, esto es parte del proceso de verificación de LinkedIn).

Por lo tanto, parece probable que estos métodos se apliquen cada vez más a los sistemas de videoconferencia, a medida que este tipo de delito sigue siendo noticia.

La mayoría de las soluciones que abordan el deepfaking en tiempo real de videoconferencia asumen un escenario muy estático, donde el comunicante está utilizando una cámara web estacionaria, y no se esperan movimientos o cambios ambientales o de iluminación excesivos. Una llamada de smartphone no ofrece tal situación ‘fija’.

En su lugar, SFake utiliza una serie de métodos de detección para compensar el gran número de variantes visuales en una videoconferencia basada en smartphone portátil, y parece ser el primer proyecto de investigación que aborda el problema mediante el uso de equipo de vibración estándar integrado en los smartphones.

El documento se titula Shaking the Fake: Detecting Deepfake Videos in Real Time via Active Probes, y proviene de dos investigadores de la Universidad Tecnológica de Nanyang en Singapur.

Método

SFake está diseñado como un servicio basado en la nube, donde una aplicación local enviaría datos a un servicio de API remoto para ser procesados, y los resultados se enviarían de vuelta.

Sin embargo, su huella de solo 450mb y metodología optimizada permite que pueda procesar la detección de deepfakes completamente en el dispositivo en sí, en casos donde la conexión de red podría causar que las imágenes enviadas se compriman excesivamente, afectando el proceso de diagnóstico.

Ejecutar ‘todo local’ de esta manera significa que el sistema tendría acceso directo al flujo de cámara del usuario, sin la interferencia del códec a menudo asociada con la videoconferencia.

El tiempo de análisis promedio requiere una muestra de video de cuatro segundos, durante la cual se le pide al usuario que permanezca quieto, y durante la cual SFake envía ‘sondas’ para causar vibraciones de cámara a intervalos selectivamente aleatorios que los sistemas como DeepFaceLive no pueden responder a tiempo.

(Debería reiterarse que cualquier atacante que no haya incluido contenido borroso en el conjunto de datos de entrenamiento es poco probable que pueda producir un modelo que pueda generar desenfoque incluso en circunstancias mucho más favorables, y que DeepFaceLive no puede simplemente ‘agregar’ esta funcionalidad a un modelo entrenado en un conjunto de datos sub-curado)

El sistema elige áreas selectas de la cara como áreas de contenido de deepfake potencial, excluyendo los ojos y las cejas (ya que parpadear y otros movimientos faciales en esa área están fuera del alcance de la detección de desenfoque, y no son un indicador ideal).

Esquema conceptual para SFake.

Esquema conceptual para SFake.

Como podemos ver en el esquema conceptual anterior, después de elegir patrones de vibración apropiados y no predecibles, decidir sobre la mejor distancia focal, y realizar reconocimiento facial (incluyendo detección de puntos de referencia a través de un componente Dlib que estima 68 puntos de referencia faciales estándar), SFake deriva gradientes de la cara de entrada y se concentra en áreas seleccionadas de estos gradientes.

La secuencia de varianza se obtiene analizando secuencialmente cada cuadro en el clip corto bajo estudio, hasta que se llega a la secuencia promedio o ‘ideal’, y el resto se descarta.

Esto proporciona características extraídas que se pueden utilizar como cuantificador de la probabilidad de contenido de deepfake, basado en la base de datos entrenada (de la cual, más adelante).

El sistema requiere una resolución de imagen de 1920×1080 píxeles, así como un requisito de zoom de al menos 2x para la lente. El documento observa que tales resoluciones (y incluso resoluciones más altas) son compatibles con Microsoft Teams, Skype, Zoom y Tencent Meeting.

La mayoría de los smartphones tienen una cámara frontal y una cámara auto-enfocada, y a menudo solo una de ellas tiene las capacidades de zoom requeridas por SFake; la aplicación requeriría que el comunicante use cualquiera de las dos cámaras que cumpla con estos requisitos.

El objetivo aquí es obtener una proporción correcta de la cara del usuario en el flujo de video que el sistema analizará. El documento observa que la distancia promedio que las mujeres utilizan dispositivos móviles es de 34,7 cm, y para los hombres, 38,2 cm (como se informó en Journal of Optometry), y que SFake opera muy bien a estas distancias.

Dado que la estabilización es un problema con el video portátil, y dado que el desenfoque que ocurre por el movimiento de la mano es un impedimento para el funcionamiento de SFake, los investigadores intentaron varios métodos para compensar. El más exitoso de estos fue calcular el punto central de los puntos de referencia estimados y utilizarlo como un ‘ancla’ – efectivamente una técnica de estabilización algorítmica. Mediante este método, se obtuvo una precisión del 92%.

Datos y pruebas

Como no existían conjuntos de datos apropiados para el propósito, los investigadores desarrollaron el suyo propio:

‘[Utilizamos] 8 marcas diferentes de smartphones para grabar 15 participantes de géneros y edades variados para construir nuestro propio conjunto de datos. Colocamos el smartphone en un soporte de teléfono a 20 cm de distancia del participante y lo enfocamos dos veces, apuntando a la cara del participante para abarcar todas sus características faciales mientras vibraba el smartphone en patrones diferentes.

‘Para teléfonos cuyas cámaras frontales no pueden zumbar, utilizamos las cámaras traseras como sustituto. Grabamos 150 videos largos, cada uno de 20 segundos de duración. Por defecto, asumimos que el período de detección dura 4 segundos. Recortamos 10 clips de 4 segundos de un video largo al randomizar el tiempo de inicio. Por lo tanto, obtenemos un total de 1500 clips reales, cada uno de 4 segundos de duración.’

Aunque DeepFaceLive (enlace de GitHub) fue el objetivo central del estudio, ya que es actualmente el foco del interés criminal en cuanto a fraude de videoconferencia, los investigadores incluyeron cuatro métodos más para entrenar su modelo de detección base: Hififace; FS-GANV2; RemakerAI; y MobileFaceSwap – el último de estos una elección particularmente adecuada, dado el entorno objetivo.

Se utilizaron 1500 videos falsos para entrenar, junto con el mismo número de videos reales y no alterados.

SFake se probó contra varios clasificadores diferentes, incluyendo SBI; FaceAF; CnnDetect; LRNet; DefakeHop variantes; y el servicio de detección de deepfakes en línea gratuito Deepaware. Para cada uno de estos métodos de deepfake, se entrenaron 1500 videos falsos y 1500 videos reales.

Para el clasificador de prueba base, se utilizó una red neuronal simple de dos capas con una función de activación ReLU. Se eligieron al azar 1000 videos reales y 1000 videos falsos (aunque los videos falsos eran exclusivamente ejemplos de DeepFaceLive).

El área bajo la curva de características del receptor (AUC/AUROC) y la precisión (ACC) se utilizaron como métricas.

Para el entrenamiento y la inferencia, se utilizó un NVIDIA RTX 3060, y las pruebas se ejecutaron bajo Ubuntu. Los videos de prueba se grabaron con un Xiaomi Redmi 10x, un Xiaomi Redmi K50, un OPPO Find x6, un Huawei Nova9, un Xiaomi 14 Ultra, un Honor 20, un Google Pixel 6a y un Huawei P60.

Para estar de acuerdo con los métodos de detección existentes, las pruebas se implementaron en PyTorch. Los resultados de las pruebas principales se ilustran en la tabla a continuación:

Resultados para SFake contra métodos competidores.

Resultados para SFake contra métodos competidores.

Aquí los autores comentan:

‘En todos los casos, la precisión de detección de SFake superó el 95%. Entre los cinco algoritmos de deepfake, excepto Hififace, SFake se desempeña mejor contra otros algoritmos de deepfake que los otros seis métodos de detección. Como nuestro clasificador se entrenó utilizando imágenes falsas generadas por DeepFaceLive, alcanza la tasa de precisión más alta del 98,8% al detectar DeepFaceLive.

‘Cuando se enfrenta a caras falsas generadas por RemakerAI, otros métodos de detección se desempeñan mal. Especulamos que esto puede deberse a la compresión automática de videos al descargarlos de Internet, lo que resulta en la pérdida de detalles de la imagen y, por lo tanto, reduce la precisión de la detección. Sin embargo, esto no afecta la detección por SFake, que logra una precisión del 96,8% en la detección contra RemakerAI.’

Los autores también observan que SFake es el sistema más performante en el escenario de un zoom de 2x aplicado a la lente de captura, ya que esto exagera el movimiento, y es un prospecto increíblemente desafiante. Incluso en esta situación, SFake pudo lograr una precisión de reconocimiento del 84% y 83%, respectivamente, para factores de magnificación de 2,5 y 3.

Conclusión

Un proyecto que utiliza las debilidades de un sistema de deepfake en vivo en su contra es una oferta refrescante en un año en el que la detección de deepfakes ha sido dominada por documentos que han revuelto enfoques venerables alrededor del análisis de frecuencia (que está lejos de ser inmune a las innovaciones en el espacio de deepfakes).

Al final de 2022, otro sistema utilizó varianza de brillo de monitor como un gancho de detector; y en el mismo año, mi propia demostración de la incapacidad de DeepFaceLive para manejar vistas de perfil duras de 90 grados ganó algún interés de la comunidad.

DeepFaceLive es el objetivo correcto para un proyecto de este tipo, ya que es casi seguro el foco del interés criminal en cuanto a fraude de videoconferencia.

Sin embargo, he visto recientemente algunas pruebas anecdóticas de que el sistema LivePortrait, actualmente muy popular en la comunidad de VFX, maneja las vistas de perfil mucho mejor que DeepFaceLive; habría sido interesante si hubiera podido incluirse en este estudio.

 

Publicado por primera vez el martes 24 de septiembre de 2024

Escritor sobre aprendizaje automático, especialista en síntesis de imágenes humanas. Anterior jefe de contenido de investigación en Metaphysic.ai.