talón Deepfakes puede engañar efectivamente a muchas de las principales API de 'vida' faciales - Unite.AI
Contáctanos

Inteligencia artificial

Deepfakes puede engañar efectivamente a muchas de las principales API de 'vida' facial

mm
Actualizado on
De DeepFace Live: Arnold Schwarzenegger 224 3.03 millones de iteraciones | RTX A6000-https://www.youtube.com/watch?v=9tr35y-yQRY
De 'DeepFace Live - Arnold Schwarzenegger 224 3.03 millones de iteraciones | RTX A6000' - https://www.youtube.com/watch?v=9tr35y-yQRY

Una nueva colaboración de investigación entre EE. UU. y China ha investigado la susceptibilidad a los deepfakes de algunos de los sistemas de autenticación basados ​​en rostros más grandes del mundo y ha descubierto que la mayoría de ellos son vulnerables a formas emergentes y en desarrollo de ataques de deepfake.

La investigación llevó a cabo intrusiones basadas en deepfakes utilizando un marco personalizado implementado contra los sistemas de verificación de vida facial (FLV) que comúnmente suministran los principales proveedores y se venden como un servicio a clientes intermedios, como aerolíneas y compañías de seguros.

Del documento, una descripción general del funcionamiento de las API de verificación de vida facial (FLV) en los principales proveedores. Fuente: https://arxiv.org/pdf/2202.10673.pdf

Del documento, una descripción general del funcionamiento de las API de verificación de vida facial (FLV) en los principales proveedores. Fuente: https://arxiv.org/pdf/2202.10673.pdf

Facial Liveness pretende repeler el uso de técnicas como ataques de imagen adversarios, El uso de máscaras y video pregrabado, los llamados 'caras maestras'y otras formas de clonación de identificación visual.

El estudio concluye que la cantidad limitada de módulos de detección de falsificaciones profundas implementados en estos sistemas, muchos de los cuales atienden a millones de clientes, están lejos de ser infalibles y pueden haber sido configurados con técnicas de falsificación profunda que ahora están obsoletas o pueden ser demasiado específicas de la arquitectura. .

Los autores señalan:

'[Diferentes] métodos de falsificación profunda también muestran variaciones entre diferentes proveedores... Sin acceso a los detalles técnicos de los proveedores de FLV objetivo, especulamos que tales variaciones se atribuyen a las medidas de defensa implementadas por diferentes proveedores. Por ejemplo, ciertos proveedores pueden implementar defensas contra ataques deepfake específicos.

Y continúa:

'[La mayoría] de las API de FLV no utilizan detección anti-falsificación profunda; incluso para aquellos con tales defensas, su efectividad es preocupante (por ejemplo, puede detectar videos sintetizados de alta calidad pero fallar en detectar los de baja calidad).'

Los investigadores observan, en este sentido, que la 'autenticidad' es relativa:

"[Incluso] si un video sintetizado es irreal para los humanos, aún puede pasar por alto el mecanismo actual de detección anti-falsificación profunda con una tasa de éxito muy alta".

Arriba, muestra imágenes falsas que pudieron autenticarse en los experimentos de los autores. A continuación, imágenes falsas aparentemente mucho más realistas que fallaron en la autenticación.

Arriba, muestra imágenes falsas que pudieron autenticarse en los experimentos de los autores. A continuación, imágenes falsas aparentemente mucho más realistas que fallaron en la autenticación.

Otro hallazgo fue que la configuración actual de los sistemas genéricos de verificación facial está sesgada hacia los hombres blancos. Posteriormente, se descubrió que las identidades femeninas y no blancas eran más efectivas para eludir los sistemas de verificación, poniendo a los clientes en esas categorías en mayor riesgo de violación a través de técnicas basadas en deepfake.

El informe encuentra que las identidades de los hombres blancos son evaluadas de manera más rigurosa y precisa por las populares API de verificación de vida facial. En la tabla anterior, vemos que las identidades femeninas y no blancas se pueden usar más fácilmente para eludir los sistemas.

El informe encuentra que las identidades de los hombres blancos son evaluadas de manera más rigurosa y precisa por las populares API de verificación de vida facial. En la tabla anterior, vemos que las identidades femeninas y no blancas se pueden usar más fácilmente para eludir los sistemas.

El diario observa que 'hay sesgos en [Verificación de vida facial], que pueden traer riesgos de seguridad significativos para un grupo particular de personas.'

Los autores también llevaron a cabo ataques de autenticación facial ética contra el gobierno chino, una importante aerolínea china, una de las compañías de seguros de vida más grandes de China y R360, uno de los grupos de inversión unicornio más grandes del mundo, y reportan el éxito en eludir el uso posterior de las API estudiadas por parte de estas organizaciones.

En el caso de una omisión de autenticación exitosa para la aerolínea china, la API descendente requería que el usuario 'sacudiera la cabeza' como prueba contra el material falsificado potencial, pero esto demostró no funcionar contra el marco ideado por los investigadores, que incorpora seis arquitecturas deepfake.

A pesar de la evaluación de la aerolínea sobre el movimiento de cabeza de un usuario, el contenido deepfake pudo pasar la prueba.

A pesar de la evaluación de la aerolínea sobre el movimiento de cabeza de un usuario, el contenido deepfake pudo pasar la prueba.

El documento señala que los autores contactaron a los proveedores involucrados, quienes supuestamente reconocieron el trabajo.

Los autores ofrecen una lista de recomendaciones para mejorar el estado actual del arte en FLV, incluido el abandono de la autenticación de una sola imagen ("FLV basado en imágenes"), donde la autenticación se basa en un solo cuadro de la transmisión de la cámara de un cliente; una actualización más flexible y completa de los sistemas de detección de falsificaciones profundas en los dominios de imagen y voz; imponer la necesidad de que la autenticación basada en voz en el video del usuario se sincronice con los movimientos de los labios (lo que no ocurre ahora, en general); y exigir a los usuarios que realicen gestos y movimientos que actualmente son difíciles de reproducir para los sistemas deepfake (por ejemplo, Visitas al perfil y ofuscación parcial de la cara).

El se titula ¿Ver es Vivir? Repensar la seguridad de la verificación de vida facial en la era de las falsificaciones profundas, y proviene de los autores principales conjuntos Changjiang Li y Li Wang, y otros cinco autores de la Universidad Estatal de Pensilvania, la Universidad de Zhejiang y la Universidad de Shandong.

Los objetivos principales

Los investigadores se dirigieron a los "seis proveedores más representativos" de verificación de vida facial (FLV), que han sido anonimizados con criptónimos en la investigación.

Los vendedores están representados así: 'BD' y 'TC' representar a un proveedor conglomerado con la mayor cantidad de llamadas API relacionadas con el rostro y la mayor parte de los servicios en la nube de IA de China; 'HW' es 'uno de los proveedores con el mercado de nube pública [chino] más grande'; 'CW' tiene la tasa de crecimiento más rápida en visión por computadora y está alcanzando una posición líder en el mercado; 'CALLE' se encuentra entre los mayores proveedores de visión artificial; y 'si t' números entre los mayores proveedores de software de IA en China.

Datos y Arquitectura

Los datos subyacentes que impulsan el proyecto incluyen un conjunto de datos de 625,537 XNUMX imágenes de la iniciativa china. CelebA-parodia, junto con videos en vivo de 2019 de la Universidad Estatal de Michigan SiW-M conjunto de datos

Todos los experimentos se realizaron en un servidor con dos CPU Intel Xeon E2.40-5 v2640 de 4 GHz que se ejecutan en 256 GB de RAM con un disco duro de 4 TB y cuatro GPU NVIDIA 1080Ti orquestadas, para un total de 44 GB de VRAM operativa.

Seis en uno

El marco ideado por los autores del artículo se denomina LiveBuggere incorpora seis marcos de falsificación profunda de última generación contra las cuatro defensas principales en los sistemas FLV.

LiveBugger contiene diversos enfoques de falsificación profunda y se centra en los cuatro principales vectores de ataque en los sistemas FLV.

LiveBugger contiene diversos enfoques de falsificación profunda y se centra en los cuatro principales vectores de ataque en los sistemas FLV.

Los seis marcos deepfake utilizados son: Oxford University's 2018 X2Cara; la colaboración académica de EE.UU. cara IC; dos variaciones del proyecto israelí 2019 FSGAN; El Italiano Modelo de método de primer orden (FOMM), desde principios de 2020; y la colaboración de Microsoft Research de la Universidad de Pekín Cambiador de cara (aunque dado que FaceShifter no es de código abierto, los autores tuvieron que reconstruirlo en función de los detalles de la arquitectura publicados).

Los métodos empleados entre estos marcos incluyeron el uso de video renderizado previamente en el que los sujetos del video falso realizan acciones de memoria que se extrajeron de los requisitos de autenticación de API en un módulo de evaluación anterior de LiveBugger, y también el uso de títeres falsos efectivos. ', que traduce los movimientos en vivo de un individuo en una transmisión falsa que se ha insertado en una transmisión de cámara web cooptada.

Un ejemplo de esto último es cara profunda en vivo, cual debutó el verano pasado como un programa adjunto al popular ProfundoFaceLab, para habilitar la transmisión de deepfake en tiempo real, pero que no está incluida en la investigación de los autores.

Atacando a los cuatro vectores

Los cuatro vectores de ataque dentro de un sistema FLV típico son: FLV basado en imágenes, que emplea una sola foto proporcionada por el usuario como token de autenticación contra una identificación facial registrada en el sistema; FLV basado en el silencio, que requiere que el usuario suba un videoclip de sí mismo; FLV basado en acciones, que requiere que el usuario realice acciones dictadas por la plataforma; y FLV basado en voz, que compara la voz solicitada de un usuario con la entrada de la base de datos del sistema para el patrón de voz de ese usuario.

El primer desafío para el sistema es establecer hasta qué punto una API divulgará sus requisitos, ya que luego se pueden anticipar y atender en el proceso de falsificación profunda. Esto lo maneja el motor de inteligencia en LiveBugger, que recopila información sobre los requisitos de la documentación API disponible públicamente y otras fuentes.

Dado que los requisitos publicados pueden estar ausentes (por varios motivos) de las rutinas reales de la API, el motor de inteligencia incorpora una sonda que recopila información implícita basada en los resultados de las llamadas exploratorias de la API. En el proyecto de investigación, esto fue facilitado por las API oficiales de 'prueba' fuera de línea proporcionadas en beneficio de los desarrolladores, y también por voluntarios que se ofrecieron a usar sus propias cuentas reales para la prueba.

El motor de inteligencia busca evidencia sobre si una API está utilizando actualmente un enfoque particular que podría ser útil en los ataques. Las características de este tipo pueden incluir detección de coherencia, que verifica si los cuadros en un video son temporalmente continuos, un requisito que se puede establecer enviando cuadros de video codificados y observando si esto contribuye a la falla de autenticación.

El módulo también busca Detección de lenguaje de labios, donde la API puede verificar si el sonido del video es sincronizado con los movimientos de los labios del usuario (rara vez el caso - ver 'Resultados' a continuación).

Resultados

Los autores encontraron que las seis API evaluadas no usaban la detección de coherencia en el momento de los experimentos, lo que permitía que el motor deepfaker en LiveBugger simplemente uniera audio sintetizado con video deepfake, basado en material aportado por voluntarios.

Sin embargo, se descubrió que algunas aplicaciones posteriores (es decir, los clientes de los marcos API) habían agregado la detección de coherencia al proceso, lo que requería la pregrabación de un video adaptado para eludir esto.

Además, solo unos pocos proveedores de API utilizan la detección del lenguaje de los labios; para la mayoría de ellos, el video y el audio se analizan como cantidades separadas, y no existe ninguna funcionalidad que intente hacer coincidir el movimiento de los labios con el audio provisto.

Diversos resultados que abarcan la gama de técnicas falsas disponibles en LiveBugger contra la variada gama de vectores de ataque en las API de FLV. Los números más altos indican que el atacante ha penetrado con éxito la autenticación mediante técnicas de falsificación profunda. No todas las API incluyen todas las defensas posibles para FLV; por ejemplo, varios no ofrecen ninguna defensa contra las falsificaciones profundas, mientras que otros no verifican que el movimiento de los labios y el audio coincidan en el video enviado por el usuario durante la autenticación.

Diversos resultados que abarcan la gama de técnicas falsas disponibles en LiveBugger contra la variada gama de vectores de ataque en las API de FLV. Los números más altos indican una mayor tasa de éxito en la penetración de FLV utilizando técnicas de falsificación profunda. No todas las API incluyen todas las defensas posibles para FLV; por ejemplo, varios no ofrecen ninguna defensa contra las falsificaciones profundas, mientras que otros no verifican que el movimiento de los labios y el audio coincidan en el video enviado por el usuario durante la autenticación.

Conclusión

Los resultados del documento y las indicaciones para el futuro de las API de FLV son laberínticos, y los autores los han concatenado en una 'arquitectura de vulnerabilidades' funcional que podría ayudar a los desarrolladores de FLV a comprender mejor algunos de los problemas descubiertos”.

La red de recomendaciones del documento con respecto a la susceptibilidad existente y potencial de las rutinas de identificación de video basadas en rostros a ataques de falsificación profunda.

La red de recomendaciones del documento con respecto a la susceptibilidad existente y potencial de las rutinas de identificación de video basadas en rostros a ataques de falsificación profunda.

Las recomendaciones señalan:

"Los riesgos de seguridad de FLV existen ampliamente en muchas aplicaciones del mundo real y, por lo tanto, amenazan la seguridad de millones de usuarios finales".

Los autores también observan que el uso de FLV basado en acciones es 'marginal' y que aumentar la cantidad de acciones que los usuarios deben realizar 'no puede generar ninguna ganancia en seguridad'.

Además, los autores señalan que combinar el reconocimiento de voz y el reconocimiento temporal de rostros (en video) es una defensa infructuosa a menos que los proveedores de API comiencen a exigir que los movimientos de los labios se sincronicen con el audio.

El documento surge a la luz de un reciente Advertencia del FBI a las empresas de los peligros del fraude deepfake, casi un año después de su augurio de la tecnología uso en operaciones de influencia extranjera, Y de temores generales que la tecnología live deepfake facilitará una nueva ola de delitos en un público que aún confía en las arquitecturas de seguridad de autenticación de video.

Estos son todavía los primeros días de deepfake como superficie de ataque de autenticación; en 2020 se invirtieron $35 millones de dólares extraído fraudulentamente de un banco en los Emiratos Árabes Unidos mediante el uso de tecnología de audio deepfake, y un ejecutivo del Reino Unido también fue estafado para desembolsar $ 243,000 en 2019.

 

Publicado por primera vez el 23 de febrero de 2022.