Inteligencia artificial

Detección de llamadas de video Deepfake a través de la iluminación del monitor

mm

Una nueva colaboración entre un investigador de la Agencia de Seguridad Nacional de los Estados Unidos (NSA) y la Universidad de California en Berkeley ofrece un método novedoso para detectar contenido deepfake en un contexto de video en vivo – observando el efecto de la iluminación del monitor en la apariencia de la persona al otro extremo de la llamada de video.

El usuario popular de DeepFaceLive Druuzil Tech & Games prueba su propio modelo de Christian Bale DeepFaceLab en una sesión en vivo con sus seguidores, mientras cambian las fuentes de luz. Fuente: https://www.youtube.com/watch?v=XPQLDnogLKA

El usuario popular de DeepFaceLive Druuzil Tech & Games prueba su propio modelo de Christian Bale DeepFaceLab en una sesión en vivo con sus seguidores, mientras cambian las fuentes de luz. Fuente: https://www.youtube.com/watch?v=XPQLDnogLKA

El sistema funciona colocando un elemento gráfico en la pantalla del usuario que cambia un rango estrecho de su color más rápido de lo que un sistema deepfake típico puede responder – incluso si, como la implementación de transmisión de deepfake en tiempo real DeepFaceLive (mostrado arriba), tiene alguna capacidad de mantener la transferencia de color en vivo y contabilizar la iluminación ambiental.

La imagen de color uniforme que se muestra en el monitor de la persona al otro extremo (es decir, el posible estafador deepfake) pasa por una variación limitada de cambios de matiz que están diseñados para no activar el equilibrio de blancos automático de la cámara web y otros sistemas de compensación de iluminación ad hoc, que comprometerían el método.

Del papel, una ilustración del cambio en las condiciones de iluminación desde el monitor frente a un usuario, que opera efectivamente como una 'luz de área' difusa. Fuente: https://farid.berkeley.edu/downloads/publications/cvpr22a.pdf

Del papel, una ilustración del cambio en las condiciones de iluminación desde el monitor frente a un usuario, que opera efectivamente como una ‘luz de área’ difusa. Fuente: https://farid.berkeley.edu/downloads/publications/cvpr22a.pdf

La teoría detrás del enfoque es que los sistemas de deepfake en vivo no pueden responder a tiempo a los cambios que se muestran en el gráfico en pantalla, aumentando el ‘retardo’ del efecto deepfake en ciertas partes del espectro de color, revelando su presencia.

Para poder medir con precisión la luz del monitor reflejada, el sistema necesita tener en cuenta y luego descartar el efecto de la iluminación ambiental general que no está relacionada con la luz del monitor. Luego puede distinguir las deficiencias en la medición del matiz de iluminación activa y el matiz facial de los usuarios, lo que representa un desplazamiento temporal de 1-4 fotogramas de diferencia entre cada uno:

Al limitar las variaciones de matiz en el gráfico de 'detector' en pantalla, y asegurarse de que la cámara web del usuario no se ajuste automáticamente a los cambios en la iluminación del monitor, los investigadores han podido discernir un retraso revelador en el ajuste del sistema deepfake a los cambios de iluminación.

Al limitar las variaciones de matiz en el gráfico de ‘detector’ en pantalla, y asegurarse de que la cámara web del usuario no se ajuste automáticamente a los cambios en los niveles de iluminación del monitor, los investigadores han podido discernir un retraso revelador en el ajuste del sistema deepfake a los cambios de iluminación.

El documento concluye:

‘Debido a la confianza razonable que depositamos en las llamadas de video en vivo, y la creciente ubicuidad de las llamadas de video en nuestras vidas personales y profesionales, proponemos que las técnicas para autenticar las llamadas de video (y audio) solo crecerán en importancia.’

El estudio se titula Detección de videos deepfake en tiempo real utilizando iluminación activa, y proviene de Candice R. Gerstner, una matemática de investigación aplicada del Departamento de Defensa de los Estados Unidos, y el profesor Hany Farid de Berkeley.

Erosión de la confianza

La escena de investigación anti-deepfake ha cambiado notablemente en los últimos seis meses, alejándose de la detección general de deepfake (es decir, dirigida a videos pregrabados y contenido pornográfico) y hacia la detección de ‘vitalidad’, en respuesta a una creciente ola de incidentes de uso de deepfake en llamadas de videoconferencia, y a la reciente advertencia del FBI sobre el creciente uso de dichas tecnologías en aplicaciones para trabajo remoto.

Incluso cuando una llamada de video no resulta ser deepfake, las oportunidades aumentadas para los impersonadores de video impulsados por IA están comenzando a generar paranoia.

El nuevo documento establece:

‘La creación de deepfakes en tiempo real [plantea] amenazas únicas debido al sentido general de confianza que rodea una llamada de video o telefónica en vivo, y el desafío de detectar deepfakes en tiempo real, mientras se desarrolla la llamada.’

La comunidad de investigación ha establecido desde hace tiempo el objetivo de encontrar signos infalibles de contenido deepfake que no puedan ser compensados fácilmente. Aunque los medios han caracterizado típicamente esto en términos de una guerra tecnológica entre investigadores de seguridad y desarrolladores de deepfake, la mayoría de las negaciones de los enfoques iniciales (como análisis de parpadeo de ojos, discernimiento de postura de cabeza y análisis de comportamiento) han ocurrido simplemente porque los desarrolladores y usuarios estaban tratando de hacer deepfakes más realistas en general, en lugar de abordar específicamente el último ‘indicador’ identificado por la comunidad de seguridad.

Arrojando luz sobre el video deepfake en vivo

Detectar deepfakes en entornos de video en vivo conlleva la carga de tener en cuenta las malas conexiones de video, que son muy comunes en escenarios de videoconferencia. Incluso sin una capa de deepfake intermedia, el contenido de video puede estar sujeto a un retraso similar al de la NASA, artefactos de renderizado y otros tipos de degradación en audio y video. Estos pueden servir para ocultar los bordes ásperos en una arquitectura de deepfake en vivo, tanto en términos de video como de audio deepfakes.

El sistema de los autores mejora los resultados y métodos que se presentan en una publicación de 2020 del Centro de Computación en Red de la Universidad de Temple en Filadelfia.

Del papel de 2020, podemos observar el cambio en la iluminación facial 'rellenada' a medida que cambia el contenido de la pantalla del usuario. Fuente: https://cis.temple.edu/~jiewu/research/publications/Publication_files/FakeFace__ICDCS_2020.pdf

Del papel de 2020, podemos observar el cambio en la iluminación facial ‘rellenada’ a medida que cambia el contenido de la pantalla del usuario. Fuente: https://cis.temple.edu/~jiewu/research/publications/Publication_files/FakeFace__ICDCS_2020.pdf

La diferencia en el nuevo trabajo es que tiene en cuenta la forma en que las cámaras web responden a los cambios de iluminación. Los autores explican:

‘Debido a que todas las cámaras web modernas realizan una exposición automática, el tipo de iluminación activa de alta intensidad [utilizado en el trabajo anterior] probablemente activará la exposición automática de la cámara, lo que a su vez confundirá la apariencia facial registrada. Para evitar esto, empleamos una iluminación activa que consiste en un cambio isoluminante de matiz.

‘Si bien esto evita la exposición automática de la cámara, podría activar el equilibrio de blancos de la cámara, lo que nuevamente confundiría la apariencia facial registrada. Para evitar esto, operamos en un rango de matiz que hemos determinado empíricamente que no activa el equilibrio de blancos.’

Para esta iniciativa, los autores también consideraron esfuerzos anteriores similares, como LiveScreen, que fuerza un patrón de iluminación poco conspicuo en la pantalla del usuario final para revelar contenido deepfake.

Aunque ese sistema logró una tasa de precisión del 94,8%, los investigadores concluyen que la sutileza de los patrones de luz haría que un enfoque encubierto como este fuera difícil de implementar en entornos con mucha iluminación, y en cambio proponen que su propio sistema, o uno similar, podría incorporarse públicamente y por defecto en software de videoconferencia popular:

‘Nuestra intervención propuesta podría realizarse mediante un participante en la llamada que simplemente comparte su pantalla y muestra el patrón que varía en el tiempo, o, idealmente, podría integrarse directamente en el cliente de llamada de video.’

Pruebas

Los autores utilizaron una mezcla de sujetos sintéticos y del mundo real para probar su detector de deepfake impulsado por Dlib. Para el escenario sintético, utilizaron Mitsuba, un renderizador hacia adelante y hacia atrás del Instituto Federal Suizo de Tecnología en Lausana.

Muestras del conjunto de datos simulados, con tonos de piel variables, tamaño de fuente de luz, intensidad de luz ambiental y proximidad a la cámara.

Muestras de las pruebas de entorno simulado, con tonos de piel variables, tamaño de fuente de luz, intensidad de luz ambiental y proximidad a la cámara.

La escena representada incluye una cabeza de CGI paramétrica capturada desde una cámara virtual con un ángulo de visión de 90°. Las cabezas presentan reflectancia de Lambert y tonos de piel neutros, y están situadas a 2 pies frente a la cámara virtual.

Para probar el marco en una variedad de configuraciones de imagen posible, los investigadores realizaron una serie de pruebas, variando diversos aspectos secuencialmente. Los aspectos cambiados incluyeron tono de piel, proximidad e iluminación de tamaño de luz.

Los autores comentan:

‘En la simulación, con nuestras diversas suposiciones satisfechas, nuestra técnica propuesta es muy robusta a una amplia gama de configuraciones de imagen.’

Para el escenario del mundo real, los investigadores utilizaron 15 voluntarios con una variedad de tonos de piel, en entornos diversos. Cada uno fue sometido a dos ciclos de la variación de matiz restringida, en condiciones en las que una tasa de refresco de pantalla de 30 Hz se sincronizó con la cámara web, lo que significaba que la iluminación activa solo duraría un segundo a la vez. Los resultados fueron ampliamente comparables con las pruebas sintéticas, aunque las correlaciones aumentaron notablemente con valores de iluminación más grandes.

Direcciones futuras

El sistema, los investigadores conceden, no tiene en cuenta las occlusiones faciales típicas, como flequillos, gafas o vello facial. Sin embargo, señalan que el enmascaramiento de este tipo puede agregarse a sistemas posteriores (a través de etiquetado y segmentación semántica posterior), que podrían entrenarse para tomar valores exclusivamente de áreas de piel percibidas en el sujeto objetivo.

Los autores también sugieren que un paradigma similar podría emplearse para detectar llamadas de audio deepfakes, y que el sonido necesario para detectar podría reproducirse en una frecuencia fuera del rango auditivo normal humano.

Quizás lo más interesante es que los investigadores también sugieren que ampliar el área de evaluación más allá de la cara en un marco de captura más rico podría mejorar notablemente la posibilidad de detección de deepfakes*:

‘Una estimación más sofisticada de la iluminación 3D probablemente proporcionaría un modelo de apariencia más rico que sería aún más difícil para un falsificador eludir. Mientras nos centrábamos solo en la cara, la pantalla del ordenador también ilumina el cuello, el torso superior y el fondo circundante, desde los cuales se podrían realizar mediciones similares.

‘Estas mediciones adicionales obligarían al falsificador a considerar toda la escena 3D, no solo la cara.’

 

* Mi conversión de las citas en línea de los autores a hipervínculos.

Publicado por primera vez el 6 de julio de 2022.

Escritor sobre aprendizaje automático, especialista en síntesis de imágenes humanas. Anterior jefe de contenido de investigación en Metaphysic.ai.