Inteligencia artificial

La información de profundidad puede revelar deepfakes en tiempo real

Published August 24, 2022

Updated April 28, 2026

Martin Anderson

Nueva investigación de Italia ha encontrado que la información de profundidad obtenida de imágenes puede ser una herramienta útil para detectar deepfakes, incluso en tiempo real.

Mientras que la mayoría de las investigaciones sobre detección de deepfakes en los últimos cinco años se han centrado en identificación de artefactos (que pueden ser mitigados por técnicas mejoradas, o confundidos con una mala compresión de codec de video), iluminación ambiental, rasgos biométricos, disrupción temporal y incluso instinto humano, el nuevo estudio es el primero en sugerir que la información de profundidad podría ser un cifrado valioso para el contenido de deepfakes.

Ejemplos de mapas de profundidad derivados, y la diferencia en la información de profundidad perceptual entre imágenes reales y falsas. Fuente: https://arxiv.org/pdf/2208.11074.pdf

Críticamente, los marcos de detección desarrollados para el nuevo estudio operan muy bien en una red ligera como Xception, y aceptablemente bien en MobileNet, y el nuevo artículo reconoce que la baja latencia de inferencia ofrecida a través de dichas redes puede permitir la detección de deepfakes en tiempo real contra la nueva tendencia hacia el fraude de deepfakes en vivo, ejemplificado por el reciente ataque a Binance.

Se puede lograr una mayor economía en el tiempo de inferencia porque el sistema no necesita imágenes en color completo para determinar la diferencia entre mapas de profundidad falsos y reales, sino que puede operar sorprendentemente de manera eficiente solo con imágenes en escala de grises de la información de profundidad.

Los autores afirman: ‘Este resultado sugiere que la profundidad en este caso aporta una contribución más relevante a la clasificación que los artefactos de color.’

Los hallazgos representan parte de una nueva ola de investigación sobre detección de deepfakes dirigida contra sistemas de síntesis facial en tiempo real como DeepFaceLive – un locus de esfuerzo que ha acelerado notablemente en los últimos 3-4 meses, a raíz de la advertencia de la FBI en marzo sobre el riesgo de deepfakes de video y audio en tiempo real.

El artículo se titula DepthFake: una estrategia basada en profundidad para detectar videos de Deepfake, y proviene de cinco investigadores de la Universidad de Roma “La Sapienza”.

Casos límite

Durante el entrenamiento, los modelos de deepfake basados en autoencoders priorizan las regiones internas de la cara, como los ojos, la nariz y la boca. En la mayoría de los casos, en distribuciones de código abierto como DeepFaceLab y FaceSwap (ambos bifurcados del código original de Reddit de 2017 antes de su eliminación), los contornos externos de la cara no se definen bien hasta una etapa muy tardía en el entrenamiento, y es poco probable que coincidan con la calidad de síntesis en el área de la cara interna.

De un estudio anterior, vemos una visualización de ‘mapas de saliencia’ de la cara. Fuente: https://arxiv.org/pdf/2203.01318.pdf

Normalmente, esto no es importante, ya que nuestra tendencia a enfocarnos primero en los ojos y priorizar, ‘hacia afuera’ a niveles decrecientes de atención, significa que es poco probable que seamos perturbados por estas caídas en la calidad periférica – sobre todo si estamos hablando en vivo con la persona que está fingiendo otra identidad, lo que desencadena convenciones sociales y limitaciones de procesamiento que no están presentes cuando evaluamos ‘renderizado’ de deepfakes.

Sin embargo, la falta de detalle o precisión en las regiones de margen afectadas de una cara deepfake puede ser detectada algorítmicamente. En marzo, se anunció un sistema que se basa en el área periférica de la cara. Sin embargo, como requiere una cantidad por encima del promedio de datos de entrenamiento, solo está destinado a celebridades que es probable que figuren en conjuntos de datos faciales populares (como ImageNet) que tienen procedencia en técnicas actuales de visión por computadora y detección de deepfakes.

En cambio, el nuevo sistema, titulado DepthFake, puede operar genéricamente incluso en identidades oscuras o desconocidas, al distinguir la calidad de la información de mapa de profundidad estimada en contenido de video real y falso.

Profundizando

La información del mapa de profundidad se está incorporando cada vez más en los teléfonos inteligentes, incluyendo implementaciones de estéreo asistidas por IA que son particularmente útiles para estudios de visión por computadora. En el nuevo estudio, los autores han utilizado el modelo FaceDepth de la Universidad Nacional de Irlanda, una red codificadora/decodificadora convolucional que puede estimar mapas de profundidad de imágenes de una sola fuente de manera eficiente.

El modelo FaceDepth en acción. Fuente: https://tinyurl.com/3ctcazma

A continuación, la tubería para el nuevo marco de los investigadores italianos extrae un parche de 224×224 píxeles de la cara del sujeto de la imagen RGB original y del mapa de profundidad derivado. Críticamente, esto permite que el proceso copie el contenido principal sin cambiar su tamaño; esto es importante, ya que los algoritmos de redimensionamiento de tamaño estándar afectarán adversamente la calidad de las áreas objetivo.

Utilizando esta información, de fuentes reales y deepfakes, los investigadores luego entrenaron una red neuronal convolucional (CNN) capaz de distinguir instancias reales de falsas, basándose en las diferencias entre la calidad perceptual de los respectivos mapas de profundidad.

Tubería conceptual para DepthFake.

El modelo FaceDepth se entrenó en datos realistas y sintéticos utilizando una función híbrida que ofrece más detalles en los márgenes externos de la cara, lo que lo hace muy adecuado para DepthFake. Utiliza una instancia de MobileNet como extractor de características y se entrenó con imágenes de entrada de 480×640 que producen mapas de profundidad de 240×320. Cada mapa de profundidad representa una cuarta parte de los cuatro canales de entrada utilizados en el discriminador del nuevo proyecto.

El mapa de profundidad se incrusta automáticamente en la imagen RGB original para proporcionar el tipo de imagen RGBD, repleta de información de profundidad, que las cámaras de los teléfonos inteligentes modernos pueden producir.

Entrenamiento

El modelo se entrenó en una red Xception preentrenada en ImageNet, aunque la arquitectura necesitó alguna adaptación para acomodar la información de profundidad adicional mientras se mantenía la inicialización correcta de los pesos.

Además, una discrepancia en los rangos de valores entre la información de profundidad y lo que la red espera necesitó que los investigadores normalizaran los valores a 0-255.

Durante el entrenamiento, solo se aplicó volteo y rotación. En muchos casos, se presentarían diversas perturbaciones visuales al modelo para desarrollar una inferencia robusta, pero la necesidad de preservar la información de mapa de profundidad de borde limitada y muy frágil en las fotos de origen obligó a los investigadores a adoptar un régimen de simplificación.

El sistema también se entrenó en escala de grises simple de 2 canales, para determinar qué tan complejas debían ser las imágenes de origen para obtener un algoritmo viable.

El entrenamiento se llevó a cabo a través de la API de TensorFlow en una NVIDIA GTX 1080 con 8GB de VRAM, utilizando el optimizador ADAMAX, durante 25 épocas, con un tamaño de lote de 32. La resolución de entrada se fijó en 224×224 durante el recorte, y la detección y extracción de la cara se logró con la biblioteca C++ dlib.

Resultados

La precisión de los resultados se probó contra Deepfake, Face2Face, FaceSwap, Neural Texture, y el conjunto de datos completo con entradas RGB y RGBD, utilizando el marco FaceForensic++.

Resultados sobre la precisión en cuatro métodos de deepfake, y contra el conjunto de datos completo no dividido. Los resultados se dividen entre el análisis de imágenes RGB de origen, y las mismas imágenes con un mapa de profundidad inferido incrustado. Los mejores resultados están en negrita, con cifras porcentuales debajo que demuestran la medida en que la información del mapa de profundidad mejora el resultado.

En todos los casos, el canal de profundidad mejora el rendimiento del modelo en todas las configuraciones. Xception obtiene los mejores resultados, con el ágil MobileNet cerca detrás. Sobre esto, los autores comentan:

‘Es interesante destacar que MobileNet es ligeramente inferior a Xception y supera al más profundo ResNet50. Este es un resultado notable cuando se considera el objetivo de reducir los tiempos de inferencia para aplicaciones en tiempo real. Aunque esto no es la contribución principal de este trabajo, todavía lo consideramos un resultado alentador para futuros desarrollos.’

Los investigadores también observan una ventaja consistente de las entradas RGBD y de escala de grises de 2 canales sobre las entradas RGB y de escala de grises, observando que las conversiones de escala de grises de las inferencias de profundidad, que son computacionalmente muy baratas, permiten que el modelo obtenga mejores resultados con recursos locales muy limitados, facilitando el futuro desarrollo de la detección de deepfakes en tiempo real basada en la información de profundidad.

Publicado por primera vez el 24 de agosto de 2022.

Martin Anderson

Escritor sobre aprendizaje automático, especialista en síntesis de imágenes humanas. Anterior jefe de contenido de investigación en Metaphysic.ai.

Unite.AI

La información de profundidad puede revelar deepfakes en tiempo real

Casos límite

Profundizando

Entrenamiento

Resultados

You may like