Contáctenos

La compresión JPEG aumenta la tasa de errores de reconocimiento facial para rostros no caucásicos, según un estudio

Inteligencia Artificial

La compresión JPEG aumenta la tasa de errores de reconocimiento facial para rostros no caucásicos, según un estudio

mm
Imagen principal: DALL-E 2.
Imagen principal: DALL-E 2.

Un nuevo estudio del Reino Unido ha concluido que las técnicas de compresión con pérdida en imágenes JPEG pueden tener una influencia negativa en la eficacia de los sistemas de reconocimiento facial, lo que aumenta la probabilidad de que dichos sistemas identifiquen incorrectamente a una persona no caucásica.

El documento dice:

'A través de una extensa configuración experimental, demostramos que los enfoques comunes de compresión de imágenes con pérdida tienen un impacto negativo más pronunciado en el rendimiento del reconocimiento facial para categorías de fenotipos raciales específicos, como tonos de piel más oscuros (hasta un 34.55%).'

Los resultados también indican que submuestreo de croma, que reduce la información de color (en lugar de la información de brillo) en las secciones de una imagen facial, aumenta la tasa de coincidencias falsas (FMR) en una variedad de conjuntos de datos probados, muchos de los cuales son repositorios estándar para visión por computadora.

Las operaciones de submuestreo de croma en una imagen de origen, a diferentes velocidades, tienen un efecto claro en la medida en que se conservan los detalles y en la medida en que los subtonos simplemente se "mezclan" entre sí, sacrificando detalles y características determinantes. Tenga en cuenta que esta imagen en sí misma puede estar sujeta a compresión y consulte el documento de origen para obtener una resolución precisa. Fuente: https://arxiv.org/pdf/2208.07613.pdf

Las operaciones de submuestreo de croma en una imagen original, a distintas velocidades, tienen un claro efecto en la conservación del detalle y en la fusión de los subtonos, sacrificando detalles y determinando las características. Tenga en cuenta que esta imagen puede estar sujeta a compresión; consulte el documento original para obtener una resolución precisa.. Fuente: https://arxiv.org/pdf/2208.07613.pdf

El submuestreo de croma se aplica como una medida económica adicional en la compresión JPEG porque las personas son menos capaces de percibir reducciones en la complejidad y el rango de las bandas de color que los sistemas de visión por computadora, que toman estas "agregaciones" mucho más literalmente que nosotros.

Los investigadores del nuevo estudio descubrieron que eliminar el submuestreo de croma del proceso de compresión reduce este efecto negativo hasta en un 15.95 %, aunque no elimina el problema por completo.

El estudio también afirma que el entrenamiento en datos sin comprimir (o menos comprimidos) no resolver el problema si las imágenes en tiempo de inferencia están comprimidas. Efectivamente, esto significa que entrenar un modelo de reconocimiento facial en imágenes menos comprimidas no resolverá el sesgo si el modelo de producción final se alimenta con imágenes que tienen los problemas de compresión indicados.

Los autores informan*:

'[El] uso de la compresión de imágenes con pérdida durante la inferencia afecta negativamente al rendimiento de los enfoques de reconocimiento facial en un subconjunto de agrupaciones de fenotipos faciales relacionados con la raza (es decir, tonos de piel más oscuros, forma de ojo monólido) y que su efecto está presente independientemente de si se utilizan imágenes comprimidas para el entrenamiento del modelo.

El documento subraya las consecuencias de la compresión de imágenes en el sector de investigación de la visión artificial, que se explicaron con cierto detalle en un estudio del 2021 de la Universidad de Maryland y Facebook AI.

Se trata de un problema dificil de remediarIncluso si los problemas de almacenamiento y ancho de banda que requieren la compresión se eliminaran de la noche a la mañana, e incluso si todas las imágenes de baja calidad que conforman veinte o más años de conjuntos de datos del sector se recomprimieran repentinamente a una mejor velocidad a partir de fuentes de alta calidad, representaría un reinicio de la continuidad de las herramientas de evaluación comparativa académica de las últimas décadas. La comunidad de CV, en efecto, ha... Acostumbrarse al problema, hasta el punto de que representa una notable deuda técnica.

Racial parcialidad en reconocimiento facial (FR) ha permitirte ser a tema candente de los medios en los últimos años, lo que provocó un esfuerzo concertado en la comunidad de investigación para eliminarlo de los sistemas afectados. Sin embargo, la dependencia del organismo mundial de investigación de un excesivamente limitado Número de conjuntos de datos de "estándar de oro", muchos de los cuales son no racialmente equilibrado or mal etiquetado en este sentido, exacerba el desafío.

Los investigadores del nuevo artículo también notaron una disonancia entre los estándares de adquisición de imágenes y los estándares establecidos por la ejecución general de los puntos de referencia de reconocimiento facial, afirmando*:

'Estándares de adquisición de imágenes [existentes] para sistemas de reconocimiento facial como ISO / IEC-19794 5 y OACI 9303 proponer estándares de calidad tanto basados ​​en la imagen (es decir, iluminación, oclusión) como basados ​​en el sujeto (es decir, pose, expresión, accesorios) para garantizar la calidad de la imagen facial.

'En consecuencia, las imágenes faciales también deben almacenarse utilizando estándares de compresión de imágenes con pérdida, como JPEG  o JPEG2000; e identificable por género, color de ojos, color de cabello, expresión, propiedades (es decir, anteojos), ángulos de pose (guiñada, cabeceo y balanceo) y posiciones de puntos de referencia.

'Sin embargo, los puntos de referencia comunes de reconocimiento facial no se ajustan a los estándares ISO/IEC 19794-5 e ICAO 9303. Además, las muestras en la naturaleza a menudo se obtienen bajo condiciones ambientales y de cámara variables para desafiar las soluciones propuestas.

'Sin embargo, la mayoría de las muestras de imágenes faciales dentro de dichos conjuntos de datos están comprimidas mediante compresión JPEG con pérdida.'

Los autores del nuevo trabajo afirman que sus esfuerzos futuros examinarán el impacto de la cuantificación de imágenes con pérdida en diversos marcos de reconocimiento facial y ofrecerán posibles métodos para mejorar la imparcialidad de estos sistemas.

La nuevo documento se titula ¿La compresión de imágenes con pérdida afecta el sesgo racial en el reconocimiento facial?, y proviene de tres investigadores del Imperial College London, junto con uno del análisis facial profundo InsightFace bibliotecas.

Datos y método

Para sus experimentos, los investigadores utilizaron el ImageMagick y libjpeg bibliotecas de código abierto para crear versiones de las imágenes de datos de origen en varios incrementos de compresión.

Para obtener una descripción general inicial de los efectos de la compresión, los autores estudiaron los efectos de la relación señal-ruido máxima (PSNR) en cuatro niveles diferentes de compresión JPEG en Racial Faces in-the-Wild (RFW) conjunto de datos.

Puntajes PSNR para el conjunto de datos Racial Faces-in-the-Wild, lo que demuestra hasta qué punto la compresión puede afectar las capacidades de reconocimiento de imágenes comprimidas.  

Puntajes PSNR para el conjunto de datos Racial Faces-in-the-Wild, lo que demuestra hasta qué punto la compresión puede afectar las capacidades de reconocimiento de imágenes comprimidas.

Entre otras pruebas, realizaron investigaciones sobre un conjunto de datos racialmente desequilibrado y otro racialmente equilibrado. Para el conjunto racialmente equilibrado, utilizaron la pérdida de margen angular aditivo (Cara de arco) funcionan con ResNet101v2, en el original VGGFace2 conjunto de datos de referencia, que contiene 3.3 millones de imágenes con 8631 sujetos racialmente desequilibrados.

Para las pruebas, los investigadores utilizaron el conjunto de datos RFW. El sistema se entrenó cuatro veces, en cuatro niveles diferentes de compresión, lo que resultó en cuatro modelos ArcFace.

Para el conjunto racialmente equilibrado, se emplearon inicialmente los mismos marcos en el original alineado BUPT-Equilibrado conjunto de datos de referencia, que contiene 28,000 rostros equilibrados en los cuatro grupos Africano, Asiático, Indian y Caucásico, cada raza representada por 7000 imágenes. Al igual que con el conjunto de datos racialmente desequilibrado, se obtuvieron cuatro modelos ArcFace de esta manera.

Además, los investigadores reprodujeron los efectos del entrenamiento comprimido y no comprimido eliminando el submuestreo de croma para medir su efecto en el rendimiento.

Resultados

Luego se estudió la tasa de coincidencia falsa (FMR) en estos conjuntos de datos generados. Los criterios que buscaban los investigadores estaban predefinidos fenotipos relacionado con las características raciales Tipo de piel (1, 2, 3, 4, 5 o 6), Tipo de párpado (Monolid/Otro), Forma de la nariz (De ancho estrecho), Forma de labios (Completo/Pequeño), Tipo de cabello (Lacio/Ondulado/Rizado/Calvo), y Color de pelo – métricas extraídas del 2019 Medición del sesgo oculto en el reconocimiento facial a través de fenotipos raciales.

El documento dice:

'Observamos que para todos los niveles de compresión seleccionados q = {5, 10, 15, 95}, el FMR aumenta cuando se aplica compresión con pérdida adicional, lo que demuestra que el nivel de compresión 5 (la tasa de compresión más alta) da como resultado la disminución más significativa en el rendimiento de FMR, mientras que el nivel de compresión 95 (la tasa de compresión más baja) no da como resultado diferencias notables en el rendimiento de FMR.'

Una muestra de los extensos gráficos de resultados del artículo, que son demasiado grandes y numerosos para reproducirlos aquí. Consulte el artículo original para obtener una mejor resolución y obtener los resultados completos. Aquí, vemos la gama de rendimiento de FMR en imágenes faciales cada vez más degradadas/comprimidas para VGGFace2, en un rango que incluye calidad sin comprimir o con poca compresión.

Una muestra de los extensos gráficos de resultados del artículo, demasiado extensos y numerosos para reproducirlos aquí. Consulte el artículo original para obtener una mejor resolución y los resultados completos. Aquí, observamos la gama de rendimiento de FMR en imágenes faciales cada vez más degradadas/comprimidas para VGGFace2, en un rango que incluye calidad sin comprimir o con baja compresión.

El artículo concluye:

“En general, nuestra evaluación encuentra que el uso de muestras de imágenes faciales comprimidas con pérdida en el momento de la inferencia reduce el rendimiento de manera más significativa en fenotipos específicos, incluido el tono de piel oscuro, la nariz ancha, el cabello rizado y el ojo monopárpado en todas las demás características fenotípicas.

Sin embargo, el uso de imágenes comprimidas durante el entrenamiento aumenta la resiliencia de los modelos resultantes y limita la degradación del rendimiento observada: persiste un rendimiento inferior entre subgrupos racialmente alineados. Además, la eliminación del submuestreo de croma mejora la FMR para categorías fenotípicas específicas más afectadas por la compresión con pérdida.

 

* Mi conversión de las citas en línea de los autores en hipervínculos.

Publicado por primera vez el 22 de agosto de 2022.

Escritor sobre aprendizaje automático, especialista en síntesis de imágenes humanas. Exdirector de contenido de investigación en Metaphysic.ai.
sitio personal: martinanderson.ai
Contacto: [email protected]
Gorjeo: @manders_ai