Inteligência artificial
A Compressão JPEG Aumenta a Taxa de Erro de Reconhecimento Facial para Rostos Não Caucasianos, Conclui Estudo

Um novo estudo do Reino Unido concluiu que as técnicas de compressão com perda em imagens JPEG podem ter uma influência adversa na eficácia dos sistemas de reconhecimento facial, tornando esses sistemas mais propensos a identificar incorretamente uma pessoa não caucasiana.
O artigo afirma:
‘Via um conjunto experimental extensivo, demonstramos que as abordagens comuns de compressão de imagem com perda têm um impacto negativo mais acentuado no desempenho do reconhecimento facial para categorias de fenótipo racial específicas, como tons de pele mais escuros (até 34,55%).’
Os resultados também indicam que a subsamostragem de croma, que reduz as informações de cor (e não as informações de brilho) em seções de uma imagem facial, aumenta a Taxa de Falsas Correspondências (FMR) em uma variedade de conjuntos de dados testados, muitos dos quais são repositórios padrão para visão computacional.

Operações de subsamostragem de croma em uma imagem de origem, em taxas variadas, têm um efeito claro na extensão em que o detalhe é preservado e na extensão em que as subtons simplesmente ‘se misturam’ umas nas outras, sacrificando detalhe e determinando recursos. Observe que esta imagem em si pode estar sujeita à compressão e consulte o artigo de origem para resolução precisa. Fonte: https://arxiv.org/pdf/2208.07613.pdf
A subsamostragem de croma é aplicada como uma medida econômica adicional na compressão JPEG porque as pessoas são menos capazes de perceber reduções na complexidade e na faixa de bandas de cor do que os sistemas de visão computacional, que tomam essas ‘agregações’ muito mais literalmente do que nós.
Os pesquisadores do novo estudo descobriram que remover a subsamostragem de croma do processo de compressão reduz esse efeito negativo em até 15,95%, embora não remova completamente o problema.
O estudo também afirma que treinar em dados não comprimidos (ou menos comprimidos) não resolverá o problema se as imagens no tempo de inferência forem comprimidas. Efetivamente, isso significa que treinar um modelo de reconhecimento facial em imagens menos comprimidas não resolverá o viés se o modelo final de produção for alimentado com imagens que têm os problemas de compressão mencionados.
Os autores relatam*:
‘[O] uso de compressão de imagem com perda durante a inferência afeta adversamente o desempenho de abordagens contemporâneas de reconhecimento facial em um subconjunto de grupos de fenótipos raciais (i.e. tons de pele mais escuros, forma de olho monolíder) e que seu efeito está presente independentemente de a imagem comprimida ser usada para treinamento do modelo.’
O artigo sublinha as consequências da compressão de imagem no setor de pesquisa de visão computacional, que foram detalhadas em um estudo de 2021 da Universidade de Maryland e do Facebook AI.
É um problema difícil de remediar; mesmo que os problemas de armazenamento e largura de banda que tornam a compressão necessária fossem eliminados da noite para o dia, e mesmo que todas as imagens de baixa qualidade que povoam vinte ou mais anos de conjuntos de dados no setor fossem recomprimidas a uma taxa melhor a partir de fontes de alta qualidade, representaria um ‘reinício’ da continuidade das ferramentas de benchmarking acadêmicas nas últimas décadas. A comunidade CV, em essência, se acostumou com o problema, a ponto de representar uma dívida técnica notável.
Viés racial em reconhecimento facial (FR) tornou-se um tópico quente da mídia nos últimos anos, provocando um esforço concertado na comunidade de pesquisa para eliminá-lo dos sistemas afetados. No entanto, a dependência do corpo de pesquisa global em um número excessivamente limitado de conjuntos de dados ‘padrão ouro’, muitos dos quais são ou não racialmente balanceados ou mal rotulados nesse aspecto, exacerbam o desafio.
Os pesquisadores do novo artigo também observam uma dissonância entre os padrões de aquisição de imagens e os padrões estabelecidos pelo conjunto geral de benchmarks de reconhecimento facial, afirmando*:
‘[Os] padrões de aquisição de imagens para sistemas de reconhecimento facial, como ISO/IEC 19794-5 e ICAO 9303, propõem padrões de qualidade baseados em imagem (i.e. iluminação, oclusão) e baseados em sujeito (i.e. pose, expressão, acessórios) para garantir a qualidade da imagem facial.
‘Consequentemente, as imagens faciais também devem ser armazenadas usando padrões de compressão de imagem com perda, como JPEG ou JPEG2000; e identificáveis para gênero, cor dos olhos, cor do cabelo, expressão, propriedades (i.e. óculos), ângulos de pose (yaw, pitch e roll) e posições de pontos de referência.
‘No entanto, os benchmarks comuns de reconhecimento facial não seguem os padrões ISO/IEC 19794-5 e ICAO 9303. Além disso, as amostras in-the-wild são frequentemente obtidas sob condições de câmera e ambientais variadas para desafiar as soluções propostas.
‘No entanto, a maioria das amostras de imagens faciais dentro desses conjuntos de dados é comprimida via compressão JPEG com perda.’
Os autores do novo trabalho afirmam que seus esforços futuros examinarão o impacto da quantização de imagem com perda em diferentes estruturas de reconhecimento facial e oferecerão métodos possíveis para melhorar a equidade desses sistemas.
O novo artigo é intitulado A compressão de imagem com perda afeta o viés racial dentro do reconhecimento facial?, e vem de três pesquisadores do Imperial College London, juntamente com um do InsightFace deep face analysis library.
Dados e Método
Para seus experimentos, os pesquisadores usaram as bibliotecas de código aberto ImageMagick e libjpeg para criar versões das imagens de dados de origem em vários incrementos de compressão.
Para uma visão geral inicial dos efeitos da compressão, os autores estudaram os efeitos da Taxa de Sinal-Ruído de Pico (PSNR) em quatro níveis diferentes de compressão JPEG no conjunto de dados Racial Faces in-the-Wild (RFW).

Pontuações PSNR para o conjunto de dados Racial Faces-in-the-Wild, demonstrando a extensão em que a compressão pode afetar as capacidades de reconhecimento para imagens comprimidas.
Dentre outros testes, eles conduziram pesquisas em um conjunto de dados racialmente desequilibrado e outro que era racialmente equilibrado. Para o conjunto de dados equilibrado, eles usaram a função Perda de Margem Angular Aditiva (ArcFace) com ResNet101v2, no conjunto de dados de benchmark original VGGFace2, que contém 3,3 milhões de imagens com 8631 sujeitos desequilibrados racialmente.
Para testar, os pesquisadores usaram o conjunto de dados RFW. O sistema foi treinado quatro vezes, em quatro níveis diferentes de compressão, resultando em quatro modelos ArcFace.
Para o conjunto de dados equilibrado, os mesmos quadros foram inicialmente empregados no conjunto de dados de benchmark original alinhado BUPT-Balanced, que contém 28.000 faces equilibradas em quatro grupos Africano, Asiático, Indiano e Caucasiano, cada raça representada por 7000 imagens. Como no conjunto de dados desequilibrado, quatro modelos ArcFace foram obtidos desta forma.
Além disso, os pesquisadores reproduziram os efeitos de treinamento comprimido e não comprimido removendo a subsamostragem de croma, a fim de medir seu efeito no desempenho.
Resultados
As Taxas de Falsas Correspondências (FMR) em todos esses conjuntos de dados gerados foram então estudadas. Os critérios que os pesquisadores estavam procurando eram fenótipos pré-definidos relacionados a características raciais Tipo de Pele (1, 2, 3, 4, 5 ou 6), Tipo de Pálpebra (Monolíder/Outro), Forma do Nariz (Largo/Estreito), Forma dos Lábios (Cheio/Pequeno), Tipo de Cabelo (Reto/Ondulado/Cacheado/Careca), e Cor do Cabelo – métricas tiradas do artigo Medindo o Viés Oculto dentro do Reconhecimento Facial via Fenótipos Raciais.
O artigo afirma:
‘Observamos que para todos os níveis de compressão selecionados q = {5, 10, 15, 95}, a FMR aumenta quando a compressão adicional com perda é aplicada, demonstrando que o nível de compressão 5 (a taxa de compressão mais alta) resulta na diminuição mais significativa no desempenho da FMR, enquanto o nível de compressão 95 (a taxa de compressão mais baixa) não resulta em diferenças de desempenho da FMR perceptíveis.’

Uma amostra dos gráficos de resultados extensivos do artigo, que são muito grandes e numerosos para serem reproduzidos aqui – consulte o artigo de origem para melhor resolução e resultados completos. Aqui, vemos o espectro do desempenho da FMR em imagens faciais cada vez mais degradadas/comprimidas para VGGFace2, em uma faixa que inclui qualidade não comprimida ou pouco comprimida.
O artigo conclui:
‘Em geral, nossa avaliação descobre que o uso de amostras de imagens faciais comprimidas com perda no tempo de inferência diminui o desempenho mais significativamente em fenótipos específicos, incluindo tom de pele escuro, nariz largo, cabelo cacheado e olho monolíder em todos os outros recursos fenotípicos.
‘No entanto, o uso de imagens comprimidas durante o treinamento torna os modelos resultantes mais resilientes e limita a degradação de desempenho encontrada: o desempenho mais baixo entre subgrupos racialmente alinhados específicos permanece. Além disso, remover a subsamostragem de croma melhora a FMR para categorias de fenótipos específicas mais afetadas pela compressão com perda.’
* Minha conversão das citações em linha dos autores para links.
Publicado pela primeira vez em 22 de agosto de 2022.










