Entre em contato

Compressão JPEG aumenta a taxa de erro de reconhecimento facial para rostos não caucasianos, revela estudo

Inteligência artificial

Compressão JPEG aumenta a taxa de erro de reconhecimento facial para rostos não caucasianos, revela estudo

mm
Imagem principal: DALL-E 2.
Imagem principal: DALL-E 2.

Um novo estudo do Reino Unido concluiu que as técnicas de compressão com perdas em imagens JPEG podem ter uma influência adversa na eficácia dos sistemas de reconhecimento facial, tornando esses sistemas mais propensos a identificar incorretamente uma pessoa não caucasiana.

O artigo afirma:

'Por meio de uma ampla configuração experimental, demonstramos que abordagens comuns de compressão de imagens com perdas têm um impacto negativo mais pronunciado no desempenho do reconhecimento facial para categorias específicas de fenótipos raciais, como tons de pele mais escuros (em até 34.55%).'

Os resultados também indicam que subamostragem de croma, que reduz as informações de cor (em vez das informações de brilho) em seções de uma imagem facial, aumenta a taxa de correspondência falsa (FMR) em uma variedade de conjuntos de dados testados, muitos dos quais são repositórios padrão para visão computacional.

As operações de subamostragem de croma em uma imagem de origem, em taxas variadas, têm um efeito claro na extensão em que os detalhes são preservados e na extensão em que os subtons simplesmente se "misturam", sacrificando os detalhes e determinando os recursos. Observe que esta imagem em si pode estar sujeita a compactação e consulte o documento de origem para obter uma resolução precisa. Fonte: https://arxiv.org/pdf/2208.07613.pdf

Operações de subamostragem de croma em uma imagem de origem, em taxas variáveis, têm um efeito claro na extensão em que os detalhes são preservados e na extensão em que os subtons simplesmente se "misturam" uns aos outros, sacrificando detalhes e características determinantes. Observe que esta imagem em si pode estar sujeita a compressão e consulte o artigo de origem para obter uma resolução precisa.. Fonte: https://arxiv.org/pdf/2208.07613.pdf

A subamostragem de croma é aplicada como uma medida econômica adicional na compressão JPEG porque as pessoas são menos capazes de perceber reduções na complexidade e no alcance de uma faixa de cores do que os sistemas de visão computacional, que levam essas "agregações" muito mais a sério do que nós.

Os pesquisadores do novo estudo descobriram que remover a subamostragem de croma do processo de compressão diminui esse efeito negativo em até 15.95%, embora não elimine completamente o problema.

O estudo também afirma que o treinamento em dados não compactados (ou menos compactados) não resolva o problema se as imagens de tempo de inferência forem compactadas. Efetivamente, isso significa que treinar um modelo de reconhecimento facial em imagens menos compactadas não resolverá o viés se o modelo de produção final for alimentado com imagens que tenham os problemas de compactação declarados.

Os autores relatam*:

'[O] uso de compressão de imagem com perdas durante a inferência afeta negativamente o desempenho da abordagens de reconhecimento facial em um subconjunto de agrupamento de fenótipos faciais relacionados à raça (ou seja, tons de pele mais escuros, formato de olhos monolíticos) e que seu efeito está presente independentemente de imagens compactadas serem usadas para treinamento de modelo.'

O artigo destaca as consequências da compressão de imagem no setor de pesquisa em visão computacional, que foram esclarecidas com algum detalhe em um Estudo 2021 da Universidade de Maryland e Facebook AI.

É um problema difícil de resolver; mesmo que os problemas de armazenamento e largura de banda que tornam a compressão necessária fossem eliminados da noite para o dia, e mesmo que todas as imagens de baixa qualidade que povoam conjuntos de dados do setor há vinte ou mais anos fossem repentinamente recomprimidas a uma taxa melhor a partir de fontes de alta qualidade, isso representaria uma "reinicialização" da continuidade das ferramentas de benchmarking acadêmico das últimas décadas. A comunidade de currículos, na prática, Acostume-se ao problema, a ponto de representar um notável débito técnico.

Racial viés em reconhecimento facial (FR) tem tornam-se a tópico quente da mídia nos últimos anos, levando a um esforço conjunto na comunidade de pesquisa para eliminá-lo dos sistemas afetados. No entanto, a dependência do corpo de pesquisa global em um excessivamente limitado número de conjuntos de dados 'padrão ouro', muitos dos quais são não é racialmente equilibrado or mal rotulado a este respeito, agrava o desafio.

Os pesquisadores do novo artigo observam adicionalmente uma dissonância entre os padrões de aquisição de imagem e os padrões estabelecidos pela execução geral de benchmarks de reconhecimento facial, afirmando*:

'Padrões de aquisição de imagem [existentes] para sistemas de reconhecimento facial, como ISO / IEC 19794 5- e OACI 9303 propõem padrões de qualidade baseados em imagem (ou seja, iluminação, oclusão) e no assunto (ou seja, pose, expressão, acessórios) para garantir a qualidade da imagem facial.

'Assim, as imagens faciais também devem ser armazenadas usando padrões de compressão de imagens com perdas, como JPEG  ou JPEG2000; e identificável por gênero, cor dos olhos, cor do cabelo, expressão, propriedades (ou seja, óculos), ângulos de pose (guinada, inclinação e rolagem) e posições de referência.

'No entanto, os benchmarks comuns de reconhecimento facial não estão em conformidade com os padrões ISO/IEC 19794-5 e ICAO 9303. Além disso, as amostras na natureza são frequentemente obtidas sob condições variáveis ​​de câmera e ambiente para desafiar as soluções propostas.

'No entanto, a maioria das amostras de imagens faciais nesses conjuntos de dados são compactadas por meio de compressão JPEG com perdas.'

Os autores do novo trabalho afirmam que seus esforços futuros examinarão o impacto da quantização de imagens com perdas em diversas estruturas de reconhecimento facial e oferecerão métodos possíveis para melhorar a imparcialidade desses sistemas.

O novo papel é intitulado A compactação de imagem com perdas afeta o viés racial no reconhecimento facial?, e vem de três pesquisadores do Imperial College London, juntamente com um da análise facial profunda do InsightFace biblioteca.

Dados e Método

Para seus experimentos, os pesquisadores usaram o ImageMagick e libjpeg bibliotecas de software livre para criar versões das imagens de dados de origem em vários incrementos de compactação.

Para uma visão geral inicial dos efeitos da compressão, os autores estudaram os efeitos da relação sinal-ruído de pico (PSNR) em quatro níveis diferentes de compactação JPEG no Racial Faces in-the-Wild (RFW) conjunto de dados.

Pontuações PSNR para o conjunto de dados Racial Faces-in-the-Wild, demonstrando até que ponto a compactação pode afetar os recursos de reconhecimento de imagens compactadas.

Pontuações PSNR para o conjunto de dados Racial Faces-in-the-Wild, demonstrando até que ponto a compactação pode afetar os recursos de reconhecimento de imagens compactadas.

Entre outros testes, eles realizaram pesquisas em um conjunto de dados racialmente desequilibrado e outro racialmente equilibrado. Para o conjunto racialmente equilibrado, eles usaram a perda de margem angular aditiva (Arc Face) funciona com ResNet101v2, no original VGG Face2 conjunto de dados de referência, que contém 3.3 milhões de imagens com 8631 assuntos racialmente desequilibrados.

Para o teste, os pesquisadores usaram o conjunto de dados RFW. O sistema foi treinado quatro vezes, em quatro níveis diferentes de compressão, resultando em quatro modelos ArcFace.

Para o conjunto racialmente equilibrado, as mesmas estruturas foram inicialmente empregadas no alinhamento original BUPT-Equilibrado conjunto de dados de referência, que contém 28,000 rostos equilibrados nos quatro grupos africano, Asiático, indiano e caucasiano, cada corrida representada por 7000 imagens. Assim como no conjunto de dados racialmente desequilibrado, quatro modelos ArcFace foram obtidos dessa maneira.

Além disso, os pesquisadores reproduziram os efeitos do treinamento compactado e não compactado removendo a subamostragem de croma, a fim de medir seu efeito no desempenho.

Resultados

A taxa de correspondência falsa (FMR) nesses conjuntos de dados gerados foi então estudada. Os critérios que os pesquisadores estavam procurando foram predefinidos fenótipos relativo a características raciais Tipo de pele (1, 2, 3, 4, 5 ou 6), Tipo de pálpebra (Monólido/Outro), Forma do nariz (Largo/Estreito), Formato de lábios (Completo/Pequeno), Tipo de cabelo (Liso/Ondulado/Creado/Calvo) e Cor do cabelo – métricas extraídas de 2019 papel Medindo o viés oculto no reconhecimento facial por meio de fenótipos raciais.

O artigo afirma:

'Observamos que para todos os níveis de compressão selecionados q = {5, 10, 15, 95}, o FMR aumenta quando compressão com perdas adicional é aplicada, demonstrando que o nível de compressão 5 (a maior taxa de compressão) resulta na diminuição mais significativa no desempenho do FMR, enquanto o nível de compressão 95 (a menor taxa de compressão) não resulta em nenhuma diferença perceptível no desempenho do FMR.'

Uma amostra dos extensos gráficos de resultados do artigo, que são muito grandes e numerosos para serem reproduzidos aqui – consulte o documento de origem para melhor resolução e resultados completos. Aqui, vemos a gama de desempenho de FMR em imagens de face cada vez mais degradadas/comprimidas para VGGFace2, em uma faixa que inclui qualidade descompactada ou pouco compactada.

Uma amostra dos extensos gráficos de resultados do artigo, que são muito grandes e numerosos para serem reproduzidos aqui – consulte o artigo original para melhor resolução e resultados completos. Aqui, vemos a gama de desempenho de FMR em imagens faciais cada vez mais degradadas/comprimidas para VGGFace2, em uma faixa que inclui qualidade não comprimida ou pouco comprimida.

O artigo conclui:

“No geral, nossa avaliação descobriu que o uso de amostras de imagens faciais comprimidas com perda no tempo de inferência diminui o desempenho de forma mais significativa em fenótipos específicos, incluindo tom de pele escuro, nariz largo, cabelo encaracolado e olho monopálido em todas as outras características fenotípicas.

No entanto, o uso de imagens compactadas durante o treinamento torna os modelos resultantes mais resilientes e limita a degradação de desempenho encontrada: o desempenho inferior permanece entre subgrupos específicos com alinhamento racial. Além disso, a remoção da subamostragem de croma melhora a FMR para categorias fenotípicas específicas mais afetadas pela compressão com perdas.

 

* Minha conversão das citações inline dos autores em hiperlinks.

Publicado pela primeira vez em 22 de agosto de 2022.

Escritor sobre machine learning, especialista em domínio em síntese de imagem humana. Ex-chefe de conteúdo de pesquisa na Metaphysic.ai.
Site pessoal: martinanderson.ai
Contato: [email protegido]
Twitter: @manders_ai