Vigilância

Rostos sintéticos 'degradados' podem ajudar a melhorar o reconhecimento de imagem facial

Publicado

anos 2 atrás

1 de agosto de 2022

Pesquisadores da Michigan State University desenvolveram uma maneira para que os rostos sintéticos façam uma pausa na cena dos deepfakes e façam algo de bom no mundo – ajudando os sistemas de reconhecimento de imagem a se tornarem mais precisos.

O novo módulo de síntese facial controlável (CFSM) que eles criaram é capaz de regenerar rostos no estilo de imagens de vigilância de vídeo do mundo real, em vez de confiar nas imagens uniformemente de alta qualidade usadas em conjuntos de dados populares de código aberto de celebridades, que não não refletem todas as falhas e deficiências dos sistemas CCTV genuínos, como desfoque facial, baixa resolução e ruído do sensor – fatores que podem afetar a precisão do reconhecimento.

Arquitetura conceitual do Controllable Face Synthesis Module (CFSM). Fonte: http://cvlab.cse.msu.edu/pdfs/Liu_Kim_Jain_Liu_ECCV2022.pdf

O CFSM não se destina especificamente a simular autenticamente poses de cabeça, expressões ou todos os outros traços usuais que são o objetivo dos sistemas deepfake, mas sim gerar uma variedade de visualizações alternativas no estilo do sistema de reconhecimento de alvo, usando transferência de estilo.

O sistema é projetado para imitar o domínio de estilo do sistema de destino e adaptar sua saída de acordo com a resolução e a gama de 'excentricidades' nele contidas. O caso de uso inclui sistemas legados que provavelmente não serão atualizados devido ao custo, mas que atualmente podem contribuir pouco para a nova geração de tecnologias de reconhecimento facial, devido à baixa qualidade da saída que pode ter sido de ponta.

Testando o sistema, os pesquisadores descobriram que ele obteve ganhos notáveis no estado da arte em sistemas de reconhecimento de imagem que precisam lidar com esse tipo de dados ruidosos e de baixa qualidade.

Treinando os modelos de reconhecimento facial para se adaptar às limitações dos sistemas de destino. Fonte: http://cvlab.cse.msu.edu/pdfs/Liu_Kim_Jain_Liu_ECCV2022_supp.pdf

Além disso, eles descobriram um subproduto útil do processo - que os conjuntos de dados de destino agora podem ser caracterizados e comparados entre si, facilitando a comparação, o benchmarking e a geração de conjuntos de dados personalizados para vários sistemas de CFTV no futuro.

Além disso, o método pode ser aplicado a conjuntos de dados existentes, realizando de fato adaptação de domínio e tornando-os mais adequados para sistemas de reconhecimento facial.

A novo papel é intitulado Síntese de rosto controlável e guiada para reconhecimento de rosto irrestrito, é apoiado em parte pelo US Office of the Director of National Intelligence (ODNI, em IARPA), e vem de quatro pesquisadores do departamento de Ciência e Engenharia da Computação da MSU.

Conteúdo em destaque

O reconhecimento facial de baixa qualidade (LQFR) tornou-se um notável área de estudo ao longo dos últimos anos. Como as autoridades cívicas e municipais construíram sistemas de videovigilância para serem resilientes e duradouros (não querendo realocar recursos para o problema periodicamente), muitas redes de vigilância “herdadas” tornaram-se vítimas de dívida técnica, em termos da sua adaptabilidade como dados fontes para aprendizado de máquina.

Níveis variados de resolução facial em uma variedade de sistemas de vigilância por vídeo históricos e mais recentes. Fonte: https://arxiv.org/pdf/1805.11519.pdf

Felizmente, esta é uma tarefa para a qual os modelos de difusão e outros modelos baseados em ruído são extraordinariamente bem adaptados para resolver. Muitos dos sistemas de síntese de imagem mais populares e eficazes dos últimos anos executam Upscaling de imagens de baixa resolução como parte de seu pipeline, embora isso também seja absolutamente essencial para técnicas de compressão neural (métodos para salvar imagens e filmes como dados neurais em vez de dados de bitmap).

Parte do desafio do reconhecimento facial é obter a máxima precisão possível a partir do número mínimo de características que pode ser extraído das menores e menos promissoras imagens de baixa resolução. Essa restrição existe não apenas porque é útil poder identificar (ou criar) uma face em baixa resolução, mas também devido a limitações técnicas no tamanho das imagens que podem passar pelo espaço latente emergente de um modelo que está sendo treinado em qualquer A VRAM está disponível em uma GPU local.

Neste sentido, o termo ‘características’ é confuso, uma vez que tais características também podem ser obtidas a partir de um conjunto de dados de bancos de parques. No setor de visão computacional, 'recursos' refere-se ao características diferenciadoras obtido a partir de imagens - qualquer imagens, sejam os contornos de uma igreja, uma montanha ou a disposição de Facial recursos em um conjunto de dados de face.

Como os algoritmos de visão computacional agora são hábeis em aumentar a escala de imagens e vídeos, vários métodos foram propostos para "melhorar" o material de vigilância legado de baixa resolução ou de outra forma degradado, a ponto de ser possível usar tais acréscimos para fins legais, como colocar uma determinada pessoa em uma cena, em relação a uma investigação criminal.

Além da possibilidade de erros de identificação, que tem ocasionalmente reunia manchetes, em teoria, não deveria ser necessário hiper-resolver ou transformar imagens de baixa resolução para fazer uma identificação positiva de um indivíduo, uma vez que um sistema de reconhecimento facial que digita recursos de baixo nível não precisa desse nível de resolução e clareza. Além disso, tais transformações são caras na prática e aumentam custos adicionais, perguntas recorrentes em torno de sua potencial validade e legalidade.

A necessidade de mais celebridades "deprimidas"

Seria mais útil se um sistema de reconhecimento facial pudesse derivar recursos (ou seja, recursos de aprendizado de máquina de humano recursos) da saída de sistemas legados como eles estão, compreendendo melhor a relação entre a identidade de 'alta resolução' e as imagens degradadas que estão disponíveis em estruturas de videovigilância implacáveis (e muitas vezes insubstituíveis).

O problema aqui é um dos padrões: conjuntos de dados comuns coletados na web, como MS-Celebridade-1M e WebFace260M (entre vários outros), foram preso em pela comunidade de pesquisa porque eles fornecem referências consistentes contra as quais os pesquisadores podem medir seu progresso incremental ou importante em relação ao estado atual da arte.

Exemplos do popular conjunto de dados MS-Celeb1m da Microsoft. Fonte: https://www.microsoft.com/en-us/research/project/ms-celeb-1m-challenge-recognizing-one-million-celebrities-real-world/

No entanto, os autores argumentam que os algoritmos de reconhecimento facial (FR) treinados nesses conjuntos de dados são materiais inadequados para os 'domínios' visuais da saída de muitos sistemas de vigilância mais antigos.

O jornal afirma*:

'Modelos de FR [estado da arte] (SoTA) não funcionam bem em imagens de vigilância do mundo real (sem restrições) devido ao problema de mudança de domínio, ou seja, os conjuntos de dados de treinamento em larga escala (semi-restritos) obtidos por meio de rostos de celebridades rastreados na web carecem de variações selvagens, como ruído inerente do sensor, baixa resolução, desfoque de movimento, efeito de turbulência, etc.

'Por exemplo, precisão de verificação 1:1 relatada por um dos modelos SoTA em irrestrito IJB-S conjunto de dados é cerca de 30% menor do que em semi-restrito LFW.

'Um remédio potencial para tal lacuna de desempenho é montar um conjunto de dados de rosto irrestrito em larga escala. No entanto, construir tal conjunto de dados de treinamento com dezenas de milhares de assuntos é proibitivamente difícil com alto custo de rotulagem manual.'

O documento relata vários métodos anteriores que tentaram 'combinar' os tipos variados de resultados de sistemas de vigilância históricos ou de baixo custo, mas observe que eles lidaram com aumentos 'cegos'. Por outro lado, o CFSM recebe feedback direto da saída do mundo real do sistema de destino durante o treinamento e se adapta por meio da transferência de estilo para imitar esse domínio.

A atriz Natalie Portman, familiarizada com o punhado de conjuntos de dados que dominam a comunidade de visão computacional, aparece entre as identidades neste exemplo de CFSM realizando adaptação de domínio de correspondência de estilo com base no feedback do domínio do modelo de destino real.

A arquitetura projetada pelos autores utiliza o Fast Gradient Sign Method (FGSM) para individualizar e 'importar' os estilos e características obtidos da saída real do sistema de destino. A parte do pipeline dedicada à geração de imagens será posteriormente aprimorada e se tornará mais fiel ao sistema de destino com treinamento. Esse feedback do espaço de estilo de baixa dimensão do sistema de destino é de baixo nível por natureza e corresponde aos descritores visuais derivados mais amplos.

Os autores comentam:

'Com o feedback do modelo FR, as imagens sintetizadas são mais benéficas para o desempenho FR, levando a capacidades de generalização significativamente melhoradas dos modelos FR treinados com eles.'

Testes

Os pesquisadores usaram o próprio MSU trabalho prévio como um modelo para testar seu sistema. Com base nos mesmos protocolos experimentais, eles usaram o MS-Celeb-1m, que consiste exclusivamente em fotografias de celebridades rastreadas na web, como o conjunto de dados de treinamento rotulado. Para ser justo, eles também incluíram o MS1M-V2, que contém 3.9 milhões de imagens com 85,700 classes.

O dado de destino foi o Conjunto de dados WiderFace, da Universidade Chinesa de Hong Kong. Este é um conjunto particularmente diversificado de imagens projetadas para tarefas de detecção de face em situações desafiadoras. Foram usadas 70,000 imagens deste conjunto.

Para avaliação, o sistema foi testado em quatro benchmarks de reconhecimento facial: IJB-B, IJB-C, IJB-S e Rosto minúsculo.

O CFSM foi treinado com aproximadamente 10% dos dados de treinamento do MS-Celeb-1m, cerca de 0.4 milhão de imagens, para 125,000 iterações em 32 tamanhos de lote sob o otimizador Adam a uma taxa de aprendizado (muito baixa) de 1e-4.

O modelo de reconhecimento facial de destino usou um modificação de ResNet-50 para o backbone, com a função de perda ArcFace habilitada durante o treinamento. Além disso, um modelo foi treinado com CFSM como um exercício comparativo e de ablação (indicado como 'ArcFace' na tabela de resultados abaixo).

Resultados dos testes primários para CFSM. Números mais altos são melhores.

Os autores comentam os resultados primários:

'O modelo ArcFace supera todas as linhas de base em tarefas de identificação e verificação facial e alcança um novo desempenho SoTA.'

A capacidade de extrair domínios das várias características de sistemas de vigilância legados ou subespecificados também permite que os autores comparem e avaliem a similaridade de distribuição entre essas estruturas e apresentem cada sistema em termos de um estilo visual que possa ser aproveitado em trabalhos subsequentes .

Exemplos de vários conjuntos de dados exibem claras diferenças de estilo.

Os autores observam, adicionalmente, que seu sistema pode fazer uso valioso de algumas tecnologias que, até o momento, foram vistas apenas como problemas a serem resolvidos pela comunidade de pesquisa e visão:

'[CFSM] mostra que a manipulação adversária pode ir além de ser um invasor e servir para aumentar a precisão do reconhecimento em tarefas de visão. Enquanto isso, definimos uma métrica de similaridade de conjunto de dados com base nas bases de estilo aprendidas, que capturam as diferenças de estilo de uma forma agnóstica de rótulo ou preditor.

"Acreditamos que nossa pesquisa apresentou o poder de um modelo de síntese facial controlável e guiado para FR irrestrito e fornece uma compreensão das diferenças de conjuntos de dados."

* Minha conversão das citações inline dos autores em hiperlinks.

Publicado pela primeira vez em 1º de agosto de 2022.

Tópicos relacionados:síntese de imagem pesquisa vigilância

A seguir

A IA está potencializando os recursos das câmeras de segurança

Não Perca

Engenheiros criam ferramenta de detecção de invasão de ferrovias com IA

Martin Anderson

Escritor sobre aprendizado de máquina, inteligência artificial e big data.
Site pessoal: martinanderson.ai
Contato: [email protegido]
Twitter: @manders_ai

Unir-se.AI

Rostos sintéticos 'degradados' podem ajudar a melhorar o reconhecimento de imagem facial

Vigilância

Rostos sintéticos 'degradados' podem ajudar a melhorar o reconhecimento de imagem facial

Índice analítico

Conteúdo em destaque

A necessidade de mais celebridades "deprimidas"

Testes

Publicações Recentes

Unir-se.AI

Rostos sintéticos 'degradados' podem ajudar a melhorar o reconhecimento de imagem facial

Índice analítico

Conteúdo em destaque

A necessidade de mais celebridades "deprimidas"

Testes

Você pode gostar

Publicações Recentes