Entre em contato

Rostos sintéticos 'degradados' podem ajudar a melhorar o reconhecimento de imagem facial

Vigilância

Rostos sintéticos 'degradados' podem ajudar a melhorar o reconhecimento de imagem facial

mm

Pesquisadores da Michigan State University desenvolveram uma maneira para que os rostos sintéticos façam uma pausa na cena dos deepfakes e façam algo de bom no mundo – ajudando os sistemas de reconhecimento de imagem a se tornarem mais precisos.

O novo módulo de síntese facial controlável (CFSM) que eles criaram é capaz de regenerar rostos no estilo de filmagens de vigilância de vídeo do mundo real, em vez de depender de imagens uniformemente de qualidade superior usadas em conjuntos de dados populares de código aberto de celebridades, que não refletem todas as falhas e deficiências dos sistemas de CFTV genuínos, como desfoque facial, baixa resolução e ruído do sensor — fatores que podem afetar a precisão do reconhecimento.

Arquitetura conceitual do Controllable Face Synthesis Module (CFSM). Fonte: http://cvlab.cse.msu.edu/pdfs/Liu_Kim_Jain_Liu_ECCV2022.pdf

Arquitetura conceitual do Controllable Face Synthesis Module (CFSM). Fonte: http://cvlab.cse.msu.edu/pdfs/Liu_Kim_Jain_Liu_ECCV2022.pdf

O CFSM não se destina especificamente a simular autenticamente poses de cabeça, expressões ou todos os outros traços usuais que são o objetivo dos sistemas deepfake, mas sim gerar uma variedade de visualizações alternativas no estilo do sistema de reconhecimento de alvo, usando transferência de estilo.

O sistema foi projetado para imitar o domínio de estilo do sistema de destino e adaptar sua saída de acordo com a resolução e a gama de "excentricidades" nele contidas. O caso de uso inclui sistemas legados que provavelmente não serão atualizados devido ao custo, mas que atualmente pouco contribuem para a nova geração de tecnologias de reconhecimento facial, devido à baixa qualidade da saída que antes era de ponta.

Testando o sistema, os pesquisadores descobriram que ele obteve ganhos notáveis ​​no estado da arte em sistemas de reconhecimento de imagem que precisam lidar com esse tipo de dados ruidosos e de baixa qualidade.

Treinando os modelos de reconhecimento facial para se adaptar às limitações dos sistemas de destino. Fonte: http://cvlab.cse.msu.edu/pdfs/Liu_Kim_Jain_Liu_ECCV2022_supp.pdf

Treinando os modelos de reconhecimento facial para se adaptar às limitações dos sistemas de destino. Fonte: http://cvlab.cse.msu.edu/pdfs/Liu_Kim_Jain_Liu_ECCV2022_supp.pdf

Além disso, eles descobriram um subproduto útil do processo - que os conjuntos de dados de destino agora podem ser caracterizados e comparados entre si, facilitando a comparação, o benchmarking e a geração de conjuntos de dados personalizados para vários sistemas de CFTV no futuro.

Além disso, o método pode ser aplicado a conjuntos de dados existentes, realizando de fato adaptação de domínio e tornando-os mais adequados para sistemas de reconhecimento facial.

O novo papel é intitulado Síntese de rosto controlável e guiada para reconhecimento de rosto irrestrito, é apoiado em parte pelo US Office of the Director of National Intelligence (ODNI, em IARPA), e vem de quatro pesquisadores do departamento de Ciência e Engenharia da Computação da MSU.

Conteúdo em destaque

O reconhecimento facial de baixa qualidade (LQFR) tornou-se um notável área de estudo Nos últimos anos. Como as autoridades civis e municipais construíram sistemas de videovigilância para serem resilientes e duradouros (não querendo realocar recursos para o problema periodicamente), muitas redes de vigilância "legadas" tornaram-se vítimas de dívida técnica, em termos de sua adaptabilidade como fontes de dados para aprendizado de máquina.

Níveis variados de resolução facial em uma variedade de sistemas de vigilância por vídeo históricos e mais recentes. Fonte: https://arxiv.org/pdf/1805.11519.pdf

Níveis variados de resolução facial em uma variedade de sistemas de vigilância por vídeo históricos e mais recentes. Fonte: https://arxiv.org/pdf/1805.11519.pdf

Felizmente, esta é uma tarefa para a qual os modelos de difusão e outros modelos baseados em ruído são extraordinariamente bem adaptados para resolver. Muitos dos sistemas de síntese de imagem mais populares e eficazes dos últimos anos executam Upscaling de imagens de baixa resolução como parte de seu pipeline, embora isso também seja absolutamente essencial para técnicas de compressão neural (métodos para salvar imagens e filmes como dados neurais em vez de dados de bitmap).

Parte do desafio do reconhecimento facial é obter a máxima precisão possível a partir do número mínimo de características que podem ser extraídos das menores e menos promissoras imagens de baixa resolução. Essa restrição existe não apenas porque é útil poder identificar (ou criar) um rosto em baixa resolução, mas também devido às limitações técnicas no tamanho das imagens que podem passar pelo espaço latente emergente de um modelo que está sendo treinado em qualquer VRAM disponível em uma GPU local.

Nesse sentido, o termo "recursos" é confuso, visto que tais recursos também podem ser obtidos a partir de um conjunto de dados de bancos de parque. No setor de visão computacional, "recursos" refere-se a características diferenciadoras obtido a partir de imagens - qualquer imagens, sejam os contornos de uma igreja, de uma montanha ou a disposição de Facial recursos em um conjunto de dados de face.

Uma vez que os algoritmos de visão computacional são agora hábeis em ampliar imagens e vídeos, vários métodos foram propostos para "melhorar" material de vigilância legado de baixa resolução ou degradado, a ponto de ser possível usar tais acréscimos para fins legais, como colocar uma determinada pessoa em uma cena, em relação a uma investigação criminal.

Além da possibilidade de erros de identificação, que tem ocasionalmente reunia manchetes, em teoria, não deveria ser necessário hiper-resolver ou transformar imagens de baixa resolução para fazer uma identificação positiva de um indivíduo, uma vez que um sistema de reconhecimento facial que digita recursos de baixo nível não precisa desse nível de resolução e clareza. Além disso, tais transformações são caras na prática e aumentam custos adicionais, perguntas recorrentes em torno de sua potencial validade e legalidade.

A necessidade de mais celebridades "desaparecidas"

Seria mais útil se um sistema de reconhecimento facial pudesse derivar recursos (ou seja, recursos de aprendizado de máquina de humano recursos) da saída de sistemas legados como eles estão, entendendo melhor a relação entre a identidade de 'alta resolução' e as imagens degradadas que estão disponíveis em estruturas de vigilância por vídeo existentes, implacáveis ​​(e muitas vezes insubstituíveis).

O problema aqui é um dos padrões: conjuntos de dados comuns coletados na web, como MS-Celebridade-1M e WebFace260M (entre vários outros), foram preso em pela comunidade de pesquisa porque eles fornecem referências consistentes contra as quais os pesquisadores podem medir seu progresso incremental ou importante em relação ao estado atual da arte.

Exemplos do popular conjunto de dados MS-Celeb1m da Microsoft. Fonte: https://www.microsoft.com/en-us/research/project/ms-celeb-1m-challenge-recognizing-one-million-celebrities-real-world/

Exemplos do popular conjunto de dados MS-Celeb1m da Microsoft. Fonte: https://www.microsoft.com/en-us/research/project/ms-celeb-1m-challenge-recognizing-one-million-celebrities-real-world/

No entanto, os autores argumentam que algoritmos de reconhecimento facial (RF) treinados nesses conjuntos de dados são materiais inadequados para os "domínios" visuais da saída de muitos sistemas de vigilância mais antigos.

O jornal afirma*:

'Modelos de FR [estado da arte] (SoTA) não funcionam bem em imagens de vigilância do mundo real (sem restrições) devido ao problema de mudança de domínio, ou seja, os conjuntos de dados de treinamento em larga escala (semi-restritos) obtidos por meio de rostos de celebridades rastreados na web carecem de variações selvagens, como ruído inerente do sensor, baixa resolução, desfoque de movimento, efeito de turbulência, etc.

'Por exemplo, precisão de verificação 1:1 relatada por um dos modelos SoTA em irrestrito IJB-S conjunto de dados é cerca de 30% menor do que em semi-restrito LFW.

Uma possível solução para essa lacuna de desempenho é reunir um conjunto de dados faciais em larga escala e sem restrições. No entanto, construir um conjunto de dados de treinamento com dezenas de milhares de indivíduos é extremamente difícil, com altos custos de rotulagem manual.

O artigo relata vários métodos anteriores que tentaram "combinar" os diversos tipos de saídas de sistemas de vigilância históricos ou de baixo custo, mas observa que estes lidaram com ampliações "cegas". Em contraste, o CFSM recebe feedback direto da saída do mundo real do sistema-alvo durante o treinamento e se adapta por meio de transferência de estilo para imitar esse domínio.

A atriz Natalie Portman, familiarizada com o punhado de conjuntos de dados que dominam a comunidade de visão computacional, aparece entre as identidades neste exemplo de CFSM realizando adaptação de domínio de correspondência de estilo com base no feedback do domínio do modelo de destino real.

A atriz Natalie Portman, familiarizada com o punhado de conjuntos de dados que dominam a comunidade de visão computacional, aparece entre as identidades neste exemplo de CFSM realizando adaptação de domínio de correspondência de estilo com base no feedback do domínio do modelo de destino real.

A arquitetura projetada pelos autores utiliza o Fast Gradient Sign Method (FGSM) para individualizar e "importar" os estilos e características obtidos a partir da saída real do sistema-alvo. A parte do pipeline dedicada à geração de imagens será posteriormente aprimorada e se tornará mais fiel ao sistema-alvo com o treinamento. Esse feedback do espaço de estilo de baixa dimensão do sistema-alvo é de natureza de baixo nível e corresponde aos descritores visuais derivados mais amplos.

Os autores comentam:

'Com o feedback do modelo FR, as imagens sintetizadas são mais benéficas para o desempenho do FR, levando a capacidades de generalização significativamente melhoradas dos modelos FR treinados com elas.'

Testes

Os pesquisadores usaram o próprio MSU trabalho prévio como um modelo para testar seu sistema. Com base nos mesmos protocolos experimentais, eles usaram o MS-Celeb-1m, que consiste exclusivamente em fotografias de celebridades rastreadas na web, como o conjunto de dados de treinamento rotulado. Para ser justo, eles também incluíram o MS1M-V2, que contém 3.9 milhões de imagens com 85,700 classes.

O dado de destino foi o Conjunto de dados WiderFace, da Universidade Chinesa de Hong Kong. Este é um conjunto particularmente diversificado de imagens projetadas para tarefas de detecção de face em situações desafiadoras. Foram usadas 70,000 imagens deste conjunto.

Para avaliação, o sistema foi testado em quatro benchmarks de reconhecimento facial: IJB-B, IJB-C, IJB-S e Rosto minúsculo.

O CFSM foi treinado com aproximadamente 10% dos dados de treinamento do MS-Celeb-1m, cerca de 0.4 milhão de imagens, para 125,000 iterações em 32 tamanhos de lote sob o otimizador Adam a uma taxa de aprendizado (muito baixa) de 1e-4.

O modelo de reconhecimento facial de destino usou um modificação do ResNet-50 para o backbone, com a função de perda ArcFace habilitada durante o treinamento. Além disso, um modelo foi treinado com CFSM como um exercício de ablação e comparação (indicado como "ArcFace" na tabela de resultados abaixo).

Resultados dos testes primários para CFSM. Números mais altos são melhores.

Resultados dos testes primários para CFSM. Números mais altos são melhores.

Os autores comentam os resultados primários:

'O modelo ArcFace supera todas as linhas de base em tarefas de identificação e verificação de rosto e atinge um novo desempenho SoTA.'

A capacidade de extrair domínios das várias características de sistemas de vigilância legados ou subespecificados também permite que os autores comparem e avaliem a similaridade de distribuição entre essas estruturas e apresentem cada sistema em termos de um estilo visual que possa ser aproveitado em trabalhos subsequentes .

Exemplos de vários conjuntos de dados exibem claras diferenças de estilo.

Exemplos de vários conjuntos de dados exibem claras diferenças de estilo.

Os autores observam, adicionalmente, que seu sistema pode fazer uso valioso de algumas tecnologias que, até o momento, foram vistas apenas como problemas a serem resolvidos pela comunidade de pesquisa e visão:

'[CFSM] mostra que a manipulação adversária pode ir além de ser um invasor e servir para aumentar a precisão do reconhecimento em tarefas de visão. Enquanto isso, definimos uma métrica de similaridade de conjunto de dados com base nas bases de estilo aprendidas, que capturam as diferenças de estilo de uma forma agnóstica de rótulo ou preditor.

'Acreditamos que nossa pesquisa apresentou o poder de um modelo de síntese facial controlável e guiado para FR irrestrita e fornece uma compreensão das diferenças entre conjuntos de dados.'

 

* Minha conversão das citações inline dos autores em hiperlinks.

Publicado pela primeira vez em 1º de agosto de 2022.

Escritor sobre machine learning, especialista em domínio em síntese de imagem humana. Ex-chefe de conteúdo de pesquisa na Metaphysic.ai.
Site pessoal: martinanderson.ai
Contato: [email protected]
Twitter: @manders_ai