Ângulo de Anderson

Ferramenta de IA Remove Maquiagem para Impedir que Menores Burlam Verificações de Idade

Published July 18, 2025

Updated April 26, 2026

Martin Anderson

Flux, SDXL, Photoshop Neural filters, Firefly, Krita et al.

A aparência de cosméticos faciais está permitindo que usuários menores de idade, principalmente meninas, passem por verificações de idade baseadas em selfies em plataformas como aplicativos de namoro e sites de comércio eletrônico. Uma nova ferramenta de IA aborda essa brecha, usando um modelo discriminativo treinado para apagar a maquiagem enquanto preserva a identidade, tornando mais difícil para menores enganar sistemas automatizados.

O uso de serviços de verificação de idade baseados em selfies de terceiros está aumentando, não apenas devido a um impulso global geral em direção à verificação de idade online.

Por exemplo, no novo regime de aplicação que a Lei de Segurança Online do Reino Unido agora exige, a verificação de idade pode ser realizada por uma variedade de serviços de terceiros serviços, usando vários métodos possíveis, incluindo verificação visual de idade, onde a IA é usada para prever visualmente a idade do usuário (geralmente a partir de filmagens de câmera móvel ao vivo). Serviços que usam abordagens desse tipo incluem Ondato, TrustStamp e Yoti.

No entanto, a estimativa de idade não é infalível, e a determinação tradicional de adolescentes para antecipar os direitos da idade adulta significa que os jovens desenvolveram uma variedade de métodos eficazes para entrar em sites de namoro, fóruns e outros ambientes que banem seu grupo etário.

Um desses métodos, mais comumente usado por mulheres*, é o uso de maquiagem facial – uma tática conhecida por enganar sistemas de estimativa de idade automatizados, que geralmente superestimam a idade de jovens e subestimam a idade de pessoas mais velhas.

Não Apenas as Meninas

Antes que surja uma protesto considerando a maquiagem como ‘foco feminino’, devemos notar que a presença de cosméticos faciais em qualquer pessoa é um indicador muito pouco confiável de gênero:

No artigo ‘Impacto de Cosméticos Faciais em Algoritmos de Estimativa de Gênero e Idade Automáticos’ os pesquisadores americanos descobriram que os sistemas de verificação de gênero foram enganados por maquiagem que muda de gênero. Fonte: https://cse.msu.edu/~rossarun/pubs/ChenCosmeticsGenderAge_VISAPP2014.pdf

Em 2024, 72% dos consumidores masculinos americanos entre 18-24 anos foram estimados a incorporar maquiagem em sua rotina de cuidados pessoais – embora a maioria use produtos cosméticos para melhorar a aparência de pele saudável, em vez de se envolver em combinações de maquiagem performática mais associadas à estética visual feminina.

Portanto, não podemos deixar de tratar o material estudado neste artigo ao longo das linhas do cenário mais comum explorado em novas pesquisas – o de menores femininas usando maquiagem para subverter sistemas de verificação de idade visual automatizados.

Remoção Eficaz de Maquiagem – O Caminho da IA

A pesquisa mencionada acima vem de três contribuintes da Universidade de Nova York, na forma do novo artigo DiffClean: Remoção de Maquiagem Baseada em Difusão para Estimativa de Idade Precisa.

O objetivo do projeto é alcançar um método impulsionado por IA para remover a aparência de maquiagem de imagens (potencialmente incluindo imagens de vídeo), a fim de obter uma melhor ideia da verdadeira idade da pessoa por trás da maquiagem.

Do novo artigo, um exemplo de remoção de maquiagem. Fonte: https://arxiv.org/pdf/2507.13292

Do novo artigo, um exemplo de como a remoção de maquiagem pode notavelmente alterar uma previsão de idade. Fonte: https://arxiv.org/pdf/2507.13292

Uma das desafios de desenvolver tal sistema é a sensibilidade potencial em torno da coleta ou curadoria de imagens de meninas menores de idade usando maquiagem adulta. No final, os pesquisadores usaram um sistema baseado em Rede Adversária Generativa de terceiros chamado EleGANt para impor estilos de maquiagem artificialmente, uma técnica que se provou muito eficaz:

O sistema EleGANt da Universidade de Tsinghua de 2022 usa Redes Adversárias Generativas (GANs) para superpor cosméticos de forma autêntica em fotos de origem. Fonte: https://arxiv.org/pdf/2207.09840

O sistema EleGANt da Universidade de Tsinghua de 2022 usa uma Rede Adversária Generativa (GAN) para superpor cosméticos de forma autêntica em fotos de origem. Fonte: https://arxiv.org/pdf/2207.09840

Com a ajuda de dados sintéticos obtidos dessa forma, e com a ajuda de uma variedade de projetos e conjuntos de dados auxiliares, os autores foram capazes de superar os métodos de estado da arte em estimativa de idade quando confrontados com maquiagem performática ou “evidente”.

O artigo afirma:

‘DiffClean [apaga] vestígios de maquiagem usando um modelo de difusão orientado por texto para se defender contra ataques de maquiagem. [Ele] melhora a estimativa de idade (precisão menor vs. adulto por 4,8%) e verificação de face (TMR por 8,9% em FMR=0,01%) sobre as linhas de base concorrentes em imagens de maquiagem digitalmente simuladas e reais.’

Vamos dar uma olhada em como eles foram sobre a tarefa.

Método

Para evitar a obtenção de imagens reais de menores com maquiagem, os autores usaram EleGANt para aplicar cosméticos sintéticos em imagens obtidas do conjunto de dados UTKFace, produzindo pares antes e depois para treinamento.

Exemplos do conjunto de dados UTKFace. Fonte: https://susanqq.github.io/UTKFace/

DiffClean foi então treinado para reverter essa transformação. Desde que os algoritmos de estimativa de idade erram mais quando lidam com grupos etários mais jovens, os pesquisadores encontraram necessário desenvolver um classificador de idade proxy afinado nas idades alvo (10-19 anos). Para isso, eles usaram a arquitetura SSRNet treinada no UTKFace, com uma perda L1 ponderada.

Um modelo simplificado do modelo de difusão da OpenAI de 2021 forneceu a espinha dorsal para a transformação, com os autores retraindo a arquitetura central, mas modificando-a com cabeças de atenção extras em resoluções diversas, camadas mais profundas e blocos no estilo BigGAN para melhorar as etapas de upsampling e downsampling.

Controle direcional foi introduzido usando CLIP prompts: especificamente, rosto com maquiagem e rosto sem maquiagem, para que o modelo aprendesse a se mover na direção semântica desejada, permitindo que a maquiagem fosse removida sem comprometer detalhes faciais, sinais de idade ou identidade.

Maquiagem sintética aplicada usando EleGANt. Cada triplet mostra a imagem original UTKFace (esquerda), o estilo de maquiagem de referência (centro) e o resultado após a transferência de estilo (direita). A transferência de maquiagem desse tipo é comum na literatura de visão computacional, e essa facilidade também está disponível nos filtros neurais do Adobe Photoshop, que podem impor maquiagem de uma imagem de referência em uma imagem de destino.

Quatro funções de perda-chave guiaram a remoção de maquiagem sem afetar a identidade facial ou sinais de idade. Além da perda baseada em CLIP mencionada acima, a identidade foi preservada usando um par ponderado de perdas ArcFace tiradas da biblioteca InsightFace – perdas que mediam a semelhança entre o rosto gerado e tanto a imagem original limpa quanto a versão “maquiada”, garantindo que o assunto permanecesse visualmente consistente antes e depois da remoção da maquiagem.

Em terceiro lugar, a perda perceptual Métricas de Semelhança Perceptual Aprendidas (LPIPS) usou a distância L1 para impor realismo de nível de pixel e manter a aparência geral da imagem original após a remoção da maquiagem.

Finalmente, a idade foi supervisionada usando um classificador de idade proxy afinado no conjunto de dados UTKFace, com o modelo usando uma perda L1 suavizada (com penalidades mais pesadas para erros na faixa etária de 10-29 anos, onde a classificação errada é mais comum). Uma variante do modelo substituiu isso por uma perda de idade baseada em CLIP, solicitando ao modelo que correspondesse à aparência de uma idade específica.

Para a estimativa de idade no tempo de inferência (em oposição ao uso de SSRNet no tempo de treinamento), o quadro MiVOLO de 2023 foi usado.

Dados e Testes

O ajuste fino de SSRNet do UTKFace empregou um conjunto de treinamento de 15.364 imagens, contra um conjunto de teste de 6.701 imagens. As 20.000 imagens originais foram filtradas para remover qualquer pessoa com mais de 70 anos e, em seguida, divididas na mesma proporção.

De acordo com o método anterior estabelecido pelo projeto DiffAM de 2023, o treinamento prosseguiu em duas etapas, com a sessão inicial usando 300 imagens de maquiagem do mundo real (desta vez uma divisão de 200/100 entre treinamento e validação) do conjunto de dados MT da BeautyGAN.

O modelo foi então refinado ainda mais usando 300 imagens adicionais do UTKFace, aumentadas com maquiagem sintética via EleGANt. Isso criou um conjunto de treinamento final de 600 exemplos, emparelhados em cinco estilos de referência da BeautyGAN. Como a remoção de maquiagem envolve mapear muitos estilos de maquiagem para um único rosto limpo, o treinamento se concentrou na generalização ampla em vez de cobrir todas as variações cosméticas possíveis.

O desempenho foi avaliado em imagens sintéticas e do mundo real. Testes sintéticos usaram 2.556 imagens do conjunto de dados Flickr-Faces-HQ (FFHQ), amostradas uniformemente em nove grupos etários abaixo de 70 e modificadas com EleGANt.

A generalização foi avaliada usando 3.000 imagens do BeautyFace e 355 do LADN, ambos contendo maquiagem autêntica.

Exemplos do conjunto de dados BeautyFace, exemplificando a segmentação semântica que define várias áreas de superfície facial afetada. Fonte: https://li-chongyi.github.io/BeautyREC_files/

Métricas e Implementação

Para métricas, os autores usaram Erro Médio Absoluto (MAE) entre a verdadeira idade (imagens reais com idades estabelecidas) e os valores de idade previstos, onde resultados mais baixos são melhores; precisão de grupo de idade foi usada para avaliar se as idades previstas terminaram nos grupos corretos (no qual caso, resultados mais baixos são melhores); precisão menor/maior foi usada para avaliar a identificação correta de pessoas com 18+ anos (no qual caso, um resultado mais alto é melhor).

Além disso, embora não se centre no tópico específico em questão, os autores também relatam métricas de verificação de identidade na forma de Taxa de Combinação Verdadeira (TMR) e Taxa de Combinação Falsa (FMR), com relatórios adicionais de valores relacionados Curva de Característica de Operação do Receptor (ROC).

SSRNet foi ajustado no UTKFace em imagens de 64×64px usando um tamanho de lote de 50 sob o otimizador Adam com um decaimento de peso de 1e−4, bem como um agendador de annealing cosseno, e uma taxa de aprendizado de 1e−3 ao longo de 200 épocas, com parada antecipada.

Por contraste, o módulo DiffClean recebeu imagens de entrada de 256×256px e foi ajustado para cinco épocas usando Adam, a uma taxa de aprendizado mais grosseira de 4e−3. A amostragem usou 40 passos de inversão DDIM, e 6 passos de DDIM para a frente. Todo o treinamento foi realizado em uma única GPU NVIDIA A100 (seja com 40GB ou 80GB de VRAM não foi especificado).

Sistemas rivais testados foram CLIP2Protect e o anteriormente mencionado DiffAM. Os autores usaram estilos de maquiagem “matte” no fluxo de trabalho, pois isso foi observado em CLIP2Protect como alcançando uma taxa de sucesso mais alta (presumivelmente permitindo uma oportunidade para aqueles que buscam derrotar essa abordagem – mas isso é um assunto para outra ocasião).

Para replicar DiffAM como uma linha de base, o modelo pré-treinado da BeautyGAN foi ajustado no conjunto de dados MT. Para a transferência de maquiagem adversária, o checkpoint de DiffAM foi usado com parâmetros padrão para o modelo de destino, imagem de referência e identidade.

Desempenho de DiffClean em comparação com as linhas de base em tarefas de estimativa de idade, usando MiVOLO. Métricas relatadas são classificação menor/maior, precisão de grupo de idade e erro médio absoluto (MAE). DiffClean com perda de idade CLIP alcança os melhores resultados em todas as métricas.

Desses resultados, os autores afirmam:

‘Nosso método DIFFCLEAN supera ambas as linhas de base, CLIP2Protect e DiffAM, e pode restaurar com sucesso os sinais de idade interrompidos devido à maquiagem, reduzindo o MAE (para 5,71) e melhorando a precisão geral de previsão de grupo de idade (para 37%).

‘Nosso objetivo se concentrou em grupos etários menores, e os resultados indicam que alcançamos uma classificação superior de idade menor vs. adulto de 88,6%.’

Resultados de remoção de maquiagem de métodos de linha de base e propostos. A coluna mais à esquerda mostra imagens de origem, a próxima saídas de CLIP2Protect e DiffAM. A terceira coluna mostra resultados de DiffClean via SSRNet e perda de idade baseada em CLIP. Os autores afirmam que DiffClean remove a maquiagem mais eficazmente, evitando a distorção de recursos vista em CLIP2Protect e os cosméticos residuais perdidos por DiffAM.

Os autores observam ainda que a maquiagem não tem um efeito uniforme na idade aparente, mas pode aumentar, diminuir ou deixar inalterada a idade aparente de um rosto. Portanto, DiffClean não aplica uma “redução em branco” na idade prevista, mas tenta recuperar os sinais de idade originais removendo vestígios de maquiagem:

Exemplos de remoção de maquiagem dos conjuntos de dados CelebA-HQ e CACD. Cada coluna mostra um par de imagens antes (esquerda) e após (direita) a remoção da maquiagem. Na primeira coluna, a idade prevista diminui após a remoção da maquiagem; na segunda, permanece inalterada; e na terceira, aumenta.

Para testar como bem DiffClean se saiu em dados novos, ele foi executado nos conjuntos de dados BeautyFace e LADN, que contêm maquiagem autêntica, mas não imagens emparelhadas dos mesmos sujeitos sem cosméticos. Previsões de idade feitas antes e após a remoção da maquiagem foram comparadas para avaliar como eficazmente DiffClean reduziu a distorção introduzida pela maquiagem:

Resultados de remoção de maquiagem em imagens do mundo real dos conjuntos de dados LADN (par esquerdo) e BeautyFace (par direito). DiffClean reduz as idades previstas removendo cosméticos, estreitando a lacuna entre a idade aparente e a idade real. Números brancos mostram idades estimadas antes e após o processamento.

Os resultados mostraram que DiffClean consistentemente estreitou a lacuna entre a idade aparente e a idade real. Em ambos os conjuntos de dados, reduziu os erros de superestimação e subestimação em cerca de três anos em média, sugerindo que o sistema se generaliza bem para estilos cosméticos do mundo real.

Conclusão

É interessante, e talvez inevitável, que maquiagem cosmética performática seja usada de forma adversária. Dado que as meninas amadurecem em taxas diferentes, mas consistentemente amadurecem mais rápido como um grupo, a tarefa de identificar o limiar entre o status de menor e adulto feminino pode ser uma das mais ambiciosas que a cena de pesquisa já se propôs.

No entanto, o tempo e os dados podem eventualmente determinar sinais de idade consistentes que possam ser usados para ancorar sistemas de verificação de idade visual.

* Desde que este assunto convida linguagem carregada, e desde que ‘meninas’ é exclusivo (enquanto ‘mulheres e meninas’, o termo atualmente aceitável para pessoas de gênero feminino, não é uma descrição precisa neste caso), eu recorri a ‘feminino’ como o melhor compromisso que pude conceber – embora não capture todas as sutilezas demográficas, pelo que peço desculpas.

^† Neste artigo, uso ‘performático’ para indicar maquiagem que é destinada a ser vista e reconhecida como maquiagem, como mascara, delineador, blush e base, em oposição a cremes de cobertura e outros tipos de aplicações cosméticas ‘surreptícias’.

Publicado pela primeira vez na sexta-feira, 18 de julho de 2025