Inteligência artificial

Estimativa de Previsão de Atração Facial para Transmissões ao Vivo

Published January 8, 2025

Updated April 26, 2026

Martin Anderson

Image by ChatGPT, with superimposed image from the paper https://arxiv.org/pdf/2501.02509

Até o presente, a Previsão de Atração Facial (FAP) tem sido estudada principalmente no contexto de pesquisas psicológicas, na indústria de beleza e cosméticos e no contexto de cirurgia cosmética. É um campo de estudo desafiador, pois os padrões de beleza tendem a ser nacionais em vez de globais.

Isso significa que nenhum conjunto de dados baseado em IA é viável, pois as médias obtidas por amostragem de faces/avaliações de todas as culturas seriam muito tendenciosas (onde nações mais populosas ganhariam tração adicional), ou aplicáveis a nenhuma cultura (onde a média de múltiplas raças/avaliações equivaleria a nenhuma raça real).

Em vez disso, o desafio é desenvolver metodologias conceituais e fluxos de trabalho nos quais dados específicos de país ou cultura possam ser processados, para permitir o desenvolvimento de modelos de FAP eficazes por região.

Os casos de uso para FAP em pesquisas de beleza e psicologia são bastante marginais, ou específicos da indústria; portanto, a maioria dos conjuntos de dados curados até o momento contém apenas dados limitados, ou não foi publicada.

A disponibilidade fácil de previsores de atração online, principalmente destinados a públicos ocidentais, não necessariamente representam o estado da arte em FAP, que parece atualmente dominado por pesquisas da Ásia Oriental (primariamente China), e conjuntos de dados correspondentes da Ásia Oriental.

Exemplos do conjunto de dados do artigo de 2020 ‘Asian Female Facial Beauty Prediction Using Deep Neural Networks via Transfer Learning and Multi-Channel Feature Fusion’. Fonte: https://www.semanticscholar.org/paper/Asian-Female-Facial-Beauty-Prediction-Using-Deep-Zhai-Huang/59776a6fb0642de5338a3dd9bac112194906bf30

Usos comerciais mais amplos para estimação de beleza incluem aplicativos de namoro online, e sistemas de IA gerativos projetados para ‘retocar’ imagens reais de pessoas (já que tais aplicações exigem um padrão quantificado de beleza como métrica de eficácia).

Desenhando Rostos

Indivíduos atraentes continuam a ser um ativo valioso em publicidade e construção de influência, tornando os incentivos financeiros nesses setores uma clara oportunidade para avançar nos conjuntos de dados e estruturas de FAP de ponta.

Por exemplo, um modelo de IA treinado com dados do mundo real para avaliar e classificar a beleza facial poderia potencialmente identificar eventos ou indivíduos com alto potencial de impacto publicitário. Essa capacidade seria especialmente relevante em contextos de transmissão de vídeo ao vivo, onde métricas como ‘seguidores’ e ‘curtidas’ servem apenas como indicadores implícitos da capacidade de um indivíduo (ou mesmo de um tipo facial) de cativar uma audiência.

Isso é uma métrica superficial, claro, e voz, apresentação e ponto de vista também desempenham um papel significativo na reunião de uma audiência. Portanto, a curadoria de conjuntos de dados de FAP exige supervisão humana, bem como a capacidade de distinguir atração facial de ‘especiosa’ (sem o que, influenciadores fora do domínio, como Alex Jones, poderiam acabar afetando a curva média de FAP para uma coleção projetada apenas para estimar a beleza facial).

LiveBeauty

Para abordar a escassez de conjuntos de dados de FAP, pesquisadores da China estão oferecendo o primeiro conjunto de dados de grande escala de FAP, contendo 100.000 imagens de faces, juntamente com 200.000 anotações humanas estimando a beleza facial.

Amostras do novo conjunto de dados LiveBeauty. Fonte: https://arxiv.org/pdf/2501.02509

Intitulado LiveBeauty, o conjunto de dados apresenta 10.000 identidades diferentes, todas capturadas de (não especificadas) plataformas de transmissão ao vivo em março de 2024.

Os autores também apresentam FPEM, um método de FAP multi-modal novo. FPEM integra conhecimento facial holístico e recursos estéticos semânticos multi-modais via um Módulo de Prioridade de Atração Personalizada (PAPM), um Módulo de Codificador de Atração Multi-modal (MAEM) e um Módulo de Fusão Cross-Modal (CMFM).

O artigo afirma que FPEM alcança um desempenho de ponta no novo conjunto de dados LiveBeauty e em outros conjuntos de dados de FAP. Os autores observam que a pesquisa tem aplicações potenciais para melhorar a qualidade de vídeo, recomendação de conteúdo e retoque facial em transmissões ao vivo.

Os autores também prometem tornar o conjunto de dados disponível ’em breve’ – embora deva ser concedido que quaisquer restrições de licenciamento inerentes ao domínio de origem parecem prováveis de passar para a maioria dos projetos aplicáveis que possam usar o trabalho.

O novo artigo é intitulado Previsão de Atração Facial em Transmissão ao Vivo: Um Novo Benchmark e Método Multi-modal, e vem de dez pesquisadores da Alibaba Group e da Universidade Jiao Tong de Xangai.

Método e Dados

De cada transmissão de 10 horas das plataformas de transmissão ao vivo, os pesquisadores colheram uma imagem por hora para as três primeiras horas. Transmissões com as visualizações de página mais altas foram selecionadas.

Os dados coletados foram então submetidos a várias etapas de pré-processamento. A primeira delas é medição do tamanho da região facial, que usa o modelo de detecção FaceBoxes de 2018 para gerar uma caixa delimitadora em torno dos lineamentos faciais. O pipeline garante que o lado mais curto da caixa delimitadora exceda 90 pixels, evitando regiões faciais pequenas ou pouco claras.

A segunda etapa é detecção de borramento, que é aplicada à região facial usando a variância do operador Laplaciano no canal de altura (Y) da colheita facial. Essa variância deve ser maior que 10, o que ajuda a filtrar imagens borrosas.

A terceira etapa é estimativa da pose facial, que usa o modelo de estimativa de pose 3DDFA-V2 de 2021:

Exemplos do modelo de estimativa 3DDFA-V2. Fonte: https://arxiv.org/pdf/2009.09960

Aqui, o fluxo de trabalho garante que o ângulo de inclinação da face recortada não seja maior que 20 graus, e o ângulo de guinada não seja maior que 15 graus, o que exclui faces com poses extremas.

A quarta etapa é avaliação da proporção facial, que também usa as capacidades de segmentação do modelo 3DDFA-V2, garantindo que a região facial recortada seja maior que 60% da imagem, excluindo imagens onde a face não é proeminente. i.e., pequena na imagem geral.

Finalmente, a quinta etapa é remoção de personagens duplicados, que usa um modelo de reconhecimento facial de ponta (não atribuído) para casos em que a mesma identidade aparece em mais de uma das três imagens coletadas para um vídeo de 10 horas.

Avaliação e Anotação Humana

Vinte anotadores foram recrutados, consistindo em seis homens e 14 mulheres, refletindo a demografia da plataforma de transmissão ao vivo usada*. Faces foram exibidas na tela de 6,7 polegadas de um iPhone 14 Pro Max, em condições de laboratório consistentes.

A avaliação foi dividida em 200 sessões, cada uma das quais empregou 50 imagens. Os sujeitos foram solicitados a avaliar a atração facial das amostras em uma escala de 1-5, com um intervalo de cinco minutos entre cada sessão, e todos os sujeitos participaram de todas as sessões.

Portanto, a totalidade das 10.000 imagens foi avaliada em vinte sujeitos humanos, resultando em 200.000 anotações.

Análise e Pré-processamento

Primeiramente, a pós-tela do sujeito foi realizada usando a razão de outlier e Coeficiente de Correlação de Classificação de Spearman (SROCC). Sujeitos cujas avaliações tinham um SROCC menor que 0,75 ou uma razão de outlier maior que 2% foram considerados não confiáveis e foram removidos, com 20 sujeitos finalmente obtidos..

Um Escore de Opinião Média (MOS) foi então computado para cada imagem facial, média das avaliações obtidas pelos sujeitos válidos. O MOS serve como o verdade terrestre de atração para cada imagem, e a pontuação é calculada média de todas as avaliações individuais de cada sujeito válido.

Finalmente, a análise das distribuições MOS para todas as amostras, bem como para amostras femininas e masculinas, indicou que elas exibiam um formato estilo Gaussiano, que é consistente com distribuições reais de atração facial:

Exemplos de distribuições MOS do LiveBeauty.

A maioria dos indivíduos tende a ter atração facial média, com menos indivíduos nos extremos de baixa ou alta atração.

Além disso, a análise de sesgo e curtose mostrou que as distribuições eram caracterizadas por caudas finas e concentradas em torno da pontuação média, e que a alta atração era mais prevalente entre as amostras femininas nos vídeos de transmissão ao vivo coletados.

Arquitetura

Uma estratégia de treinamento em duas etapas foi usada para o modelo de FAP multi-modal (FPEM) e a Fase de Fusão Híbrida no LiveBeauty, dividida em quatro módulos: um Módulo de Prioridade de Atração Personalizada (PAPM), um Módulo de Codificador de Atração Multi-modal (MAEM), um Módulo de Fusão Cross-Modal (CMFM) e o Módulo de Fusão de Decisão (DFM).

Esquema conceitual para o pipeline de treinamento do LiveBeauty.

O módulo PAPM recebe uma imagem como entrada e extrai recursos visuais multi-escala usando um Swin Transformer, e também extrai recursos face-aware usando um modelo FaceNet pré-treinado. Esses recursos são então combinados usando um bloco de atenção cruzada para criar um recurso de ‘atração’ personalizado.

Também na Fase de Treinamento Preliminar, o MAEM usa uma imagem e descrições de texto de atração, aproveitando CLIP para extrair recursos estéticos semânticos multi-modais.

As descrições de texto são no formato ‘uma foto de uma pessoa com {a} atração’ (onde {a} pode ser ruim, pobre, justa, boa ou perfeita). O processo estima a semelhança coseno entre embeddings textuais e visuais para chegar a uma probabilidade de nível de atração.

Na Fase de Fusão Híbrida, o CMFM refina os embeddings textuais usando o recurso de atração personalizado gerado pelo PAPM, gerando assim embeddings textuais personalizados. Em seguida, usa uma estratégia de regressão de semelhança para fazer uma previsão.

Finalmente, o DFM combina as previsões individuais do PAPM, MAEM e CMFM para produzir uma única pontuação de atração final, com o objetivo de alcançar um consenso sólido.

Funções de Perda

Para métricas de perda, o PAPM é treinado usando uma perda L1, uma medida da diferença absoluta entre a pontuação de atração prevista e a pontuação de atração real (verdade terrestre).

O módulo MAEM usa uma função de perda mais complexa que combina uma perda de pontuação (LS) com uma perda de classificação combinada (LR). A perda de classificação (LR) compreende uma perda de fidelidade (LR1) e uma perda de classificação bidirecional (LR2).

LR1 compara a atração relativa de pares de imagens, enquanto LR2 garante que a distribuição de probabilidade prevista de níveis de atração tenha um pico único e diminua em ambas as direções. Essa abordagem combinada visa otimizar tanto a pontuação precisa quanto a classificação correta de imagens com base na atração.

O CMFM e o DFM são treinados usando uma perda L1 simples.

Testes

Nos testes, os pesquisadores compararam o LiveBeauty com nove abordagens anteriores: ComboNet; 2D-FAP; REX-INCEP; CNN-ER (destacado em REX-INCEP); MEBeauty; AVA-MLSP; TANet; Dele-Trans; e EAT.

Métodos de baseline que seguem um Protocolo de Avaliação Estética de Imagem (IAA) também foram testados. Esses incluíam ViT-B; ResNeXt-50; e Inception-V3.

Além do LiveBeauty, os outros conjuntos de dados testados foram SCUT-FBP5000 e MEBeauty. Abaixo, as distribuições MOS desses conjuntos de dados são comparadas:

Distribuições MOS dos conjuntos de dados de benchmark.

Respectivamente, esses conjuntos de dados convidados foram divididos 60%-40% e 80%-20% para treinamento e teste, separadamente, para manter a consistência com seus protocolos originais. O LiveBeauty foi dividido em uma base de 90%-10%.

Para inicialização do modelo em MAEM, VT-B/16 e GPT-2 foram usados como codificadores de imagem e texto, respectivamente, inicializados por configurações do CLIP. Para PAPM, Swin-T foi usado como codificador de imagem treinável, de acordo com SwinFace.

O otimizador AdamW foi usado, e um agendador de taxa de aprendizado foi definido com aquecimento linear sob um esquema de anulação cosseno. As taxas de aprendizado diferiram durante as fases de treinamento, mas cada uma teve um tamanho de lote de 32, por 50 époques.

Resultados dos testes

Os resultados dos testes nos três conjuntos de dados de FAP são mostrados acima. Desses resultados, o artigo afirma:

‘Nosso método proposto alcança o primeiro lugar e supera o segundo lugar em cerca de 0,012, 0,081, 0,021 em termos de valores SROCC nos conjuntos de dados LiveBeauty, MEBeauty e SCUT-FBP5500, respectivamente, o que demonstra a superioridade do nosso método proposto.

‘[Os] métodos IAA são inferiores aos métodos FAP, o que manifesta que os métodos genéricos de avaliação estética ignoram os recursos faciais envolvidos na natureza subjetiva da atração facial, levando a um desempenho ruim nas tarefas FAP.

‘[O] desempenho de todos os métodos cai significativamente no MEBeauty. Isso ocorre porque as amostras de treinamento são limitadas e as faces são etnicamente diversas no MEBeauty, indicando que há uma grande diversidade na atração facial.

‘Todos esses fatores tornam a previsão da atração facial no MEBeauty mais desafiadora.’

Considerações Éticas

Pesquisa sobre atração é uma empreitada potencialmente divisiva, pois ao estabelecer padrões supostamente empíricos de beleza, tais sistemas tenderão a reforçar vieses em torno de idade, raça e muitas outras seções de pesquisa de visão computacional relacionadas a humanos.

Pode-se argumentar que um sistema FAP é intrinsicamente predispuesto a reforçar e perpetuar perspectivas parciais e tendenciosas sobre atração. Esses julgamentos podem surgir de anotações humanas lideradas – frequentemente conduzidas em escalas muito limitadas para uma generalização de domínio eficaz – ou de análise de padrões de atenção em ambientes online como plataformas de transmissão, que estão longe de ser meritocráticos.

* O artigo se refere ao domínio de origem não nomeado em ambos os singular e plural.

Publicado pela primeira vez na quarta-feira, 8 de janeiro de 2025