Ângulo de Anderson
A Busca da Inteligência Artificial pela Beleza

Um novo sistema de avaliação de beleza impulsionado por IA classifica a atratividade das faces, enquanto treina mais rápido do que os modelos de aprendizado profundo típicos, potencialmente tornando a avaliação automatizada de beleza em grande escala mais prática.
A Previsão de Beleza Facial (FBP) é um grande negócio e uma vertente fairly forte na literatura de pesquisa. Embora viole praticamente todos os princípios por trás do combate ao viés nas práticas de IA e aprendizado de máquina, e embora, de muitas maneiras, apoie a objetificação e reducionismo nas percepções algorítmicas das mulheres, ela, no entanto, atrai o interesse de várias indústrias de vários bilhões de dólares, a maioria das quais é direcionada às mulheres, como cosméticos, cirurgia facial cosmética, transmissões ao vivo e moda, entre outras:

Mulheres classificadas de 1 a 5, do artigo ‘Previsão de Beleza Facial Feminina Asiática Usando Redes Neurais Profundas via Aprendizado de Transferência e Fusão de Recursos Multicanal’. Fonte
Além desses óbvios enclaves de negócios centrados nas mulheres, a publicidade e várias outras indústrias, incluindo entretenimento e publicação, têm apostas notáveis em entender o que ambos os homens e as mulheres consideram ‘atraente’, necessariamente em uma base por cultura.
O fato de que as percepções agregadas de beleza variam por regiões significa que não podem ser obtidos conjuntos de dados definitivos e globalmente aplicáveis, e que novas pesquisas devem permanecer paroquiais ou concentrar-se em métodos de ‘alto nível’ que possam ser aplicados em dados culturais diversificados.

Uma interface para um sistema de avaliação de beleza facial para o projeto SCUT-FBP de 2015. Fonte
Muitas vezes, a localização geográfica não é a única restrição, pois conjuntos de dados focados na atratividade podem lutar para fornecer eficácia igual em todos os gêneros, ou podem ter sido curados com uma aplicação específica em mente – e isso pode restringir o uso da coleção em outros domínios.
Por exemplo, em 2025, eu relatei o desenvolvimento de um conjunto de dados relativamente grande (100.000+ identidades) para avaliar a atratividade em transmissões ao vivo, cujos padrões de corte podem precisar de adaptação notável para projetos mais amplos, apesar do enorme esforço por trás da iniciativa.
Representação Facial
Como pode ser evidente a partir dos links e imagens acima, os corpos de pesquisa asiáticos muitas vezes não operam sob as mesmas restrições culturais que seus equivalentes ocidentais, que estariam difíceis de ousar publicar uma ilustração científica classificando cinco mulheres ocidentais de menos para mais atraentes, como vemos no estudo ilustrado acima.
Pode-se argumentar que, onde os sistemas de origem asiática deste tipo são comprovados eficazes em público, sem medo de censura local, os interesses ocidentais podem usar ou adaptar tal pesquisa em implementações privadas e proprietárias. A tarefa de ‘classificar as mulheres’, nesse cenário, é renderizada para um local onde pode ser perseguida sem críticas.
Seja comum ou se sistemas equivalentes ocidentais menos divulgados tendem a ser desenvolvidos longe da colaboração de código aberto e da vigilância pública, é razoável supor que o objetivo é de interesse global, devido ao grande número de setores profissionais que podem ou poderiam se beneficiar de avaliações precisas de atratividade.
Sobrevivência do Mais Apto
Pode parecer que corpora maciços e extraíveis da web, como Tik Tok, Instagram e YouTube, provariam excelentes árbitros de beleza, correlacionando seguidores, curtidas e tráfego com atratividade, desde que essa é uma associação comum e razoável (embora com algumas exceções).
Da mesma forma, coleções existentes – como ImageNet e LAION – que apresentam atores e modelos que ‘subiram ao topo’ – geralmente apresentarão indivíduos atraentes (embora muitas vezes com muitos pontos de dados de poucas pessoas), permitindo que mecanismos culturais mais amplos atuem como um proxy para atratividade.
No entanto, isso não leva em conta mudanças nos gostos do que as pessoas consideram atraente ao longo do tempo (para não mencionar geograficamente). Portanto, novamente, são necessários sistemas de alto nível e independentes de dados, e não coleções ou curas individuais e especiosas que falharão em refletir os gostos em mudança.
Combinação de Pele
A última entrada acadêmica para lidar com esses desafios vem da China, onde aprendizado de transferência e Sistema de Aprendizado Amplo (BLS) são combinados para resolver a compensação de longa data entre precisão e custo computacional.
Redes neurais convencionais tendem a alcançar resultados fortes apenas com treinamento pesado, enquanto sistemas mais leves, como o BLS, treinam rapidamente, mas lutam para capturar detalhes suficientes. O novo trabalho ponteia essa lacuna usando um modelo visual pré-treinado para extrair recursos faciais, que são então passados para um sistema BLS rápido para pontuação, permitindo que os recursos sejam reutilizados em vez de aprendidos do zero, mantendo o treinamento eficiente:

Imagens de amostra do conjunto de dados LSAFBD, mostrando faces femininas agrupadas por escores de beleza humanos atribuídos de 1 a 5. Classificações foram obtidas de vários anotadores, e usadas como rótulos supervisionados para treinar e avaliar modelos de previsão de beleza facial em variações de pose, iluminação e aparência. Fonte
A primeira das duas variações introduzidas no trabalho (E-BLS, veja abaixo), alimenta os recursos extraídos diretamente no sistema leve, enquanto a segunda, ER-BLS (também veja abaixo), adiciona uma etapa intermediária simples que padroniza e refina esses recursos antes da avaliação, ajudando a melhorar a consistência sem retardar o processo.
Os testes realizados pelos autores provam, segundo eles, que sua abordagem é superior a qualquer método por si só e a outros métodos concorrentes.
O novo artigo é intitulado Previsão de beleza facial fundindo aprendizado de transferência e sistema de aprendizado amplo, e vem de seis pesquisadores da Universidade Wuyi, Jiangmen.
Método
O mencionado Sistema de Aprendizado Amplo é uma alternativa leve às redes neurais profundas, que pula a pilha de múltiplas camadas, e em vez disso espalha o aprendizado por um conjunto amplo de conexões mais simples, permitindo que os modelos sejam treinados rapidamente – mas geralmente ao custo de perder detalhes visuais mais finos.
A primeira das duas variantes, E-BLS, combina aprendizado de transferência EfficientNet com BLS, extrai recursos visuais detalhados de uma face e, em seguida, passa-os para o BLS, envolvendo uma previsão final que evita a necessidade de treinar uma rede neural profunda completa do zero:

Esquema de arquitetura para o modelo E-BLS.
EfficientNet, pré-treinado no ImageNet-1k, e largamente mantido inalterado, converte cada imagem de entrada em um conjunto compacto de valores de recursos que descrevem a face de uma maneira estruturada, enquanto o BLS pega esses valores e os processa por meio de uma rede de nós simples e aleatoriamente conectados que transformam e combinam as informações, antes de produzir a pontuação de atratividade final.
Como o BLS não depende de estruturas em camadas profundas, o E-BLS pode ser atualizado adicionando mais nós em vez de retreinar todo o sistema,. Isso mantém o treinamento rápido e facilita a melhoria do modelo à medida que novos dados são introduzidos.
A segunda das duas variantes, ER-BLS, constrói sobre o E-BLS, inserindo uma etapa de processamento adicional entre o extrator de recursos EfficientNet e o BLS, com o objetivo de melhorar como os recursos extraídos são preparados antes de serem usados para previsão:

Arquitetura do modelo ER-BLS.
Em vez de enviar os recursos brutos do EfficientNet diretamente para o BLS, o ER-BLS primeiro os passa por uma camada de refinamento que padroniza e reorganiza os dados, ajudando a reduzir o ruído e tornar os recursos mais consistentes em diferentes imagens. Essa etapa é projetada para melhorar como o sistema se generaliza, especialmente quando as faces variam em iluminação, pose ou outras condições visuais que podem introduzir instabilidade nas previsões.
Os recursos refinados são então alimentados na mesma estrutura BLS usada no E-BLS, onde os nós de recursos e os nós de melhoria transformam e combinam as informações para produzir a pontuação de atratividade final.
Dados e Testes
Para testar sua abordagem, os autores utilizaram o conjunto de dados SCUT-FBP5500, uma coleção de previsão de beleza facial da Universidade da China Meridional, contendo 5.500 imagens de faces frontais em 350x350px, apresentando raças, gêneros e idades diversificados:

Imagens faciais de amostra do conjunto de dados SCUT-FBP5500 classificadas de menos (1) para mais (5) atraentes.
Cada imagem foi classificada com uma pontuação de beleza por 60 voluntários, em uma escala de 1 a 5, variando de extremamente não atraente (1) a extremamente atraente (5):

A divisão das proporções de imagens por classificação de beleza.
O outro banco de dados utilizado foi o Conjunto de Dados de Beleza Feminina Asiática em Grande Escala (LSAFBD) coletado pelos próprios autores.

Imagens faciais de amostra do conjunto de dados LSAFBD classificadas de menos (1) para mais (5) atraentes.
A coleção consiste em 80.000 imagens não rotuladas em resolução 144x144px, com variações em pose e fundo, bem como idade. Essas foram classificadas por 75 voluntários para os mesmos critérios que o conjunto de dados anterior, desta vez em uma escala de 0 a 4:

As divisões para o conjunto de dados LSAFBD.
Cada conjunto de dados foi dividido em segmentos de treinamento e teste em uma proporção de 8/20, e validação cruzada foi usada para estabilizar os resultados em diferentes execuções. O componente BLS foi configurado por meio do número de janelas de recursos; o número de nós por janela; e o número de nós de melhoria, com Hyperopt usado para buscar combinações eficazes.
Para estabelecer uma linha de base, um modelo BLS padrão foi treinado sob configurações idênticas, após o que uma série de modelos de aprendizado de transferência foi introduzida, incluindo ResNet50, Inception-V3, DenseNet121, InceptionResNetV2, EfficientNetB7, MobileNetV2, NASNet, e Xception – todos inicializados com pesos do ImageNet-1k, e treinados com suas camadas finais desbloqueadas.
O treinamento usou uma taxa de aprendizado de 0,001 (reduzida quando o progresso estagnou), e um tamanho de lote de 16, em 50 épocas, com regularização e ativação linear retificada (ReLU) aplicadas em todo o processo.
A performance foi avaliada usando precisão e correlação de Pearson, ao lado do tempo total de treinamento, com os resultados médios em cinco execuções.
Os autores relatam a configuração de treinamento como um CPU Intel-i7 3,6 GHz e 64GB de RAM em um ‘computador de mesa’:

Comparação de desempenho no SCUT-FBP5500, onde E-BLS e ER-BLS alcançam precisão competitiva contra modelos CNN profundos, incluindo ResNet50, EfficientNetB7, InceptionV3 e Xception, enquanto exigem substancialmente menos tempo de treinamento – destacando os ganhos de eficiência da combinação de aprendizado de transferência com um Sistema de Aprendizado Amplo.
Os resultados indicaram que o E-BLS melhorou a precisão de 65,85% para 73,13%, enquanto o ER-BLS alcançou 74,69%, excedendo todos os modelos comparados. O tempo de treinamento permaneceu notavelmente mais baixo do que os CNNs profundos, em cerca de 1.300 segundos, versus vários milhares a mais de 25.000 segundos.
Para os testes no LSAFBD, os resultados mostraram que o E-BLS melhorou a precisão em relação ao BLS simples, enquanto o ER-BLS alcançou a precisão mais alta entre todos os métodos comparados:

Desempenho no LSAFBD, onde ER-BLS e E-BLS entregam precisão mais alta do que todos os modelos de linha de base e de transferência de aprendizado, enquanto exigem apenas uma fração do tempo de treinamento deles, indicando uma vantagem consistente em eficiência sem sacrificar a qualidade preditiva.
Ambas as variantes mantiveram um tempo de treinamento substancialmente mais baixo do que os modelos CNN profundos, indicando um equilíbrio mais eficiente entre desempenho e custo computacional.
Conclusão
Este é um pouco de uma publicação ‘retro’, como evidenciado pelo uso de favoritos do pré-boom, como CNNs, e pelo equipamento de treinamento de nível mais baixo que encontrei em um artigo novo em muitos anos.
No entanto, lida com um objetivo surpreendentemente resiliente em visão computacional; um que toca fortemente na experiência humana e interpretação subjetiva, e que exige um esquema que transcenda as tendências estéticas do momento, e possa fornecer um pipeline verdadeiramente resiliente para a tarefa.
Publicado pela primeira vez na quinta-feira, 19 de março de 2026












