Connect with us

Um Sistema de IA Que Pode Tornar Imagens de Pessoas Mais ‘Bonitas’

Inteligência artificial

Um Sistema de IA Que Pode Tornar Imagens de Pessoas Mais ‘Bonitas’

mm
Background image: DALL-E 2 'Award-winning 8K photo of the most beautiful Caucasian catwalk model in the world' - https://labs.openai.com/s/kRXusxOR5GcYyb6pqZjNH2AA

Pesquisadores da China desenvolveram um novo sistema de melhoria de imagem baseado em IA que é capaz de tornar imagens de uma pessoa mais ‘bonitas’, com base em uma abordagem inovadora de aprendizado por reforço.

A nova abordagem usa uma 'rede de previsão de beleza facial' para iterar através de variações de uma imagem com base em vários fatores, entre os quais 'iluminação' e poses dos olhos podem ser fatores críticos. Aqui as fontes originais (à esquerda de cada coluna) são do sistema EigenGAN, com os novos resultados à direita desses. Fonte: https://arxiv.org/pdf/2208.04517.pdf

A nova abordagem usa uma ‘rede de previsão de beleza facial’ para iterar através de variações de uma imagem com base em vários fatores, entre os quais ‘iluminação’ e poses dos olhos podem ser fatores críticos. Aqui as fontes originais (à esquerda de cada coluna) são do sistema EigenGAN, com os novos resultados à direita desses. Fonte: https://arxiv.org/pdf/2208.04517.pdf

A técnica se baseia em inovações descobertas para o gerador EigenGAN, outro projeto chinês, de 2021, que fez progressos notáveis na identificação e controle dos atributos semânticos diversos dentro do espaço latente de Redes Adversárias Generativas (GANs).

O gerador EigenGAN de 2021 foi capaz de individuar conceitos de alto nível, como 'cor do cabelo', dentro do espaço latente de uma rede generativa adversária. O novo trabalho se baseia nesse instrumento inovador para entregar um sistema que pode 'embelezar' imagens de fonte, mas sem alterar a identidade reconhecível – um problema em abordagens anteriores.

O gerador EigenGAN de 2021 foi capaz de individuar conceitos de alto nível, como ‘cor do cabelo’, dentro do espaço latente de uma rede generativa adversária. O novo trabalho se baseia nesse instrumento inovador para entregar um sistema que pode ’embelezar’ imagens de fonte, mas sem alterar a identidade reconhecível – um problema em abordagens anteriores. Fonte: https://arxiv.org/pdf/2104.12476.pdf

O sistema utiliza uma ‘rede de pontuação de estética’ derivada do SCUT-FBP5500 (SCUT), um conjunto de dados de referência de 2018 para previsão de beleza facial, da Universidade de Tecnologia da China Meridional em Guangzhou.

Do artigo de 2018 'SCUT-FBP5500: Um Conjunto de Dados Diverso para Previsão de Beleza Facial de Multi-Paradigma', que propôs uma 'rede de previsão de beleza facial' (FBP) capaz de classificar faces em termos de atratividade percebida, mas que não podia transformar ou 'melhorar' faces. Fonte: https://arxiv.org/pdf/1801.06345.pdf

Do artigo de 2018 ‘SCUT-FBP5500: Um Conjunto de Dados Diverso para Previsão de Beleza Facial de Multi-Paradigma’, que propôs uma ‘rede de previsão de beleza facial’ (FBP) capaz de classificar faces em termos de atratividade percebida, mas que não podia transformar ou ‘melhorar’ faces. Fonte: https://arxiv.org/pdf/1801.06345.pdf

Diferentemente do novo trabalho, o projeto de 2018 não pode executar transformações, mas contém julgamentos de valor algorítmicos para 5.500 faces, fornecidos por 60 rotuladores de gênero misto (divisão 50/50). Esses foram incorporados ao novo sistema como um discriminador eficaz, para informar transformações que provavelmente melhorarão a ‘atratividade’ de uma imagem.

Interessantemente, o novo artigo é intitulado Geração de Rosto Bonito Caucasiano Controlável por Atributos por Aprendizado por Reforço Dirigido por Estética. O motivo pelo qual todas as raças, exceto a caucasiana, são excluídas do sistema (considerando também que os pesquisadores são chineses) é que os dados de origem do SCUT se inclinam notavelmente para fontes asiáticas (4.000 asiáticos, divididos igualmente entre homens e mulheres, e 1.500 caucasianos, divididos igualmente entre homens e mulheres), tornando a ‘pessoa média’ nesse conjunto de dados de cabelo castanho e olhos castanhos.

Portanto, para acomodar variações de cor pelo menos dentro de uma raça, foi necessário excluir o componente asiático dos dados originais, ou ir ao considerável custo de reconstituir os dados para desenvolver um método que talvez não tenha funcionado. Além disso, variações nas percepções culturais de beleza inevitavelmente significam que tais sistemas precisarão de algum grau de configurabilidade geográfica em relação ao que constitui ‘atratividade’.

Atributos Pertinentes

Para determinar os principais fatores contribuintes para uma foto ‘atraente’ de uma pessoa, os pesquisadores também testaram o efeito de várias alterações nas imagens, em termos de como essas alterações melhoraram a percepção algorítmica de ‘beleza’. Eles descobriram que pelo menos um dos aspectos é mais central para a boa fotografia do que para a boa genética:

Além da iluminação, os aspectos que tiveram o maior impacto na pontuação de beleza foram franjas (que, no caso dos homens, podem ser equivalentes a ter uma cabeça cheia de cabelo), pose do corpo e disposição dos olhos (onde o envolvimento com o ponto de vista da câmera é um impulso para a atratividade).

(Em relação à ‘cor do batom’, o novo sistema, que pode funcionar efetivamente em apresentações de gênero masculino e feminino, não individua a aparência de gênero, mas confia no novo sistema discriminador como um ‘filtro’ nesse aspecto)

Método

A função de recompensa no mecanismo de aprendizado por reforço no novo sistema é alimentada por uma regressão simples sobre os dados do SCUT, que produz previsões de beleza facial.

O sistema de treinamento itera sobre as imagens de entrada de dados (parte inferior esquerda no esquema abaixo). Inicialmente, um modelo pré-treinado ResNet18 (treinado em ImageNet) extrai recursos das cinco imagens idênticas (‘y’). Em seguida, uma ação transformadora potencial é derivada do estado oculto de uma camada totalmente conectada (GRUCell, na imagem abaixo), e as transformações são aplicadas, levando a cinco imagens alteradas que são alimentadas na rede de pontuação de estética, cujas classificações, ao estilo de Darwin, determinarão quais variações serão desenvolvidas e quais serão descartadas.

Uma ilustração ampla do fluxo de trabalho para o novo sistema.

Uma ilustração do fluxo de trabalho para o novo sistema.

A rede de pontuação de estética usa um módulo de atenção de canal eficiente (ECA), enquanto uma adaptação de uma instância pré-treinada de EfficientNet-B4 é responsável por extrair 1.792 recursos de cada imagem.

Após a normalização por meio de uma função de ativação ReLU, um vetor de 4 dimensões é obtido de volta do módulo ECA, que é então achatado em um vetor unidimensional após ativação e pooling de média adaptativa. Finalmente, os resultados são alimentados na rede de regressão, que recupera uma pontuação de estética.

Uma comparação qualitativa da saída do sistema. Na linha inferior, vemos a soma agregada de todos os aspectos individuados que foram identificados pelo método EigenGAN e subsequentemente aprimorados. As pontuações FID médias para as imagens estão à esquerda das linhas de imagens (maior é melhor).

Uma comparação qualitativa da saída do sistema. Na linha inferior, vemos a soma agregada de todos os aspectos individuados que foram identificados pelo método EigenGAN e subsequentemente aprimorados. As pontuações FID médias para as imagens estão à esquerda das linhas de imagens (maior é melhor).

Testes e Estudo de Usuário

Cinco variantes do método proposto foram avaliadas algoritmicamente (veja a imagem acima), com pontuações de distância de Fréchet (FID, controvertida em alguns quadrantes) atribuídas a um total de 1.000 imagens passadas pelo sistema.

Os pesquisadores observam que melhorar a iluminação alcançou uma melhor pontuação de atratividade para os sujeitos nas fotos do que várias outras alterações possíveis (i.e., para a aparência real da pessoa retratada).

Para certa extensão, testar o sistema dessa forma é limitado pelas peculiaridades dos dados do SCUT, que não têm muitos ‘sorrisos brilhantes’, e os autores argumentam que isso poderia excessivamente sobre-classificar o olhar mais típico ‘enigmático’ nos dados, em comparação com as preferências prováveis de usuários finais alvo (presumivelmente, nesse caso, um mercado ocidental).

No entanto, desde que todo o sistema depende das opiniões médias de apenas 60 pessoas (no artigo EigenGAN), e desde que a qualidade sendo estudada está longe de ser empírica, pode-se argumentar que o procedimento é mais sólido do que o conjunto de dados.

Embora seja tratado muito brevemente no artigo, imagens do EigenGAN e as cinco variantes do sistema também foram mostradas em um estudo de usuário limitado (oito participantes), que foram solicitados a selecionar a ‘melhor imagem’ (a palavra ‘atraente’ foi evitada).

Acima, a interface do usuário apresentada ao pequeno grupo de estudo; abaixo, os resultados.

Acima, a interface do usuário apresentada ao pequeno grupo de estudo; abaixo, os resultados.

Os resultados indicam que a saída do novo sistema alcançou a taxa de seleção mais alta entre os participantes (‘MAES’ na imagem acima).

A (Inútil?) Busca por Beleza

A utilidade de tal sistema é difícil de estabelecer, apesar do que parece ser um notável lócus de esforço n China em direção a esses objetivos. Nenhum é delineado na nova publicação.

O artigo anterior do EigenGAN sugere* que um sistema de reconhecimento de beleza poderia ser usado em sistemas de recomendação de síntese de maquiagem facial, cirurgia estética, embelezamento de face, ou recuperação de imagens baseada em conteúdo.

Presumivelmente, tal abordagem também poderia ser usada em sites de namoro, por usuários finais, para ‘melhorar’ suas próprias fotos de perfil em um ‘golpe de sorte’ garantido, como uma alternativa ao uso de fotos desatualizadas ou fotos de outras pessoas.

Da mesma forma, sites de namoro também poderiam ‘pontuar’ seus clientes para criar classificações e até níveis de acesso restrito, embora isso presumivelmente funcionaria apenas por meio de uma autenticação de vivacidade de captura, e não por meio de fotos submetidas (que também poderiam ser ‘melhoradas’ pelos clientes, se a abordagem se tornasse popular).

Em publicidade, um método algorítmico para avaliar a beleza (uma tecnologia prevista pelo falecido autor de ficção científica Michael Crichton em seu filme de 1982 Looker) poderia ser usado para selecionar a saída criativa não aprimorada mais provável de engajar o público-alvo, enquanto a capacidade de maximizar o impacto estético de imagens de face, sem realmente sobrescrevê-las no estilo de deepfakes, poderia impulsionar imagens já eficazes destinadas a atrair o interesse público.

O novo trabalho é apoiado pela Fundação Nacional de Ciências Naturais da China, pelo Projeto de Fundo Aberto do Laboratório Estatal de Gerenciamento e Controle de Sistemas Complexos, e pelo Projeto de Pesquisa de Filosofia e Ciências Sociais do Ministério da Educação da China, entre outros apoiadores.

 

* Muitas das recomendações do artigo do EigenGAN apontam para um livro comercialmente disponível de 2016 intitulado ‘Modelos de Computador para Análise de Beleza Facial’, em vez de recursos acadêmicos.

Publicado pela primeira vez em 11 de agosto de 2022.

Escritor sobre aprendizado de máquina, especialista em síntese de imagem humana. Ex-chefe de conteúdo de pesquisa da Metaphysic.ai.