Inteligência artificial
Um Sistema de Recomendação de Alma Gêmea de IA Baseado Apenas em Imagens

Pesquisadores do Reino Unido usaram redes neurais para desenvolver um sistema de recomendação totalmente baseado em imagens para combinações de namoro online que leva em consideração apenas se dois usuários são atraídos pelas fotos um do outro (em vez de informações de perfil, como trabalho, idade, etc.) e descobriram que ele supera sistemas menos “superficiais” em termos de obter uma combinação precisa.
O sistema resultante é chamado de Recomendador Recíproco Baseado em Imagens Temporal (TIRR) e usa Redes Neurais Recorrentes (RNNs) para interpretar a predileção histórica de um usuário por faces que ele ou ela encontra enquanto navega por combinações potenciais.
O artigo é intitulado – talvez de forma desanimadora – Fotos São Tudo o que Você Precisa para Recomendação Recíproca em Namoro Online, e vem de dois pesquisadores da Universidade de Bristol, melhorando notavelmente um sistema semelhante (chamado ImRec) lançado pela mesma equipe em 2020.
Em testes, o sistema obteve precisão de ponta em sua capacidade de prever combinações recíprocas entre usuários, melhorando não apenas no trabalho dos pesquisadores de 2020, mas também em outros sistemas de recomendação recíproca baseados em conteúdo que levam em consideração informações mais detalhadas e baseadas em texto em perfis de namoro.
Conjunto de Dados de Namoro do Mundo Real
O TIRR foi treinado com informações de usuário fornecidas por um serviço de namoro online anônimo ‘popular’ com ‘vários milhões de usuários registrados’, que só permite que os usuários se comuniquem entre si uma vez que cada um tenha ‘curtido’ o perfil do outro. O subconjunto de dados usado incluiu 200.000 assuntos, divididos igualmente entre homens e mulheres, e aproximadamente 800.000 preferências expressas pelos usuários em todos os perfis de namoro.
Como o serviço de namoro anônimo que forneceu os dados só suporta combinações heterossexuais, apenas combinações de homem/mulher foram cobertas na pesquisa.
O TIRR melhora os projetos de sistemas de recomendação recíproca (RRS) anteriores neste campo, calculando diretamente a probabilidade de uma combinação entre dois perfis, com base apenas em imagens de perfil. Sistemas anteriores previam duas preferências unidirecionais e as agregavam para obter uma previsão.
Os pesquisadores excluíram usuários que haviam sido removidos do serviço de namoro (por qualquer motivo, incluindo saída voluntária) e excluíram perfis que não incluíam fotos baseadas em faces.
As histórias dos usuários foram limitadas a um ano, para evitar anomalias potenciais que pudessem ocorrer à medida que o site de namoro ajustava seus algoritmos ao longo do tempo. Elas também foram limitadas a um máximo de 15 preferências do usuário, desde que foram demonstradas como suficientes para provar o design do modelo, enquanto o uso mais extensivo de preferências degradava o desempenho e aumentava os tempos de treinamento.
Além disso, alguns dos usuários mais ávidos ou de longo prazo tinham histórias com milhares de preferências, o que poderia arriscar dar peso às características obtidas e prolongar ainda mais os tempos de treinamento.
Rede Siamesa
O TIRR é formulado usando uma rede Siamesa, normalmente usada para aprendizado de um único disparo.

Um modelo de rede Siamesa, onde redes neurais convolucionais (CNNs) paralelas compartilham pesos, mas não dados. Elas também compartilham uma função de perda derivada das saídas de cada CNN e um rótulo de verdade fundamental. Fonte: https://arxiv.org/pdf/2108.11714.pdf
A rede foi treinada usando entropia cruzada binária, uma função de perda comum em redes neurais, e que os pesquisadores encontraram para dar resultados superiores em comparação com perda contrastiva. A última é mais eficaz em sistemas que avaliam a paridade entre duas faces, mas como isso não é o objetivo do TIRR, é uma abordagem que se sai mal neste contexto.
É necessário que o sistema retenha e construa informações que ele desenvolve à medida que o treinamento itera muitas vezes sobre os mesmos dados, e a rede Siamesa no TIRR usa uma LSTM (Long Term Short-Term Memory) para tomar essas decisões e garantir que as características consideradas relevantes não sejam descartadas aleatoriamente à medida que a estrutura constrói suas percepções.
Os pesquisadores encontraram que a rede treinou muito lentamente quando todos os dados foram inseridos e, subsequentemente, dividiram o treinamento em três etapas usando três subconjuntos diferentes de dados. Há alguma vantagem adicional nisso, pois os experimentos de 2020 dos pesquisadores já haviam demonstrado que treinar os conjuntos de dados masculino e feminino separadamente melhora o desempenho de um sistema de recomendação recíproca.

A quebra de sessões de treinamento separadas para a rede Siamesa do TIRR.
Testes
Para avaliar o desempenho do TIRR, os pesquisadores mantiveram uma porção dos dados obtidos à parte e os passaram pelo sistema totalmente convergido. No entanto, como o sistema é bastante novo, não há sistemas anteriores diretamente análogos com os quais ele possa ser comparado.
Portanto, os pesquisadores primeiro estabeleceram uma Curva de Característica de Operação do Receptor (ROC) para a rede Siamesa, antes de usar a Approximação e Projeção de Redução de Dimensionalidade de Manifold Uniforme (UMAP) para reduzir os vetores de 128 dimensões para visualização fácil, a fim de estabelecer um fluxo coerente de likes e deslikes.

À esquerda, a ROC da rede Siamesa como um indicador de desempenho de base; à direita, a visualização UMAP mostra ‘likes’ em vermelho, ‘deslikes’ em preto.
O TIRR foi testado contra sistemas de filtragem colaborativa e baseados em conteúdo com um âmbito semelhante, incluindo o trabalho anterior dos pesquisadores ImRec (ver acima), e RECON, um RRS de 2010, bem como os algoritmos de filtragem colaborativa RCF (um RRS de namoro de 2015 baseado no conteúdo de texto de perfis de namoro) e LFRR (um projeto semelhante de 2019).

Em todos os casos, o TIRR foi capaz de oferecer precisão superior, embora apenas marginalmente em comparação com o LFRR, possivelmente indicando fatores de correlação entre o conteúdo de texto do perfil e o nível percebido de atração das fotos do perfil.
A quase-paridade entre o TIRR baseado em imagens e o mais baseado em texto LFRR permite pelo menos duas possibilidades: que a percepção dos usuários da atratividade visual é influenciada pelo conteúdo de texto dos perfis; ou que o conteúdo de texto recebe mais atenção e aprovação do que poderia ter ocorrido se a foto associada não fosse percebida como atraente.
Por razões óbvias, a equipe de pesquisa não pode liberar o conjunto de dados ou o código-fonte do TIRR, mas encoraja outras equipes a duplicar e confirmar sua abordagem.
n.b As imagens usadas na ilustração principal são de thispersondoesnotexist.com.













