Intelligence Artificielle
Un système de recommandation AI Soulmate basé uniquement sur des images

Des chercheurs du Royaume-Uni ont utilisé des réseaux neuronaux pour développer un système de recommandation entièrement basé sur l'image pour les rencontres en ligne, qui prend uniquement en compte le fait que deux utilisateurs soient attirés ou non par les photos de l'autre (plutôt que par des informations de profil telles que le travail, l'âge, etc.), et ont découvert qu'il surpasse les systèmes moins « superficiels » en termes d'obtention d'une correspondance précise.
Le système résultant s'appelle Temporal Image-Based Reciprocal Recommender (TIRR) et utilise des réseaux neuronaux récurrents (RNN) pour interpréter la prédilection historique d'un utilisateur pour les visages qu'il rencontre lors de la recherche de correspondances potentielles.
papier est intitulé – peut-être de façon décourageante – Les photos sont tout ce dont vous avez besoin pour une recommandation réciproque dans les rencontres en ligne, et vient de deux chercheurs de l'Université de Bristol, améliorant notamment un système similaire (appelé ImRec) sorti par la même équipe en 2020.
Lors des tests, le système a obtenu une précision de pointe dans sa capacité à prédire réciproque correspondances entre les utilisateurs, améliorant non seulement les travaux des chercheurs de 2020, mais également d'autres systèmes de recommandation réciproque de rencontres basés sur le contenu qui prennent en compte des informations textuelles plus détaillées dans les profils de rencontres.
Ensemble de données de rencontres dans le monde réel
TIRR a été formé à partir des informations utilisateur fournies par un service de rencontres en ligne anonyme, « populaire », comptant plusieurs millions d'utilisateurs inscrits. Ce service ne permet aux utilisateurs de communiquer entre eux qu'après avoir « aimé » le profil de l'autre. Le sous-ensemble de données utilisé comprenait 200,000 800,000 sujets, répartis équitablement entre hommes et femmes, et environ XNUMX XNUMX préférences exprimées par les utilisateurs sur l'ensemble des profils de rencontres.
Étant donné que le service de rencontres anonymes fournissant les données ne prend en charge que les correspondances hétérosexuelles, seules les correspondances homme/femme ont été couvertes par la recherche.
TIRR améliore les précédentes conceptions de systèmes de recommandation réciproques (RRS) dans ce domaine en calculant directement la probabilité d'une correspondance entre deux profils, sur la base uniquement des images de profil. Les systèmes antérieurs prédisaient plutôt deux préférences unidirectionnelles, puis les agrégeaient pour obtenir une prédiction.
Les chercheurs ont exclu les utilisateurs qui avaient été supprimés du service de rencontres (pour quelque raison que ce soit, y compris le départ volontaire) et les profils exclus qui n'incluaient pas de photos basées sur le visage.
Les historiques des utilisateurs ont été limités à un an en arrière, afin d'éviter les anomalies potentielles qui pourraient survenir lorsque le site de rencontres a modifié ses algorithmes au fil du temps. Ils étaient également limités à un maximum de 15 préférences utilisateur, car celles-ci ont été démontrées comme suffisantes pour prouver la conception du modèle, tandis qu'une utilisation plus étendue des préférences dégradait les performances et augmentait les temps de formation.
De plus, certains des utilisateurs les plus avides ou à long terme avaient des antécédents avec milliers de préférences, ce qui aurait pu risquer de fausser le poids des caractéristiques obtenues, et d'allonger encore les temps d'apprentissage.
Réseau siamois
Le TIRR est formulé à l'aide d'un Réseau siamois, généralement utilisé pour apprentissage « en une seule fois ».

Un modèle de réseau siamois, où les réseaux de neurones à convolution parallèles (CNN) partagent des poids mais pas des données. Ils partagent également une fonction de perte dérivée des sorties de chaque CNN et une étiquette de vérité terrain. Source : https://arxiv.org/pdf/2108.11714.pdf
Le réseau a été formé en utilisant la crossentropie binaire, une fonction de perte courante dans les réseaux de neurones et qui, selon les chercheurs, donne des résultats supérieurs à ceux des réseaux neuronaux. perte contrastive. Cette dernière est plus efficace dans les systèmes qui évaluent la parité entre deux faces, mais comme ce n'est pas l'objectif du TIRR, c'est une approche qui fonctionne mal dans ce contexte.
Il est nécessaire que le système conserve et développe les informations qu'il développe au fur et à mesure que la formation itère plusieurs fois sur les mêmes données, et le réseau siamois dans TIRR utilise un LSTM (mémoire à long terme à court terme) pour prendre ces décisions et pour s'assurer que les fonctionnalités jugées pertinentes ne sont pas rejetées au fur et à mesure que le cadre construit ses connaissances.
Les chercheurs ont constaté que le réseau s'entraînait très lentement une fois toutes les données saisies, puis ont divisé l'entraînement en trois étapes utilisant trois sous-ensembles de données différents. Ceci présente un avantage supplémentaire, car les expériences menées en 2020 par les chercheurs avaient déjà démontré que l'entraînement séparé des ensembles de données masculins et féminins améliorait les performances d'un système de recommandation réciproque.

La répartition des sessions de formation distinctes pour le réseau siamois de TIRR.
Tests
Pour évaluer les performances du TIRR, les chercheurs ont conservé une partie des données obtenues et les ont analysées dans le système entièrement convergé. Cependant, ce système étant relativement nouveau, il n'existe aucun système antérieur directement analogue auquel il pourrait être comparé.
Par conséquent, les chercheurs ont d'abord établi une courbe caractéristique de fonctionnement du récepteur (ROC) ligne de base pour le réseau siamois, avant d'utiliser l'approximation et la projection uniformes de la variété pour la réduction de la dimensionnalité (UMAP) pour réduire les vecteurs à 128 dimensions pour une visualisation facile, afin d'établir un flux cohérent de goûts et de dégoûts.

À gauche, le ROC du réseau siamois comme indicateur de base de performance ; à droite, la visualisation UMAP montre les « j'aime » en rouge, les « je n'aime pas » en noir.
TIRR a été testé par rapport à des systèmes de filtrage collaboratif et basés sur le contenu ayant une portée similaire, y compris les travaux antérieurs des chercheurs ImRec (voir ci-dessus), et RECON, un RRS de 2010, ainsi que les algorithmes de filtrage collaboratif RCF (un RRS de rencontres de 2015 basé sur le contenu textuel des profils de rencontres) et LFRR (un projet similaire de 2019).

Dans tous les cas, le TIRR a pu offrir une précision supérieure, bien que seulement marginalement comparé au LFRR, ce qui indique peut-être des facteurs de corrélation entre le contenu du texte du profil et le niveau d'attractivité perçu des photos de profil des sujets.
La quasi-parité entre le TIRR basé sur l'image et le LFRR plus basé sur le texte permet au moins deux possibilités : que la perception de l'attrait visuel par les utilisateurs soit influencée par le contenu textuel des profils ; ou que le contenu textuel reçoive plus d'attention et d'approbation que si l'image associée n'était pas perçue comme attrayante.
Pour des raisons évidentes, l'équipe de recherche n'est pas en mesure de publier l'ensemble de données ou le code source du TIRR, mais encourage d'autres équipes à dupliquer et à confirmer leur approche.
nb Les images utilisées dans l'illustration principale proviennent de thispersondoesnotexist.com.













