Connect with us

Utiliser les avis pour créer un système de recommandation qui fonctionne

Intelligence artificielle

Utiliser les avis pour créer un système de recommandation qui fonctionne

mm

Si vous avez déjà acheté un produit en ligne et vous êtes étonné de la stupidité et de l’inapplicabilité des « éléments liés » qui hantent le processus d’achat et de vente, vous comprenez déjà que les systèmes de recommandation populaires et mainstream tendent à être défaillants en termes de compréhension des relations entre les achats potentiels.

Si vous achetez un article peu probable et peu fréquent, tel qu’un four, les recommandations pour d’autres fours sont susceptibles d’être superflues, bien que les pires systèmes de recommandation ne parviennent pas à reconnaître cela. Dans les années 2000, par exemple, le système de recommandation de TiVO a créé une controverse précoce dans ce secteur en réattribuant la sexualité perçue d’un utilisateur, qui a ensuite cherché à « remasculiniser » son profil d’utilisateur en sélectionnant des films de guerre – une approche grossière de révision algorithmique.

Pire encore, vous n’avez pas besoin d’acheter quoi que ce soit sur (par exemple) Amazon, ou de commencer à regarder un film dont vous parcourez la description sur une plate-forme de streaming majeure, pour que les algorithmes de recommandation affamés d’informations commencent à s’engager dans la mauvaise voie ; les recherches, les temps d’arrêt et les clics sur les pages de détails suffisent, et ces informations rares (et probablement incorrectes) seront probablement perpétuées lors des prochaines sessions de navigation sur la plate-forme.

Essayer de faire oublier un système de recommandation

Parfois, il est possible d’intervenir : Netflix propose un système de « pouce vers le haut / vers le bas » qui devrait en théorie aider ses algorithmes d’apprentissage automatique à supprimer certaines notions et mots de votre profil de recommandations (bien que son efficacité ait été remise en question, et qu’il soit beaucoup plus facile d’évoluer un algorithme de recommandation personnalisé à partir de zéro que de supprimer des ontologies indésirables), tandis qu’Amazon vous permet de supprimer des titres de votre historique client, ce qui devrait déclasser tout domaine indésirable qui a infiltré vos recommandations.

Hulu a une fonctionnalité similaire, tandis que HBO Max a partiellement reculé face à ses lacunes actuelles.

Aucune de ces expériences strictement grand public ne touche même aux critiques généralisées et croissantes des systèmes de recommandation de plateformes publicitaires « passives » (où un changement notable est en cours en raison de l’ire publique), ou le sujet incendiaire des recommandations d’IA des médias sociaux, où des sites tels que YouTube, Twitter et Facebook continuent de subir des critiques pour des recommandations non pertinentes ou même nuisibles.

La machine ne semble pas savoir ce que nous voulons, à moins que nous ne voulions l’ élément adjacent qui est apparu dans notre recherche – même si cet élément est essentiellement une copie ou une alternative de l’élément principal que nous venons d’acheter, plutôt qu’un achat complémentaire ou accessoire potentiel.

Recommandations précises avec des données d’avis

Une nouvelle collaboration de recherche de Chine et d’Australie propose une méthode novatrice pour résoudre de telles recommandations non pertinentes, en utilisant des avis externes des utilisateurs pour mieux comprendre les relations réelles entre les éléments dans une session d’achat. Dans les tests, l’architecture a surpassé toutes les méthodes actuelles de pointe, offrant de l’espoir pour les systèmes de recommandation qui ont une meilleure carte interne des dépendances des éléments :

RI-GNN surpasse les principaux concurrents en termes de précision des relations entre les éléments, se comportant mieux sur les sessions avec plus de cinq éléments. Le système a été testé contre les jeux de données Pet Supplies et Movies and TV d'Amazon Review Data (2018). Source : https://arxiv.org/pdf/2201.12532.pdf

RI-GNN surpasse les principaux concurrents en termes de précision des relations entre les éléments, se comportant mieux sur les sessions avec plus de cinq éléments. Le système a été testé contre les jeux de données Pet Supplies et Movies and TV d’Amazon Review Data (2018). Source : https://arxiv.org/pdf/2201.12532.pdf

De plus, le projet aborde le défi notable de créer des recommandations même dans les sessions anonymes, où le système de recommandation n’a pas accès aux détails fournis par l’utilisateur, tels que l’historique d’achat ou les avis de l’utilisateur sur des achats précédents.

Le nouveau document s’intitule Rethinking Adjacent Dependency in Session-based Recommendations, et provient de chercheurs de l’Université de technologie Qilu et de l’Institut de technologie de Pékin en Chine, de l’Université RMIT à Melbourne, et de l’Institut australien d’intelligence artificielle de l’Université de technologie de Sydney.

Que se passe-t-il ensuite ?

La tâche principale des recommandations basées sur les sessions (SBR) consiste à déterminer l’« élément suivant » à partir de l’élément actuel, en fonction de sa relation calculée avec l’élément actuel. Dans les faits, cela pourrait se manifester sous la forme d’une liste d’« éléments liés » sur une page d’élément pour une cage à oiseau sur un site Web de commerce électronique.

Si vous achetez une cage à oiseau, qu’est-ce que vous êtes susceptible d’avoir besoin ? Eh bien, au moins, vous aurez besoin d’un oiseau à mettre dedans – c’est une dépendance réelle. Cependant, la cage à oiseau est présentée dans l’ontologie produits pour animaux de compagnie, où les oiseaux ne sont pas vendus. Perversement, nourriture pour chat se trouve dans la même ontologie, bien que l’ajout d’un bol de nourriture pour chat en tant que recommandation associée pour un produit de cage à oiseau soit une dépendance fausse – une association erronée et malavisée.

Du document : relations vraies et fausses entre plusieurs éléments, visualisées à droite sous forme de graphique d'inter-éléments.

Du document : relations vraies et fausses entre plusieurs éléments, visualisées à droite sous forme de graphique d’inter-éléments.

Comme c’est souvent le cas dans les architectures d’apprentissage automatique, il est difficile de convaincre un système de recommandation qu’une « entité distante » (oiseau ne figure pas du tout dans produits pour animaux de compagnie) peut avoir une relation intrinsèque et importante avec un élément, alors que les éléments qui se trouvent dans la même catégorie et très proches en fonction et en concept central (tels que bols de nourriture pour chat) peuvent être orthogonaux ou directement opposés à l’achat considéré.

La seule façon de créer ces mappings entre « entités non adjacentes » est de crowdsourcer le problème, puisque les relations en question sont un aspect de l’expérience humaine, ne peuvent pas être devinées de manière programmatique et sont probablement au-delà de la portée conventionnelle des approches de marquage de données, telles que Amazon Mechanical Turk.

Par conséquent, les chercheurs ont utilisé des mécanismes de traitement du langage naturel (NLP) pour extraire des mots saillants des avis pour un produit et ont utilisé les fréquences de ces analyses pour créer des embeddings capables de « faire correspondre » des éléments apparemment distants.

L'architecture pour le réseau neuronal graphique inter-éléments affiné par les avis (RI-GNN).

L’architecture pour le réseau neuronal graphique inter-éléments affiné par les avis (RI-GNN).

Architecture et données

Comme le note le nouveau document, les travaux antérieurs de nature similaire ont exploité l’historique des avis d’un utilisateur connecté pour fournir des mappings rudimentaires. DeepCONN et RNS ont tous deux utilisé cette approche. Cependant, cela ne tient pas compte du fait qu’un utilisateur n’a peut-être pas écrit d’avis, ou d’avis pertinents pour un élément particulier qui est « hors de portée » de ses habitudes d’achat habituelles. De plus, il s’agit d’une approche de « boîte blanche », puisqu’elle suppose que l’utilisateur s’est déjà suffisamment engagé avec le détaillant pour créer un compte et se connecter.

Le réseau neuronal graphique étendu (GNN) proposé par les chercheurs adopte une approche plus oracle, en dérivant des dépendances réelles a priori, de sorte que, vraisemblablement, l’utilisateur anonyme et déconnecté puisse expérimenter des recommandations plus pertinentes avec un minimum d’entrée requise.

Le système de recommandation basé sur les avis est intitulé Review-refined Inter-item Graph Neural Network (RI-GNN). Les chercheurs l’ont testé contre deux jeux de données Amazon, Fournitures pour animaux de compagnie et Films et télévision. Bien que cela résolve le problème de la disponibilité des avis de manière assez élégante, une mise en œuvre dans la nature nécessiterait de localiser et de scraper une base de données d’avis appropriée. Une telle source de données pourrait, en théorie, être n’importe quoi, des publications sur un réseau social aux réponses sur Quora.

Les mappings de relations de haut niveau de ce type seraient, en outre, précieux pour une gamme d’applications d’apprentissage automatique au-delà des systèmes de recommandation. De nombreux projets actuels sont entravés par le manque de mappings inter et intra-domaine en raison de fonds et de portée limités, alors que l’impulsion commerciale d’un système de recommandation de commerce électronique vraiment knowledgeable et crowdsourcé pourrait potentiellement combler ce fossé.

Métriques et tests

Les auteurs ont testé RI-GNN contre deux versions de chaque jeu de données, chacun composé de l’historique d’achat d’un utilisateur et de critiques générales du produit. Les éléments apparaissant moins de cinq fois ont été supprimés, et l’historique de l’utilisateur a été divisé en unités d’une semaine. La première version du jeu de données comportait toutes les sessions avec plus d’un élément, et la deuxième toutes les sessions avec plus de cinq éléments.

Le projet a utilisé P@K (Précision) et MRR@K (Moyenne des rangs réciproques) pour ses métriques d’évaluation. Les architectures rivales testées étaient : S-KNN ; GRU4Rec ; S-POP ; STAMP ; BERT4Rec ; DHCN ; GCE-GNN ; SR-GNN ; et NARM.

Le cadre a été formé par lots de 100 sur Adam à un taux d’apprentissage de 0,001, avec le nombre de sujets fixé à 24 et 20, respectivement, pour Fournitures pour animaux de compagnie et Films et télévision.

 

 

Publié pour la première fois le 1er février 2022.

Écrivain sur l'apprentissage automatique, spécialiste de domaine en synthèse d'images humaines. Ancien responsable du contenu de recherche chez Metaphysic.ai.