Connect with us

Pourquoi l’IA ne fournit pas de meilleures recommandations de produits

Intelligence artificielle

Pourquoi l’IA ne fournit pas de meilleures recommandations de produits

mm

Si vous êtes intéressé par des choses obscures, il y a deux raisons pour lesquelles vos recherches d’articles et de produits sont susceptibles d’être moins liées à vos intérêts que celles de vos pairs « mainstream » ; soit vous êtes un « edge case » de monétisation dont les intérêts ne seront pris en compte que si vous êtes également dans les catégories supérieures de pouvoir d’achat économique (par exemple, des produits et des services liés à la ‘gestion de patrimoine’) ; soit les algorithmes de recherche que vous utilisez utilisent le filtrage collaboratif (CF), qui favorise les intérêts de la majorité.

Puisque le filtrage collaboratif est moins coûteux et plus établi que d’autres algorithmes et cadres potentiellement plus capables, il est possible que les deux cas s’appliquent.

Les résultats de recherche basés sur le CF donneront la priorité aux éléments qui sont perçus comme étant populaires parmi les « personnes comme vous », dans la mesure où le cadre hôte peut comprendre quel type de consommateur vous êtes.

Si vous êtes réticent à fournir des informations de profilage de données au système hôte – par exemple, si vous n’êtes pas enclin à cliquer sur les boutons « J’aime » sur Netflix et d’autres services de contenu vidéo – vous serez probablement classé de manière générique dans vos premières interactions avec le système, et les recommandations que vous recevrez refléteront les tendances les plus populaires.

Sur une plateforme de streaming, cela pourrait signifier que l’on vous recommande tout ce qui est « chaud » en ce moment, comme la télé-réalité et les documentaires sur les meurtres, quelle que soit votre intérêt pour ces choses. De même pour les plateformes de recommandation de livres, qui ont tendance à proposer les best-sellers actuels et récents, apparemment de manière arbitraire.

En théorie, même les utilisateurs prudents avec les données devraient éventuellement obtenir de meilleurs résultats de tels systèmes en fonction de la façon dont ils les utilisent et des choses qu’ils recherchent, puisque la plupart des cadres de recherche offrent aux utilisateurs une capacité limitée à éditer leur historique d’utilisation.

Toute couleur que vous aimez, tant que c’est noir

Cependant, selon une nouvelle étude menée en Autriche, la prédominance du filtrage collaboratif sur le filtrage basé sur le contenu (qui cherche à définir des relations entre les produits plutôt que de simplement prendre en compte la popularité globale), et d’autres approches alternatives, incline les systèmes de recherche vers un biais de popularité à long terme, où les résultats évidemment populaires sont poussés vers les utilisateurs finals qui sont peu susceptibles d’être enthousiastes à leur égard.

L’article constate que les utilisateurs qui ne s’intéressent pas aux articles populaires reçoivent des « recommandations significativement moins bonnes » que les utilisateurs ayant un intérêt moyen ou élevé pour la popularité, et (peut-être de manière tautologique) que les articles populaires sont recommandés plus fréquemment que les articles impopulaires. Les chercheurs concluent également que les utilisateurs ayant un faible intérêt pour les articles populaires ont tendance à avoir des profils d’utilisateur plus importants qui pourraient potentiellement améliorer les systèmes de recommandation – si seulement les systèmes pouvaient surmonter leur addiction aux métriques « de troupeau ».

Comparing popularity to complexity of user profiles shows that 'marginal' users disinterested in mainstream content actually have more potential content for recommender systems to mine; but since such users don't conform to trends, it seems to be a lost opportunity. Source: https://arxiv.org/pdf/2203.00376.pdf

Comparer la popularité à la complexité des profils d’utilisateur montre que les utilisateurs « marginaux » qui ne s’intéressent pas au contenu mainstream ont en réalité plus de contenu potentiel pour les systèmes de recommandation à exploiter ; mais puisque de tels utilisateurs ne suivent pas les tendances, cela semble être une occasion perdue. Source: https://arxiv.org/pdf/2203.00376.pdf

L’article est intitulé Biais de popularité dans les systèmes de recommandation multimédia basés sur le filtrage collaboratif, et provient de chercheurs du now-Center GmbH à Graz, et de l’Université technique de Graz.

Domaines couverts

En s’appuyant sur des travaux antérieurs qui ont étudié des secteurs individuels (tels que les recommandations de livres), la nouvelle étude examine quatre domaines : les livres numériques (via le jeu de données BookCrossing) ; les films (via MovieLens) ; la musique (via Last.fm) ; et les animes (via MyAnimeList).

L’étude a appliqué quatre algorithmes de recommandation multimédia populaires (MMRS) basés sur le filtrage collaboratif contre des jeux de données divisés en trois groupes d’utilisateurs, en fonction de leur inclination à être réceptifs à des résultats « populaires » : LowPop, MedPop, et HighPop. Les groupes d’utilisateurs ont été filtrés pour obtenir 1000 groupes de taille égale, en fonction du moins, du moyen et du plus susceptible de favoriser les résultats « populaires ».

En commentant les résultats, les auteurs déclarent :

‘[Nous] constatons que la probabilité qu’un élément multimédia soit recommandé est fortement corrélée à la popularité de cet élément [et] que les utilisateurs qui ont moins d’inclination pour la popularité (LowPop) reçoivent des recommandations multimédia significativement moins bonnes que les utilisateurs ayant un intérêt moyen (MedPop) et élevé (HighPop) pour la popularité…

‘Nos résultats démontrent que même si les utilisateurs qui ont peu d’intérêt pour les éléments populaires ont tendance à avoir les profils d’utilisateur les plus importants, ils reçoivent la précision de recommandation la plus basse. Par conséquent, des recherches futures sont nécessaires pour atténuer le biais de popularité dans les MMRS, à la fois au niveau de l’élément et de l’utilisateur.’

Parmi les algorithmes évalués figuraient deux variantes K-Nearest Neighbors (KNN), UserKNN et UserKNNAvg. Le premier de ces algorithmes ne génère pas une note moyenne pour l’utilisateur cible et l’élément. Une variante non négative de factorisation de matrice (NMF) a également été testée, ainsi qu’un algorithme CoClustering.

Le protocole d’évaluation a considéré la tâche de recommandation comme un défi de prédiction, mesuré par les chercheurs en termes d’erreur absolue moyenne (MAE), contre un protocole de validation croisée à cinq plis qui dépasse la division habituelle 80/20 entre les données d’entraînement et de test.

Les résultats indiquent une quasi-garantie de biais de popularité sous le filtrage collaboratif. La question, à l’argumentation, est de savoir si cela est perçu comme un problème par les sociétés à plusieurs milliards de dollars qui intègrent actuellement le CF dans leurs algorithmes de recherche.

Across all four datasets studied over four popular Collaborative Filtering recommendations, each result indicates that popular media items are more likely to be recommended than unpopular offerings.

À travers tous les quatre jeux de données étudiés sur quatre recommandations de filtrage collaboratif populaires, chaque résultat indique que les éléments multimédia populaires sont plus susceptibles d’être recommandés que les offres impopulaires.

La voie de sortie « facile »

Même si le filtrage collaboratif est de plus en plus utilisé comme seul élément d’une stratégie d’algorithme de recherche plus large, il a une part importante dans le secteur de la recherche, et sa logique et son potentiel de rentabilité sont agréablement faciles à comprendre.

En soi, le CF décharge essentiellement la tâche d’évaluation de la valeur du contenu aux utilisateurs finals, et utilise leur adoption du contenu comme indice de sa valeur et de son attrait potentiel pour d’autres clients. Par analogie, c’est essentiellement une carte de « buzz de la fontaine d’eau ».

Le filtrage basé sur le contenu (CBF) est plus difficile, mais pourrait potentiellement fournir des résultats plus pertinents. Dans le secteur de la vision par ordinateur, une quantité croissante de recherche est actuellement consacrée à la catégorisation du contenu vidéo et à la tentative de dériver des domaines, des fonctionnalités et des concepts de niveau supérieur à partir de l’analyse de l’audio et de la vidéo dans les films et les émissions de télévision.

One of many research projects over the last five years that attempts to derive semantic features from the content of movies, in order to generate more intelligent 'adjacent' recommendations. Source: https://arxiv.org/pdf/1701.00199.pdf

L’un des nombreux projets de recherche au cours des cinq dernières années qui tente de dériver des fonctionnalités sémantiques à partir du contenu des films, afin de générer des recommandations « adjacentes » plus intelligentes. Source: https://arxiv.org/pdf/1701.00199.pdf

Cependant, c’est une poursuite relativement naissante, et liée à la lutte actuelle plus générale pour quantifier, isoler et exploiter des concepts et des fonctionnalités de niveau supérieur dans les connaissances de domaine.

Qui utilise le filtrage collaboratif ?

Au moment de la rédaction, le moteur de recommandation de Netflix souvent critiqué reste fixé sur diverses approches de filtrage collaboratif, en appliquant diverses technologies annexes dans des tentatives continues pour générer des recommandations plus pertinentes pour l’utilisateur.

Le moteur de recherche d’Amazon a évolué de son adoption initiale du filtrage collaboratif basé sur l’utilisateur vers une méthode de filtrage collaboratif d’élément à élément, qui met davantage l’accent sur l’historique d’achat du client. Naturellement, cela peut entraîner différents types d’erreurs, tels que des bulles de filtres, ou une surestimation des données rares. Dans ce dernier cas, si un client Amazon peu fréquent achète un article « inhabituel », tel qu’un ensemble d’opéras pour un ami amateur d’opéra, il n’y a peut-être pas suffisamment d’achats alternatifs qui reflètent les préférences du client pour empêcher cet achat d’influencer ses propres recommandations.

Le filtrage collaboratif est également largement utilisé par Facebook, en association avec d’autres approches, et également par LinkedIn, YouTube et Twitter.

 

Publié pour la première fois le 2 mars 2022.

Écrivain sur l'apprentissage automatique, spécialiste de domaine en synthèse d'images humaines. Ancien responsable du contenu de recherche chez Metaphysic.ai.