Angle d’Anderson
Pourquoi l’IA ne fournit-elle pas de meilleures recommandations de produits ?

Si vous êtes intéressé par des choses obscures, il y a deux raisons pour lesquelles vos recherches de produits et d’articles sont susceptibles d’être moins liées à vos intérêts que celles de vos pairs « mainstream » ; soit vous êtes un cas de figure « edge » dont les intérêts ne seront satisfaits que si vous faites également partie des catégories supérieures de pouvoir d’achat économique (par exemple, des produits et des services liés à la « gestion de patrimoine ») ; ou les algorithmes de recherche que vous utilisez font appel à la filtrage collaboratif (CF), qui favorise les intérêts de la majorité.
Étant donné que le filtrage collaboratif est moins coûteux et plus établi que d’autres algorithmes et cadres potentiellement plus capables, il est possible que les deux cas s’appliquent.
Les résultats de recherche basés sur le filtrage collaboratif donneront la priorité aux éléments perçus comme populaires parmi les « personnes comme vous », dans la mesure où le cadre hôte peut comprendre quel type de consommateur vous êtes.
Si vous êtes méfiant envers la fourniture d’informations de profilage de données au système hôte – par exemple, si vous n’êtes pas enclin à appuyer sur les boutons « J’aime » sur Netflix et d’autres services de contenu vidéo – vous serez probablement classé de manière générique dans vos premières interactions avec le système, et les recommandations que vous recevrez refléteront les tendances les plus populaires.
Sur une plateforme de streaming, cela pourrait signifier que l’on vous recommande les émissions et les films qui sont actuellement « à la mode », tels que la télé-réalité et les documentaires sur les meurtres, indépendamment de votre intérêt pour ces derniers. De même pour les plateformes de recommandation de livres, qui tendent à proposer les best-sellers actuels et récents, apparemment de manière arbitraire.
En théorie, même les utilisateurs prudents en matière de données devraient éventuellement obtenir de meilleurs résultats de tels systèmes en fonction de la manière dont ils les utilisent et des choses qu’ils recherchent, dans la mesure où la plupart des cadres de recherche offrent aux utilisateurs une capacité limitée à éditer leur historique d’utilisation.
Toute couleur vous plaît, tant qu’elle est noire
Cependant, selon une nouvelle étude menée en Autriche, la suprématie du filtrage collaboratif sur le filtrage basé sur le contenu (qui cherche à définir des relations entre les produits plutôt que de prendre simplement en compte la popularité globale), et d’autres approches alternatives, incline les systèmes de recherche vers un biais de popularité à long terme, où les résultats évidemment populaires sont poussés vers les utilisateurs finals qui sont peu susceptibles d’être enthousiastes à leur égard.
Le document constate que les utilisateurs qui ne s’intéressent pas aux éléments populaires reçoivent des recommandations « significativement pires » que les utilisateurs ayant un intérêt moyen ou élevé pour la popularité, et (peut-être de manière tautologique) que les éléments populaires sont recommandés plus fréquemment que les éléments impopulaires. Les chercheurs concluent également que les utilisateurs ayant un faible intérêt pour les éléments populaires tendent à avoir des profils d’utilisateur plus importants qui pourraient potentiellement améliorer les systèmes de recommandation – si seulement les systèmes pouvaient surmonter leur dépendance aux métriques de « troupeau ».

La comparaison de la popularité avec la complexité des profils d’utilisateur montre que les utilisateurs « marginaux » qui ne s’intéressent pas au contenu mainstream ont en réalité plus de contenu potentiel pour les systèmes de recommandation à exploiter ; mais comme ces utilisateurs ne se conforment pas aux tendances, il s’agit d’une occasion perdue. Source: https://arxiv.org/pdf/2203.00376.pdf
Le document s’intitule Biais de popularité dans les systèmes de recommandation multimédia basés sur le filtrage collaboratif, et provient de chercheurs du now-Center GmbH à Graz, et de l’Université technique de Graz.
Domaines couverts
En s’appuyant sur des travaux antérieurs qui ont étudié des secteurs individuels (tels que les recommandations de livres), le nouveau document examine quatre domaines : les livres numériques (via l’ensemble de données BookCrossing) ; les films (via MovieLens) ; la musique (via Last.fm) ; et les animes (via MyAnimeList).
L’étude a appliqué quatre algorithmes de filtrage collaboratif populaires pour les systèmes de recommandation multimédia (MMRS) contre des ensembles de données divisés en trois groupes d’utilisateurs, selon leur inclination à être réceptifs aux résultats « populaires » : LowPop, MedPop, et HighPop. Les groupes d’utilisateurs ont été filtrés pour atteindre 1000 groupes de taille égale, sur la base du moins, du moyen et du plus susceptible de favoriser les résultats « populaires ».
En commentant les résultats, les auteurs déclarent :
‘[Nous] constatons que la probabilité qu’un élément multimédia soit recommandé est fortement corrélée à sa popularité [et] que les utilisateurs qui ne s’intéressent pas aux éléments populaires reçoivent des recommandations multimédia « significativement pires » que les utilisateurs ayant un intérêt moyen ou élevé pour les éléments populaires…
‘Nos résultats démontrent que même si les utilisateurs qui ne s’intéressent pas aux éléments populaires tendent à avoir les plus grands profils d’utilisateur, ils reçoivent la plus faible précision de recommandation. Par conséquent, des recherches futures sont nécessaires pour atténuer le biais de popularité dans les MMRS, à la fois au niveau de l’élément et de l’utilisateur.’
Parmi les algorithmes évalués figuraient deux variantes de K-Nearest Neighbors (KNN), UserKNN et UserKNNAvg. Le premier de ces algorithmes ne génère pas une note moyenne pour l’utilisateur cible et l’élément. Une variante de factorisation de matrice non négative (NMF) a également été testée, ainsi qu’un algorithme de co-clustering.
L’évaluation a considéré la tâche de recommandation comme un défi de prédiction, mesuré par les chercheurs en termes d’erreur absolue moyenne (MAE), contre un protocole de validation croisée à cinq plis qui dépasse la division habituelle de 80/20 entre les données d’entraînement et de test.
Les résultats indiquent une quasi-certitude de biais de popularité sous le filtrage collaboratif. La question, à l’évidence, est de savoir si cela est perçu comme un problème par les sociétés multinationales qui intègrent actuellement le CF dans leurs algorithmes de recherche.

À travers les quatre ensembles de données étudiés sur quatre recommandations de filtrage collaboratif populaires, chaque résultat indique que les éléments multimédia populaires sont plus susceptibles d’être recommandés que les offres impopulaires.
La voie de sortie « facile »
Bien que le filtrage collaboratif soit de plus en plus utilisé comme seul élément d’une stratégie d’algorithme de recherche plus large, il a une forte part dans le secteur de la recherche, et sa logique et son potentiel de rentabilité sont attractivement faciles à comprendre.
En soi, le CF décharge essentiellement la tâche d’évaluer la valeur du contenu sur les utilisateurs finals, et utilise leur adoption du contenu comme indice de sa valeur et de son attrait potentiel pour d’autres clients. Par analogie, c’est essentiellement une carte de « buzz de la fontaine d’eau ».
Le filtrage basé sur le contenu (CBF) est plus difficile, mais pourrait potentiellement fournir des résultats plus pertinents. Dans le secteur de la vision par ordinateur, une quantité croissante de recherche est actuellement consacrée à la catégorisation du contenu vidéo et à la tentative de dériver des domaines, des fonctionnalités et des concepts de haut niveau à partir de l’analyse de l’audio et de la vidéo dans les sorties de films et de télévision.

L’un des nombreux projets de recherche menés au cours des cinq dernières années qui tente de dériver des fonctionnalités sémantiques à partir du contenu des films, afin de générer des recommandations « adjacentes » plus intelligentes. Source: https://arxiv.org/pdf/1701.00199.pdf
Cependant, il s’agit d’une quête relativement naissante, et liée à la lutte actuelle plus générale pour quantifier, isoler et exploiter les concepts et les fonctionnalités de haut niveau dans les connaissances de domaine.
Qui utilise le filtrage collaboratif ?
Au moment de la rédaction, le moteur de recommandation de Netflix, souvent critiqué, reste fixé sur diverses approches de filtrage collaboratif, en appliquant diverses technologies annexes dans des tentatives continues pour générer des recommandations plus pertinentes pour l’utilisateur.
Le moteur de recherche d’Amazon a évolué de son adoption initiale du filtrage collaboratif basé sur l’utilisateur à une méthode de filtrage collaboratif élément-élément, qui met l’accent sur l’historique d’achat du client. Naturellement, cela peut conduire à différents types d’erreurs, tels que des bulles de filtres, ou une emphase excessive sur les données rares. Dans ce dernier cas, si un client Amazon peu fréquentiel effectue un achat « inhabituel », tel qu’un ensemble d’opérettes pour un ami qui aime l’opéra, il peut ne pas y avoir d’achats alternatifs qui reflètent les préférences du client pour empêcher cet achat d’influencer ses propres recommandations.
Le filtrage collaboratif est également utilisé de manière extensive par Facebook, en conjonction avec d’autres approches, et également par LinkedIn, YouTube et Twitter.
Publié pour la première fois le 2 mars 2022.












