Réglementation

Les systèmes de recommandation devraient-ils être exemptés de l’ère post-suivi ?

Published May 3, 2021

Updated April 5, 2026

Martin Anderson

Alors que la collecte de données de première partie devient la nouvelle étoile polaire pour les marketeurs et les courtiers de données, l’attention accrue sur les systèmes de collecte de données « fermés » risque de traîner l’un des secteurs de recherche les plus fervents du machine learning dans la controverse et une réglementation accrue.

Les actions prises par les joueurs FAANG et les producteurs FOSS au cours des 12 à 18 prochains mois sont sur le point de mettre fin à la culture du suivi cross-domaine qui a envahi les systèmes d’analyse d’utilisateurs au cours des vingt dernières années, et qui a culminé dans les scandales de Cambridge Analytica et, par la suite, une demande populaire irrésistible pour une plus grande confidentialité en ligne.

Que la mise en œuvre corresponde ou non à l’idéal, et quelle que soit la mesure dans laquelle des systèmes de suivi plus généralisés (tels que Google’s FLOC et Apple’s SKAdNetwork) peuvent apaiser la colère des consommateurs et satisfaire les annonceurs, cette nouvelle vague de préoccupation pour la confidentialité des utilisateurs ne s’applique qu’à l’extraction de données cross-domaine dans un contexte « public », et non aux environnements de consommateurs fermés ou propriétaires, et aux systèmes de recommandation sur mesure qui alimentent l’engagement là-bas.

Données riches dans les jardins clos

Les plateformes telles que Netflix, Disney+, HBO Max, Roku et l’écostructure Amazon (y compris Prime Video et les recommandations de produits), qui utilisent des systèmes de recommandation de machine learning personnalisés, sont parmi les services de contenu qui prolifèrent et se retranchent à mesure que l’industrie du streaming se balkanise.

Alors que la collecte de données de troisième partie recule, l’avantage que ces plus grands joueurs de streaming conservent en termes d’accès granulaire aux données d’utilisation des clients semble susceptible d’inspirer l’envie et l’imitation, et un renouveau de l’accent mis sur les cadres de première partie comme moyen de récupérer une ciblage hyper-personnalisé à partir des systèmes d’analyse plus généralisés.

Si cela se produit, il est peu probable que cela soit aussi démocratique ou méritocratique que les critères d’entrée antérieurs, car le plus grand avantage échoira aux fournisseurs ayant le plus vaste réseau de plateformes de première partie ; avec suffisamment de ressources de développement pour fournir des systèmes d’authentification locaux sécurisés ; et qui sont en mesure de gérer, d’analyser et de monétiser des données de haute volumétrie localement.

Cela mettra l’accent sur les aspects de confidentialité des systèmes de recommandation « fermés » d’une manière qui leur a largement échappé jusqu’à présent, car, jusqu’à ce point, ils ont été des cas exceptionnels, et ont bénéficié de privilèges exceptionnels, opérant dans un contexte où l’utilisateur final a explicitement opté pour des pratiques de collecte de données agressives qui ne sont généralement pas autorisées dans les réseaux ouverts.

Un retour plus large aux environnements de première partie hermétiques

Un accent accru sur les données de première partie semble susceptible de ramener les systèmes d’authentification spécifiques au domaine qui ont précédé la popularité des méthodes de troisième partie fournies par Google (0Auth 2.0), Facebook et Twitter, ainsi que d’autres plates-formes sociales populaires telles que Disqus.

Il y a dix ans, l’adoption généralisée de ces plates-formes d’authentification de troisième partie a résolu de nombreux problèmes de sécurité pour les domaines ayant des ressources de développement limitées, mais a également rendu plus difficile l’obtention de la même granularité de données d’utilisateurs actionnables qu’un système d’authentification et de surveillance local de première partie permet.

À l’époque, cela n’avait pas beaucoup d’importance, car le suivi cross-domaine pouvait combler cette lacune de données.

La connexion comme solution à une crise existentielle

Maintenant, l’avantage réside dans le fait de s’assurer qu’un utilisateur est connecté, même s’il n’y a pas de mécanismes explicites pour le monétiser. Un exemple de cela est le nombre croissant de médias qui exigent une connexion pour afficher du contenu, même lorsqu’il n’y a pas de paywall en place. Par exemple, The Guardian expérimente actuellement des exigences de connexion pour les vues d’articles qui proviennent de recherches Google :

Capture d’écran d’un « mur de connexion » pour une vue d’article de The Guardian provenant d’une recherche Google. Cela ne peut pas être capturé dans les instantanés d’archive Web, puisque la restriction est générée soit par des en-têtes de référent, soit par des systèmes basés sur l’adresse IP qui révèlent Google comme l’originateur du clic.

Des restrictions de ce type peuvent être difficiles à déterminer pour un visionneur individuel, car elles peuvent varier en fonction de la géolocalisation ou d’autres circonstances. Par exemple, l’article de The Guardian ci-dessus n’est pas restreint de quelque manière que ce soit lorsqu’il est navigué à partir du site Web de The Guardian (même si le lecteur n’est pas connecté), ou lorsqu’il est accédé directement. Exiger une connexion à partir d’une référence Google est une méthode peu coûteuse pour générer une augmentation de la demande de membership sans aliéner les lecteurs « pré-capturés ».

Bien qu’il y ait toujours eu des avantages en matière de collecte de données dans ce type d’engagement de première partie (c’est-à-dire une connexion « locale »), la chute du suivi cross-domaine est susceptible d’élever cette pratique de « avantageuse » à une nécessité existentielle afin d’éviter les flux de données marketing plus clairsemés de FLOC et SKAdNetwork.

L’impulsion vers la collecte de données de première partie

Les preuves d’une « ruée vers l’or » des données de première partie sont évidentes. Selon l’avis d’un expert du secteur chez Forbes, la chute des cookies de troisième partie entraînera de nouvelles opportunités pour les entreprises de curater et vendre des données de deuxième partie, lorsqu’elles ont suffisamment d’infrastructures de première partie pour devenir effectivement des courtiers de données en leur propre droit.

L’analyse ailleurs prévoit également que les détaillants (qui investissent lourdement dans les systèmes de recommandation de machine learning) deviendront les nouveaux « moguls des médias ».

Dans un billet de blog, la plateforme de monétisation Setupad illustre l’intention de l’industrie de la publicité de ne pas céder à des systèmes fédérés et limités par les données telles que FLOC, en déclarant que « la ciblage comportemental est la réponse au succès futur des annonceurs », et que la capture de première partie est la condition préalable absolue à cela.

La ciblage comportemental est ce qui a causé le changement tectonique actuel dans la confidentialité des consommateurs en premier lieu ; et c’est ce que les industries de la publicité et des influenceurs professionnels veulent reconquérir – par procuration, par discrétion ou par tout autre moyen, peu importe qu’il puisse éventuellement entraîner le secteur de la recherche sur les systèmes de recommandation dans la boue avec lui.

Le « club » de première partie

Outre l’exigence d’infrastructures coûteuses, ainsi que de ressources de sécurité et de développement, un autre facteur indique pourquoi seuls les plus grands acteurs sont susceptibles de prospérer à l’ère des systèmes de collecte de données de première partie : une entreprise devra avoir une prise de marché convaincante pour contraindre les consommateurs à revenir aux systèmes de connexion locaux qu’ils avaient abandonnés il y a une décennie.

C’est un mouvement risqué, même pour un grand joueur, et le souvenir de la disparition de Digg en 2010 hante encore le monde du SEO et de la publicité. Plus la prise de marché d’une entreprise est convaincante, moins cette démarche sera préjudiciable, les entreprises les plus puissantes étant capables de résister aux creux et de s’adapter mieux à l’écosystème de première partie que les plus petites entreprises.

Effets sur la recherche sur les systèmes de recommandation

À mesure que cette situation évolue, elle peut menacer le « laissez-passer » relatif que la surveillance réglementaire a accordé à la recherche sur les systèmes de recommandation de machine learning de la part d’entreprises telles que Google, Amazon et Netflix.

Dans une certaine mesure, les nouvelles propositions de l’UE pour la législation sur l’IA prévoient une surveillance accrue des systèmes de recommandation dans tous les cas. Même si cela n’est pas clair si la disposition du projet contre les « techniques subliminales au-delà de la conscience d’une personne pour déformer matériellement le comportement d’une personne » s’appliquera aux systèmes de recommandation, il est prévu que les annonceurs et les chercheurs sur les systèmes de recommandation feront valoir un traitement exceptionnel.

Mais il peut être difficile de plaider en faveur d’un traitement spécial pour la recherche sur les systèmes de recommandation si l’approche du « jardin clos » devient la nouvelle norme de l’industrie, et que les pâturages universitaires qui ont abrité ce secteur de la recherche sur le machine learning deviennent un lit de haute technologie pour la recherche et le développement de la recherche comportementale de première partie à grande échelle.

Un investissement majeur dans les flux de travail de données de première partie peut être le seul espoir pour recréer les mêmes publicités « psychiques » et la propagande politique très efficaces qui ont caractérisé l’ère de Cambridge Analytica ; mais pour les régulateurs, il peut sembler que la mort du cookie de troisième partie a simplement déplacé les pratiques « discrédibles » des rues vers des locaux fermés. Si l’effet extérieur de ces activités suscite à nouveau la colère publique, cela peut s’avérer un sanctuaire peu sûr.

Related Topics:Machine Learning recommendation recommendation engine recommender engine

Martin Anderson

Écrivain sur l'apprentissage automatique, spécialiste de domaine en synthèse d'images humaines. Ancien responsable du contenu de recherche chez Metaphysic.ai.