Intelligence artificielle

Identifier le contenu sponsorisé sur les sites d'actualités avec l'apprentissage automatique

Le kit de préparation mis à jour on 9 décembre 2022

Des chercheurs néerlandais ont développé une nouvelle méthode d'apprentissage automatique capable de distinguer le contenu sponsorisé ou autrement payant au sein des plateformes d'information, avec une précision de plus de 90 %, en réponse à l'intérêt croissant des annonceurs pour les formats publicitaires « natifs » difficiles à exploiter. distinguer de la « vraie » production journalistique.

Le nouveau système d’ papier, Intitulé Distinguer le contenu commercial du contenu éditorial dans les actualités, vient de chercheurs de l'Université de Leiden.

Sous-graphiques commerciaux (rouge) et éditoriaux (bleu) issus de l'analyse des données. Source : https://arxiv.org/pdf/2111.03916.pdf

Les auteurs observent que même si des publications plus sérieuses, qui peuvent plus facilement dicter leurs conditions aux annonceurs, feront un effort raisonnable pour distinguer le « contenu partenaire » de l'actualité et des analyses générales, les normes évoluent lentement mais inexorablement vers une intégration accrue entre la rédaction et les équipes commerciales d'un point de vente, ce qu'ils considèrent comme une tendance alarmante et négative.

« La capacité de déguiser le contenu, volontairement ou non, et la probabilité que les publireportages ne soient pas reconnus comme tels, même s'ils sont correctement étiquetés, sont importantes. Les spécialistes du marketing l'appellent native [publicité] pour une raison.

Quelques exemples actuels de publicité native, diversement appelée « contenu partenaire », « contenu de marque » et de nombreuses autres appellations conçues pour masquer subtilement la distinction entre le contenu natif et le contenu placé commercialement dans les plateformes journalistiques.

Le travail a été réalisé dans le cadre d'une enquête plus large sur la culture de l'information en réseau au Canal de réverbération ACED, basé à Amsterdam, qui se concentre sur l'analyse basée sur les données de l'évolution des tendances journalistiques.

Acquisition de données

Pour développer les données sources du projet, les auteurs ont utilisé 1,000 1,000 articles et XNUMX XNUMX publireportages de quatre médias néerlandais et les ont classés en fonction de leurs caractéristiques textuelles. Étant donné que l'ensemble de données était de taille relativement modeste, les auteurs ont évité les approches à grande échelle telles que BERT et ont plutôt évalué l'efficacité de cadres d'apprentissage automatique plus classiques, y compris Soutenir la machine vectorielle (SMV), LinéaireSVC, Arbre de décision, Forêt aléatoire, Voisin le plus proche K (K-NN), Descente de gradient stochastique (USD) et Bayes naïfs.

Le corpus de Reverb Channel a pu fournir les 1,000 XNUMX articles "directs" nécessaires, mais les auteurs ont dû récupérer des publireportages directement sur les quatre sites Web néerlandais présentés. Les données obtenues sont disponibles sous une forme limitée (en raison de problèmes de droits d'auteur) sur GitHub, avec une partie du code Python utilisé pour obtenir et évaluer les données.

Les quatre publications étudiées étaient politiquement conservatrices Nu.nl, le plus progressif Telegraaf, CNRC, et le journal d'entreprise L'entrepreneur. Chaque publication était également représentée dans les données.

Il était nécessaire d'identifier et d'écarter les «fuites» potentielles dans le lexique formé par la recherche - des mots qui pourraient apparaître dans les deux types de contenu avec peu de distinction entre leur fréquence et leur utilisation, afin d'établir des modèles clairs pour un contenu véritablement natif et sponsorisé.

Résultats

Parmi les méthodes testées pour l'identification, les meilleurs résultats ont été obtenus par SVM, linearSVC, Random Forest et SGD. Par conséquent, les chercheurs ont procédé à l'utilisation de SVM dans une analyse plus approfondie.

La meilleure approche de modèle pour extraire la classification à travers le corpus dépassait une précision de 90 %, bien que les chercheurs notent que l'obtention d'une classification claire devient plus difficile lorsqu'il s'agit de publications orientées B2B, où le chevauchement lexical entre le contenu perçu « réel » et « sponsorisé » est excessif - peut-être parce que le style natif du langage des affaires est déjà plus subjectif que le cours général des conventions de reporting et d'analyse, et peut plus facilement dissimuler un agenda.

Graphiques t-Distributed Stochastic Neighbor Embedding (t-SNE) pour la séparation du contenu réel et sponsorisé dans les quatre publications.

Plongement de voisins stochastiques distribués en t (t-SNE) pour séparer le contenu réel et sponsorisé dans les quatre publications.

Le contenu sponsorisé est-il une "fake news" ?

Les recherches des auteurs suggèrent que leur projet est nouveau dans le domaine de l'analyse du contenu des nouvelles. Des cadres capables d'identifier le contenu sponsorisé pourraient ouvrir la voie au développement d'un suivi annuel de l'équilibre entre le journalisme objectif et la part croissante de la "publicité native" qui se situe presque dans le même contexte dans la plupart des publications, en utilisant les mêmes repères visuels ( Feuilles de style CSS et autres mises en forme) en tant que contenu général.

Dans un certain sens, l'absence fréquente de contexte évident pour les contenus sponsorisés apparaît comme un sous-domaine de l'étude des « fake news ». Bien que la plupart des éditeurs reconnaissent la nécessité de séparer « l'Église et l'État » et l'obligation de fournir aux lecteurs des divisions claires entre le contenu payant et le contenu généré de manière organique, les réalités de la scène journalistique post-imprimée et la dépendance accrue vis-à-vis des annonceurs sont devenues la désaccentuation des indicateurs sponsorisés en un art de la psychologie de l'interface utilisateur. Parfois, les récompenses de la diffusion de contenu sponsorisé sont suffisamment tentantes pour risquer un catastrophe optique majeure.

En 2015, la plate-forme de médias sociaux et de benchmark concurrentiel Quintly a proposé une détection basée sur l'IA méthode pour déterminer si une publication sur Facebook est sponsorisée, revendiquant un taux de précision de 96 %. L'année suivante, un étude de l'Université de Géorgie a soutenu que la façon dont les éditeurs gèrent la déclaration de contenu sponsorisé pourrait être 'complice de tromperie'.

En 2017 MediaShift, une organisation qui examine l'intersection entre les médias et la technologie, observée la mesure croissante dans laquelle le New York Times monétise ses opérations via son studio de contenu de marque, T Brand Studio, revendiquant des niveaux de transparence décroissants autour du contenu sponsorisé, avec pour résultat tacitement intentionnel que les lecteurs ne peuvent pas facilement dire si le contenu est généré de manière organique ou non.

En 2020, une autre initiative de recherche des Pays-Bas a développé des classificateurs d'apprentissage automatique pour identifier automatiquement Des informations financées par l'État russe apparaissent sur les plateformes d'information serbes. De plus, c'était estimé en 2019 que les «solutions de contenu multimédia» de Forbes représentent 40% de ses revenus totaux via BrandVoice, le studio de contenu lancé par l'éditeur en 2010.

Rubriques connexes:galerie de traitement du langage naturel nlp un article Réseaux Sociaux machines à vecteurs de soutien

Des chercheurs proposent une nouvelle approche avec des «algorithmes évolutifs»

Ne manquez pas

Une méthode Deepfake nouvelle et plus simple qui surpasse les approches précédentes

Martin Anderson

Écrivain sur l'apprentissage automatique, l'intelligence artificielle et le big data.
Site personnel : martinanderson.ai
Contact : [email protected]
Twitter : @manders_ai