Intelligence artificielle

Réidentifier les commentateurs de médias sociaux interdits avec l’apprentissage automatique

Published May 25, 2021

Updated April 28, 2026

Martin Anderson

Les chercheurs de l’Université John Hopkins ont développé une approche de métrique profonde pour identifier les commentateurs en ligne qui peuvent avoir eu des comptes suspendus ou qui utilisent plusieurs comptes pour astroturf ou manipuler autrement la bonne foi des communautés en ligne telles que Reddit et Twitter.

L’approche, présentée dans un nouvel article dirigé par le chercheur en NLP Aleem Khan, ne nécessite pas que les données d’entrée soient annotées automatiquement ou manuellement, et améliore les résultats des tentatives précédentes même lorsque seuls de petits échantillons de texte sont disponibles, et lorsque le texte n’était pas présent dans le jeu de données au moment de l’entraînement.

Le système offre un schéma de mise à jour des données simple, avec des embeddings de différentes tailles formés sur un jeu de données à haut volume contenant plus de 300 millions de commentaires couvrant un million de comptes d’utilisateurs différents.

L’architecture du modèle du système de réidentification de John Hopkins, où les composants essentiels sont 1) le contenu du texte, 2) une fonctionnalité de sous-Reddit et 3) la date et l’heure de publication. Source : https://arxiv.org/pdf/2105.07263.pdf

Le cadre, basé sur les données d’utilisation de Reddit, prend en compte le contenu du texte, le placement de sous-Reddit et la date de publication. Les trois facteurs sont combinés avec des méthodes d’intégration diverses, notamment des convolutions unidimensionnelles et des projections linéaires, et sont assistées par un mécanisme d’attention et une couche de pooling max.

Bien que le système se concentre sur le domaine du texte, les chercheurs affirment que son approche peut être traduite pour l’analyse de vidéos ou d’images, puisque l’algorithme dérivé opère sur les occurrences de fréquence à un niveau élevé, malgré une variété de longueurs d’entrée pour les points de données d’entraînement.

Éviter le ‘dérive des sujets’

Un piège dans lequel les recherches de ce type peuvent tomber, et que les auteurs ont expressément abordé dans la conception du système, est de mettre l’accent excessif sur la réoccurrence de sujets ou de thèmes particuliers dans les publications de différents comptes.

Bien qu’un utilisateur puisse effectivement écrire de manière répétitive ou itérative dans une ligne de pensée particulière, le sujet est susceptible d’évoluer et de « dériver » avec le temps, dévaluant son utilité comme clé d’identité. Les auteurs caractérisent ce piège potentiel comme « être juste pour les mauvaises raisons » – un piège précédemment étudié à John Hopkins.

Méthodologie d’entraînement

Le système utilise l’entraînement à précision mixte, une innovation présentée en 2018 par Baidu et NVIDIA, qui réduit les exigences de mémoire de moitié en utilisant des nombres à virgule flottante à demi-précision : des valeurs à virgule flottante 16 bits au lieu de 32 bits. Les données ont été formées sur deux V100 GPUs, avec un temps d’entraînement moyen de 72 heures.

Le schéma utilise une codification de texte simplifiée, avec des encodeurs convolutionnels limités à 2-4 sous-mots. Bien que la longueur moyenne pour les cadres de ce type soit d’un maximum de cinq sous-mots, les chercheurs ont constaté que cette économie n’avait pas d’impact sur les performances de classement, et que l’augmentation des sous-mots à un maximum de cinq a réellement dégradé la précision de classement.

Le jeu de données

Les chercheurs ont dérivé un jeu de données de 300 millions de publications Reddit à partir du jeu de données Pushshift Reddit Corpus de 2020, appelé le Million User Dataset (MUD).

Le jeu de données comprend toutes les publications des auteurs Reddit qui ont publié 100-1000 publications entre juillet 2015 et juin 2016. L’échantillonnage dans le temps de cette manière fournit une longueur d’historique adéquate pour l’étude, et réduit l’impact des publications de spam occasionnelles qui ne sont pas dans le cadre des objectifs de la recherche.

Statistiques sur le jeu de données dérivé pour le projet de réidentification de John Hopkins.

Résultats

L’image ci-dessous montre l’amélioration cumulative des résultats à mesure que la précision de classement est testée à des intervalles d’une heure pendant l’entraînement. Après six heures, le système surpasse les réalisations de base des initiatives précédentes liées.

Dans une étude d’ablation, les chercheurs ont constaté que la suppression de la fonctionnalité de sous-Reddit du flux de travail avait peu d’impact sur la précision de classement, suggérant que le système généralise très efficacement, avec un outillage de fonctionnalités robuste.

La fréquence de publication en tant que signature de réidentification

Cela indique également que le cadre est très transférable à d’autres systèmes de publication ou de commentaire où seul le contenu du texte et la date/heure de publication sont disponibles – et, essentiellement, que la fréquence temporelle de publication est en soi un indicateur collatéral précieux pour le contenu du texte réel.

Les chercheurs notent que tenter de réaliser la même estimation dans le contenu d’un seul sous-Reddit pose un défi plus grand, puisque le sous-Reddit lui-même sert de proxy de sujet, et qu’un schéma supplémentaire serait probablement nécessaire pour remplir ce rôle.

L’étude a néanmoins pu obtenir des résultats prometteurs dans ces contraintes, avec la seule réserve que le système fonctionne mieux à haute volumétrie, et peut avoir des difficultés accrues à réidentifier les utilisateurs lorsque le volume de publication est faible.

Développer le travail

Contrairement à de nombreuses initiatives d’apprentissage supervisé, les fonctionnalités du schéma de réidentification de Hopkins sont discrètes et robustes enough que les performances du système s’améliorent de manière notable à mesure que le volume de données augmente.

Les chercheurs expriment leur intérêt à développer le système en adoptant une approche plus granulaire pour l’analyse des heures de publication, puisque les horaires souvent prévisibles des spammers routiniers (automatisés ou non) sont susceptibles d’être identifiés par une telle approche, et que cela rendrait possible d’éliminer plus efficacement le contenu robotique d’une étude principalement axée sur les utilisateurs vexatoires, ou d’aider à identifier le contenu automatisé.

Related Topics:natural language processing nlp Social Media

Martin Anderson

Écrivain sur l'apprentissage automatique, spécialiste de domaine en synthèse d'images humaines. Ancien responsable du contenu de recherche chez Metaphysic.ai.