Suivez nous sur

MIT : Mesurer les biais mĂ©diatiques dans les principaux organes d'information grâce Ă  l'apprentissage automatique

Intelligence Artificielle

MIT : Mesurer les biais mĂ©diatiques dans les principaux organes d'information grâce Ă  l'apprentissage automatique

mm

Une étude du MIT a utilisé des techniques d'apprentissage automatique pour identifier les formulations biaisées dans une centaine de médias parmi les plus importants et les plus influents aux États-Unis et ailleurs, dont 100 des plus influents journaux. Cette recherche ouvre la voie à des systèmes automatisés capables de classer automatiquement le caractère politique d'une publication et d'offrir aux lecteurs un aperçu plus précis de la position éthique d'un média sur des sujets qui les passionnent.

Le travail porte sur la façon dont les sujets sont abordés avec des formulations particulières, telles que immigrant sans papiers | immigrant illégal, fœtus | bébé à naître, des manifestants | anarchistes.

Le projet a utilisé des techniques de traitement du langage naturel (TALN) pour extraire et classer de tels exemples de langage « chargé » (en supposant que des termes apparemment plus « neutres » représentent également une position politique) dans une vaste cartographie qui révèle des biais de gauche et de droite dans plus de trois millions d'articles provenant d'environ 100 médias d'information, ce qui donne lieu à une navigation paysage de biais des publications en question.

Construction papier vient de Samantha D'Alonzo et Max Tegmark du dĂ©partement de physique du MIT, et observe qu'un certain nombre d'initiatives rĂ©centes autour de la « vĂ©rification des faits », Ă  la suite de nombreux scandales de « fake news », peuvent ĂŞtre interprĂ©tĂ© comme malhonnĂŞte et servir les intĂ©rĂŞts particuliers. Le projet vise Ă  proposer une approche davantage axĂ©e sur les donnĂ©es pour Ă©tudier l'utilisation des biais et du langage « influencĂ© Â» dans un contexte d'information supposĂ©ment neutre.

Un spectre de phrases (littéralement) de gauche à droite, telles que dérivées de l'étude. Source : https://arxiv.org/pdf/2109.00024.pdf

Un spectre de phrases (littéralement) de gauche à droite, telles que dérivées de l'étude. Source : https://arxiv.org/pdf/2109.00024.pdf

Traitement PNL

Les données sources de l'étude ont été obtenues à partir de la source ouverte Base de données Newspaper3K, et comprenait 3,078,624 100 83 articles obtenus de XNUMX sources d'information médiatiques, dont XNUMX journaux. Les journaux ont été sélectionnés en fonction de leur portée, tandis que les sources médiatiques en ligne comprenaient également des articles du site d'analyse de l'actualité militaire. Défense One et Science.

Les sources utilisées dans l'étude.

Les sources utilisées dans l'étude.

L'article indique que le texte téléchargé a été prétraité « minimalement ». Les citations directes ont été éliminées, car l'étude s'intéresse au langage choisi par les journalistes (même si les sélections de citations sont en elles-mêmes un domaine d'étude intéressant).

Les orthographes britanniques ont été changées en américaines pour normaliser la base de données, toute ponctuation supprimée et tous les nombres sauf les nombres ordinaux également supprimés. La capitalisation de la phrase initiale a été convertie en minuscules, mais toutes les autres majuscules ont été conservées.

Les 100,000 XNUMX premières expressions les plus courantes ont Ă©tĂ© identifiĂ©es, puis classĂ©es, Ă©purĂ©es et fusionnĂ©es dans une liste d'expressions. Tous les termes redondants identifiables (tels que « Partager cet article Â» et « article republiĂ© Â») ont Ă©galement Ă©tĂ© supprimĂ©s. Les variations entre expressions essentiellement identiques (par exemple, « big tech Â» et « Big Tech Â», « cybersĂ©curitĂ© Â» et « cybersĂ©curitĂ© Â») ont Ă©tĂ© standardisĂ©es.

« Cueillette de noix »

Le test initial portait sur le thème « Black Lives Matter » et a permis de discerner les biais de phrase et les synonymes valents dans les données.

Composants de principe généralisés pour les articles sur Black Lives Matter (BLM). Nous voyons des personnes participant à des actions civiles qualifiées, au sens propre et figuré de gauche à droite, de manifestants, d'anarchistes et, à l'extrême droite du spectre, d'« émeutiers ». Les journaux à l'origine de la phrase sont représentés dans le panneau de droite.

Composantes gĂ©nĂ©rales des principes pour les articles sur Black Lives Matter (BLM). On y voit des personnes participant Ă  des actions civiles caractĂ©risĂ©es, au sens propre comme au figurĂ©, de gauche Ă  droite, comme des manifestants, des anarchistes et, Ă  l'extrĂŞme droite, comme des « Ă©meutiers Â». Les journaux Ă  l'origine de cette expression sont reprĂ©sentĂ©s dans le panneau de droite.

Alors que les « manifestants Â» passent d'« anarchistes Â» Ă  « Ă©meutiers Â» au grĂ© des positions politiques du mĂ©dia concernĂ©, l'article souligne que l'analyse et l'extraction de donnĂ©es par la PNL sont entravĂ©es par la pratique du « picking Â» (recherche de mots) – un mĂ©dia cite une expression jugĂ©e pertinente par un segment politique diffĂ©rent de la sociĂ©tĂ© et peut (apparemment) compter sur son lectorat pour la percevoir nĂ©gativement. L'article cite l'exemple de « dĂ©financer la police Â».

Naturellement, cela signifie qu'une phrase « de gauche » apparaît dans un contexte par ailleurs de droite, et représente un défi inhabituel pour un système PNL qui s'appuie sur des phrases codifiées pour servir de signifiants aux positions politiques.

Ces expressions sont « bivalentes » [SIC], alors que certaines autres expressions ont une connotation universellement négative (par exemple « infanticide »), au point d'être toujours présentées comme négatives dans toute une série de médias.

L’étude révèle également des cartographies similaires pour des sujets « brûlants » tels que l’avortement, la censure technologique, l’immigration américaine et le contrôle des armes à feu.

Chevaux de loisir

Certains courants politiques controversés des médias ne se divisent pas de manière prévisible de cette manière, comme sur le sujet des dépenses militaires. L'étude a révélé que CNN, de gauche, s'est retrouvée à côté de National Review et Fox News, de droite, sur ce sujet.

En gĂ©nĂ©ral, cependant, la position politique peut ĂŞtre dĂ©terminĂ©e par d'autres expressions, comme la prĂ©fĂ©rence pour l'expression « complexe militaro-industriel Â» plutĂ´t que pour celle, plus Ă  droite, « industrie de la dĂ©fense Â». Les rĂ©sultats montrent que la première est utilisĂ©e par des mĂ©dias critiques envers l'establishment, comme Canary ou Conservateur amĂ©ricain, tandis que ce dernier est plus souvent utilisĂ© par Fox et CNN.

La recherche établit plusieurs autres progressions du langage critique à celui pro-establishment, y compris toute la gamme allant de « abattu » au plus passif « le meurtre de » ; de « détenus criminels » à « personnes incarcérées » ; et de « producteurs de pétrole » à « grandes compagnies pétrolières ».

Synonymes valables de biais d'établissement, de haut en bas.

Synonymes valables de biais d'établissement, de haut en bas.

L'étude reconnaît que les médias s'écartent de leur position politique de base, soit sur le plan linguistique (par exemple, en utilisant des expressions bivalentes), soit pour diverses autres raisons. Par exemple, le vénérable journal d'extrême droite britannique The Spectator, fondé en 1828, publie fréquemment et de manière proéminente des articles de gauche qui s'opposent au courant politique général de son contenu. Qu'il s'agisse d'un souci d'impartialité journalistique ou d'une volonté d'enflammer périodiquement son lectorat principal en déversant des commentaires générant du trafic, cela reste une question de conjecture – et ce n'est pas une mince affaire pour un système d'apprentissage automatique à la recherche de jetons clairs et cohérents.

Ces « chevaux de bataille » particuliers et l’utilisation ambiguë de points de vue « discordants » parmi les différents organismes de presse brouillent quelque peu la cartographie gauche-droite que la recherche propose en fin de compte, tout en fournissant une indication générale de l’affiliation politique.

Importance retenue

Bien que daté du 2 septembre et publié fin août 2021, le journal a relativement peu gagné en popularité. Cela pourrait s'expliquer en partie par le fait que la recherche critique destinée aux médias grand public a peu de chances d'être accueillie avec enthousiasme par ceux-ci ; mais cela pourrait aussi être dû à la réticence des auteurs à produire des graphiques clairs et sans ambiguïté stratifiant la position des publications médiatiques influentes et puissantes sur diverses questions, ainsi que des valeurs agrégées indiquant dans quelle mesure une publication penche vers la gauche ou la droite. En effet, les auteurs semblent prendre soin d'atténuer l'effet incendiaire potentiel des résultats.

De même, la vaste données publiées du projet montre le nombre de fréquences d'incidents de mots, mais semble être anonymisé, ce qui rend difficile d'obtenir une image claire de la partialité des médias dans les publications étudiées. Sans opérationnaliser le projet d'une manière ou d'une autre, cela ne laisse que les exemples sélectionnés présentés dans le document.

Des études ultérieures de cette nature seraient peut-être plus utiles si elles devaient considérer non seulement la formulation utilisée pour les sujets, mais si le sujet était couvert du tout, puisque le silence en dit long, et a en soi un caractère politique distinct qui fait souvent référence à plus que de simples limitations budgétaires ou d'autres facteurs pragmatiques susceptibles d'éclairer la sélection des informations.

Néanmoins, l'étude du MIT semble être la plus importante de ce type à ce jour et pourrait constituer le cadre de futurs systèmes de classification, et même de technologies secondaires telles que des plug-ins de navigateur qui pourraient alerter les lecteurs occasionnels sur la couleur politique de la publication qu'ils sont. en train de lire.

Bulles, biais et retour de flamme

En outre, il faudrait se demander si de tels systèmes ne risquent pas d’aggraver l’un des aspects les plus controversés des systèmes de recommandation algorithmique : la tendance à conduire un spectateur dans des environnements où il ne voit jamais de point de vue contrasté ou stimulant, ce qui est susceptible de retrancher davantage la position du lecteur sur les questions fondamentales.

Qu'un tel bulle de contenu est un « environnement sûr », un obstacle à la croissance intellectuelle ou une protection contre la propagande partielle, est un jugement de valeur – une question philosophique difficile à aborder du point de vue mécaniste et statistique des systèmes d’apprentissage automatique.

De plus, même si l'étude du MIT s'est efforcée de laisser les données définir les résultats, la classification de la valeur politique des phrases est inévitablement aussi une sorte de jugement de valeur, et un jugement qui ne résiste pas facilement à la capacité du langage à recodifier contenu toxique ou controversé dans des phrases nouvelles qui ne figurent pas dans le manuel, les règles du forum ou la base de données de formation.

Si une codification de ce type devait être intégrée dans les systèmes en ligne populaires, il semble probable qu'un effort continu visant à cartographier la température éthique et politique des principaux médias d'information pourrait se transformer en une guerre froide entre la capacité de l'IA à discerner les préjugés et la capacité des éditeurs à exprimer leur point de vue dans un idiome en évolution conçu pour dépasser systématiquement la compréhension de la sémantique par l'apprentissage automatique.

14/09/21 – 1.41h2 GMT+100 – « 100 journaux Â» remplacĂ© par « XNUMX mĂ©dias Â»
4h58 – Citation de l'article corrigée pour inclure Samantha D'Alonzo et corrections connexes.

Rédacteur en apprentissage automatique, spécialiste du domaine de la synthèse d'images humaines. Ancien responsable du contenu de recherche chez Metaphysic.ai.
Site personnel : martinanderson.ai
Contact [email protected]
Twitter : @manders_ai