Inteligencia Artificial
MIT: Medición del sesgo de los medios en los principales medios de comunicación con aprendizaje automático

Un estudio del MIT ha utilizado técnicas de aprendizaje automático para identificar frases sesgadas en alrededor de 100 de los medios de comunicación más grandes e influyentes de EE. UU. y el resto del mundo, incluyendo 83 de las publicaciones impresas más influyentes. Se trata de una investigación que muestra el camino hacia sistemas automatizados que podrían clasificar automáticamente el carácter político de una publicación y ofrecer a los lectores una visión más profunda de la postura ética de un medio sobre temas que les apasionan.
El trabajo se centra en la forma en que se abordan los temas con frases particulares, como inmigrante indocumentado | inmigrante ilegal, feto | Bebe no nacido, manifestantes | anarquistas.
El proyecto utilizó técnicas de procesamiento del lenguaje natural (PLN) para extraer y clasificar esos casos de lenguaje "cargado" (suponiendo que los términos aparentemente más "neutrales" también representan una postura política) en un mapeo amplio que revela sesgos de izquierda y derecha en más de tres millones de artículos de alrededor de 100 medios de comunicación, lo que da como resultado una guía navegable. paisaje sesgado de las publicaciones en cuestión.
La proviene de Samantha D'Alonzo y Max Tegmark del Departamento de Física del MIT, y observa que una serie de iniciativas recientes en torno a la "verificación de hechos", a raíz de numerosos escándalos de "noticias falsas", pueden ser interpretado como falso y servir a causas de intereses particulares. El proyecto busca proporcionar un enfoque más basado en datos para estudiar el uso del lenguaje sesgado y "influyente" en un contexto informativo supuestamente neutral.

Un espectro de (literalmente) frases de izquierda a derecha, como se deriva del estudio. Fuente: https://arxiv.org/pdf/2109.00024.pdf
Procesamiento de PNL
Los datos fuente del estudio se obtuvieron del código abierto base de datos Newspaper3K, y comprendía 3,078,624 artículos obtenidos de 100 fuentes de noticias de los medios, incluidos 83 periódicos. Los periódicos fueron seleccionados sobre la base de su alcance, mientras que las fuentes de medios en línea también incluyeron artículos del sitio de análisis de noticias militares. Defensa Uno y Ciencias:.

Las fuentes utilizadas en el estudio.
El artículo informa que el texto descargado fue mínimamente preprocesado. Se eliminaron las citas directas, ya que el estudio se interesa por el lenguaje elegido por los periodistas (aunque la selección de citas es en sí misma un... interesante campo de estudio).
La ortografía británica se cambió a estadounidense para estandarizar la base de datos, se eliminaron todos los signos de puntuación y también se eliminaron todos los números excepto los ordinales. Las mayúsculas de las oraciones iniciales se convirtieron a minúsculas, pero se mantuvieron todas las demás mayúsculas.
Se identificaron las primeras 100,000 frases más comunes, que finalmente se clasificaron, depuraron y fusionaron en una lista de frases. Asimismo, se eliminó todo el lenguaje redundante que se pudo identificar (como "Comparte este artículo" y "artículo republicado"). Se estandarizaron las variaciones entre frases prácticamente idénticas (por ejemplo, "big tech" y "Big Tech", "ciberseguridad" y "ciberseguridad").
'Recolectando nueces'
La prueba inicial se centró en el tema “Las vidas de los negros importan” y permitió discernir sesgos en las frases y sinónimos válidos en los datos.

Componentes generales de los artículos sobre Black Lives Matter (BLM). Vemos a personas que participan en acciones civiles caracterizadas, literal y figurativamente, de izquierda a derecha, como manifestantes, anarquistas y, en el extremo derecho del espectro, como "alborotadores". Los periódicos que originaron la frase están representados en el panel derecho.
Si bien los "manifestantes" pasan de "anarquistas" a "alborotadores" a medida que analizamos la postura política del medio en cuestión, el artículo señala que la extracción y el análisis de la PNL se ven obstaculizados por la práctica de "seleccionar palabras", donde un medio cita una frase considerada válida por un segmento político diferente de la sociedad y puede (aparentemente) confiar en que sus lectores la vean negativamente. El artículo cita "desfinanciar a la policía" como ejemplo de esto.
Naturalmente, esto significa que una frase "de tendencia izquierdista" aparece en un contexto que por lo demás es de derecha, y representa un desafío inusual para un sistema de PNL que se basa en frases codificadas que actúan como significantes de posturas políticas.
Estas frases son "bivalentes" [SIC], mientras que otras tienen una connotación tan universalmente negativa (por ejemplo, "infanticidio") que siempre se representan como negativas en una variedad de medios.
La investigación también revela asignaciones similares para temas “candentes” como el aborto, la censura tecnológica, la inmigración estadounidense y el control de armas.
Caballos de afición
Existen ciertas tendencias políticas controvertidas en los medios de comunicación que no se dividen previsiblemente de esta manera, como el tema del gasto militar. El estudio concluyó que la CNN, de tendencia izquierdista, terminó junto a la National Review, de tendencia derechista, y Fox News en este tema.
En general, sin embargo, la postura política puede determinarse por otras frases, como preferir la frase «complejo militar-industrial» a la más derechista «industria de defensa». Los resultados muestran que la primera es utilizada por medios críticos con el establishment, como Canarios y Conservador estadounidense, mientras que Fox y CNN utilizan con mayor frecuencia este último.
La investigación establece varias otras progresiones desde un lenguaje crítico con el establishment hasta uno pro-establishment, incluyendo una gama que va desde "asesinado a tiros" hasta el más pasivo "el asesinato de"; "delincuentes reclusos" hasta "personas encarceladas"; y "productores de petróleo" hasta "grandes petroleras".

Sinónimos de Valent con el sesgo del establecimiento, de arriba a abajo.
La investigación reconoce que los medios de comunicación se desvían de su postura política básica, ya sea a nivel lingüístico (como el uso de frases bivalentes) o por otros motivos. Por ejemplo, la venerable publicación británica de derecha El EspectadorFundada en 1828, publica con frecuencia y de forma destacada artículos de opinión de izquierda que contrastan con el flujo político general de su contenido. Si esto se hace por un objetivo de información imparcial o para provocar periódicamente a sus lectores principales en tormentas de comentarios que generen tráfico es una conjetura, y no es un caso fácil para un sistema de aprendizaje automático que busca señales claras y consistentes.
Estos "caballos de batalla" particulares y el uso ambiguo de puntos de vista "discordantes" entre organizaciones de noticias individuales confunden un poco el mapeo izquierda-derecha que la investigación en última instancia ofrece, aunque proporciona una indicación amplia de afiliación política.

Significado retenido
Aunque con fecha del 2 de septiembre y publicado a fines de agosto de 2021, el documento ha ganado relativamente poca atención. En parte, esto podría deberse a que es poco probable que la investigación crítica dirigida a los principales medios de comunicación sea recibida con entusiasmo; pero también podría deberse a la renuencia de los autores a producir gráficos claros e inequívocos que estratifiquen la posición de las publicaciones de medios influyentes y poderosas sobre diversos temas, junto con valores agregados que indiquen el grado en que una publicación se inclina hacia la izquierda o hacia la derecha. En efecto, los autores parecen esforzarse por amortiguar el potencial efecto incendiario de los resultados.
Asimismo, la extensa datos publicados del proyecto muestra recuentos de frecuencia de incidentes de palabras, pero parece ser anónimo, lo que dificulta obtener una imagen clara del sesgo de los medios en las publicaciones estudiadas. Sin operacionalizar el proyecto de alguna manera, esto deja solo los ejemplos seleccionados presentados en el documento.
Los estudios posteriores de esta naturaleza posiblemente serían más útiles si consideraran no solo la redacción utilizada para los temas, sino también si el tema se cubrió en absoluto, ya que el silencio dice mucho, y tiene en sí mismo un carácter político distintivo que a menudo habla de algo más que limitaciones presupuestarias u otros factores pragmáticos que pueden influir en la selección de noticias.
No obstante, el estudio del MIT parece ser el más grande de su tipo hasta la fecha y podría formar el marco para futuros sistemas de clasificación, e incluso tecnologías secundarias como complementos de navegador que podrían alertar a los lectores ocasionales sobre el color político de la publicación que están leyendo. Actualmente leyendo.
Burbujas, sesgo y retroceso
Además, habría que considerar si dichos sistemas agravarían aún más uno de los aspectos más controvertidos de los sistemas de recomendación algorítmica: la tendencia a llevar al espectador a entornos en los que nunca ve un punto de vista contrastante o desafiante, lo que probablemente retraerá aún más la postura del lector sobre cuestiones fundamentales.
Sea o no tal burbuja de contenido es un 'entorno seguro', un impedimento para el crecimiento intelectual o una protección contra la propaganda parcial, es un juicio de valor, una cuestión filosófica difícil de abordar desde el punto de vista mecanicista y estadístico de los sistemas de aprendizaje automático.
Además, por mucho que el estudio del MIT se haya esmerado en dejar que los datos definan los resultados, la clasificación del valor político de las frases es inevitablemente también una especie de juicio de valor, y uno que no puede resistir fácilmente la capacidad del lenguaje para expresarse. recodificar contenido tóxico o controvertido en frases novedosas que no están en el manual, las reglas del foro o la base de datos de capacitación.
Si una codificación de este tipo se incorporara a los sistemas populares en línea, parece probable que un esfuerzo continuo por mapear la temperatura ética y política de los principales medios de comunicación pudiera convertirse en una guerra fría entre la capacidad de la IA para discernir sesgos y la capacidad de los editores para expresar su punto de vista en un idioma en evolución diseñado para superar rutinariamente la comprensión de la semántica del aprendizaje automático.
14/09/21 – 1.41 GMT+2 – Se cambió «100 periódicos» por «100 medios de comunicación».
4:58 h – Se corrigió la cita del artículo para incluir a Samantha D'Alonzo y se incluyeron correcciones relacionadas.












