Ángulo de Anderson

¿Qué nos pueden decir los modelos de IA como ChatGPT sobre las agendas ocultas en las noticias?

mm
ChatGPT-4o and Firefly.

Los modelos de ChatGPT están siendo entrenados para detectar lo que un artículo de noticias realmente piensa sobre un tema – incluso cuando esa postura está enterrada bajo citas, encuadres o (a veces engañosas) ‘neutralidad’. Al dividir los artículos en segmentos como titulares, introducciones y citas, un nuevo sistema aprende a detectar sesgos incluso en el periodismo profesional de larga forma.

 

La capacidad de entender la verdadera postura de un escritor o hablante – un objetivo conocido en la literatura como detección de postura – aborda uno de los problemas interpretativos más difíciles del lenguaje: extraer la intención de contenido que puede estar diseñado para ocultarla o disfrazarla.

Desde la Propuesta modesta de Jonathan Swift, hasta las recientes actuaciones de actores políticos que toman prestadas las polémicas de sus oponentes ideológicos, la superficie de una declaración ya no es un indicador confiable de su intención; el auge de la ironía, el trol, la desinformación y la ambigüedad estratégica ha hecho que sea más difícil que nunca determinar qué lado toma un texto, o si toma algún lado en absoluto.

A menudo, lo que no se dice tiene tanto peso como lo que se dice, y simplemente elegir cubrir un tema puede señalar la postura del autor.

Eso hace que la tarea de detección automática de postura sea inusualmente desafiante, ya que un sistema de detección efectivo necesita hacer más que etiquetar oraciones aisladas como ‘de apoyo’ u ‘oposición’: en su lugar, debe iterar a través de capas de significado, sopesando pequeñas señales en contra de la forma y la deriva del artículo completo; y esto es más difícil en el periodismo de larga forma, donde el tono puede cambiar y la opinión rara vez se expresa abiertamente.

Agentes de cambio

Para abordar algunos de estos problemas, los investigadores en Corea del Sur han desarrollado un nuevo sistema llamado JOA-ICL (Aprendizaje en contexto guiado por periodismo con agencia) para detectar la postura de artículos de noticias de larga forma.

La idea central detrás de JOA-ICL es que la postura a nivel de artículo se infiere mediante la agregación de predicciones a nivel de segmento producidas por un agente de modelo de lenguaje separado.. Fuente: https://arxiv.org/pdf/2507.11049

La idea central detrás de JoA-ICL es que la postura a nivel de artículo se infiere mediante la agregación de predicciones a nivel de segmento producidas por un agente de modelo de lenguaje separado. Fuente: https://arxiv.org/pdf/2507.11049

En lugar de juzgar un artículo como un todo, JOA-ICL lo divide en partes estructurales (título, introducción, citas y conclusión) y asigna un modelo más pequeño para etiquetar cada una. Estas predicciones locales se pasan a un modelo más grande, que las utiliza para determinar la postura general del artículo.

El método se probó en un conjunto de datos coreano recopilado que contiene 2.000 artículos de noticias anotados para la postura a nivel de artículo y de segmento. Cada artículo se etiquetó con la entrada de un experto en periodismo, reflejando cómo se distribuye la postura en la estructura de la escritura periodística profesional.

Según el artículo, JOA-ICL supera tanto los enfoques basados en la generación de texto como los modelos afinados, demostrando una fuerza particular en la detección de posturas de apoyo (que los modelos con un objetivo similar tienden a perder). El método también resultó efectivo cuando se aplicó a un conjunto de datos alemán en condiciones coincidentes, lo que indica que sus principios son potencialmente resilientes a las formas del lenguaje.

Los autores afirman:

‘Los experimentos muestran que JOA-ICL supera los métodos de detección de postura existentes, destacando los beneficios de la agencia a nivel de segmento para capturar la posición general de los artículos de noticias de larga forma.”

El nuevo artículo se titula Aprendizaje en contexto guiado por periodismo con agencia para la detección de postura en noticias, y proviene de varias facultades de la Universidad Soongsil de Seúl, así como de la Escuela de Graduados de Estrategia Futura de KAIST.

Método

Parte del desafío de la detección de postura con IA es logístico y relacionado con cuánto señal de aprendizaje automático puede retener y recopilar al mismo tiempo, en el estado actual del arte.

Los artículos de noticias tienden a evitar declaraciones directas de opinión, confiando en cambio en una implícita o asumida postura, señalizada a través de decisiones sobre qué fuentes citar, cómo se enmarca la narrativa y qué detalles se omiten, entre muchas otras consideraciones.

Incluso cuando un artículo toma una postura clara, la señal de aprendizaje automático a menudo está dispersa en todo el texto, con diferentes segmentos que apuntan en diferentes direcciones. Dado que los modelos de lenguaje (LM) todavía luchan con ventanas de contexto limitadas, esto puede hacer que sea difícil para los modelos evaluar la postura de la manera en que lo hacen con contenido más corto (como tuiteos y otros medios sociales de corta forma), donde la relación entre el texto y el objetivo es más explícita.

Por lo tanto, los enfoques estándar a menudo no funcionan cuando se aplican a la escritura periodística completa; un caso en el que la ambigüedad es una característica y no un defecto.

El artículo establece:

‘Para abordar estos desafíos, proponemos un enfoque de modelado jerárquico que primero infiere la postura a nivel de unidades de discurso más pequeñas (por ejemplo, párrafos o secciones), y luego integra estas predicciones locales para determinar la postura general del artículo.

‘Este marco está diseñado para retener el contexto local y capturar las señales de postura dispersas al evaluar cómo diferentes partes de una historia de noticias contribuyen a su posición general sobre un tema.’

Para este fin, los autores compilaron un conjunto de datos novedoso titulado K-NEWS-STANCE, extraído de la cobertura de noticias coreana entre junio de 2022 y junio de 2024. Los artículos se identificaron primero a través de BigKinds, un servicio de metadatos respaldado por el gobierno operado por la Fundación de Prensa de Corea, y los textos completos se recuperaron mediante la API del agregador de noticias Naver. El conjunto de datos final comprendió 2.000 artículos de 31 publicaciones, que cubrían 47 temas de relevancia nacional.

Cada artículo se anotó dos veces: una vez para su postura general hacia un tema determinado, y nuevamente para segmentos individuales; específicamente el título, introducción, conclusión, y citas directas.

La anotación fue liderada por la experta en periodismo Jiyoung Han, también la tercera autora del artículo, quien guió el proceso mediante el uso de señales establecidas de estudios de medios, como la selección de fuentes, encuadre léxico, y patrones de cita. Por estos medios se obtuvieron un total de 19.650 etiquetas de postura a nivel de segmento.

Para asegurarse de que los artículos contuvieran señales de postura significativas, cada uno se clasificó por género, y solo aquellos etiquetados como análisis o opinión (donde el encuadre subjetivo es más probable que se encuentre) se utilizaron para la anotación de postura.

Dos anotadores capacitados etiquetaron todos los artículos, y se les instruyó que consultaran artículos relacionados en caso de que la postura no estuviera clara, con desacuerdos resueltos a través de la discusión y la revisión adicional.

Entradas de muestra del conjunto de datos K-NEWS-STANCE, traducidas al español. Solo se muestran el título, la introducción y las citas; el texto del cuerpo completo se omite. La destacado indica etiquetas de postura para citas, con azul para apoyo y rojo para oposición. Por favor, consulte el PDF de la fuente para una representación más clara.

Entradas de muestra del conjunto de datos K-NEWS-STANCE, traducidas al español. Solo se muestran el título, la introducción y las citas; el texto del cuerpo completo se omite. La destacado indica etiquetas de postura para citas, con azul para apoyo y rojo para oposición. Por favor, consulte el PDF de la fuente para una representación más clara.

JoA-ICL

En lugar de tratar un artículo como un bloque de texto único, el sistema propuesto por los autores lo divide en partes estructurales clave: título, introducción, citas y conclusión, asignando cada una de estas a un agente de modelo de lenguaje, que etiqueta el segmento como de apoyo, oposición o neutral.

Estas predicciones locales se pasan a un segundo agente que decide la postura general del artículo, con los dos agentes coordinados por un controlador que prepara las solicitudes y recopila los resultados.

Así, JoA-ICL adapta el aprendizaje en contexto (donde el modelo aprende de ejemplos en la solicitud) para que coincida con la forma en que se escriben las historias de noticias profesionales, utilizando solicitudes con conciencia de segmento en lugar de una entrada genérica única.

(Por favor, tenga en cuenta que la mayoría de los ejemplos y ilustraciones en el artículo son largos y difíciles de reproducir de manera legible en un artículo en línea. Por lo tanto, le pedimos al lector que examine el PDF original de la fuente)

Datos y pruebas

En las pruebas, los investigadores utilizaron F1 macro y precisión para evaluar el rendimiento, promediando los resultados sobre diez ejecuciones con semillas aleatorias de 42 a 51 y reportando el error estándar. Los datos de entrenamiento se utilizaron para afinar los modelos de referencia y los agentes de nivel de segmento, con muy pocos ejemplos seleccionados a través de la búsqueda de similitud utilizando KLUE-RoBERTa-large.

Las pruebas se ejecutaron en tres GPU RTX A6000 (cada una con 48 GB de VRAM), utilizando Python 3.9.19, PyTorch 2.5.1, Transformers 4.52.0 y vLLM 0.8.5.

GPT-4o-mini, Claude 3 Haiku y Gemini 2 Flash se utilizaron a través de la API, a una temperatura de 1,0 y con tokens máximos establecidos en 1000 para solicitudes de cadena de pensamiento, y 100 para otros.

Para el afinado completo de Exaone-3.5-2.4B, se utilizó el optimizador AdamW a una tasa de aprendizaje de 5e-5, con una decadencia de peso de 0,01, 100 pasos de calentamiento, y con los datos entrenados durante 10 épocas con un tamaño de lote de 6.

Para los modelos de referencia, los autores utilizaron RoBERTa, afinado para la detección de postura a nivel de artículo; Chain-of-Thought (CoT) Embeddings, un ajuste alternativo de RoBERTa para la tarea asignada; LKI-BART, un modelo codificador-decodificador que agrega conocimiento contextual de un modelo de lenguaje grande mediante la solicitud de texto de entrada y la etiqueta de postura pretendida; y PT-HCL, un método que utiliza aprendizaje contrastivo para separar características generales de aquellas específicas del tema objetivo:

Rendimiento de cada modelo en el conjunto de datos de prueba K-NEWS-STANCE para la predicción de postura general. Los resultados se muestran como F1 macro y precisión, con la puntuación más alta en cada grupo en negrita.

Rendimiento de cada modelo en el conjunto de datos de prueba K-NEWS-STANCE para la predicción de postura general. Los resultados se muestran como F1 macro y precisión, con la puntuación más alta en cada grupo en negrita.

JOA-ICL logró el mejor rendimiento general en ambos macro F1 y precisión, una ventaja evidente en los tres modelos de referencia probados: GPT-4o-mini, Claude 3 Haiku y Gemini 2 Flash.

El método basado en segmentos superó consistentemente a todos los demás enfoques, con, observan los autores, una ventaja notable en la detección de posturas de apoyo, una debilidad común en modelos similares.

Los modelos de referencia tuvieron un rendimiento peor en general. RoBERTa y las variantes de Chain-of-Thought lucharon con casos matizados, mientras que PT-HCL y LKI-BART tuvieron un mejor desempeño, aunque todavía por detrás de JOA-ICL en la mayoría de las categorías. El resultado más preciso individual provino de JOA-ICL (Claude), con un F1 macro del 64,8% y una precisión del 66,1%.

La imagen a continuación muestra con qué frecuencia los modelos obtuvieron cada etiqueta correcta o incorrecta:

Matrices de confusión que comparan el modelo de referencia y JoA-ICL, mostrando que ambos métodos luchan más con la detección de posturas de apoyo.

Matrices de confusión que comparan el modelo de referencia y JoA-ICL, mostrando que ambos métodos luchan más con la detección de posturas de apoyo.

JOA-ICL hizo mejor en general que el modelo de referencia, obteniendo más etiquetas correctas en cada categoría. Sin embargo, ambos modelos lucharon más con los artículos de apoyo, y el modelo de referencia mal clasificó casi la mitad, a menudo confundiéndolos con neutrales.

JOA-ICL cometió menos errores, pero mostró el mismo patrón, lo que refuerza que las posturas ‘positivas’ son más difíciles para que los modelos las detecten.

Para probar si JOA-ICL funciona más allá de los confines del idioma coreano, los autores lo ejecutaron en CheeSE, un conjunto de datos alemán para la detección de postura a nivel de artículo. Dado que CheeSE carece de etiquetas a nivel de segmento, los investigadores utilizaron supervisión remota, donde cada segmento se le asignó la misma etiqueta de postura que el artículo completo.

Resultados de detección de postura en el conjunto de datos alemán CheeSE. JoA-ICL mejora consistentemente la generación de texto cero y supera los modelos de referencia afinados, con Gemini-2.0-flash que produce el rendimiento general más fuerte.

Resultados de detección de postura en el conjunto de datos alemán CheeSE. JoA-ICL mejora consistentemente la generación de texto cero y supera los modelos de referencia afinados, con Gemini-2.0-flash que produce el rendimiento general más fuerte.

Incluso en condiciones ‘ruidosas’, JoA-ICL superó tanto los modelos de referencia afinados como la generación de texto cero. De los tres modelos de referencia probados, Gemini-2.0-flash produjo los mejores resultados.

Conclusión

Pocos tareas en aprendizaje automático están más cargadas políticamente que la predicción de postura; sin embargo, a menudo se maneja en términos fríos y mecánicos, mientras que se presta más atención a problemas menos complejos en IA generativa, como la creación de video y imagen, que desencadenan titulares más fuertes.

El desarrollo más alentador en el nuevo trabajo coreano es que ofrece una contribución significativa al análisis de contenido de larga forma, en lugar de tuiteos y medios sociales de corta forma, cuyos efectos incendiarios se olvidan más rápidamente que un tratado, ensayo u otra obra significativa.

Una omisión notable en el nuevo trabajo y (hasta donde puedo ver) en el corpus de predicción de postura en general es la falta de consideración dada a los hipervínculos, que a menudo se utilizan como recursos opcionales para que los lectores aprendan más sobre un tema; sin embargo, debe ser claro que la elección de dichos URLs es potencialmente muy subjetiva e incluso política.

Esto se debe a que, cuanto más prestigiosa es la publicación, menos probable es que incluya cualquier enlace que guíe al espectador fuera del dominio de host; esto, junto con otros usos y abusos de hipervínculos de SEO, los hace más difíciles de cuantificar que las citas explícitas, títulos u otras partes de un artículo que pueden buscar, consciente o inconscientemente, influir en la opinión del lector.

 

Publicado por primera vez el miércoles 16 de julio de 2025

Escritor sobre aprendizaje automático, especialista en síntesis de imágenes humanas. Anterior jefe de contenido de investigación en Metaphysic.ai.