Connect with us

Ángulo de Anderson

¿Puede el IA Desarrollar un Olfato para las Noticias?

mm
AI-generated image (GPT-1.5) featuring a dog journalist in a photorealistic newsroom, who has spotted a lead, and attracted the attention of his co-workers.

El IA está mejorando en la escritura de historias de noticias, pero no está mejorando mucho en identificarlas.

 

Opinión En los cinco años desde que últimamente revisé la capacidad del IA para encontrar una noticia caliente, el panorama ha cambiado considerablemente, con niveles aumentados de automatización impulsada por IA acompañados de los inevitables dolores de crecimiento y controversias.

Recientemente, un informe de WSJ sobre un contribuyente de Fortune asistido por IA presentó al periodista del futuro como emancipado de tareas como la transliteración de comunicados de prensa, dejándoles espacio para escribir las características y hacer la investigación que normalmente solo las publicaciones más grandes tienen el presupuesto para hacer.

Pero lo que escuchamos mucho menos a menudo es la capacidad del IA para detectar una noticia.

Reducción de Ruido

En el artículo de 2021, me centré en escritores que cubrían la investigación, ya que es donde paso la mayor parte de mi tiempo; y quizás el efecto más grande que la nueva revolución del IA ha tenido en eso es que creó una tormenta incontrolable de envíos de artículos de investigación impulsados por IA, elevando la relación señaligeno ruido tan alto que incluso cubrir los dominios relacionados con IA de Arxiv de manera integral ya no está al alcance de las capacidades de una sola persona.

Seguramente este es donde el IA sobresale – al iterar a través de vastas cantidades de datos que los humanos no pueden resolver, para encontrar ‘outliers’ (que abordaremos pronto) en segundos que habrían tomado a las personas días, si es que podrían haberlo hecho en absoluto.

¿Por qué, entonces, el IA todavía es tan malo para identificar una noticia caliente de entre las miles, incluso decenas de miles, de contendientes diarios?

IA con Visión Hacia Atrás

Esta masiva proliferación de contenido generado por IA está sucediendo mucho más allá del sector académico que discutí anteriormente. A finales del año pasado se estimó que la mitad de toda la nueva escritura en la web está siendo escrita por IA, con una mayor aceleración de esta tendencia presumiblemente en camino. Por lo tanto, el ruido es ensordecedor en todas partes, no solo en la academia.

Aunque ha habido algún progreso en la identificación algorítmica del IA de una ‘noticia caliente’ en los últimos años, estos sistemas tienden a concentrarse en flujos de datos estratificados y organizados de manera predecible, lo que significa que solo pueden operar en un contexto bastante frágil.

En este sentido, el investigador postdoctoral de Stanford y ex periodista del New York Times Alexander Spangher ha hecho varias incursiones en la definición de ‘noticiabilidad’ en términos que pueden aplicarse a procesos de aprendizaje automático y análisis estadístico; y ha producido evidencia de generación automática de leads en corpus como presentaciones judiciales, proyectos de ley estatales y reuniones del concejo municipal, así como documentos públicos en general – el tipo de salida de esquema impulsado que el prolífico escritor de Fortune impulsado por IA puede convertir en 6-7 piezas de noticias al día:

El 'calor' de las distribuciones de palabras extraídas de corpus de documentos públicos. En este caso, podemos ver que 'autorizar' tiene una puntuación alta, quizás porque representa decisión, cambio y novedad. Fuente - https://arxiv.org/pdf/2311.09734

El ‘calor’ de las distribuciones de palabras extraídas de corpus de documentos públicos. En este caso, podemos ver que ‘autorizar’ tiene una puntuación alta, quizás porque representa decisión, cambio y novedad. Fuente

Sin embargo, el problema con enfoques como la oferta de Spangher en 2023 Seguimiento de la noticiabilidad de los documentos públicos, es que en la típica forma de IA, se centran en tendencias observadas en los datos. En otras palabras, observan cosas que hicieron buenas noticias antes, y siguen buscando más de lo mismo.

En el mundo real, las fuentes inesperadas casi siempre resultan ser un ‘milagro de un solo golpe’; y por lo oscuro que fueron, nadie podría haber predicho su prominencia repentina. Luego, habiendo sido fructífero una vez, y a pesar de ocasionales intentos de capitalizar la fugaz fama o notoriedad, generalmente nunca producirán nada útil de nuevo.

Señal de los Tiempos

Por lo tanto, dado que monitorear este tipo de fuente de noticias de ‘uno y listo’ generalmente solo agregará más ruido a la tormenta general, ¿no podría el IA identificar en su lugar los indicadores de una fuente que algún día se volverá fructífera? Si uno pudiera descubrir qué tipo de fuente puede rendir noticias eventualmente, uno podría centrarse en sus características en lugar de su contexto, o sus métodos.

Por esa lógica, se podría deducir de las revelaciones de Edward Snowden de la década de 2010 que cualquier persona que recientemente dejara el empleo de la CIA (o una organización similar) valdría la pena seguir como una posible fuente de un futuro titular.

Sin embargo, no hay fuentes de RSS ni API que probablemente puedan automatizar este tipo de monitoreo continuo, ya que LinkedIn y muchas otras fuentes de datos anteriormente abiertas están retrayéndose ante la cara de los ávidos y desvergonzados robots de extracción de datos de IA. Incluso si los hubiera, la frecuencia sería un problema, porque no se puede consultar una API o un sitio cada cinco segundos; aparte del costo de recursos, las respuestas de prohibición de IP de las plataformas harían que esta fuera una actividad insostenible.

Además, claramente hay una ‘dimensión humana’ en tales revelaciones que es difícil de automatizar.

Recolección de noticias con el toque personal: captura de un lanzamiento de disco de la película de 1976 de Alan Pakula 'All The President's Men', que presenta al informante saliendo de las sombras. Fuente - https://blueprintreview.co.uk/2016/11/all-the-presidents-men/

Recolección de noticias con el toque personal: captura de un lanzamiento de disco de la película de 1976 de Alan J. Pakula ‘All The President’s Men’, que presenta al informante saliendo de las sombras. Fuente

También, en el mundo real, es terriblemente difícil identificar las características definitorias de una fuente de noticias futura. Probablemente no sea ‘personas que dejaron la CIA recientemente’, y ciertamente no está definido por un protocolo: plataformas como X o GitHub producen demasiada señaligeno en sí mismas, y incluso reducir a términos de búsqueda o categorías de publicación no hace mucha diferencia – solo si estás involucrado en el problema, y comprometido con la comunidad (o repo, etc.) es que realmente probablemente reconocerás la importancia de un desarrollo.

Incluso un término como ‘alerta de seguridad’ no puede contextualizar la verdadera gravedad o noticiabilidad de un incidente, ya que referencias de ese tipo se arrojan diariamente, por miles, en tales comunidades – y sin embargo, no tienen valor noticioso; y incluso si se restringe ese tipo de monitoreo al idioma inglés solo, las posibles variaciones en el idioma, junto con el uso de lenguaje oblicuo, harían que fuera muy difícil analizar una publicación ‘en la naturaleza’ en una alerta de noticias real.

El Camino Estrecho

El grupo actual de sistemas de detección de noticiabilidad impulsados por IA depende de estructuras de datos formalizadas (como la salida de JSON, de una API), o de estructuras de datos informales que los algoritmos desarrollados por IA tienen la oportunidad de analizar en un esquema estructurado (como los comunicados de prensa de una organización en particular):

Una fuente de RSS / XML analizada, que revela la jerarquía rígida de contenedores de datos. Fuente - https://www.xml.com/articles/2023/03/06/visualising-xml-schemas/

Una fuente de RSS / XML analizada, que revela la jerarquía rígida de contenedores de datos. Fuente

Claramente, enfoques de este tipo están bien adaptados para la salida programática, como el trabajo mundano que el mencionado reportero de WSJ declara que el IA lo ha liberado, incluyendo informes sobre el clima, acciones, puntuaciones deportivas y comunicados de prensa rutinarios de organizaciones gubernamentales municipales y de otro tipo.

Si bien es posible adjuntar ‘disparadores de alerta humana’ a flujos de datos estadísticos como el clima (tormentas repentinas), acciones (caídas repentinas) y deportes (victorias / derrotas inesperadas, con algún trabajo de preparación), nuevamente, la atención humana sería necesaria incluso para los lanzamientos de gobierno rutinarios estratificados, para evaluar la noticiabilidad.

Aunque términos como ‘muerte’, ‘enfermedad inesperada’, ‘fuga’ y ‘accidente’ pueden ayudar a reducir a eventos noticieros, solo abordan ‘eventualidades rutinarias’, y tampoco pueden dar cuenta de lenguaje alternativo (o lenguajes).

Regreso de los Escritores Élite!

En los últimos años, el periodismo basado en datos se ha convertido en un pilar ascendente en la informática de noticias, con departamentos editoriales que ya no se limitan a acuerdos de ‘scoop’ de favor que les otorgan un lanzamiento temprano en informes y documentos blancos de importantes editores; en cambio, pueden procesar los números ellos mismos.

Sin embargo, esto no es un almuerzo gratis; a medida que el valor evidente de analizar datos públicos con IA de esta manera ha crecido, una respuesta de renta / bloqueo de IA ha seguido – o incluso anticipado – la demanda, impulsando a los principales jugadores de datos de IA a tácticas sigilosas.

La fricción adicional de la Nueva Retirada arguablemente restaura cierto poder de los ‘periodistas ciudadanos’ a los medios heredados – o al menos, a las organizaciones de noticias bien financiadas que tienen la capacidad de absorber el trabajo manual adicional requerido en la recopilación, refinación y evaluación de datos, en una era en la que los editores y dominios están restringiendo cada vez más el acceso casual.

Así que, de alguna manera, quizás en el espíritu de la época, la manifestación práctica del IA en el periodismo, en términos de la forma en que los principales actores y mercados han respondido a la innovación y adopción basadas en IA, puede en realidad estar llevándonos hacia atrás en el tiempo: desdemocratizando los medios de producción de noticias, y agregando obstáculos a los sistemas de evaluación de noticiabilidad basados en datos.

Instintos Comunes

Estas restricciones claramente nos llevan de regreso al ‘presentimiento’ como un componente inevitable en la evaluación de la noticiabilidad de una historia.

Naturalmente, esto es reconfortante para aquellos que están profesionalmente involucrados en este aspecto; pero la complacencia sería un error, ya que este instinto puede, hasta cierto punto, ser destilado y operacionalizado de una manera muy general que no depende de estudiar las obsesiones o pasatiempos de cualquier individuo u organización en particular: en un estudio de 2022, investigadores de la Universidad Northwestern utilizaron evaluaciones de crowdsourcing de historias potencialmente noticieras para entrenar un modelo predictivo, específicamente preocupado por la noticiabilidad de artículos de investigación de Arxiv recién publicados:

Preguntas de encuesta dadas a los participantes del estudio para obtener datos de entrenamiento para un modelo de 'predicción de noticiabilidad' de IA. Fuente - https://nishalsach.github.io/pdfs/2022-newsworthiness.pdf

Preguntas de encuesta dadas a los participantes del estudio para obtener datos de entrenamiento para un modelo de ‘predicción de noticiabilidad’ de IA. Fuente

El sistema clasifica a los candidatos bastante bien, con alrededor del 80% de sus primeras diez selecciones también juzgadas como noticieras por expertos. Sin embargo, el acuerdo con los expertos resultó solo moderado, con los resultados que faltan factores como el encuadre o la adaptación a la audiencia.

El sistema se basa en los principios esbozados en el documento de 2020 Descubrimiento de Noticias Computacional: Hacia Consideraciones de Diseño para Algoritmos de Orientación Editorial en Periodismo. Al igual que la mayoría de los proyectos similares, este trabajo aborda el periodismo científico en lugar de la recolección de noticias abstracta – quizás porque la literatura científica tiende hacia la salida templada que podría potencialmente parsearse en puntos de datos entrenables e interpretables.

Bueno, como observé en 2021, esto sería el caso, excepto que los científicos de investigación a menudo abusan de las convenciones de presentación de artículos de investigación para ocultar o restar importancia a resultados poco impresionantes, o incluso fracasos directos.

Incluso es un desafío mayor la gran dificultad que los sistemas de IA tienen para interpretar figuras y tablas en artículos científicos, hasta el punto de que esta búsqueda ha llegado a ser un hilo activo en la literatura:

Del papel 'SciFigDetect: Un Benchmark para la Detección de Figuras Científicas Generadas por IA', que muestra figuras científicas reales, sus prompts de generación y contrapartes sintéticas producidas por Nano Banana y GPT en tres categorías: ilustración, visión general y figuras experimentales. Fuente - https://arxiv.org/pdf/2604.08211v1

Del papel ‘SciFigDetect: Un Benchmark para la Detección de Figuras Científicas Generadas por IA’, que muestra figuras científicas reales, sus prompts de generación y contrapartes sintéticas producidas por Nano Banana y GPT en tres categorías: ilustración, visión general y figuras experimentales. Fuente

A menudo, un gráfico o tabla contendrá resultados que el cuerpo principal del artículo informará con sesgo selectivo, o donde ignorará por completo cualquier consecuencia negativa implícita en los resultados del gráfico / tabla. Por lo tanto, este obstáculo en el periodismo científico impulsado por IA no es menor.

Más revelador es el hecho de que un artículo es derivado, o solo una mejora menor (si es que hay alguna) del estado del arte, a menudo está enterrado en una cita casi impenetrable (es decir, necesitarías buscar el término, localizar una copia legible en PDF y comprender el alcance del arte previo antes de comprender la falta de originalidad o novedad en el nuevo trabajo).

Solo de Nuevo, Naturalmente

El método de crowdsourcing descrito anteriormente sugiere algún posible acuerdo entre el consenso común sobre historias potencialmente noticieras y la evaluación profesional de las mismas. Pero sin contexto, solo los trazos más generales de noticiabilidad pueden aparentemente determinarse.

La verdadera fuerza del IA radica en su capacidad, dependiendo de la configuración, para aislar outliers – ya sea para el propósito de descartarlos como una excepción curva y no significativa a las tendencias en un conjunto de datos, o (más relevante para la recolección de noticias) para identificar instancias y ocurrencias inusuales y valiosas:

Outliers (en rojo) en un gráfico de dispersión. Fuente - https://stackoverflow.com/questions/73079324/python-removing-outliers-from-plotly-scatter-plot

Outliers (en rojo) en un gráfico de dispersión. Fuente

Sobre el principio de que el rayo rara vez golpea dos veces, casi todas las historias noticieras son outliers. En casos donde surgen de un dominio activo y volátil, como una guerra en curso, ese dominio puede ser escaneado con una alta probabilidad de que surjan historias noticieras – pero al costo de una gran contienda, ya que la atención común probablemente también se centrará en el dominio.

Muchos leads científicos noticieros son, por definición, no el centro de la distribución del lenguaje. Son combinaciones raras de métodos, resultados negativos sorprendentes o réplicas anómalas. Si la competencia del modelo se degrada desproporcionadamente en tales agrupaciones de baja frecuencia, entonces la región donde un ‘olfato’ editorial necesita ser agudo se convierte en la región donde el modelo es menos confiable.

Problemas de Confianza

Al buscar nuevas historias, los periodistas equilibran múltiples restricciones, incluyendo tiempo, acceso, credibilidad, audiencia y prioridades organizacionales), lo que conduce a elecciones no obvias. Un análisis de la literatura de 2022 de Dinamarca caracterizó a los periodistas como equilibrando múltiples preocupaciones, acutamente conscientes de que las fuentes pueden tener agendas o estar mal informadas; y a menudo evitando la verificación directa en favor de señales de confianza indirectas cuando operan bajo presión.

Estos mismos ‘problemas de confianza’ serían un obstáculo en el desarrollo de cualquier sistema definitivo de identificación de noticiabilidad impulsado por IA, ya que la participación en dicha plataforma requiere que el usuario confíe en que cualquier artículo descartado por algoritmos en realidad no es digno del tiempo del escritor.

La prueba beta extensa y el nuevo entrenamiento o ajuste fino, con la supervisión humana recogiendo a los rezagados, eventualmente podrían mejorar la confiabilidad de dicho enfoque; pero un cambio en la cultura nacional o global – como cambios sorprendentes en el panorama político, o el estallido de la guerra – inevitablemente volcaría todas las prioridades base de tal sistema calibrado, dejando al escritor dependiente del IA para reconstruir su necesario ‘modelo de dominio interno’ casi desde cero.

 

Publicado por primera vez el lunes 20 de abril de 2026

Escritor sobre aprendizaje automático, especialista en síntesis de imágenes humanas. Anterior jefe de contenido de investigación en Metaphysic.ai.