Ángulo de Anderson
¿Puede el IA Desarrollar un Instinto para las Noticias?

El IA está mejorando en la escritura de historias de noticias, pero no está mejorando mucho en identificarlas.
Opinión En los cinco años desde que últimamente revisé la capacidad del IA para encontrar una historia de noticias caliente, el panorama ha cambiado considerablemente, con niveles aumentados de automatización impulsada por IA acompañados de los inevitables dolores de crecimiento y controversias.
Recientemente, un informe de WSJ sobre un contribuyente de Fortune prolífico y ayudado por IA presentó al periodista del futuro como emancipado de tareas como la transliteración de comunicados de prensa, dejándoles espacio para escribir artículos y hacer investigaciones que solo las publicaciones más grandes suelen tener el presupuesto para.
Pero lo que se oye mucho menos a menudo es la capacidad del IA para detectar una historia de noticias.
Reducción de Ruido
En el artículo de 2021, me centré en los escritores que cubrían la investigación, ya que es donde paso la mayor parte de mi tiempo; y quizás el efecto más grande que la nueva revolución del IA ha tenido en eso es que ha creado una tormenta incontrolable de envíos de artículos de investigación impulsados por IA, elevando la relación señaligena ruido tan alta que incluso cubrir los dominios de IA relacionados con Arxiv de manera comprehensiva ya no está al alcance de los esfuerzos de una sola persona.
Seguramente, este es donde el IA sobresale – al iterar a través de vastas cantidades de datos que los humanos no pueden resolver, para encontrar ‘outliers’ (que abordaremos pronto) en segundos que les tomarían a las personas días, si es que podrían hacerlo en absoluto.
¿Por qué, entonces, el IA sigue siendo tan malo para identificar una historia de noticias caliente de entre las miles, incluso decenas de miles, de contendientes diarios?
IA con Visión hacia Atrás
Esta masiva proliferación de contenido generado por IA está sucediendo mucho más allá del sector académico que discutí anteriormente. A fines del año pasado se estimó que la mitad de toda la escritura nueva en la web está siendo escrita por IA, con una aceleración aún mayor de esta tendencia presumiblemente por venir. Por lo tanto, el ruido es ensordecedor en todas partes, no solo en la academia.
Aunque ha habido algún progreso en la identificación algorítmica del IA de una ‘historia caliente’ en los últimos años, estos sistemas tienden a concentrarse en flujos de datos estratificados y organizados de manera predecible, lo que significa que solo pueden operar en un contexto bastante frágil.
En este sentido, el investigador postdoctoral de Stanford y ex periodista del New York Times Alexander Spangher ha hecho varias incursiones en la definición de ‘noticiabilidad’ en términos que pueden aplicarse a procesos de aprendizaje automático y análisis estadístico; y ha producido evidencia de generación automática de leads en corpora como presentaciones judiciales, proyectos de ley estatales, y reuniones del consejo de la ciudad, así como documentos públicos generales – el tipo de salida esquemática que el escritor de Fortune impulsado por IA puede convertir en 6-7 piezas de noticias al día:

El ‘calor’ de las distribuciones de palabras extraídas de corpora de documentos públicos. En este caso, podemos ver que ‘authorizing’ tiene una puntuación alta, quizás porque representa decisión, cambio y novedad. Fuente
Sin embargo, el problema con enfoques como el ofrecimiento de Spangher de 2023 Seguimiento de la noticiabilidad de los documentos públicos, es que, al estilo típico del IA, se centran en tendencias observadas en los datos. En otras palabras, observan cosas que hicieron buenas noticias antes, y siguen buscando más de lo mismo.
En el mundo real, las fuentes inesperadas casi siempre resultan ser un ‘milagro de un solo golpe’; y por lo oscuro que fueron, nadie podría haber predicho su súbita prominencia. Luego, habiendo sido fructíferas una vez, y a pesar de los ocasionales intentos de capitalizar la fugaz fama o notoriedad, generalmente nunca producirán nada útil de nuevo.
Señal de los Tiempos
Por lo tanto, dado que monitorear este tipo de fuente de noticias de ‘un solo golpe’ generalmente solo agregará más ruido a la tormenta general, ¿no podría el IA identificar en su lugar los indicadores de una fuente que eventualmente se volverá fructífera? Si uno pudiera descubrir qué tipo de fuente podría rendir noticias, uno podría centrarse en sus características en lugar de su contexto o métodos.
Por esa lógica, uno podría deducir de las revelaciones de Edward Snowden de la década de 2010 que cualquier persona que recientemente dejara el empleo de la CIA (o una organización similar) valdría la pena seguir como una posible fuente de una exclusiva futura.
Sin embargo, no hay fuentes de RSS ni API que probablemente puedan automatizar este tipo de monitoreo continuo, ya que LinkedIn y muchas otras fuentes de datos anteriormente abiertas están replegándose ante los ávidos y desobedientes web-scrapers de IA. Incluso si las hubiera, la frecuencia sería un problema, porque no se puede sondear una API o un sitio cada cinco segundos; aparte del costo de recursos, las respuestas de prohibición de IP de las plataformas harían que esta fuera una actividad insostenible.
Además, hay claramente una ‘dimensión humana’ en estas revelaciones que es difícil de automatizar.

Recopilación de noticias con el toque personal: captura de un lanzamiento de disco de la película de 1976 de Alan J. Pakula ‘All The President’s Men’, que presenta al informante saliendo de las sombras. Fuente
También, en el mundo real, es terriblemente difícil identificar las características definitorias de una fuente de noticias futura. Probablemente no sea ‘personas que dejaron la CIA recientemente’, y ciertamente no está definida por un protocolo: plataformas como X o GitHub producen demasiada señaligena ruido en sí mismas, y incluso restringir a términos de búsqueda o categorías de publicación no hace mucha diferencia – solo si uno está involucrado en el problema y comprometido con la comunidad (o repo, etc.) es que realmente se puede reconocer la importancia de un desarrollo.
Incluso un término como ‘alerta de seguridad’ no puede contextualizar la verdadera gravedad o noticiabilidad de un incidente, ya que referencias de ese tipo se lanzan diariamente, por miles, en esas comunidades – y aún tienen ningún valor noticioso general; y incluso si se restringe ese tipo de monitoreo al idioma inglés solo, las posibles variaciones en el idioma, junto con el uso de lenguaje oblicuo, harían que sea muy difícil parsear una publicación ‘en el salvaje’ en una alerta de noticias real.
El Camino Estrecho
Los sistemas actuales de detección de noticiabilidad impulsados por IA dependen de estructuras de datos formalizadas (como la salida JSON de una API), o de estructuras de datos informales que los algoritmos desarrollados por IA tienen la oportunidad de analizar en un esquema estructurado (como los comunicados de prensa de una organización determinada):

Un flujo de RSS/XML analizado, que revela la jerarquía rígida de contenedores de datos. Fuente
Claramente, los enfoques de este tipo están bien adaptados para la salida programática, como el trabajo mundano que el mencionado reportero de Fortune declara que el IA lo ha liberado, incluyendo informes sobre el clima, acciones y resultados deportivos, así como comunicados de prensa rutinarios de organizaciones gubernamentales municipales y de otro tipo.
Mientras que es posible adjuntar ‘disparadores de alerta humanos’ a flujos estadísticos como el clima (tormentas repentinas), acciones (caídas repentinas) y deportes (victorias o derrotas inesperadas, con algo de preparación), de nuevo, la atención humana sería necesaria incluso para los lanzamientos gubernamentales rutinarios, para evaluar la noticiabilidad.
Aunque términos como ‘muerte’, ‘enfermedad inesperada’, ‘fuga’ y ‘accidente’ pueden ayudar a reducir a eventos noticieros, solo abordan ‘eventualidades rutinarias’, y tampoco pueden dar cuenta de lenguaje alternativo (o lenguajes).
El Regreso de los Escritores Élite
En los últimos años, el periodismo de datos se ha convertido en un pilar ascendente en la informática de noticias, con departamentos editoriales que ya no se limitan a acuerdos de ‘scoop’ especiales que les otorgan un lanzamiento temprano en informes y documentos blancos de importantes editores; en cambio, pueden procesar los números ellos mismos.
Sin embargo, esto no es un almuerzo gratis; a medida que el valor evidente de analizar datos públicos con IA de esta manera ha crecido, una respuesta de renta/bloqueo de IA ha seguido – o incluso ha anticipado – la demanda, impulsando a los principales jugadores de IA con hambre de datos a tácticas sigilosas.
La fricción adicional de la Nueva Retirada arguye que restaura cierta cantidad de poder de los ‘periodistas ciudadanos’ a los medios legados – o al menos, a las organizaciones de noticias bien financiadas que tienen la capacidad de absorber el trabajo manual adicional requerido en la recopilación, refinación y evaluación de datos, en una era en la que los editores y dominios están restringiendo cada vez más el acceso casual.
Así, de alguna manera, quizás en el espíritu de la época, la manifestación práctica del IA en el periodismo, en términos de la forma en que los principales jugadores y mercados han respondido a la innovación y adopción basadas en IA, puede en realidad estar llevándonos hacia atrás en el tiempo: desdemocratizando los medios de producción de noticias, y agregando obstáculos a los sistemas de evaluación de noticiabilidad significativa basados en datos.
Instintos Comunes
Estas restricciones claramente nos llevan de regreso al ‘instinto’ como un componente inevitable en la evaluación de la noticiabilidad de una historia.
Naturalmente, esto es reconfortante para aquellos que están involucrados profesionalmente en este aspecto; pero la complacencia sería un error, ya que este instinto puede, hasta cierto punto, ser destilado y operacionalizado de una manera muy general que no depende de estudiar las obsesiones o pasatiempos de una persona u organización determinada: en un estudio de 2022, investigadores de la Universidad Northwestern utilizaron evaluaciones de crowdsourcing de historias potencialmente noticieras para entrenar un modelo predictivo, específicamente relacionado con la noticiabilidad de artículos de investigación de Arxiv recién publicados:

Preguntas de la encuesta dadas a los participantes del estudio para obtener datos de entrenamiento para un modelo de ‘predicción de noticiabilidad’ de IA. Fuente
El sistema clasifica a los candidatos bastante bien, con alrededor del 80% de sus primeras 10 opciones también juzgadas noticieras por expertos. Sin embargo, el acuerdo con los expertos resultó ser solo moderado, con los resultados que faltaban factores como el encuadre o la adaptación a la audiencia.
El sistema se basa en los principios esbozados en el documento de 2020 Descubrimiento de Noticias Computacional: Hacia Consideraciones de Diseño para Algoritmos de Orientación Editorial en Periodismo. Como con la mayoría de los proyectos similares, este trabajo aborda el periodismo científico en lugar de la recopilación de noticias abstracta – quizás porque la literatura científica tiende hacia la salida templada que podría potencialmente analizarse en puntos de datos entrenables e interpretables.
Bueno, como observé en 2021, esto sería el caso, excepto que los científicos de investigación frecuentemente abusan de las convenciones de presentación de artículos de investigación para ocultar o restar importancia a resultados poco impresionantes, o incluso fracasos directos.
Incluso más desafiante es la gran dificultad que los sistemas de IA tienen para interpretar figuras y tablas en artículos científicos, hasta el punto de que esta búsqueda ha llegado a ser un hilo activo en la literatura:

Desde el documento ‘SciFigDetect: Un Benchmark para la Detección de Figuras Científicas Generadas por IA’, que muestra figuras científicas reales, sus prompts de generación y contrapartes sintéticas producidas por Nano Banana y GPT en tres categorías: ilustraciones, resúmenes y figuras experimentales. Fuente
A menudo, un gráfico o tabla contendrá resultados que el cuerpo principal del documento informará con sesgo selectivo, o que incluso ignorará cualquier consecuencia negativa implícita en los resultados del gráfico/tabla. Por lo tanto, este obstáculo en el periodismo científico impulsado por IA no es menor.
Más revelador es el hecho de que un documento sea derivado, o solo una avanzada menor (si es que lo es) en el estado del arte, a menudo está enterrado en una cita casi impenetrable (es decir, tendrías que buscar el término, localizar una copia legible en PDF y comprender el alcance del arte previo antes de comprender la falta de originalidad o novedad en el nuevo trabajo).
Solo de Nuevo, Naturalmente
El método de crowdsourcing descrito anteriormente sugiere algún acuerdo posible entre el consenso común sobre historias potencialmente noticieras y la evaluación profesional de las mismas. Pero sin contexto, solo los rasgos más generales de noticiabilidad pueden aparentemente determinarse.
La verdadera fuerza del IA radica en su capacidad, dependiendo de la configuración, para aislar outliers – ya sea para el propósito de descartarlos como una excepción curva y sin sentido a las tendencias en un conjunto de datos, o (más relevante para la recopilación de noticias) para identificar instancias y ocurrencias inusuales y valiosas:

Outliers (en rojo) en un gráfico de dispersión. Fuente
En el principio de que los rayos nunca golpean dos veces, casi todas las historias noticieras son outliers. En casos donde surgen de un dominio activo y volátil, como una guerra en curso, ese dominio puede ser escaneado vigilante con una alta probabilidad de que surjan historias noticieras – pero al costo de una gran contienda, ya que la atención común probablemente también se centrará en el dominio.
Muchas pistas noticieras científicas son, por definición, no el centro de la distribución del lenguaje. Son combinaciones raras de métodos, resultados negativos sorprendentes o repeticiones anómalas. Si la competencia del modelo se degrada desproporcionadamente en estos grupos de baja frecuencia, entonces la región donde un ‘nose’ editorial necesita ser agudo se convierte en la región donde el modelo es menos confiable.
Problemas de Confianza
Al buscar nuevas historias, los periodistas equilibran múltiples restricciones, incluyendo tiempo, acceso, credibilidad, audiencia y prioridades organizacionales), lo que lleva a elecciones no obvias. Una revisión de la literatura de 2022 de Dinamarca caracterizó a los periodistas como equilibrando múltiples preocupaciones, conscientes de que las fuentes pueden tener agendas o estar mal informadas; y a menudo evitando la verificación directa en favor de señales de confianza indirectas cuando operan bajo presión.
Estos mismos ‘problemas de confianza’ serían un obstáculo de desarrollo en cualquier sistema de identificación de noticiabilidad impulsado por IA, ya que la participación en dicha plataforma requiere que el usuario confíe en que cualquier artículo descartado por algoritmos en realidad no vale la pena el tiempo del escritor.
La prueba beta extensiva y el ajuste o afinación, con supervisión humana recogiendo a los rezagados, podría mejorar eventualmente la confiabilidad de este enfoque; pero un cambio en la cultura nacional o global – como cambios sorprendentes en el panorama político, o el estallido de una guerra – podría inevitablemente volcar todas las prioridades base de dicho sistema, dejando al escritor dependiente del IA para reconstruir su necesario ‘modelo de dominio interno’ casi desde cero.
Publicado por primera vez el lunes 20 de abril de 2026.
Modificado el jueves 23 de abril de 2026 14:13:25, para sustituir ‘Fortune’ por ‘WSJ’ en ‘El Camino Estrecho’, párrafo 2 (gracias a Mark Riley de mathison.ai por señalararlo).












