Ângulo de Anderson
O AI Pode Desenvolver um Faro para Notícias?

O AI está melhorando na escrita de histórias de notícias, mas não está melhorando muito na identificação delas.
Opinião No cinco anos desde que eu última vez olhei para a capacidade do AI de encontrar uma história de notícias quente, o cenário mudou consideravelmente, com níveis aumentados de automação impulsionada por AI acompanhados dos inevitáveis crescimentos de dores e controvérsias.
Recentemente, um relatório do WSJ sobre um contribuinte prolífico da Fortune auxiliado por AI apresentou o jornalista do futuro como emancipado do trabalho braçal, como a transliteração de releases de imprensa, deixando-os com espaço para escrever as matérias e fazer a escavação que apenas as publicações maiores geralmente têm o orçamento para.
Mas o que ouvimos muito menos frequentemente é a capacidade do AI de detectar uma história de notícias.
Redução de Ruído
No artigo de 2021, eu me concentrei em escritores que cobrem a área de pesquisa, desde que é onde passo a maior parte do meu tempo; e talvez o maior efeito que a nova revolução do AI teve sobre isso é que criou uma tempestade de neve incontrolável de submissões de artigos de pesquisa impulsionados por AI, elevando a relação sinal-ruído tão alto que mesmo cobrir os domínios relacionados à IA da Arxiv de forma abrangente agora está além dos esforços de uma única pessoa.
Certamente este é onde o AI se destaca – ao iterar por vastos conjuntos de dados que os humanos não podem resolver, para encontrar ‘outliers’ (que vamos abordar em breve) em segundos que levariam dias para as pessoas, se elas pudessem fazer isso.
Por que, então, o AI ainda é tão ruim em identificar uma história de notícias quente entre as milhares, ou mesmo dezenas de milhares, de concorrentes diários?
AI de Visão Retrospectiva
Esta proliferação maciça de conteúdo gerado por AI está acontecendo muito além do setor acadêmico que discuti anteriormente. No final do ano passado, foi estimado que metade de toda a nova escrita na web é agora ‘escrita por AI’, com uma aceleração ainda maior dessa tendência presumida estar vindo. Portanto, o ruído é ensurdecedor em todos os lugares, não apenas na academia.
Embora tenha havido algum progresso na identificação de AI/algoritmos de uma ‘história quente’ nos últimos anos, esses sistemas tendem a se concentrar em feeds de dados estratificados e organizados de forma previsível, significando que eles só podem operar em um contexto bastante frágil.
Nesse sentido, o pesquisador pós-doutoral de Stanford e ex-jornalista do New York Times Alexander Spangher fez várias incursões para definir ‘noticiabilidade’ em termos que possam ser aplicados a processos de aprendizado de máquina e análise estatística; e produziu evidências de geração automática de leads em corpora como processos judiciais, projetos de lei estaduais e reuniões do conselho da cidade, bem como documentos públicos gerais – o tipo de saída impulsionada por esquema que o prolífico escritor da Fortune pode transformar em 6-7 peças de notícias por dia:

O ‘calor’ das distribuições de palavras extraídas de corpora de documentos públicos. Neste caso, podemos ver que ‘autorizando’ tem uma pontuação alta, talvez porque represente decisão, mudança e novidade. Fonte
No entanto, o problema com abordagens como a oferta de Spangher em 2023 Rastreando a Noticiabilidade de Documentos Públicos, é que, de forma típica do AI, elas se concentram em tendências observadas nos dados. Em outras palavras, elas observam coisas que fizeram boas notícias antes e vão procurar mais do mesmo.
No mundo real, fontes inesperadas quase sempre se mostram como um ‘fenômeno de um único sucesso’; e, por quanto obscuras que tenham sido, ninguém poderia ter previsto sua súbita proeminência. Então, tendo sido frutíferas uma vez, e apesar de ocasionais tentativas de capitalizar a fama passageira ou notoriedade, elas geralmente nunca produzirão nada útil novamente.
Sinal dos Tempos
Portanto, como monitorar esse tipo de fonte de notícias de ‘um e pronto’ geralmente vai apenas adicionar mais ruído à tempestade geral, o AI não poderia identificar os significadores de uma fonte que um dia se tornará frutífera? Se alguém pudesse descobrir que tipo de fonte pode eventualmente render notícias, alguém poderia se concentrar em suas características em vez de seu contexto ou métodos.
Por essa lógica, alguém poderia deduzir das revelações de Edward Snowden da década de 2010 que qualquer pessoa que recentemente deixou o emprego da CIA (ou uma organização semelhante) seria digna de ser seguida como uma potencial fonte de uma futura reportagem.
No entanto, não há feeds RSS ou APIs que possam automatizar esse tipo de monitoramento contínuo, pois LinkedIn e muitas outras fontes de dados anteriormente abertas estão se retratando diante de raspadores web de AI rapaces e desrespeitadores da lei. Mesmo que houvesse, a frequência seria um problema, pois não se pode sondar uma API ou um site a cada cinco segundos; além do custo de recursos, as respostas de IP-ban das plataformas tornariam essa uma atividade insustentável.
Além disso, há claramente uma ‘dimensão humana’ nesses relatórios que é difícil de automatizar.

Coleta de notícias com o toque pessoal: captura de um lançamento de disco do filme de 1976 de Alan J. Pakula ‘All The President’s Men’, com o informante saindo das sombras. Fonte
Também, no mundo real, é muito difícil identificar as características definidoras de uma futura fonte de notícias. Provavelmente não é ‘pessoas que deixaram a CIA recentemente’, e certamente não é definida por um protocolo: plataformas como X ou GitHub produzem muito sinal em si mesmas, e mesmo restringir a categorias de busca ou postagens faz pouca diferença – apenas se você estiver envolvido no problema e engajado com a comunidade (ou repositório, etc.) é que você realmente está provável de reconhecer a importância de um desenvolvimento.
Mesmo um termo como ‘alerta de segurança’ não pode contextualizar a verdadeira gravidade ou noticiabilidade de um incidente, pois referências desse tipo são jogadas por aí diariamente, por milhares, em tais comunidades – ainda que tenham nenhum valor noticioso amplo; e mesmo que se restrinja esse tipo de monitoramento à língua inglesa, as variações potenciais em expressões idiomáticas, juntamente com o uso de linguagem oblíqua, tornariam muito difícil analisar uma postagem ‘no mundo selvagem’ em um verdadeiro alerta de notícias.
O Caminho Estreito
O atual lote de sistemas de detecção de noticiabilidade impulsionados por AI depende de estruturas de dados formalizadas (como saída JSON, de uma API), ou de estruturas de dados informais que algoritmos desenvolvidos por AI têm uma chance de analisar em um esquema estruturado (como releases de imprensa de uma organização específica):

Um feed RSS/XML analisado, revelando a hierarquia rígida de contêineres de dados. Fonte
Claramente, abordagens desse tipo são bem adaptadas para saídas programáticas, como o trabalho mundano que o mencionado repórter do WSJ declara que o AI o libertou, incluindo relatórios de previsão do tempo, cotações de ações e placares esportivos, bem como releases de imprensa rotineiros de organizações governamentais municipais e outras.
Embora seja possível anexar gatilhos de ‘alerta humano’ a feeds estatísticos como o clima (tempestades súbitas), cotações de ações (quedas súbitas) e esportes (vitórias/derrotas inesperadas, com algum trabalho preparatório), novamente, a atenção humana ainda seria necessária, mesmo para releases governamentais estratificados, para avaliar a noticiabilidade.
Embora termos como ‘morte’, ‘doença inesperada’, ‘vazamento’ e ‘acidente’ possam ajudar a reduzir a busca por eventos noticiosos, eles apenas abordam ‘eventualidades rotineiras’ e também não podem levar em conta linguagem alternativa (ou idiomas).
Retorno dos Escritores da Elite?
Nos últimos anos, jornalismo de dados se tornou uma plataforma ascendente na reportagem de notícias, com departamentos editoriais não mais limitados a acordos de ‘furo’ especiais que lhes concedem liberação antecipada em relatórios especiais e trabalhos brancos de principais editores; em vez disso, eles podem processar os números por conta própria.
No entanto, isso não é um almoço de graça; à medida que o valor óbvio de analisar dados públicos com AI dessa forma cresceu, uma resposta de bloqueio de AI/rentabilidade seguiu – ou mesmo antecipou – a demanda, impulsionando os principais jogadores de dados de AI para táticas furtivas.
A fricção adicional da Nova Retirada argumenta que restaura um certo poder dos ‘jornalistas cidadãos’ de volta para a mídia legada – ou pelo menos, organizações de notícias bem financiadas que têm a largura de banda para absorver o trabalho manual extra necessário na coleta, refinamento e avaliação de dados, em uma era em que editores e domínios estão cada vez mais restringindo o acesso casual.
Então, de certa forma, talvez no espírito do tempo, a manifestação prática do AI no jornalismo, em termos de como os principais jogadores e mercados responderam à inovação e adoção baseadas em AI, pode na verdade estar nos levando de volta no tempo: desdemocratizando os meios de produção de notícias e adicionando obstáculos a sistemas de avaliação de noticiabilidade baseados em dados significativos.
Instintos Comuns
Essas restrições claramente nos levam de volta ao ‘sentimento intuitivo’ como um componente inevitável na avaliação da noticiabilidade de uma história.
Naturalmente, isso é confortante para aqueles que estão profissionalmente engajados nesse aspecto; mas a complacência seria um erro, pois esse instinto pode, até certo ponto, ser destilado e operacionalizado de uma forma muito geral que não depende de estudar as obsessões ou hobbies de qualquer indivíduo ou organização: em um estudo de 2022, pesquisadores da Northwestern University usaram avaliações de crowd-sourced de histórias potencialmente noticiosas para treinar um modelo preditivo, especificamente preocupado com a noticiabilidade de artigos de pesquisa publicados recentemente na Arxiv:

Perguntas de pesquisa dadas aos participantes do estudo para obter dados de treinamento para um modelo de ‘previsão de noticiabilidade’ de AI. Fonte
O sistema classifica os candidatos bastante bem, com cerca de 80% de suas principais escolhas também julgadas noticiosas por especialistas. No entanto, o acordo com especialistas provou ser apenas moderado, com os resultados faltando fatores como moldura ou ajuste de audiência.
O sistema é baseado nos princípios delineados no artigo de 2020 Descoberta Computacional de Notícias: Considerações de Design para Algoritmos de Orientação Editorial em Jornalismo. Como em muitos projetos semelhantes, este trabalho aborda o jornalismo científico em vez de coleta de notícias abstrata – talvez porque a literatura científica tende para saídas modeladas que poderiam potencialmente ser analisadas em pontos de dados treináveis e interpretáveis.
Bem, como observei em 2021, seria o caso, exceto que os científicos frequentemente abusam das convenções de submissão de artigos de pesquisa para esconder ou minimizar resultados não impressionantes, ou mesmo falha direta.
Ainda mais desafiador é o grande desafio que os sistemas de AI têm em interpretar figuras e tabelas em artigos científicos, a ponto de essa busca ter se tornado, ultimamente, uma linha ativa na literatura:

Do artigo ‘SciFigDetect: Um Benchmark para Detecção de Figuras Científicas Geradas por AI’, mostrando figuras científicas reais, seus prompts de geração e contrapartes sintéticas produzidas por Nano Banana e GPT em três categorias: ilustração, visão geral e figuras experimentais. Fonte
Muitas vezes, um gráfico ou tabela conterá resultados que o corpo principal do artigo irá relatar com viés seletivo, ou que simplesmente ignorará quaisquer consequências negativas implícitas nos resultados da tabela/gráfico. Portanto, essa barreira no jornalismo científico impulsionado por AI não é menor.
Mais revelador é o fato de que um artigo é derivado, ou apenas um avanço menor (se houver), é frequentemente enterrado em uma citação quase impenetrável (ou seja, você precisaria procurar o termo, localizar uma cópia legível em PDF e entender a extensão da arte anterior, antes de compreender a falta de originalidade ou novidade no novo trabalho).
Sozinho Mais Uma Vez, Naturalmente
O método de crowd-sourced acima sugere algum acordo possível entre o consenso comum sobre histórias potencialmente noticiosas e a avaliação profissional das mesmas. Mas sem contexto, apenas os traços mais amplos de noticiabilidade podem aparentemente ser determinados.
A própria força do AI reside em sua capacidade, dependendo da configuração, de isolar outliers – seja para descartá-los como uma exceção curva-quebradora e sem significado para tendências em um conjunto de dados, ou (mais relevante para a coleta de notícias) para identificar instâncias e ocorrências incomuns e valiosas:

Outliers (em vermelho) em um gráfico de dispersão. Fonte
No princípio de que o raio raramente atinge duas vezes, quase todas as histórias de notícias de sucesso são outliers. Em casos em que elas emanam de um domínio ativo e volátil, como uma guerra em andamento, esse domínio pode ser escaneado vigilantemente com uma alta probabilidade de histórias noticiosas emergentes – mas ao custo de uma contenção maciça, pois a atenção comum provavelmente também está focada no domínio.
Muitos leads científicos noticiosos são, por definição, não o centro da distribuição de linguagem. Eles são combinações raras de métodos, resultados negativos surpreendentes ou replicações anômalas. Se a competência do modelo degrada desproporcionalmente em tais agrupamentos de baixa frequência, então a região onde um ‘nariz’ editorial precisa ser afiado se torna a região onde o modelo é menos confiável.
Questões de Confiança
Ao buscar novas histórias, os jornalistas equilibram múltiplas restrições, incluindo tempo, acesso, credibilidade, audiência e prioridades organizacionais), levando a escolhas não óbvias. Uma revisão da literatura de 2022 da Dinamarca caracterizou jornalistas como equilibrando múltiplas preocupações, acutamente cientes de que as fontes podem ter agendas ou estar mal informadas; e frequentemente contornando a verificação direta em favor de sinais de confiança indiretos quando operando sob pressão.
Essas mesmas ‘questões de confiança’ seriam um obstáculo de desenvolvimento em qualquer sistema definitivo de identificação de noticiabilidade impulsionado por AI, pois o engajamento com tal plataforma exige que o usuário confie que qualquer artigo descartado por algoritmo não é digno do tempo do escritor.
Testes beta extensivos e retreinamento ou ajuste fino, com supervisão humana pegando os estragados e retardatários, poderiam eventualmente melhorar a confiabilidade de tal abordagem; mas uma mudança na cultura nacional ou global – como mudanças surpreendentes no cenário político, ou o início de uma guerra – inevitavelmente derrubaria todas as prioridades básicas de tal sistema finamente calibrado, deixando o escritor dependente do AI para reconstruir seu necessário ‘modelo de domínio interno’ quase do zero.
Publicado pela primeira vez na segunda-feira, 20 de abril de 2026












