Inteligência artificial
Em Direção à Redação Científica Automatizada

Esta manhã, vasculhando as seções de Ciência da Computação do Arxiv, como faço na maioria das manhãs, encontrei um artigo recente artigo da Universidade Federal do Ceará, no Brasil, que oferece um novo quadro de Processamento de Linguagem Natural para automatizar a resumo e extração de dados essenciais de artigos científicos.
Como isso é mais ou menos o que faço todos os dias, o artigo me fez lembrar de um comentário em uma thread de escritores do Reddit no início deste ano – uma previsão de que a redação científica será um dos primeiros empregos jornalísticos a serem assumidos pela aprendizagem de máquina.
Deixe-me ser claro – absolutamente acredito que o redator científico automatizado está vindo, e que todos os desafios que eu destaco neste artigo são solucionáveis agora, ou eventualmente serão. Onde possível, dou exemplos disso. Além disso, não estou abordando se os atuais ou próximos redatores de ciência AIs serão capazes de escrever de forma coerente; com base no atual nível de interesse neste setor do NLP, estou presumindo que este desafio será eventualmente resolvido.
Em vez disso, estou perguntando se um redator de ciência AI será capaz de identificar histórias científicas relevantes de acordo com os resultados desejados (altamente variados) dos editores.
Não acho que isso é iminente; com base em vasculhar os títulos e/ou cópias de cerca de 2000 novos artigos científicos sobre aprendizagem de máquina todos os dias, tenho uma visão mais cínica sobre a extensão em que as submissões acadêmicas podem ser quebradas algoritmicamente, seja para fins de indexação acadêmica ou para jornalismo científico. Como de costume, são as pessoas que estão atrapalhando.
Requisitos para o Redator Científico Automatizado
Vamos considerar o desafio de automatizar a reportagem científica sobre a última pesquisa acadêmica. Para ser justo, vamos limitá-lo principalmente às categorias de CS do muito popular domínio não pago Arxiv da Universidade de Cornell, que pelo menos tem uma série de características sistemáticas e padronizadas que podem ser plugadas em um pipeline de extração de dados.
Vamos supor também que a tarefa em questão, como no caso do novo artigo do Brasil, é iterar pelos títulos, resumos, metadados e (se justificado) o conteúdo do corpo de novos artigos científicos em busca de constantes, parâmetros confiáveis, tokens e informações de domínio reduzíveis e ações.
Isso é, afinal, o princípio pelo qual novos quadros muito bem-sucedidos estão ganhando terreno em áreas como relatórios de terremotos, redação esportiva, jornalismo financeiro e cobertura de saúde, e um ponto de partida razoável para o jornalista científico alimentado por IA.

O fluxo de trabalho da nova oferta brasileira. O artigo científico em PDF é convertido em texto plano UTF-8 (embora isso remova ênfases itálicas que possam ter significado semântico), e as seções do artigo são rotuladas e extraídas antes de serem passadas por um filtro de texto. O texto desmontado é quebrado em frases como quadros de dados, e os quadros de dados são mesclados antes da identificação de tokens e geração de duas matrizes de token de documento Fonte: https://arxiv.org/ftp/arxiv/papers/2107/2107.14638.pdf
Complicando o Modelo
Uma camada de conformidade e regularização encorajadora é que o Arxiv impõe um modelo de submissão bastante bem aplicado, e fornece diretrizes detalhadas para autores que submetem trabalhos. Portanto, os artigos geralmente se conformam a alguma parte do protocolo que se aplica ao trabalho descrito.
Assim, o sistema de pré-processamento de IA para o redator científico automatizado pode geralmente tratar essas seções como subdomínios: resumo, introdução, trabalho relacionado/anterior, metodologia/dados, resultados/descobertas, estudos de ablação, discussão, conclusão.
No entanto, na prática, algumas dessas seções podem estar faltando, renomeadas ou conter conteúdo que, estritamente falando, pertence a uma seção diferente. Além disso, os autores naturalmente incluirão títulos e subtítulos que não se conformam ao modelo. Portanto, caberá ao NLP/NLU identificar o conteúdo pertinente da seção relacionada ao contexto.
Rumo ao Problema
Uma hierarquia de cabeçalhos é uma maneira fácil para os sistemas de NLP inicialmente categorizar blocos de conteúdo. Muitas submissões do Arxiv são exportadas do Microsoft Word (como evidenciado nos PDFs do Arxiv mal manuseados que deixam ‘Microsoft Word’ no título do cabeçalho – veja a imagem abaixo). Se você usar cabeçalhos de seção adequados no Word, uma exportação para PDF os recriará como cabeçalhos hierárquicos úteis para os processos de extração de dados de uma máquina de relatórios.
No entanto, isso pressupõe que os autores estão realmente usando esses recursos no Word ou em outros quadros de criação de documentos, como TeX e derivados (raramente fornecidos como formatos nativos alternativos em submissões do Arxiv, com a maioria das ofertas limitada a PDF e, ocasionalmente, ao PostScript ainda mais opaco).
Com base em anos de leitura de artigos do Arxiv, notei que a grande maioria deles não contém nenhuma metadados estruturais interpretáveis, com o título relatado no leitor (ou seja, um navegador da web ou um leitor de PDF) como o título completo (incluindo extensão) do próprio documento.
Nesse caso, a interpretabilidade semântica do artigo é limitada, e um sistema de redator de ciência baseado em IA precisará relinkar programaticamente a ele seus metadados associados no domínio Arxiv. A convenção do Arxiv ditata que metadados básicos também são inseridos lateralmente em grande tipo cinza na página 1 de um PDF submetido (veja a imagem abaixo). Infelizmente – não menos porque isso é o único lugar confiável onde você pode encontrar uma data de publicação ou número de versão – é frequentemente excluído.

Muitos autores usam nenhum estilo ou apenas o estilo de cabeçalho H1 (título), deixando o NLU extrair cabeçalhos novamente do contexto (provavelmente não tão difícil), ou analisando o número de referência que compõe o título no caminho do documento (ou seja, https://arxiv.org/pdf/2110.00168.pdf) e se valendo de metadados baseados na web (em vez de locais) para a submissão.
Embora o último não resolva cabeçalhos ausentes, pelo menos estabelecerá a qual seção de Ciência da Computação a submissão se aplica e fornecerá informações de data e versão.

Texto Colado em Retornos de Parágrafo
Com PDF e postscript como os formatos mais comuns disponíveis submetidos por autores, o sistema de NLP precisará de uma rotina para dividir palavras de fim de linha de palavras de início de linha subsequentes que se “colam” nelas sob os métodos de otimização padrão do formato PDF.

Desconcatenar (e des-hifenizar) palavras pode ser feito em Perl e muitas outras rotinas recursivas simples, embora uma abordagem baseada em Python possa ser menos demorada e mais adaptada a um quadro de ML. A Adobe, a originadora do formato PDF, também desenvolveu um sistema de conversão habilitado por IA chamado Liquid Mode, capaz de “refluir” texto fixo em PDFs, embora sua implantação além do espaço móvel tenha se mostrado lenta.
Inglês Pobre
O inglês permanece o padrão científico global para a submissão de artigos científicos, mesmo que isso seja controverso. Portanto, artigos interessantes e dignos de nota às vezes contêm padrões de inglês terríveis, de pesquisadores não ingleses. Se o uso habilidoso do inglês for incluído como uma métrica de valor quando um sistema de máquina avalia o trabalho, então não apenas boas histórias serão frequentemente perdidas, mas a saída de baixo valor pedante será classificada mais alta simplesmente porque diz muito pouco muito bem.
Sistemas de NLP que são inflexíveis a este respeito provavelmente experimentarão uma camada adicional de obstáculos na extração de dados, a menos que o domínio da notícia seja particularmente estratificado, como é o caso de ações, números de pandemia, resultados esportivos, atividade sísmica e outras fontes de notícias puramente estatísticas.
Seleção: Determinando os Requisitos do Público
Vamos retornar aos muitos problemas de decompor artigos científicos excêntricos em pontos de dados discretos em breve. Agora, vamos considerar nosso público e objetivos, desde que esses serão essenciais para ajudar o redator de ciência AI a vasculhar milhares de artigos por semana. Prever o sucesso de histórias de notícias potenciais já é uma área ativa na aprendizagem de máquina.
Se, por exemplo, o tráfego científico de alto volume for o único objetivo em um site onde a redação científica é apenas uma parte de uma oferta jornalística mais ampla (como é o caso da seção de ciência do Daily Mail do Reino Unido), um IA pode ser necessário para determinar os tópicos de maior tráfego em termos de tráfego e otimizar sua seleção para isso. Esse processo provavelmente priorizará (relativamente) frutas fáceis de colher, como robôs, drones, deepfakes, privacidade e vulnerabilidades de segurança.
Em linha com o atual estado da arte em sistemas de recomendação, essa colheita de alto nível provavelmente levará a ‘problemas de bolha de filtro’ para o nosso redator de ciência AI, pois o algoritmo dá atenção aumentada a uma série de artigos científicos mais espúrios que apresentam palavras-chave e frases “desejáveis” de alta frequência nesses tópicos (novamente, porque há dinheiro a ser ganho neles, tanto em termos de tráfego para veículos de notícias quanto de financiamento para departamentos acadêmicos), enquanto ignora alguns dos “ovos de Páscoa” mais escrevíveis (veja abaixo) que podem ser encontrados em muitos dos cantos menos frequentados do Arxiv.
Um e Pronto!
Boa matéria de notícias científicas pode vir de lugares estranhos e inesperados, e de setores e tópicos anteriormente infrutíferos. Para confundir ainda mais o nosso IA de redação científica, que estava esperando criar um índice produtivo de “fontes de notícias proveitosas”, a fonte de um “sucesso” inesperado (como um servidor Discord, um departamento de pesquisa acadêmica ou uma startup de tecnologia) frequentemente nunca mais produzirá material ação, enquanto continua a produzir um fluxo de informações volumoso e barulhento de valor menor.
O que um arquiteto de aprendizagem de máquina iterativa pode deduzir disso? Que os muitos milhares de fontes de notícias “fora do comum” que ele uma vez identificou e excluiu são subitamente para serem priorizados (embora fazer isso criaria uma relação sinal-ruído ingovernável, considerando o alto volume de artigos publicados todos os anos)? Que o tópico em si é mais digno de uma camada de ativação do que a fonte de notícias de onde veio (o que, no caso de um tópico popular, é uma ação redundante)..?
Mais utilmente, o sistema pode aprender que precisa mover para cima ou para baixo na hierarquia de dimensionalidade de dados em busca de padrões – se é que realmente existem – que constituem o que meu avô jornalista chamava de “nariz para notícias”, e definir a característica digno de notícias como uma qualidade itinerante e abstrata que não pode ser precisamente prevista com base apenas na proveniência, e que pode ser esperada para mutar diariamente.
Identificando a Falha da Hipótese
Devido à pressão de cota, departamentos acadêmicos às vezes publicam trabalhos onde a hipótese central falhou completamente (ou quase completamente) em testes, mesmo que os métodos e descobertas do projeto sejam, no entanto, dignos de um pouco de interesse por si mesmos.
Tais desapontamentos são frequentemente não sinalizados em resumos; nos piores casos, hipóteses desprovadas são discerníveis apenas lendo os gráficos de resultados. Isso não apenas exige inferir uma compreensão detalhada da metodologia a partir da informação altamente seletiva e limitada que o artigo pode fornecer, mas também exigiria algoritmos de interpretação de gráficos habilidosos que possam interpretar significativamente tudo, desde um gráfico de pizza até um gráfico de dispersão, no contexto.
Um sistema de NLP que deposita fé nos resumos, mas não consegue interpretar os gráficos e tabelas, pode ficar muito animado com um novo artigo, na primeira leitura. Infelizmente, exemplos anteriores de “falha oculta” em artigos acadêmicos são (para fins de treinamento) difíceis de generalizar em padrões, uma vez que esse “crime acadêmico” é principalmente um de omissão ou subestimação, e portanto, elusivo.
Em um caso extremo, nosso redator de IA pode precisar localizar e testar dados de repositório (ou seja, do GitHub) ou analisar materiais suplementares disponíveis, para entender o que os resultados significam em termos dos objetivos dos autores. Portanto, um sistema de aprendizagem de máquina precisaria percorrer as múltiplas fontes e formatos não mapeados envolvidos nisso, tornando a automação de processos de verificação um desafio arquitetônico.
Cenários ‘Caixa Branca’
Alguns dos reclamos mais ultrajantes feitos em artigos de segurança centrados em IA acabam por exigir níveis extraordinários e muito improváveis de acesso ao código-fonte ou infraestrutura-fonte – ‘ataques de caixa branca’. Embora isso seja útil para extrapolar anteriormente desconhecidos caprichos nas arquiteturas dos sistemas de IA, quase nunca representa uma superfície de ataque realisticamente explorável. Portanto, o redator de ciência AI precisará de um detector de bobagem bastante capaz para decompor reivindicações em torno da segurança em probabilidades para implantação eficaz.
O redator de ciência automatizado precisará de uma rotina de NLU capaz para isolar menções de ‘caixa branca’ em um contexto significativo (ou seja, para distinguir menções de implicações centrais para o artigo), e a capacidade de deduzir a metodologia de caixa branca em casos onde a frase nunca aparece no artigo.
Outros ‘Armadilhas’
Outros lugares onde a inviabilidade e a falha da hipótese podem acabar bastante enterrados estão nos estudos de ablação, que sistemáticamente removem elementos-chave de uma nova fórmula ou método para ver se os resultados são negativamente afetados, ou se uma ‘descoberta central’ é resiliente. Na prática, artigos que incluem estudos de ablação geralmente estão bastante confiantes de suas descobertas, embora uma leitura cuidadosa possa frequentemente desenterrar um ‘blefe’. Na pesquisa de IA, esse blefe frequentemente equivale a superajuste, onde um sistema de aprendizagem de máquina se sai admiravelmente com os dados de pesquisa originais, mas falha em generalizar para novos dados, ou opera sob outras restrições não reprodutíveis.
Outra seção de cabeçalho útil para extração sistemática é Limitações. Esta é a primeira seção que qualquer redator de ciência (IA ou humano) deve pular, pois pode conter informações que anulam a hipótese inteira do artigo, e pular para ela pode economizar horas de trabalho perdido (pelo menos, para os humanos). Um cenário pior aqui é que um artigo realmente tem uma seção Limitações, mas os ‘fatos comprometedores’ estão incluídos em outro lugar no trabalho, e não aqui (ou são subestimados aqui).
Em seguida, está Trabalho Anterior. Isso ocorre no início do modelo do Arxiv e frequentemente revela que o artigo atual representa apenas um avanço menor em um projeto muito mais inovador, geralmente dos últimos 12-18 meses. Nesse estágio, o redator de IA precisará da capacidade de estabelecer se o trabalho anterior obteve tração; há uma história aqui? O trabalho anterior escapou indevidamente do conhecimento público no momento da publicação? Ou o novo artigo é apenas um pós-escrito perfunctório para um projeto anterior bem coberto?
Avaliando Re-encaminhamentos e ‘Freshness’
Além de corrigir erros em uma versão anterior, a versão 2 de um artigo frequentemente representa pouco mais do que os autores clamando por atenção que não receberam quando a versão 1 foi publicada. Frequentemente, no entanto, um artigo realmente merece uma segunda chance, pois a atenção da mídia pode ter sido desviada para outro lugar no momento da publicação original, ou o trabalho foi obscurecido por um tráfego alto de submissões em períodos de “simposio” e conferência movimentados (como outono e final de inverno).
Uma característica útil no Arxiv para distinguir uma re-execução é a tag [ATUALIZADO] anexada aos títulos de submissão. O sistema de recomendação interno do nosso redator de IA precisará considerar cuidadosamente se [ATUALIZADO] == ‘Jogado Fora’, particularmente desde que (presumivelmente) pode avaliar o artigo reaquecido muito mais rápido do que um redator de ciência apertado, graças a uma convenção de nomenclatura que provavelmente perdurará, pelo menos no Arxiv.
O Arxiv também fornece informações na página de resumo sobre se o artigo foi identificado como tendo ‘cruzamento significativo’ de texto com outro artigo (frequentemente pelo mesmo autor), e isso também pode potencialmente ser analisado em um status de ‘duplicado/re-execução’ por um sistema de redator de IA na ausência da tag [ATUALIZADO].
Determinando a Difusão
Como a maioria dos jornalistas, nosso projetado redator de ciência AI está procurando notícias não relatadas ou sub-relatadas, a fim de adicionar valor ao fluxo de conteúdo que ele suporta. Na maioria dos casos, re-relatar avanços científicos apresentados pela primeira vez em grandes veículos como TechCrunch, The Verge e EurekaAlert et al é inútil, pois essas grandes plataformas apoiam seu conteúdo com máquinas de publicidade exaustivas, garantindo virtualmente a saturação da mídia para o artigo.
Portanto, nosso redator de IA deve determinar se a história é fresca o suficiente para valer a pena perseguir.
A maneira mais fácil, na teoria, seria identificar links de entrada recentes para as páginas de pesquisa principais (resumo, PDF, seção de notícias do site do departamento acadêmico, etc.). Em geral, quadros que podem fornecer informações de link de entrada atualizadas não são de código aberto ou de baixo custo, mas grandes editores poderiam presumivelmente suportar o custo do SaaS como parte de um quadro de avaliação de noticiabilidade.
Supondo tal acesso, nosso redator de IA está então enfrentando o problema de que um grande número de veículos de relatórios científicos não citam os artigos que estão escrevendo, mesmo em casos em que essa informação está livremente disponível. Afinal, um veículo deseja que relatórios secundários linkem para eles, e não para a fonte. Como, na maioria dos casos, eles realmente obtiveram acesso privilegiado ou semi-privilegiado a um artigo de pesquisa (veja O Redator de Ciência ‘Social’ abaixo), eles têm um pretexto desonesto para isso.
Portanto, nosso redator de IA precisará extrair palavras-chave ação do artigo e realizar buscas restritas ao tempo para estabelecer onde, se é que em algum lugar, a história já foi relatada – e então avaliar se qualquer difusão anterior pode ser descartada, ou se a história está acabada.
Às vezes, os artigos fornecem material de vídeo suplementar no YouTube, onde a ‘contagem de visualizações’ pode servir como um índice de difusão. Além disso, nosso IA pode extrair imagens do artigo e realizar buscas sistemáticas baseadas em imagens para estabelecer se, onde e quando alguma das imagens foram republicadas.
Ovos de Páscoa
Às vezes, um artigo “seco” revela descobertas que têm implicações profundas e dignas de nota, mas que são subestimadas (ou até mesmo ignoradas ou desconsideradas) pelos autores, e só serão reveladas lendo o artigo inteiro e fazendo as contas.
Em casos raros, acredito, isso ocorre porque os autores estão muito mais preocupados com a recepção na academia do que no público em geral, talvez porque sintam (não sempre incorretamente) que os conceitos centrais envolvidos simplesmente não podem ser simplificados o suficiente para o consumo geral, apesar dos esforços frequentemente hiperbólicos dos departamentos de RP de suas instituições.
Mas quase tão frequentemente, os autores podem subestimar ou não ver ou não reconhecer as implicações de seu trabalho, operando oficialmente sob ‘distanciamento científico’. Às vezes, esses “ovos de Páscoa” não são indicadores positivos para o trabalho, como mencionado acima, e podem ser cínica e obscurecidos em tabelas complexas de descobertas.
Além do Arxiv
Deve-se considerar que parametrizar artigos sobre ciência da computação em tokens e entidades discretas será muito mais fácil em um domínio como o Arxiv, que fornece uma série de ganchos consistentes e padronizados para análise, e não requer logins para a maioria da funcionalidade.
Não todos os acessos à publicação científica são de código aberto, e permanece por ser visto se (do ponto de vista prático ou legal) o nosso redator de ciência AI pode ou irá recorrer a evadir paywalls por meio de Sci-Hub; para usar sites de arquivamento para obviar paywalls; e se é prático construir arquiteturas de mineração de domínio semelhantes para uma ampla variedade de outras plataformas de publicação científica, muitas das quais são estruturalmente resistentes à sonda sistemática.
Deve-se considerar ainda que, mesmo o Arxiv tem limites de taxa que provavelmente reduzirão as rotinas de avaliação de notícias do redator de IA para uma velocidade mais “humana”.
O Redator de Ciência ‘Social’ AI
Além do reino aberto e acessível do Arxiv e plataformas de publicação científica semelhantes, mesmo obter acesso a um artigo científico interessante novo pode ser um desafio, envolvendo localizar um canal de contato para um autor e se aproximar para solicitar ler o trabalho, e até mesmo obter citações (onde a pressão do tempo não é um fator predominante – um caso raro para repórteres científicos humanos hoje em dia).
Isso pode envolver a travessia automatizada de domínios científicos e a criação de contas (você precisa estar logado para revelar o endereço de e-mail de um autor de um artigo, mesmo no Arxiv). A maioria das vezes, o LinkedIn é a maneira mais rápida de obter uma resposta, mas os sistemas de IA atualmente são proibidos de contatar membros.
Como os pesquisadores receberiam solicitações de e-mail de um redator de ciência AI – bem, como no mundo de redação científica de carne e osso, depende da influência do veículo. Se um redator putativo baseado em IA do Wired contatasse um autor que estivesse ansioso para disseminar seu trabalho, é razoável supor que não encontraria uma resposta hostil.
Na maioria dos casos, você pode imaginar que o autor estaria esperando que essas trocas semi-automatizadas eventualmente convocassem um humano para o loop, mas não está além do reino das possibilidades que follow-up de entrevistas VOIP possam ser facilitados por um IA, pelo menos onde a viabilidade do artigo for prevista estar abaixo de um certo limiar, e onde a publicação tiver tração suficiente para atrair a participação humana em uma conversa com um ‘pesquisador de IA’.
Identificando Notícias com IA
Muitos dos princípios e desafios delineados aqui se aplicam ao potencial de automação em outros setores do jornalismo, e, como sempre foi, identificar uma história potencial é o desafio central. A maioria dos jornalistas humanos concordará que, na verdade, escrever a história é apenas os últimos 10% do esforço, e que, no momento em que a tecla do teclado está batendo, o trabalho está quase acabado.
O desafio principal, então, é desenvolver sistemas de IA que possam detectar, investigar e autenticar uma história, com base nas muitas vicissitudes arcânicas do jogo de notícias, e percorrendo uma ampla gama de plataformas que já estão endurecidas contra a sonda e a extração, humana ou de outra forma.
No caso da reportagem científica, os autores de novos artigos têm uma agenda de auto-serviço tão profunda quanto qualquer outra fonte potencial de uma história de notícias, e deconstruir sua saída exigirá incorporar conhecimento prévio sobre motivações sociológicas, psicológicas e econômicas. Portanto, um redator de ciência automatizado putativo precisará de mais do que rotinas de NLP redutivas para estabelecer onde está a notícia hoje, a menos que o domínio de notícias seja particularmente estratificado, como é o caso de ações, números de pandemia, resultados esportivos, atividade sísmica e outras fontes de notícias puramente estatísticas.













