Inteligência artificial
Lidando com a Montanha de PDFs do Governo dos EUA com Visão Computacional

O formato de PDF da Adobe se enraizou tão profundamente nos pipelines de documentos do governo dos EUA que o número de documentos emitidos pelo estado atualmente em existência é estimado conservadoramente em centenas de milhões. frequentemente opacos e falta de metadados, esses PDFs – muitos criados por sistemas automatizados – coletivamente não contam histórias ou sagas; se você não souber exatamente o que está procurando, provavelmente nunca encontrará um documento pertinente. E se você soubesse, provavelmente não precisaria da busca.No entanto, um novo projeto está usando visão computacional e outras abordagens de aprendizado de máquina para mudar essa montanha quase inacessível de dados em um recurso valioso e explorável para pesquisadores, historiadores, jornalistas e estudiosos.
Quando o governo dos EUA descobriu o Portable Document Format (PDF) da Adobe na década de 1990, decidiu que gostava. Ao contrário dos documentos editáveis do Word, os PDFs podiam ser “assados” de várias maneiras que os tornavam difíceis ou impossíveis de alterar posteriormente; as fontes podiam ser incorporadas, garantindo a compatibilidade entre plataformas; e a impressão, cópia e até mesmo a abertura podiam ser controladas de forma granular.
Mais importante ainda, esses recursos básicos estavam disponíveis em algumas das especificações “baseline” mais antigas do formato, prometendo que o material de arquivo não precisaria ser reprocessado ou revisitado posteriormente para garantir a acessibilidade. Quase tudo o que a publicação do governo precisava estava no lugar em 1996.
Com a proveniência de blockchain e tecnologias NFT décadas à frente, o PDF era o mais próximo que a era digital emergente podia chegar a um documento “morto” analógico, apenas um conceito à distância de um fax. Isso era exatamente o que se queria.
Dissenso Interno Sobre o PDF
A extensão com que os PDFs são herméticos, intransigentes e “não sociais” é caracterizada na documentação sobre o formato na Biblioteca do Congresso, que favorece o PDF como seu “formato preferido”:
‘O propósito principal do formato PDF/A é representar documentos eletrônicos de uma maneira que preserve sua aparência visual estática ao longo do tempo, independentemente das ferramentas e sistemas usados para criar, armazenar ou renderizar os arquivos. Para isso, o PDF/A tenta maximizar a independência de dispositivo, autocontenção e autodocumentação.’
O entusiasmo contínuo pelo formato PDF, padrões para acessibilidade e requisitos para uma versão mínima variam entre os departamentos do governo dos EUA. Por exemplo, enquanto a Agência de Proteção Ambiental tem políticas rigorosas, mas apoia nesse sentido, o site oficial do governo dos EUA plainlanguage.gov reconhece que ‘os usuários odeiam PDF’, e até mesmo vincula diretamente a um relatório de 2020 do Nielsen Norman Group intitulado PDF: Ainda Inadequado para Consumo Humano, 20 Anos Depois.
Enquanto isso, o irs.gov, criado em 1995 especificamente para fazer a transição da documentação da agência de impostos para digital, adotou imediatamente o PDF e ainda é um defensor entusiasta.
A Propagação Viral de PDFs
Desde que as especificações principais do PDF foram liberadas como open source pela Adobe, um conjunto de ferramentas de processamento de servidor e bibliotecas surgiu, muitas agora como veneráveis e enraizadas quanto as especificações do PDF de 1996, e tão confiáveis e resistentes a bugs, enquanto os fornecedores de software corriam para integrar a funcionalidade do PDF em ferramentas de baixo custo.
Consequentemente, amados ou odiados por seus departamentos anfitriões, os PDFs permanecem onipresentes nos quadros de comunicação e documentação em um grande número de departamentos do governo dos EUA.
Em 2015, o VP de Engenharia da Document Cloud da Adobe, Phil Ydens estimou que 2,5 trilhões de documentos PDF existem no mundo, enquanto o formato é acredita ser responsável por cerca de 6-11% de todo o conteúdo da web. Em uma cultura de tecnologia viciada em interromper tecnologias antigas, o PDF se tornou um “ferrugem” inerradicável – uma parte central da estrutura que o hospeda.

De 2018. Não há evidências de um desafiador formidável ainda. Fonte: https://twitter.com/trbrtc/status/980407663690502145
De acordo com um estudo recente de pesquisadores da Universidade de Washington e da Biblioteca do Congresso, ‘centenas de milhões de documentos do governo dos EUA publicados na web em forma de PDF foram arquivados por bibliotecas até o momento’.
No entanto, os pesquisadores argumentam que isso é apenas a “ponta do iceberg”:
‘Como o principal estudioso de história digital Roy Rosenzweig observou já em 2003, quando se trata de fontes primárias de nascimento digital para estudos, é essencial desenvolver métodos e abordagens que sejam escaláveis para dezenas e centenas de milhões e até bilhões de recursos digitais. Agora chegamos ao ponto em que desenvolver abordagens para essa escala é necessário.
‘Por exemplo, os arquivos da web da Biblioteca do Congresso agora contêm mais de 20 bilhões de recursos digitais individuais.’
PDFs: Resistentes à Análise
O projeto dos pesquisadores de Washington aplica uma série de métodos de aprendizado de máquina para um conjunto de dados público e anotado corpus de 1.000 documentos selecionados da Biblioteca do Congresso, com a intenção de desenvolver sistemas capazes de recuperação multimodal de texto e imagem em frameworks que possam ser escalados para as alturas dos volumes atuais (e crescentes) de PDFs, não apenas no governo, mas em uma multiplicidade de setores.
Como o artigo observa, o ritmo acelerado de digitalização em uma variedade de departamentos do governo dos EUA na década de 1990 levou a políticas e práticas divergentes, e frequentemente à adoção de métodos de publicação de PDF que não continham a mesma qualidade de metadados que era o padrão de ouro dos serviços de biblioteca do governo – ou mesmo metadados nativos de PDF básicos, que poderiam ter sido de alguma ajuda em tornar as coleções de PDF mais acessíveis e amigáveis à indexação.
Discutindo esse período de interrupção, os autores notam:
‘Esses esforços levaram a um crescimento explosivo da quantidade de publicações do governo, o que por sua vez resultou em uma quebra da abordagem geral pela qual metadados consistentes eram produzidos para tais publicações e pela qual as bibliotecas adquiriam cópias delas.’
Consequentemente, uma montanha de PDF típica existe sem qualquer contexto, exceto os URLs que a vinculam diretamente. Além disso, os documentos na montanha são fechados, auto-referenciais e não formam parte de qualquer “saga” ou narrativa que as metodologias de busca atuais sejam prováveis de discernir, mesmo que essas conexões ocultas existam sem dúvida.
Na escala em consideração, a anotação ou curadoria manual é uma perspectiva impossível. O corpus de dados do qual os 1000 documentos da Biblioteca do Congresso foram derivados contém mais de 40 milhões de PDFs, que os pesquisadores pretendem tornar um desafio endereçável no futuro próximo.
Visão Computacional para Análise de PDF
A maior parte da pesquisa anterior que os autores citam usa métodos baseados em texto para extrair recursos e conceitos de alto nível do material do PDF; em contraste, o projeto deles centra-se em derivar recursos e tendências examinando os PDFs em um nível visual, em linha com pesquisa atual em análise multimodal de conteúdo de notícias.
Embora o aprendizado de máquina também tenha sido aplicado dessa forma à análise de PDF por meio de esquemas setoriais específicos, como Semantic Scholar, os autores visam criar pipelines de extração de alto nível mais amplamente aplicáveis em uma variedade de publicações, em vez de sintonizados com as restrições da publicação científica ou de outros setores igualmente estreitos.
Endereçando Dados Desbalanceados
Ao criar um esquema de métricas, os pesquisadores tiveram que considerar como os dados são inclinados, pelo menos em termos de tamanho por item.
Dos 1000 PDFs no conjunto de dados selecionado (que os autores presumem ser representativo dos 40 milhões de onde foram extraídos), 33% têm apenas uma página de comprimento, e 39% têm 2-5 páginas de comprimento. Isso coloca 72% dos documentos em cinco páginas ou menos.
Depois disso, há um salto considerável: 18% dos documentos restantes têm 6-20 páginas, 6% têm 20-100 páginas e 3% têm 100+ páginas. Isso significa que os documentos mais longos compõem a maioria das páginas individuais extraídas, enquanto uma abordagem menos granular que considera os documentos sozinhos inclinaria a atenção para os documentos mais numerosos e mais curtos.
No entanto, essas são métricas esclarecedoras, pois os documentos de uma página tendem a ser esquemas técnicos ou mapas; os documentos de 2-5 páginas tendem a ser releases de imprensa e formulários; e os documentos muito longos são geralmente relatórios e publicações de livro, embora, em termos de comprimento, sejam misturados com vastos dumps de dados automatizados que contêm desafios completamente diferentes para interpretação semântica.
Portanto, os pesquisadores estão tratando esse desequilíbrio como uma propriedade semântica significativa em si. No entanto, os PDFs ainda precisam ser processados e quantificados em uma base por página.
Arquitetura
No início do processo, os metadados do PDF são analisados em dados tabulares. Esses metadados não estarão ausentes, pois consistem em quantidades conhecidas, como tamanho do arquivo e URL de origem.
O PDF é então dividido em páginas, com cada página convertida em um formato JPEG por meio do ImageMagick. A imagem é então alimentada a uma rede ResNet-50, que deriva um vetor de 2.048 dimensões da segunda camada mais interna.

O pipeline para extração de PDFs. Fonte: https://arxiv.org/ftp/arxiv/papers/2112/2112.02471.pdf
Ao mesmo tempo, a página é convertida em um arquivo de texto pelo pdf2text, e as featurizações TF-IDF são obtidas por meio do scikit-learn.
TF-IDF significa Frequência de Termo Inversa de Frequência de Documento, que mede a prevalência de cada frase dentro do documento para sua frequência em todo o conjunto de dados, em uma escala fina de 0 a 1. Os pesquisadores usaram palavras individuais (unígrafos) como a unidade menor no sistema de configurações TF-IDF.
Embora eles reconheçam que o aprendizado de máquina tenha métodos mais sofisticados a oferecer do que o TF-IDF, os autores argumentam que qualquer coisa mais complexa é desnecessária para a tarefa declarada.
O fato de cada documento ter um URL de origem associado permite que o sistema determine a proveniência dos documentos em todo o conjunto de dados.

Isso pode parecer trivial para mil documentos, mas será um olhar revelador para 40 milhões ou mais.
Novas Abordagens para Busca de Texto
Um dos objetivos do projeto é tornar os resultados de busca para consultas baseadas em texto mais significativos, permitindo uma exploração frutífera sem a necessidade de conhecimento prévio excessivo. Os autores afirmam:
‘Embora a busca por palavra-chave seja um método de busca intuitivo e altamente extensível, também pode ser limitante, pois os usuários são responsáveis por formular consultas de palavra-chave que recuperem resultados relevantes.’
Uma vez que os valores TF-IDF são obtidos, é possível calcular as palavras mais comumente apresentadas e estimar um “documento médio” no corpus. Os pesquisadores argumentam que, como essas palavras-chave entre documentos são geralmente significativas, esse processo forma relações úteis para os estudiosos explorarem, que não poderiam ser obtidas apenas pelo índice individual do texto de cada documento.
Visualmente, o processo facilita um “quadro de palavras” que emanam de vários departamentos do governo:

Palavras-chave TF-IDF para vários departamentos do governo dos EUA, obtidas por TF-IDF.
Essas palavras-chave e relações extraídas podem ser usadas posteriormente para formar matrizes dinâmicas nos resultados de busca, com o corpus de PDFs começando a “contar histórias”, e relações de palavras-chave ligando documentos (possivelmente até mesmo ao longo de centenas de anos), para esboçar uma “saga” explorável multi-partes para um tópico ou tema.
Os pesquisadores usam agrupamento k-means para identificar documentos relacionados, mesmo quando os documentos não compartilham uma fonte comum. Isso permite o desenvolvimento de metadados de frase-chave aplicáveis em todo o conjunto de dados, que se manifestariam como classificações para termos em uma busca de texto estrita, ou como nós próximos em um ambiente de exploração mais dinâmico:

Análise Visual
A verdadeira novidade da abordagem dos pesquisadores de Washington é aplicar técnicas de análise visual baseadas em aprendizado de máquina à aparência rasterizada dos PDFs no conjunto de dados.
Dessa forma, é possível gerar uma marca “REDACTED” em uma base visual, onde nada no texto em si forneceria uma base comum o suficiente.

Um cluster de páginas de PDF redigidas identificadas por visão computacional no novo projeto.
Além disso, essa método pode derivar tal marca mesmo de documentos do governo que foram rasterizados, o que é frequentemente o caso com material redigido, tornando possível uma busca exaustiva e abrangente por essa prática.
Ademais, mapas e esquemas podem ser identificados e categorizados, e os autores comentam sobre essa funcionalidade potencial:
‘Para estudiosos interessados em divulgações de informações classificadas ou de outra forma sensíveis, pode ser de particular interesse isolar exatamente esse tipo de cluster de material para análise e pesquisa.’
O artigo observa que uma ampla variedade de indicadores visuais comuns a tipos específicos de PDF do governo pode ser usada para classificar documentos e criar “sagas”. Tais “tokens” poderiam ser o selo do Congresso, ou outros logotipos ou recursos visuais recorrentes que não têm existência semântica em uma busca de texto pura.
Além disso, documentos que desafiam a classificação, ou onde o documento vem de uma fonte não comum, podem ser identificados a partir de seu layout, como colunas, tipos de fonte e outros aspectos distintivos.

O layout sozinho pode fornecer agrupamentos e classificações em um espaço de busca visual.
Embora os autores não tenham negligenciado o texto, é claro que o espaço de busca visual é o que impulsionou esse trabalho.
‘A capacidade de buscar e analisar PDFs de acordo com seus recursos visuais é, portanto, uma abordagem capaz: não apenas aumenta os esforços existentes em torno da análise textual, mas também reimagina o que a busca e a análise podem ser para o conteúdo nascido digital.’
Os autores pretendem desenvolver sua estrutura para acomodar conjuntos de dados muito, muito maiores, incluindo o Arquivo da Web do Fim do Mandato Presidencial de 2008 conjunto de dados, que contém mais de 10 milhões de itens. Inicialmente, no entanto, eles pretendem escalar o sistema para endereçar “dezenas de milhares” de PDFs governamentais.
O sistema pretende ser avaliado inicialmente com usuários reais, incluindo bibliotecários, arquivistas, advogados, historiadores e outros estudiosos, e evoluirá com base no feedback desses grupos.
Lidando com a Escala de Publicações do Governo Nascidas Digitalmente: Em Direção a Pipelines para Processamento e Busca de Milhões de PDFs é escrito por Benjamin Charles Germain Lee (na Paul G. Allen School for Computer Science & Engineering) e Trevor Owens, Historiador Público Residente e Chefe de Gerenciamento de Conteúdo Digital na Biblioteca do Congresso em Washington, D.C..
* Minha conversão de citações em linha para hiperlinks.
Publicado originalmente em 28 de dezembro de 2021












