toco Enfrentando a montanha de PDF do governo dos EUA com visão computacional - Unite.AI
Entre em contato

Inteligência artificial

Enfrentando a montanha de PDF do governo dos EUA com visão computacional

mm
Atualização do on

O formato PDF da Adobe se consolidou tão profundamente nos canais de documentos do governo dos EUA que o número de documentos emitidos pelo estado atualmente existentes é estimado de forma conservadora em centenas de milhões. Frequentemente opacos e sem metadados, esses PDFs – muitos criados por sistemas automatizados – coletivamente não contam histórias ou sagas; se você não sabe exatamente o que está procurando, provavelmente nunca encontrará um documento pertinente. E se você sabia, provavelmente não precisava da pesquisa.

No entanto, um novo projeto está a utilizar a visão computacional e outras abordagens de aprendizagem automática para transformar esta montanha quase inacessível de dados num recurso valioso e explorável para investigadores, historiadores, jornalistas e académicos.

Quando o governo dos EUA descobriu o Portable Document Format (PDF) da Adobe na década de 1990, decidiu que gostava dele. Ao contrário dos documentos editáveis ​​do Word, os PDFs podem ser 'preparados' de várias maneiras que os tornam difíceis ou mesmo impossíveis de corrigir posteriormente; as fontes podem ser incorporadas, garantindo compatibilidade entre plataformas; e a impressão, cópia e até mesmo a abertura podem ser controladas de forma granular.

Mais importante ainda, esses recursos principais estavam disponíveis em algumas das especificações de 'linha de base' mais antigas do formato, prometendo que o material de arquivo não precisaria ser reprocessado ou revisitado posteriormente para garantir a acessibilidade. Quase tudo o que a publicação do governo precisava estava pronto até 1996.

Com a proveniência do blockchain e as tecnologias NFT a décadas de distância, o PDF era o mais próximo que a era digital emergente poderia chegar de um documento analógico 'morto', a apenas um soluço conceitual de distância de um fax. Isso era exatamente o que se queria.

Dissidência interna sobre PDF

A extensão em que os PDFs são herméticos, intratáveis ​​e 'não-sociais' é caracterizada no documentação sobre o formato na Biblioteca do Congresso, que favorece o PDF como seu 'formato preferido':

'O objetivo principal do formato PDF/A é representar documentos eletrônicos de uma maneira que preserve sua aparência visual estática ao longo do tempo, independentemente das ferramentas e sistemas usados ​​para criar, armazenar ou renderizar os arquivos. Para esse fim, o PDF/A tenta maximizar a independência do dispositivo, a autocontenção e a autodocumentação.'

O entusiasmo contínuo pelo formato PDF, os padrões de acessibilidade e os requisitos para uma versão mínima variam entre os departamentos do governo dos EUA. Por exemplo, embora a Agência de Proteção Ambiental tenha políticas rigorosas, mas de apoio a este respeito, o site oficial do governo dos EUA plainlanguage.gov reconhece que 'usuários odeiam PDF', e até links diretos para um Grupo Nielsen Norman 2020 Denunciar intitulado PDF: Ainda impróprio para consumo humano, 20 anos depois.

Enquanto isso irs.gov, criado em 1995 especificamente para fazer a transição da documentação do fisco para o formato digital, o PDF foi adotado de imediato e ainda é um advogado entusiasta.

A disseminação viral de PDFs

Como as principais especificações para PDF foram lançadas em código aberto pela Adobe, um tranche de ferramentas de processamento do lado do servidor e bibliotecas surgiram, muitos agora como venerável e entrincheirado como as especificações de PDF da era de 1996, e como confiável e resistente a bugs, enquanto os fornecedores de software correram para integrar a funcionalidade PDF em ferramentas de baixo custo.

Consequentemente, amados ou odiados por seus departamentos anfitriões, os PDFs permanecem onipresentes nas estruturas de comunicação e documentação em um grande número de departamentos do governo dos EUA.

Em 2015, o vice-presidente de engenharia da Adobe para Document Cloud, Phil Ydens estimado que existem 2.5 trilhões de documentos PDF no mundo, enquanto acredita-se que o formato represente algo entre 6-11% de todo o conteúdo da web. Em uma cultura tecnológica viciada em interromper tecnologias antigas, o PDF tornou-se uma 'ferrugem' inextinguível – uma parte central da estrutura que o hospeda.

A partir de 2018. Ainda há poucas evidências de um adversário formidável. Fonte: https://twitter.com/trbrtc/status/980407663690502145

A partir de 2018. Ainda há poucas evidências de um adversário formidável. Fonte: https://twitter.com/trbrtc/status/980407663690502145

De acordo com uma estudo recente de pesquisadores da Universidade de Washington e da Biblioteca do Congresso, 'centenas de milhões de documentos exclusivos do governo dos EUA publicados na web em formato PDF foram arquivados por bibliotecas até o momento'.

No entanto, os pesquisadores afirmam que esta é apenas a 'ponta do iceberg'*:

'Como o principal estudioso de história digital Roy Rosenzweig observou já em 2003, quando se trata de fontes primárias digitais nativas para bolsas de estudo, é essencial desenvolver métodos e abordagens que escalarão para dezenas e centenas de milhões e até bilhões de [ recursos]. Chegamos agora ao ponto em que é necessário desenvolver abordagens para esta escala.

"Como exemplo, os arquivos da Web da Biblioteca do Congresso agora contêm mais de 20 bilhões de recursos digitais individuais."

PDFs: Resistente à Análise

O projeto dos pesquisadores de Washington aplica vários métodos de aprendizado de máquina a um disponível ao público e Anotado corpus de 1,000 documentos selecionados da Biblioteca do Congresso, com a intenção de desenvolver sistemas capazes de recuperação ultrarrápida e multimodal de consultas baseadas em texto e imagem em estruturas que podem ser dimensionadas até as alturas dos volumes PDF atuais (e crescentes), não apenas no governo, mas em uma multiplicidade de setores.

Como observa o jornal, o ritmo acelerado da digitalização em vários departamentos do governo balcanizado dos EUA na década de 1990 levou a políticas e práticas divergentes e, frequentemente, à adoção de métodos de publicação em PDF que não continham a mesma qualidade de metadados que antes era o padrão. padrão-ouro dos serviços de biblioteca do governo – ou mesmo metadados de PDF nativos muito básicos, que podem ter sido de alguma ajuda para tornar as coleções de PDF mais acessíveis e fáceis de indexar.

Discutindo esse período de disrupção, os autores observam:

'Esses esforços levaram a um crescimento explosivo da quantidade de publicações do governo, o que, por sua vez, resultou no colapso da abordagem geral pela qual metadados consistentes eram produzidos para tais publicações e pelas quais as bibliotecas adquiriam cópias deles.'

Conseqüentemente, uma típica montanha de PDF existe sem qualquer contexto, exceto os URLs que apontam diretamente para ela. Além disso, os documentos na montanha são fechados, auto-referenciais e não fazem parte de nenhuma 'saga' ou narrativa que as atuais metodologias de busca possam discernir, embora tais conexões ocultas existam sem dúvida.

Na escala em consideração, a anotação ou curadoria manual é uma perspectiva impossível. O corpus de dados do qual os 1000 documentos da Biblioteca do Congresso do projeto foram derivados contém mais de 40 milhões de PDFs, que os pesquisadores pretendem tornar um desafio endereçável em um futuro próximo.

Visão computacional para análise de PDF

A maioria das pesquisas anteriores citadas pelos autores usa métodos baseados em texto para extrair recursos e conceitos de alto nível do material PDF; por outro lado, seu projeto se concentra em derivar recursos e tendências examinando os PDFs em um nível visual, de acordo com pesquisa atual em análise multimodal de conteúdo de notícias.

Embora o aprendizado de máquina também tenha sido aplicado dessa maneira à análise de PDF por meio de esquemas específicos do setor, como Estudioso Semântico, os autores pretendem criar mais pipelines de extração de alto nível que sejam amplamente aplicáveis ​​em uma variedade de publicações, em vez de sintonizados com as restrições da publicação científica ou de outros setores igualmente restritos.

Tratamento de dados desbalanceados

Ao criar um esquema de métricas, os pesquisadores tiveram que considerar a distorção dos dados, pelo menos em termos de tamanho por item.

Dos 1000 PDFs no conjunto de dados selecionado (que os autores presumem ser representativos dos 40 milhões dos quais foram extraídos), 33% têm apenas uma página e 39% têm de 2 a 5 páginas. Isso coloca 72% dos documentos em cinco páginas ou menos.

Depois disso, há um grande salto: 18% dos documentos restantes têm de 6 a 20 páginas, 6% de 20 a 100 páginas e 3% de mais de 100 páginas. Isso significa que os documentos mais longos abrangem a maioria das páginas individuais extraídas, enquanto uma abordagem menos granular, que considera apenas os documentos, desviaria a atenção para os documentos mais curtos, muito mais numerosos.

No entanto, essas são métricas perspicazes, uma vez que documentos de uma página tendem a ser esquemas ou mapas técnicos; Documentos de 2 a 5 páginas tendem a ser comunicados à imprensa e formulários; e os documentos muito longos geralmente são relatórios e publicações do tamanho de um livro, embora, em termos de tamanho, estejam misturados com vastos despejos de dados automatizados que contêm desafios totalmente diferentes para a interpretação semântica.

Portanto, os pesquisadores estão tratando esse desequilíbrio como uma propriedade semântica significativa em si. No entanto, os PDFs ainda precisam ser processados ​​e quantificados por página.

Arquitetura

No início do processo, os metadados do PDF são analisados ​​em dados tabulares. Esses metadados não estarão ausentes, pois consistem em quantidades conhecidas, como tamanho do arquivo e URL de origem.

O PDF é então dividido em páginas, com cada página convertida para um formato JPEG via ImageMagick. A imagem é então alimentada para uma rede ResNet-50 que deriva um vetor de 2,048 dimensões da penúltima camada.

O pipeline para extração de PDFs. Fonte: https://arxiv.org/ftp/arxiv/papers/2112/2112.02471.pdf

O pipeline para extração de PDFs. Fonte: https://arxiv.org/ftp/arxiv/papers/2112/2112.02471.pdf

Ao mesmo tempo, a página é convertida em um arquivo de texto por pdf2text e as características TF-IDF obtidas via scikit-learn.

TF-IDF significa Frequência Termo Frequência Inversa do Documento, que mede a prevalência de cada frase no documento até sua frequência em todo o conjunto de dados do host, em uma escala refinada de 0 a 1. Os pesquisadores usaram palavras únicas (unigramas) como a menor unidade nas configurações TF-IDF do sistema.

Embora eles reconheçam que o aprendizado de máquina tem métodos mais sofisticados para oferecer do que o TF-IDF, os autores argumentam que qualquer coisa mais complexa é desnecessária para a tarefa declarada.

O fato de cada documento ter um URL de origem associado permite que o sistema determine a proveniência dos documentos no conjunto de dados.

Isso pode parecer trivial para mil documentos, mas será uma grande surpresa para mais de 40 milhões.

Novas abordagens para pesquisa de texto

Um dos objetivos do projeto é tornar os resultados de pesquisa para consultas baseadas em texto mais significativos, permitindo uma exploração frutífera sem a necessidade de conhecimento prévio excessivo. Os autores afirmam:

'Embora a pesquisa por palavra-chave seja um método de pesquisa intuitivo e altamente extensível, ela também pode ser limitante, pois os usuários são responsáveis ​​por formular consultas de palavras-chave que recuperam resultados relevantes.'

Uma vez obtidos os valores de TF-IDF, é possível calcular as palavras mais comuns e estimar um documento 'médio' no corpus. Os pesquisadores afirmam que, como essas palavras-chave entre documentos geralmente são significativas, esse processo forma relacionamentos úteis para os estudiosos explorarem, o que não poderia ser obtido apenas pela indexação individual do texto de cada documento.

Visualmente, o processo facilita um 'mood board' de palavras provenientes de vários departamentos governamentais:

Palavras-chave TF-IDF para vários departamentos do governo dos EUA, obtidas pelo TF-IDF.

Palavras-chave TF-IDF para vários departamentos do governo dos EUA, obtidas pelo TF-IDF.

Essas palavras-chave e relacionamentos extraídos podem ser usados ​​posteriormente para formar matrizes dinâmicas nos resultados de pesquisa, com o corpus de PDFs começando a "contar histórias" e relacionamentos de palavras-chave encadeando documentos (possivelmente até mesmo ao longo de centenas de anos), para delinear uma multiplicidade explorável parte 'saga' para um tópico ou tema.

Os pesquisadores usam agrupamento k-means para identificar documentos relacionados, mesmo quando os documentos não compartilham uma fonte comum. Isso permite o desenvolvimento de metadados de frase-chave aplicáveis ​​em todo o conjunto de dados, que se manifestariam como classificações de termos em uma pesquisa de texto estrita ou como nós próximos em um ambiente de exploração mais dinâmico:

Análise Visual

A verdadeira novidade da abordagem dos pesquisadores de Washington é aplicar técnicas de análise visual baseadas em aprendizado de máquina à aparência rasterizada dos PDFs no conjunto de dados.

Dessa forma, é possível gerar uma tag 'REDACTED' em uma base visual, onde nada no texto em si forneceria necessariamente uma base comum o suficiente.

Um conjunto de páginas iniciais em PDF editadas identificadas por visão computacional no novo projeto.

Um conjunto de páginas iniciais em PDF editadas identificadas por visão computacional no novo projeto.

Além disso, esse método pode derivar tal marca até mesmo de documentos governamentais que foram rasterizados, o que geralmente ocorre com material editado, tornando possível uma busca exaustiva e abrangente dessa prática.

Além disso, mapas e esquemas também podem ser identificados e categorizados, e os autores comentam sobre essa funcionalidade potencial:

'Para estudiosos interessados ​​em divulgações de informações confidenciais ou confidenciais, pode ser de particular interesse isolar exatamente esse tipo de grupo de material para análise e pesquisa.'

O documento observa que uma ampla variedade de indicadores visuais comuns a tipos específicos de PDF do governo também pode ser usada para classificar documentos e criar 'sagas'. Esses 'tokens' podem ser o selo do Congresso ou outros logotipos ou recursos visuais recorrentes que não têm existência semântica em uma pesquisa de texto puro.

Além disso, os documentos que desafiam a classificação, ou quando o documento vem de uma fonte não comum, podem ser identificados a partir de seu layout, como colunas, tipos de fonte e outras facetas distintivas.

O layout por si só pode permitir agrupamentos e classificações em um espaço de pesquisa visual.

O layout por si só pode permitir agrupamentos e classificações em um espaço de pesquisa visual.

Embora os autores não tenham negligenciado o texto, claramente o espaço de busca visual é o que tem impulsionado este trabalho.

'A capacidade de pesquisar e analisar PDFs de acordo com seus recursos visuais é, portanto, uma abordagem ampla: ela não apenas aumenta os esforços existentes em torno da análise textual, mas também reinventa o que a pesquisa e a análise podem ser para o conteúdo digital nascido.'

Os autores pretendem desenvolver sua estrutura para acomodar conjuntos de dados muito, muito maiores, incluindo o Arquivo da Web presidencial de fim de mandato de 2008 conjunto de dados, que contém mais de 10 milhões de itens. Inicialmente, porém, eles pretendem ampliar o sistema para lidar com 'dezenas de milhares' de PDFs governamentais.

O sistema deve ser avaliado inicialmente com usuários reais, incluindo bibliotecários, arquivistas, advogados, historiadores e outros acadêmicos, e evoluirá com base no feedback desses grupos.

 

Lidando com a Escala de Publicações Governamentais Born-Digital: Rumo a Pipelines para Processamento e Pesquisa de Milhões de PDFs é escrito por Benjamin Charles Germain Lee (na Paul G. Allen School for Computer Science & Engineering) e Trevor Owens, historiador público residente e chefe de gerenciamento de conteúdo digital na Biblioteca do Congresso em Washington, DC.

 

* Minha conversão de citações inline em hiperlinks.

Publicado originalmente em 28 de dezembro de 2021