Connect with us

Intelligenza artificiale

Affrontare la Montagna di PDF del Governo degli Stati Uniti con la Visione Artificiale

mm

Il formato PDF di Adobe si è radicato così profondamente nelle pipeline di documenti del governo degli Stati Uniti che il numero di documenti emessi dallo stato attualmente in esistenza è stimato in centinaia di milioni. Spesso opachi e privi di metadati, questi PDF – molti creati da sistemi automatizzati – raccontano collettivamente storie o saghe; se non si sa esattamente cosa si sta cercando, probabilmente non si troverà mai un documento pertinente. E se lo si sapesse, probabilmente non si sarebbe avuta bisogno della ricerca.Tuttavia, un nuovo progetto sta utilizzando la visione artificiale e altri approcci di apprendimento automatico per trasformare questa quasi inaccessibile montagna di dati in una risorsa preziosa e esplorabile per ricercatori, storici, giornalisti e studiosi.

Quando il governo degli Stati Uniti ha scoperto il Portable Document Format (PDF) di Adobe negli anni ’90, ha deciso che gli piaceva. A differenza dei documenti Word modificabili, i PDF potevano essere “cotti” in vari modi che li rendevano difficili o addirittura impossibili da modificare in seguito; i font potevano essere incorporati, garantendo la compatibilità cross-platform; e la stampa, la copia e addirittura l’apertura potevano essere controllate a livello granulare.

Molto importante, queste caratteristiche di base erano disponibili in alcune delle specifiche “baseline” più vecchie del formato, promettendo che il materiale d’archivio non avrebbe dovuto essere riprocessato o rivisitato in seguito per garantire l’accessibilità. Quasi tutto ciò di cui il governo aveva bisogno era in posto entro il 1996.

Con la provenienza blockchain e le tecnologie NFT decenni lontane, il PDF era quanto di più vicino all’età digitale emergente poteva avvicinarsi a un documento “morto” analogico, a un concetto di hiccup lontano da un fax. Questo era esattamente ciò che era voluto.

Dissenso interno sul PDF

L’estensione in cui i PDF sono ermetici, intractabili e “non social” è caratterizzata nella documentazione sul formato alla Library of Congress, che favorisce il PDF come suo “formato preferito”:

‘L’obiettivo principale per il formato PDF/A è rappresentare i documenti elettronici in un modo che preservi la loro apparenza visiva statica nel tempo, indipendentemente dagli strumenti e dai sistemi utilizzati per la creazione, l’archiviazione o la visualizzazione dei file. A questo scopo, il PDF/A tenta di massimizzare l’indipendenza del dispositivo, l’autosufficienza e l’autodocumentazione.’

L’entusiasmo continuo per il formato PDF, gli standard per l’accessibilità e i requisiti per una versione minima, variano tra i dipartimenti del governo degli Stati Uniti. Ad esempio, mentre l’Agenzia per la protezione dell’ambiente ha politiche stringenti ma di supporto in questo senso, il sito web ufficiale del governo degli Stati Uniti plainlanguage.gov riconosce che ‘gli utenti odiano i PDF’, e collega direttamente a un rapporto del 2020 del Nielsen Norman Group intitolato PDF: ancora inadatto al consumo umano, 20 anni dopo.

Nel frattempo, irs.gov, creato nel 1995 specificamente per trasferire la documentazione dell’agenzia delle entrate al digitale, ha immediatamente adottato il PDF e rimane un accanito sostenitore.

La diffusione virale dei PDF

Dopo che le specifiche core per il PDF sono state rilasciate come open source da Adobe, un insieme di strumenti di elaborazione lato server e librerie sono emerse, molte delle quali ora venerabili e radicate quanto le specifiche PDF del 1996, e altrettanto affidabili e resistenti ai bug, mentre i vendor di software si sono affrettati a integrare la funzionalità PDF in strumenti a basso costo.

Di conseguenza, amati o odiati dai loro dipartimenti ospiti, i PDF rimangono onnipresenti nei framework di comunicazione e documentazione di un enorme numero di dipartimenti del governo degli Stati Uniti.

Nel 2015, il VP Engineering di Adobe per il Document Cloud, Phil Ydens ha stimato che esistono 2,5 trilioni di documenti PDF nel mondo, mentre il formato si ritiene responsabile di circa il 6-11% di tutti i contenuti web. In una cultura tecnologica dipendente dalla distruzione delle vecchie tecnologie, il PDF è diventato un “ruggine” inestirpabile – una parte centrale della struttura che lo ospita.

Dal 2018. Non ci sono prove di un concorrente formidabile.

Dal 2018. Non ci sono prove di un concorrente formidabile. Source: https://twitter.com/trbrtc/status/980407663690502145

Secondo uno studio recente di ricercatori dell’Università di Washington e della Library of Congress, ‘centinaia di milioni di documenti governativi univoci degli Stati Uniti pubblicati sul web in forma PDF sono stati archiviati dalle biblioteche fino ad oggi’.

Tuttavia, i ricercatori sostengono che questo è solo la “punta dell’iceberg”*:

‘Come ha notato il principale studioso di storia digitale Roy Rosenzweig già nel 2003, quando si tratta di fonti primarie digitali native per la ricerca, è essenziale sviluppare metodi e approcci che possano scalare a decine e centinaia di milioni e persino miliardi di risorse digitali. Siamo ora arrivati al punto in cui sviluppare approcci per questa scala è necessario.

‘Ad esempio, gli archivi web della Library of Congress contengono ora più di 20 miliardi di risorse digitali individuali.’

PDF: resistenti all’analisi

Il progetto dei ricercatori di Washington applica una serie di metodi di apprendimento automatico a un dataset pubblicamente disponibile e annotato corpus di 1.000 documenti selezionati dalla Library of Congress, con l’intento di sviluppare sistemi in grado di recupero rapido e multimodale di query di testo e immagine in framework che possono scalare fino alle altezze degli attuali (e crescenti) volumi di PDF, non solo nel governo, ma in molti settori.

Come osserva il documento, il ritmo accelerato di digitalizzazione in una serie di dipartimenti governativi degli Stati Uniti negli anni ’90 ha portato a politiche e pratiche divergenti e spesso all’adozione di metodi di pubblicazione PDF che non contenevano la stessa qualità di metadati che era una volta lo standard d’oro dei servizi di biblioteca del governo – o anche solo i metadati nativi di base del PDF, che avrebbero potuto essere di qualche aiuto nel rendere le raccolte di PDF più accessibili e amichevoli per l’indicizzazione.

Discutendo questo periodo di disgregazione, gli autori notano:

‘Questi sforzi hanno portato a una crescita esplosiva della quantità di pubblicazioni governative, che a sua volta ha portato a un crollo dell’approccio generale con cui venivano prodotti metadati coerenti per tali pubblicazioni e con cui le biblioteche acquistavano copie di esse.’

Di conseguenza, una tipica montagna di PDF esiste senza alcun contesto eccetto gli URL che vi si collegano direttamente. Inoltre, i documenti nella montagna sono chiusi, auto-referenziali e non fanno parte di alcuna “saga” o narrazione che le metodologie di ricerca attuali siano probabili da discernere, anche se tali connessioni nascoste esistono senza dubbio.

A scala considerata, l’annotazione o la cura manuale è un’impresa impossibile. Il corpus di dati da cui i 1000 documenti della Library of Congress sono stati derivati contiene oltre 40 milioni di PDF, che i ricercatori intendono rendere una sfida indirizzabile nel prossimo futuro.

Computer Vision per l’analisi dei PDF

La maggior parte della ricerca precedente citata dagli autori utilizza metodi basati sul testo per estrarre funzionalità e concetti di alto livello da materiale PDF; al contrario, il loro progetto si concentra sull’estrazione di funzionalità e tendenze esaminando i PDF a livello visivo, in linea con la ricerca attuale sull’analisi multimodale dei contenuti di notizie.

Sebbene l’apprendimento automatico sia stato applicato anche in questo modo all’analisi dei PDF tramite schemi specifici del settore come Semantic Scholar, gli autori intendono creare pipeline di estrazione di livello superiore che siano ampiamente applicabili in una serie di pubblicazioni, piuttosto che essere regolati dalle strettoie della pubblicazione scientifica o di altri settori altrettanto ristretti.

Indirizzare dati non bilanciati

Nel creare uno schema di metriche, i ricercatori hanno dovuto considerare come sono distorti i dati, almeno in termini di dimensione per elemento.

Dei 1000 PDF nel dataset selezionato (che gli autori presumono rappresentativo dei 40 milioni da cui sono stati tratti), il 33% è lungo solo una pagina, e il 39% è lungo da 2 a 5 pagine. Ciò pone il 72% dei documenti a cinque pagine o meno.

Dopo di questo, c’è un salto abbastanza grande: il 18% dei documenti rimanenti è lungo da 6 a 20 pagine, il 6% da 20 a 100 pagine e il 3% da 100 pagine o più. Ciò significa che i documenti più lunghi comprendono la maggior parte delle pagine individuali estratte, mentre un approccio meno granulare che considera i documenti soli sarebbe distorto verso i documenti più brevi e più numerosi.

Nonostante ciò, queste sono metriche significative, poiché i documenti di una sola pagina tendono a essere schemi tecnici o mappe; i documenti da 2 a 5 pagine tendono a essere comunicati stampa e moduli; e i documenti molto lunghi sono generalmente rapporti e pubblicazioni di lunghezza di libro, anche se, in termini di lunghezza, sono mescolati con enormi scarichi di dati automatizzati che presentano sfide diverse per l’interpretazione semantica.

Pertanto, i ricercatori stanno trattando questo squilibrio come una proprietà semantica significativa in sé. Nonostante ciò, i PDF devono ancora essere elaborati e quantificati su base per pagina.

Architettura

All’inizio del processo, i metadati del PDF vengono analizzati in dati tabellari. Questi metadati non saranno assenti, poiché consistono in quantità note come dimensione del file e URL di origine.

Il PDF viene quindi diviso in pagine, con ogni pagina convertita in formato JPEG tramite ImageMagick. L’immagine viene quindi alimentata a una rete ResNet-50 che deriva un vettore di 2.048 dimensioni dal secondo livello più basso.

La pipeline per l'estrazione da PDF.

La pipeline per l’estrazione da PDF. Source: https://arxiv.org/ftp/arxiv/papers/2112/2112.02471.pdf

Allo stesso tempo, la pagina viene convertita in un file di testo da pdf2text e le featurizzazioni TF-IDF vengono ottenute tramite scikit-learn.

TF-IDF sta per Frequenza del termine Frequenza inversa del documento, che misura la prevalenza di ogni frase all’interno del documento alla sua frequenza nell’intero set di dati, su una scala fine di 0 a 1. I ricercatori hanno utilizzato singole parole (unigrammi) come unità più piccola nel sistema TF-IDF.

Sebbene riconoscano che l’apprendimento automatico abbia metodi più sofisticati da offrire rispetto al TF-IDF, gli autori sostengono che nulla di più complesso è necessario per il compito dichiarato.

Il fatto che ogni documento abbia un URL di origine associato consente al sistema di determinare la provenienza dei documenti nell’intero set di dati.

Ciò potrebbe sembrare banale per mille documenti, ma sarà piuttosto rivelatore per 40 milioni o più.

Nuovi approcci alla ricerca di testo

Uno degli obiettivi del progetto è rendere i risultati di ricerca per query di testo più significativi, consentendo un’utile esplorazione senza la necessità di una conoscenza preventiva eccessiva. Gli autori affermano:

‘Sebbene la ricerca per parole chiave sia un metodo di ricerca intuitivo e altamente estensibile, può anche essere limitante, poiché gli utenti sono responsabili della formulazione di query di parole chiave che recuperano risultati rilevanti.’

Una volta ottenuti i valori TF-IDF, è possibile calcolare le parole più comunemente presentate e stimare un “documento medio” nel corpus. I ricercatori sostengono che poiché queste parole chiave cross-documento sono generalmente significative, questo processo forma relazioni utili per gli studiosi da esplorare, che non potrebbero essere ottenute solo dall’indicizzazione individuale del testo di ogni documento.

Visivamente, il processo facilita una “tavola dei colori” di parole provenienti da vari dipartimenti governativi:

Parole chiave TF-IDF per vari dipartimenti governativi degli Stati Uniti, ottenute tramite TF-IDF.

Parole chiave TF-IDF per vari dipartimenti governativi degli Stati Uniti, ottenute tramite TF-IDF.

Queste parole chiave e relazioni estratte possono essere utilizzate in seguito per formare matrici dinamiche nei risultati di ricerca, con il corpus di PDF che inizia a “raccontare storie”, e relazioni di parole chiave che collegano documenti (possibilmente anche su centinaia di anni), per delineare una “saga” esplorabile multi-partita per un argomento o tema.

I ricercatori utilizzano il clustering k-means per identificare documenti correlati, anche quando i documenti non condividono una fonte comune. Ciò consente lo sviluppo di metadati di frase chiave applicabili in tutto il set di dati, che si manifesterebbero come classifiche per termini in una ricerca di testo rigorosa o come nodi vicini in un ambiente di esplorazione più dinamico:

Analisi visiva

La vera novità dell’approccio dei ricercatori di Washington è applicare tecniche di analisi visiva basate sull’apprendimento automatico all’aspetto rasterizzato dei PDF nel set di dati.

In questo modo, è possibile generare un tag “REDACTED” su base visiva, dove nulla nel testo stesso fornirebbe una base comune sufficiente.

Un cluster di pagine iniziali di PDF oscurate identificate dalla visione artificiale nel nuovo progetto.

Un cluster di pagine iniziali di PDF oscurate identificate dalla visione artificiale nel nuovo progetto.

Inoltre, questo metodo può derivare tale tag anche da documenti governativi che sono stati rasterizzati, che è spesso il caso con il materiale oscurato, rendendo possibile una ricerca esaustiva e completa per questa pratica.

Inoltre, mappe e schemi possono essere identificati e categorizzati allo stesso modo, e gli autori commentano questa funzionalità potenziale:

‘Per gli studiosi interessati alle rivelazioni di informazioni classificate o altrimenti sensibili, potrebbe essere di particolare interesse isolare esattamente questo tipo di cluster di materiale per l’analisi e la ricerca.’

Il documento osserva che una vasta gamma di indicatori visivi comuni a tipi specifici di PDF governativi possono essere utilizzati per classificare i documenti e creare “saghe”. Tali “token” potrebbero essere il sigillo del Congresso o altri loghi o caratteristiche visive ricorrenti che non hanno esistenza semantica in una ricerca di testo pura.

Inoltre, i documenti che sfidano la classificazione, o dove il documento proviene da una fonte non comune, possono essere identificati dal loro layout, come colonne, tipi di carattere e altri aspetti distintivi.

Il layout solo può offrire raggruppamenti e classificazioni in uno spazio di ricerca visiva.

Il layout solo può offrire raggruppamenti e classificazioni in uno spazio di ricerca visiva.

Sebbene gli autori non abbiano trascurato il testo, è chiaro che lo spazio di ricerca visiva è ciò che ha guidato questo lavoro.

‘La capacità di cercare e analizzare i PDF in base alle loro caratteristiche visive è quindi un approccio capace: non solo aumenta gli sforzi esistenti che circondano l’analisi testuale, ma riimmagina anche cosa può essere la ricerca e l’analisi per i contenuti digitali nativi.’

Gli autori intendono sviluppare il loro framework per ospitare set di dati molto più grandi, inclusi il 2008 End of Term Presidential Web Archive dataset, che contiene oltre 10 milioni di elementi. Inizialmente, tuttavia, intendono scalare il sistema per affrontare “decine di migliaia” di PDF governativi.

Il sistema è destinato a essere valutato inizialmente con utenti reali, tra cui bibliotecari, archivisti, avvocati, storici e altri studiosi, ed evolverà in base ai feedback di questi gruppi.

 

Grappling with the Scale of Born-Digital Government Publications: Toward Pipelines for Processing and Searching Millions of PDFs è scritto da Benjamin Charles Germain Lee (alla Paul G. Allen School for Computer Science & Engineering) e Trevor Owens, Public Historian in Residence e Head of Digital Content Management alla Library of Congress a Washington, D.C..

 

* La mia conversione delle citazioni in linea in collegamenti ipertestuali.

Pubblicato originariamente il 28 dicembre 2021

 

Scrittore su apprendimento automatico, specialista di dominio nella sintesi di immagini umane. Ex capo della ricerca contenuti presso Metaphysic.ai.