Inteligență artificială
Abordarea muntelui de PDF-uri al guvernului SUA cu ajutorul viziunii calculate

Formatul PDF al companiei Adobe s-a înrădăcinat atât de profund în fluxurile de documente ale guvernului SUA, încât numărul de documente emise de stat care există în prezent este estimat conservator să fie de sute de milioane. Descrierile acestor PDF-uri sunt adesea opace și lipsite de metadate, iar acestea, create de sisteme automate, nu spun în mod colectiv niciun fel de poveste sau saga; dacă nu știți exact ce căutați, probabil nu veți găsi niciodată un document pertinent. Și dacă ați știut, probabil nu ați avut nevoie de căutare. Cu toate acestea, un proiect nou folosește viziunea calculată și alte abordări de învățare automată pentru a transforma acest munte de date aproape inaccesibil într-o resursă valoroasă și explorabilă pentru cercetători, istorici, jurnaliști și savanți.
Când guvernul SUA a descoperit formatul de document portabil (PDF) al companiei Adobe în anii 1990, a decis că îi place. În contrast cu documentele Word editabile, PDF-urile puteau fi “coapte” în diferite moduri care le făceau dificile sau chiar imposibile de modificat ulterioară; fonturile puteau fi încorporate, asigurând compatibilitatea cross-platform; și tipărirea, copierea și chiar deschiderea puteau fi controlate la nivel granular.
Mai important, aceste funcții de bază erau disponibile în unele dintre cele mai vechi specificații “de bază” ale formatului, promițând că materialul arhivat nu va trebui să fie reprelucrat sau reexaminat ulterioară pentru a asigura accesibilitatea. Aproape tot ceea ce guvernul avea nevoie pentru publicare era în loc până în 1996.
Cu tehnologiile de proveniență blockchain și NFT departe, PDF-ul era cât mai aproape de un document analog “mort” pe care era digitalul emergent putea să-l obțină, doar o mică problemă conceptuală departe de un fax. Acesta era exact ceea ce se dorea.
Neînțelegeri interne despre PDF
Extinderea la care PDF-urile sunt ermetice, intractabile și “nesociale” este caracterizată în documentația despre formatul de la Biblioteca Congresului, care favorizează PDF-ul ca “format preferat”:
‘Scopul principal pentru formatul PDF/A este de a reprezenta documente electronice într-un mod care să păstreze aspectul lor vizual static în timp, independent de uneltele și sistemele folosite pentru crearea, stocarea sau afișarea fișierelor. În acest scop, PDF/A încearcă să maximizeze independența dispozitivului, autocoerența și auto-documentarea.’
Entuziasmul continuu pentru formatul PDF, standardele pentru accesibilitate și cerințele pentru o versiune minimă variază în cadrul diferitelor departamente ale guvernului SUA. De exemplu, în timp ce Agenția pentru Protecția Mediului are politici stricte, dar susținătoare în acest sens, site-ul oficial al guvernului SUA plainlanguage.gov recunoaște că ‘utilizatorii urăsc PDF’, și chiar link-uri direct către un raport din 2020 al Nielsen Norman Group, intitulat PDF: Încă nepotrivit pentru consumul uman, 20 de ani mai târziu.
Între timp, irs.gov, creat în 1995 în mod special pentru a face tranziția documentației agenției fiscale către digital, a adoptat imediat PDF și rămâne un susținător entuziast.
Răspândirea virală a PDF-urilor
De la lansarea specificațiilor de bază pentru PDF de către Adobe, o serie de unelte de procesare de server și biblioteci au apărut, multe dintre ele acum venerabile și înrădăcinate ca și specificațiile PDF din 1996, și la fel de fiabile și rezistente la bug-uri, în timp ce furnizorii de software s-au grăbit să integreze funcționalitatea PDF în unelte de cost redus.
În consecință, iubit sau urât de departamentele sale gazdă, PDF-urile rămân ubiquitare în cadrul cadrelor de comunicare și documentație dintr-un număr imens de departamente ale guvernului SUA.
În 2015, vicepreședintele pentru inginerie al Document Cloud de la Adobe, Phil Ydens, a estimat că există 2,5 trilioane de documente PDF în lume, în timp ce se crede că formatul reprezintă undeva între 6-11% din conținutul web.
Într-o cultură tehnologică dependentă de întreruperea tehnologiilor vechi, PDF a devenit “rugină” ineradicabilă – o parte centrală a structurii care o găzduiește.
Arhitectura
La începutul procesului, metadatele PDF sunt analizate în date tabulare. Aceste metadate nu vor lipsi, deoarece constau în cantități cunoscute, cum ar fi dimensiunea fișierului și adresa URL de origine.
PDF-ul este apoi împărțit în pagini, cu fiecare pagină convertită în format JPEG prin ImageMagick. Imaginea este apoi alimentată cu o rețea ResNet-50, care derivă un vector de 2.048 de dimensiuni din al doilea strat de la sfârșit.

Pipeline-ul pentru extragere din PDF-uri. Source: https://arxiv.org/ftp/arxiv/papers/2112/2112.02471.pdf
În același timp, pagina este convertită într-un fișier text prin pdf2text, iar featurizările TF-IDF sunt obținute prin scikit-learn.
TF-IDF înseamnă Frecvență a termenului – Frecvență inversă a documentului, care măsoară prevalența fiecărui cuvânt în cadrul documentului față de frecvența acestuia în ansamblul setului de date gazdă, pe o scară fină de la 0 la 1. Cercetătorii au folosit cuvinte simple (unigrame) ca unitatea cea mai mică în setările TF-IDF ale sistemului.
Deși recunosc că învățarea automată are metode mai sofisticate de oferit decât TF-IDF, autorii susțin că orice lucru mai complex este inutil pentru sarcina declarată.
Faptul că fiecare document are o adresă URL asociată permite sistemului să determine proveniența documentelor din cadrul setului de date.

Acest lucru poate părea banal pentru o mie de documente, dar va fi destul de revelator pentru 40 de milioane+.
Noi abordări pentru căutarea textului
Unul dintre obiectivele proiectului este de a face rezultatele căutării pentru interogările textuale mai semnificative, permițând o explorare fructuoasă fără nevoia de cunoștințe prealabile excesive. Autorii afirmă:
‘În timp ce căutarea pe cuvinte cheie este o metodă intuitivă și foarte extensibilă de căutare, ea poate fi și limitată, deoarece utilizatorii sunt responsabili pentru formularea de interogări pe cuvinte cheie care să obțină rezultate relevante.’
Odată ce se obțin valorile TF-IDF, este posibil să se calculeze cuvintele cel mai frecvent întâlnite și să se estimeze un document “mediu” în corpus. Cercetătorii susțin că, deoarece aceste cuvinte cheie trans-document sunt de obicei semnificative, acest proces formează relații utile pentru savanți să exploreze, care nu ar fi putut fi obținute doar prin indexarea individuală a textului din fiecare document.
Vizual, procesul facilitează un “panou de dispoziție” de cuvinte care emană din diferite departamente ale guvernului:

Cuvintele cheie TF-IDF pentru diverse departamente ale guvernului SUA, obținute prin TF-IDF.
Aceste cuvinte cheie extrase și relații pot fi ulterior folosite pentru a forma matrice dinamice în rezultatele căutării, cu corpusul de PDF-uri care începe să “povestească”, iar relațiile cuvintelor cheie care leagă documente (posibil chiar și de-a lungul a sute de ani), pentru a contura o “sagă” explorabilă multi-part pentru un subiect sau temă.
Cercetătorii folosesc clustering k-means pentru a identifica documente care sunt legate, chiar și atunci când documentele nu au o sursă comună. Acest lucru permite dezvoltarea de metadate de fraze cheie aplicabile în întregul set de date, care ar apărea fie sub formă de clasamente pentru termeni într-o căutare strictă de text, fie sub formă de noduri apropiate într-un mediu de explorare mai dinamic:

Analiză vizuală
Adevărata noutate a abordării cercetătorilor de la Washington constă în aplicarea tehnicilor de analiză vizuală bazate pe învățarea automată asupra aspectului rasterizat al PDF-urilor din setul de date.
În acest fel, este posibil să se genereze o etichetă “REDACTAT” pe baza aspectului vizual, unde nimic din textul în sine nu ar oferi o bază suficient de comună.

Un cluster de pagini de început ale PDF-urilor redactate identificate prin viziunea calculată în noul proiect.
Mai mult, această metodă poate deriva o astfel de etichetă chiar și din documente guvernamentale care au fost rasterizate, ceea ce este adesea cazul cu materialul redactat, permițând o căutare exhaustivă și cuprinzătoare a acestei practici.
În plus, hărțile și schemele pot fi identificate și categorisite în mod similar, iar autorii comentează despre această funcționalitate potențială:
‘Pentru savanții interesați de divulgarea de informații clasificate sau de altă natură sensibilă, poate fi deosebit de interesant să izoleze exact acest tip de cluster de material pentru analiză și cercetare.’
Articolul notează că o varietate largă de indicatori vizuali comuni unor tipuri specifice de PDF guvernamentale pot fi folosiți în mod similar pentru a clasifica documente și a crea “săgi”. Astfel de “jetoane” ar putea fi sigiliul Congresului sau alte logo-uri sau caracteristici vizuale recurente care nu au o existență semantică într-o căutare pură de text.
Documentele care sfidează clasificarea sau care provin dintr-o sursă neobișnuită pot fi identificate din aspectul lor, cum ar fi coloane, tipuri de fonturi și alte aspecte distinctive.

Aspectul singur poate oferi grupări și clasificări într-un spațiu de căutare vizuală.
Deși autorii nu au neglijat textul, este evident că spațiul de căutare vizuală este ceea ce a condus acest lucru.
‘Capacitatea de a căuta și analiza PDF-urile în funcție de caracteristicile lor vizuale este astfel o abordare cuprinzătoare: nu numai că completează eforturile existente în jurul analizei textuale, dar reimaginează și ce poate fi căutarea și analiza pentru conținutul digital nativ.’
Autorii intenționează să dezvolte cadrul lor pentru a acomoda seturi de date mult mai mari, inclusiv Arhiva web prezidențială de la sfârșitul mandatului din 2008 setul de date, care conține peste 10 milioane de articole. Inițial, însă, ei intenționează să extindă sistemul pentru a aborda “zeci de mii” de PDF-uri guvernamentale.
Sistemul este destinat să fie evaluat inițial cu utilizatori reali, inclusiv bibliotecari, arhiviști, avocați, istorici și alți savanți, și va evolua pe baza feedback-ului de la aceste grupuri.
Lupta cu scara publicațiilor guvernamentale digitale: Către conducte pentru procesarea și căutarea a milioane de PDF-uri este scris de Benjamin Charles Germain Lee (la Școala de științe și inginerie computerizată Paul G. Allen) și Trevor Owens, istoric public rezident și șef al managementului conținutului digital la Biblioteca Congresului din Washington, D.C..
*Conversia mea a citatelor inline în hyperlink-uri.
Publicat inițial pe 28 decembrie 2021












