Connect with us

Inteligență artificială

Abordarea muntelui de PDF-uri al guvernului SUA cu ajutorul viziunii calculate

mm

Formatul PDF al companiei Adobe s-a înrădăcinat atât de profund în fluxurile de documente ale guvernului american, încât numărul de documente emise de stat, care există în prezent, este estimat conservator să fie de sute de milioane. Descrierile acestor PDF-uri, adesea opace și lipsite de metadate, nu spun niciun fel de poveste sau saga; dacă nu știți exact ce căutați, probabil nu veți găsi niciodată un document relevant. Și dacă ați știut, probabil nu ați avut nevoie de căutare. Cu toate acestea, un nou proiect utilizează viziunea calculată și alte abordări de învățare automată pentru a transforma acest munte de date aproape inaccesibil într-o resursă valoroasă și explorabilă pentru cercetători, istorici, jurnaliști și savanți.

Când guvernul american a descoperit formatul de document portabil (PDF) al companiei Adobe în anii 1990, a decis că îi place. În contrast cu documentele Word editabile, PDF-urile puteau fi “coapte” în diferite moduri care le făceau dificil de modificat ulterioară; fonturile puteau fi încorporate, asigurând compatibilitatea cross-platform; și imprimarea, copierea și chiar deschiderea puteau fi controlate la nivel granular.

Mai important, aceste caracteristici de bază erau disponibile în unele dintre cele mai vechi specificații “de bază” ale formatului, promițând că materialul arhivat nu va trebui să fie reprelucrat sau revisit pentru a asigura accesibilitatea. Aproape tot ceea ce guvernul avea nevoie era în loc din 1996.

Cu tehnologiile de proveniență blockchain și NFT departe, PDF-ul era cât mai aproape de un document analog “mort” – doar un salt conceptual de la un fax. Acesta era exact ceea ce era dorit.

Neînțelegeri interne despre PDF

Gradul în care PDF-urile sunt ermetice, inaccesibile și “non-sociale” este caracterizat în documentația formatului de la Biblioteca Congresului, care favorizează PDF-ul ca “format preferat”:

‘Scopul principal al formatului PDF/A este de a reprezenta documente electronice într-un mod care să păstreze aspectul lor vizual static în timp, independent de instrumentele și sistemele utilizate pentru crearea, stocarea sau afișarea fișierelor. În acest scop, PDF/A încearcă să maximizeze independența dispozitivului, autocoerența și auto-documentarea.’

Entuziasmul continuu pentru formatul PDF, standardele de accesibilitate și cerințele pentru o versiune minimă variază în cadrul departamentelor guvernului american. De exemplu, în timp ce Agenția de Protecție a Mediului are politici stricte, dar susținătoare în acest sens, site-ul oficial al guvernului american plainlanguage.gov recunoaște că “utilizatorii urăsc PDF-urile” și chiar link-uri direct către un raport din 2020 al grupului Nielsen Norman intitulat “PDF: Încă nepotrivit pentru consumul uman, 20 de ani mai târziu”.

Între timp, irs.gov, creat în 1995 special pentru a face tranziția documentației agenției fiscale la digital, a adoptat imediat PDF și este încă un susținător entuziast.

Răspândirea virală a PDF-urilor

De la lansarea specificațiilor de bază pentru PDF de către Adobe, o serie de instrumente și biblioteci de procesare de server au apărut, multe dintre ele fiind acum venerabile și înrădăcinate ca și specificațiile PDF din 1996, și la fel de fiabile și rezistente la bug-uri, în timp ce furnizorii de software s-au grăbit să integreze funcționalitatea PDF în instrumente de mică amploare.

În consecință, indiferent dacă sunt iubite sau urâte de departamentele lor gazdă, PDF-urile rămân ubiquue în cadrul cadrelor de comunicare și documentație dintr-un număr imens de departamente guvernamentale americane.

În 2015, vicepreședintele pentru inginerie al Document Cloud de la Adobe, Phil Ydens, a estimat că există 2,5 trilioane de documente PDF în lume, în timp ce formatul se crede că reprezintă între 6-11% din conținutul web. Într-o cultură tehnologică dependentă de întreruperea tehnologiilor vechi, PDF-ul a devenit “rugină” ineradicabilă – o parte centrală a structurii care o găzduiește.

Din 2018. Nu există încă dovezi ale unui challenger formidabil.

Din 2018. Nu există încă dovezi ale unui challenger formidabil. Source: https://twitter.com/trbrtc/status/980407663690502145

Conform unui studiu recent de la Universitatea din Washington și Biblioteca Congresului, “sute de milioane de documente unice ale guvernului american, postate pe web în format PDF, au fost arhivate de biblioteci până în prezent”.

Cu toate acestea, cercetătorii susțin că acesta este doar “vârful aisbergului”*:

‘Așa cum a remarcat savantul de istorie digitală Roy Rosenzweig încă din 2003, atunci când vine vorba de surse primare digitale născute pentru cercetare, este esențial să se dezvolte metode și abordări care să se extindă la zeci și sute de milioane și chiar miliarde de resurse digitale. Am ajuns acum la punctul în care dezvoltarea unor astfel de abordări este necesară. ‘

‘De exemplu, arhivele web ale Bibliotecii Congresului conțin acum peste 20 de miliarde de resurse digitale individuale.’

PDF-urile: Rezistente la analiză

Proiectul cercetătorilor de la Washington aplică o serie de metode de învățare automată unui corpus public și anotat de 1.000 de documente selectate din Biblioteca Congresului, cu intenția de a dezvolta sisteme capabile de recuperare rapidă, multimodală a textului și a imaginilor în cadrul unor cadre care pot fi extinse la nivelul actual (și în creștere) de volume de PDF, nu numai în guvern, ci și într-o multitudine de sectoare.

Așa cum observă lucrarea, ritmul accelerat de digitizare dintr-o serie de departamente guvernamentale americane balcanizate în anii 1990 a condus la politici și practici divergente, și adesea la adoptarea metodelor de publicare PDF care nu conțineau aceeași calitate de metadate pe care o aveau odată serviciile de bibliotecă guvernamentală – sau chiar metadate native PDF de bază, care ar fi putut fi de ajutor în a face colecțiile de PDF mai accesibile și prietenoase cu indexarea.

Discutând această perioadă de perturbare, autorii notează:

‘Aceste eforturi au condus la o creștere explozivă a cantității de publicații guvernamentale, care la rândul lor au dus la o întrerupere a abordării generale prin care erau produse metadate consistente pentru astfel de publicații și prin care bibliotecile achiziționau copii ale acestora.’

În consecință, un munte obișnuit de PDF există fără niciun context, exceptând URL-urile care link direct la el. Mai mult, documentele din munte sunt închise, auto-referențiale și nu fac parte din nicio “sagă” sau narativ pe care metodologiile de căutare actuale le-ar putea descoperi, deși astfel de legături ascunse există cu siguranță.

La scară, annotarea sau curarea manuală este o perspectivă imposibilă. Corpusul de date din care au fost derivate cele 1000 de documente ale Bibliotecii Congresului conține peste 40 de milioane de PDF-uri, pe care cercetătorii intenționează să le facă o provocare adresabilă în viitorul apropiat.

Viziunea calculată pentru analiza PDF

Cea mai mare parte a cercetărilor anterioare citate de autori utilizează metode bazate pe text pentru a extrage caracteristici și concepte de nivel înalt din materialul PDF; în contrast, proiectul lor se concentrează pe derivarea caracteristicilor și tendințelor prin examinarea PDF-urilor la nivel vizual, în conformitate cu cercetarea actuală privind analiza multimodală a conținutului de știri.

Deși învățarea automată a fost aplicată și în acest mod la analiza PDF prin scheme specifice sectoarelor, cum ar fi Semantic Scholar, autorii își propun să creeze pipeline-uri de extragere de nivel superior care să fie aplicabile pe scară largă într-o varietate de publicații, și nu doar adaptate la rigorile publicării științifice sau ale altor sectoare la fel de înguste.

Abordarea datelor neechilibrate

La crearea unui schema de metrice, cercetătorii au trebuit să ia în considerare cât de înclinate sunt datele, cel puțin în ceea ce privește dimensiunea fiecărui articol.

Dintre cele 1000 de PDF-uri din setul de date selectate (pe care autorii presupun a fi reprezentative pentru cele 40 de milioane de PDF-uri), 33% au doar o pagină, și 39% au 2-5 pagini lungi. Acest lucru plasează 72% din documente la cinci pagini sau mai puțin.

După aceasta, există un salt considerabil: 18% din documentele rămase au 6-20 de pagini, 6% au 20-100 de pagini și 3% au peste 100 de pagini. Acest lucru înseamnă că documentele cele mai lungi reprezintă majoritatea paginilor individuale extrase, în timp ce o abordare mai puțin granulară care ia în considerare doar documentele ar încerca să atragă atenția asupra documentelor mai scurte, mult mai numeroase.

Cu toate acestea, acestea sunt metrice insight, deoarece documentele cu o singură pagină tind să fie scheme tehnice sau hărți; documentele cu 2-5 pagini tind să fie comunicate de presă și formulare; și documentele foarte lungi sunt în general rapoarte și publicații de lungă durată, deși, în ceea ce privește lungimea, sunt amestecate cu dump-uri automate de date uriașe care conțin provocări complet diferite pentru interpretarea semantică.

Prin urmare, cercetătorii tratează acest dezechilibru ca o proprietate semantică semnificativă în sine. Cu toate acestea, PDF-urile trebuie totuși să fie procesate și cuantificate la nivel de pagină.

Arhitectură

La începutul procesului, metadatele PDF-ului sunt analizate în date tabulare. Aceste metadate nu vor lipsi, deoarece constau în cantități cunoscute, cum ar fi dimensiunea fișierului și adresa URL sursă.

PDF-ul este apoi împărțit în pagini, cu fiecare pagină convertită în format JPEG prin intermediul ImageMagick. Imaginea este apoi alimentată cu o rețea ResNet-50, care derivă un vector de 2.048 de dimensiuni din al doilea strat de la sfârșit.

Pipeline-ul pentru extragerea din PDF-uri.

Pipeline-ul pentru extragerea din PDF-uri. Source: https://arxiv.org/ftp/arxiv/papers/2112/2112.02471.pdf

În același timp, pagina este convertită într-un fișier text de pdf2text, și se obțin featurizări TF-IDF prin intermediul scikit-learn.

TF-IDF înseamnă Frecvență a termenului – Frecvență inversă a documentului, care măsoară prevalența fiecărui cuvânt în document față de frecvența lui în întregul set de date, pe o scară fină de la 0 la 1. Cercetătorii au utilizat cuvinte individuale (unigrame) ca unitatea cea mai mică în setările TF-IDF ale sistemului.

Deși recunosc că învățarea automată are metode mai sofisticate de oferit decât TF-IDF, autorii argumentează că orice lucru mai complex este inutil pentru sarcina declarată.

Faptul că fiecare document are o adresă URL asociată permite sistemului să determine proveniența documentelor din întregul set de date.

Acest lucru poate părea trivial pentru o mie de documente, dar va fi destul de revelator pentru 40 de milioane sau mai mult.

Noi abordări pentru căutarea textului

Unul dintre obiectivele proiectului este de a face rezultatele căutării pentru interogări textuale mai semnificative, permițând o explorare fructuoasă fără nevoia de cunoștințe prealabile excesive. Autorii afirmă:

‘În timp ce căutarea cu cuvinte cheie este o metodă intuitivă și foarte extensibilă de căutare, ea poate fi și limitativă, deoarece utilizatorii sunt responsabili pentru formularea de interogări cu cuvinte cheie care să obțină rezultate relevante.’

Odată ce se obțin valorile TF-IDF, este posibil să se calculeze cuvintele cele mai frecvente și să se estimeze un document “mediu” în corpus. Cercetătorii susțin că, deoarece aceste cuvinte cheie trans-documentare sunt de obicei semnificative, acest proces formează relații utile pentru savanți să exploreze, care nu ar fi putut fi obținute doar prin indexarea individuală a textului din fiecare document.

Vizual, procesul facilitează un “panou de dispoziție” de cuvinte care emană din diverse departamente guvernamentale:

Cuvintele cheie TF-IDF pentru diverse departamente guvernamentale americane, obținute prin TF-IDF.

Cuvintele cheie TF-IDF pentru diverse departamente guvernamentale americane, obținute prin TF-IDF.

Aceste cuvinte cheie și relații extrase pot fi ulterior utilizate pentru a forma matrice dinamice în rezultatele căutării, cu corpusul de PDF-uri începând să “povestească”, și relațiile cuvintelor cheie legând documente (posibil chiar pe parcursul a sute de ani), pentru a contura o “sagă” explorabilă pentru un subiect sau o temă.

Cercetătorii utilizează clustering k-means pentru a identifica documente care sunt legate, chiar și atunci când documentele nu au o sursă comună. Acest lucru permite dezvoltarea de metadate-cheie aplicabile pe întregul set de date, care ar putea să se manifeste fie sub formă de clasamente pentru termeni într-o căutare strictă a textului, fie sub formă de noduri apropiate într-un mediu de explorare mai dinamic:

Analiză vizuală

Adevărata noutate a abordării cercetătorilor de la Washington constă în aplicarea tehnicilor de analiză vizuală bazate pe învățarea automată asupra aspectului rasterizat al PDF-urilor din setul de date.

În acest fel, este posibil să se genereze un tag “REDAT” pe baza aspectului vizual, unde nimic în textul însuși nu ar oferi o bază suficient de comună.

Un cluster de pagini de început de PDF redactate identificate prin viziunea calculată în noul proiect.

Un cluster de pagini de început de PDF redactate identificate prin viziunea calculată în noul proiect.

Mai mult, această metodă poate deriva un astfel de tag chiar și din documente guvernamentale care au fost rasterizate, ceea ce este adesea cazul cu materialul redactat, permițând o căutare exhaustivă și cuprinzătoare a acestei practici.

În plus, hărți și scheme pot fi identificate și categorisite în mod similar, iar autorii comentează despre această funcționalitate potențială:

‘Pentru savanții interesați de divulgarea de informații clasificate sau altfel sensibile, poate fi deosebit de interesant să izoleze exact acest tip de cluster de material pentru analiză și cercetare.’

Articolul notează că o varietate de indicatori vizuali comuni unor tipuri specifice de PDF guvernamental pot fi utilizate în mod similar pentru a clasifica documente și a crea “săgi”. Astfel de “tokeni” ar putea fi sigiliul Congresului, sau alte logo-uri sau caracteristici vizuale recurente care nu au o existență semantică într-o căutare pură a textului.

Mai mult, documentele care sfidează clasificarea, sau unde documentul provine dintr-o sursă neobișnuită, pot fi identificate din layout, cum ar fi coloane, tipuri de font și alte aspecte distinctive.

Layout-ul singur poate oferi grupări și clasificări într-un spațiu de căutare vizuală.

Layout-ul singur poate oferi grupări și clasificări într-un spațiu de căutare vizuală.

Deși autorii nu au neglijat textul, este evident că spațiul de căutare vizuală este ceea ce a condus această lucrare.

‘Capacitatea de a căuta și analiza PDF-urile în funcție de caracteristicile lor vizuale este astfel o abordare cuprinzătoare: nu numai că completează eforturile existente din jurul analizei textuale, dar reimagинеază și ce poate fi căutarea și analiza pentru conținutul digital născut.’

Autorii intenționează să dezvolte cadrul lor pentru a acomoda seturi de date mult mai mari, inclusiv arhiva web prezidențială de la sfârșitul mandatului din 2008, care conține peste 10 milioane de articole. Inițial, însă, ei intenționează să extindă sistemul pentru a aborda “zeci de mii” de PDF-uri guvernamentale.

Sistemul este destinat să fie evaluat inițial cu utilizatori reali, inclusiv bibliotecari, arhiviști, avocați, istorici și alți savanți, și va evolua pe baza feedback-ului din aceste grupuri.

 

Lupta cu scara publicațiilor guvernamentale digitale: Înspre pipeline-uri pentru procesarea și căutarea a milioane de PDF-uri este scris de Benjamin Charles Germain Lee (la Școala de Științe și Inginerie a lui Paul G. Allen) și Trevor Owens, istoric public rezident și șef al managementului conținutului digital la Biblioteca Congresului din Washington, D.C..

 

*Conversia mea a citărilor inline în link-uri.

Publicat inițial pe 28 decembrie 2021

 

Scriitor pe machine learning, specialist în domeniul sintezei de imagini umane. Foster head of research content la Metaphysic.ai.