Kunstmatige intelligentie
Het aanpakken van de PDF-berg van de Amerikaanse overheid met computer vision

Adobe’s PDF-formaat heeft zich zo diep in de documentenpijplijn van de Amerikaanse overheid genesteld dat het aantal door de staat uitgegeven documenten die momenteel bestaan, op zijn minst op honderden miljoenen wordt geschat. Vaak ondoorzichtig en zonder metadata, vertellen deze PDF’s – veelal gegenereerd door geautomatiseerde systemen – collectief geen verhalen of sagen; als je niet precies weet waar je naar zoekt, zal je waarschijnlijk nooit een relevant document vinden. En als je het wel wist, had je waarschijnlijk geen zoekopdracht nodig.Een nieuw project gebruikt echter computer vision en andere machine learning-benaderingen om deze bijna onbenaderbare berg aan gegevens om te zetten in een waardevolle en onderzoekbare bron voor onderzoekers, historici, journalisten en wetenschappers.
Toen de Amerikaanse overheid in de jaren 90 kennismaakte met Adobe’s Portable Document Format (PDF), besloot ze dat ze het leuk vond. In tegenstelling tot bewerkbare Word-documenten konden PDF’s op een manier worden ‘gebakken’ die het moeilijk of zelfs onmogelijk maakte om ze later te wijzigen; lettertypen konden worden ingebed, waardoor cross-platform-compatibiliteit werd gewaarborgd; en afdrukken, kopiëren en zelfs openen konden allemaal op granulair niveau worden gecontroleerd.
Belangrijker nog, waren deze kernfuncties beschikbaar in enkele van de oudste ‘baseline’-specificaties van het formaat, waardoor werd beloofd dat archiefmateriaal niet opnieuw hoefde te worden verwerkt of herbezocht om toegankelijkheid te garanderen. Bijna alles wat de overheid nodig had voor publicatie was aanwezig in 1996.
Met blockchain-provenance en NFT-technologieën nog decennia weg, was de PDF zo dicht bij een ‘dode’ analoge document als de opkomende digitale tijd kon komen – slechts een conceptueel haperen verwijderd van een fax. Dit was precies wat gewenst was.
Interne twijfel over PDF
De mate waarin PDF’s hermetisch, onbeïnvloedbaar en ‘niet-sociaal’ zijn, wordt gekarakteriseerd in de documentatie over het formaat bij de Library of Congress, die PDF als zijn ‘voorkeursformaat’ bevorwoordt:
‘Het primaire doel van het PDF/A-formaat is om elektronische documenten weer te geven op een manier die hun statische visuele verschijning in de loop van de tijd behoudt, onafhankelijk van de tools en systemen die worden gebruikt voor het maken, opslaan of weergeven van bestanden. Daartoe probeert PDF/A apparaatafhankelijkheid, zelfbevattende en zelfdocumentatie te maximaliseren.’
De voortdurende enthousiasme voor het PDF-formaat, standaarden voor toegankelijkheid en vereisten voor een minimumversie, variëren echter over de verschillende afdelingen van de Amerikaanse overheid. Zo heeft de Environmental Protection Agency bijvoorbeeld strikte maar ondersteunende beleidsregels op dit gebied, terwijl de officiële website van de Amerikaanse overheid plainlanguage.gov erkent dat ‘gebruikers een hekel hebben aan PDF’, en zelfs rechtstreeks linkt naar een rapport van Nielsen Norman Group uit 2020 getiteld PDF: nog steeds niet geschikt voor menselijke consumptie, 20 jaar later.
Intussen is irs.gov, in 1995 specifiek gecreëerd om de documentatie van de belastingdienst naar digitaal om te zetten, onmiddellijk PDF overgenomen en is het nog steeds een grote voorstander.
De virale verspreiding van PDF’s
Sinds de corespecificaties voor PDF zijn vrijgegeven als open source door Adobe, is een reeks van server-side verwerkingstools en bibliotheken ontstaan, waarvan veel nu even geëerd en ingeburgerd zijn als de PDF-specificaties uit 1996, en even betrouwbaar en foutbestendig, terwijl softwareleveranciers haastten zich om PDF-functionaliteit te integreren in low-cost tools.
Als gevolg daarvan blijven PDF’s, geliefd of gehaat door hun gastdepartementen, alomtegenwoordig in de communicatie- en documentatiekaders over een enorm aantal afdelingen van de Amerikaanse overheid.
In 2015 schatte Adobe’s VP Engineering for Document Cloud, Phil Ydens , dat 2,5 biljoen PDF-documenten bestaan in de wereld, terwijl het formaat naar verwachting verantwoordelijk is voor ergens tussen 6-11% van alle webinhoud. In een techniecultuur die verslaafd is aan het ontwrichten van oude technologieën, is PDF onuitroeibaar ‘roest’ geworden – een centraal onderdeel van de structuur die het host.
PDF’s: resistent tegen analyse
Het project van de onderzoekers in Washington past een aantal machine learning-methoden toe op een openbaar beschikbare en geannoteerde corpus van 1.000 geselecteerde documenten uit de Library of Congress, met als doel systemen te ontwikkelen die in staat zijn tot bliksemsnelle, multimodale ophaling van tekst- en beeldgebaseerde queries in kaders die kunnen worden geschaald tot de hoogten van de huidige (en groeiende) PDF-volumes, niet alleen in de overheid, maar ook in een veelvoud van sectoren.
Zoals het papier opmerkt, leidde de versnellende tempo van digitalisering in de jaren 90 tot uiteenlopende beleidsregels en praktijken, en vaak tot de overname van PDF-publicatiemethoden die niet de kwaliteit van metadata bevatten die ooit de gouden standaard was van overheidsbibliotheken – of zelfs maar basismetadata van PDF, die enige hulp had kunnen bieden bij het maken van PDF-verzamelingen toegankelijker en vriendelijker voor indexering.
Het bespreken van deze periode van ontwrichting, merken de auteurs op:
‘Deze inspanningen leidden tot een explosieve groei van de hoeveelheid overheidspublicaties, die op hun beurt resulteerden in een ineenstorting van de algemene aanpak waarmee consistent metadata werden geproduceerd voor dergelijke publicaties en waarmee bibliotheken kopieën van hen verkregen.’
Als gevolg daarvan bestaat een typische PDF-berg zonder enige context, behalve de URL’s die rechtstreeks naar het verwijzen. Bovendien zijn de documenten in de berg gesloten, zelfreferentieel en vormen ze geen deel van enig ‘verhaal’ of ‘saga’ dat huidige zoekmethoden waarschijnlijk zullen ontdekken, hoewel dergelijke verborgen verbindingen ongetwijfeld bestaan.
Op de schaal die in overweging wordt genomen, is handmatige annotatie of curatie een onmogelijk perspectief. De corpus van gegevens waaruit de 1000 Library of Congress-documenten zijn afgeleid, bevat meer dan 40 miljoen PDF’s, die de onderzoekers van plan zijn om in de nabije toekomst aan te pakken.
Computer vision voor PDF-analyse
De meeste van de eerder onderzoek dat de auteurs citeren, gebruikt tekstgebaseerde methoden om kenmerken en hoogwaardige concepten uit PDF-materiaal te extraheren; in tegenstelling tot hun project, dat zich richt op het afleiden van kenmerken en trends door de PDF’s op een visueel niveau te onderzoeken, in overeenstemming met huidig onderzoek naar multimodale analyse van nieuwsinhoud.
Hoewel machine learning ook op deze manier is toegepast op PDF-analyse via sectorspecifieke schema’s zoals Semantic Scholar, beogen de auteurs om meer hoogwaardige extractiepijpleidingen te creëren die breed toepasbaar zijn op een reeks publicaties, in plaats van afgestemd te zijn op de striktheid van wetenschappelijke publicaties of andere even smalle sectoren.
Aanpak van onevenwichtige gegevens
Bij het creëren van een metricschema, moesten de onderzoekers rekening houden met hoe scheef de gegevens zijn, tenminste in termen van grootte per item.
Van de 1000 PDF’s in de geselecteerde dataset (die de auteurs veronderstellen representatief te zijn voor de 40 miljoen waaruit ze zijn getrokken), zijn 33% slechts één pagina lang, en 39% zijn 2-5 pagina’s lang. Dit zet 72% van de documenten op vijf pagina’s of minder.
Daarna is er een behoorlijke sprong: 18% van de resterende documenten lopen van 6-20 pagina’s, 6% van 20-100 pagina’s en 3% van 100+ pagina’s. Dit betekent dat de langste documenten de meerderheid van individuele pagina’s vormen, terwijl een minder granulaire benadering die de documenten alleen in overweging neemt, de aandacht zou doen verschuiven naar de veel talrijker kortere documenten.
Desondanks zijn dit waardevolle metrics, aangezien enkele pagina’s documenten meestal technische schema’s of kaarten zijn; 2-5 pagina’s documenten meestal persberichten en formulieren; en de zeer lange documenten meestal boeklengte rapporten en publicaties, hoewel, in termen van lengte, ze gemengd zijn met enorme geautomatiseerde gegevensstortingen die heel andere uitdagingen voor semantische interpretatie vormen.
Derhalve behandelen de onderzoekers deze onevenwichtigheid als een betekenisvolle semantische eigenschap in zichzelf. Niettemin moeten de PDF’s nog steeds op een per-pagina-basis worden verwerkt en gekwantificeerd.
Architectuur
Aan het begin van het proces wordt de metadata van de PDF geparseerd in tabelgegevens. Deze metadata zal niet ontbreken, omdat het bekende hoeveelheden omvat zoals bestandsgrootte en de bron-URL.
De PDF wordt vervolgens opgesplitst in pagina’s, met elke pagina omgezet in JPEG-formaat via ImageMagick. Het beeld wordt vervolgens gevoerd aan een ResNet-50-netwerk dat een 2.048 dimensionale vector afleidt uit de tweede-laagste laag.

De pijplijn voor extractie uit PDF’s. Source: https://arxiv.org/ftp/arxiv/papers/2112/2112.02471.pdf
Tegelijkertijd wordt de pagina omgezet in een tekstbestand door pdf2text, en TF-IDF-featurisaties worden verkregen via scikit-learn.
TF-IDF staat voor Term Frequency Inverse Document Frequency, die de prevalentie van elke frase binnen het document meet tot zijn frequentie in de hele dataset, op een fijne schaal van 0 tot 1. De onderzoekers hebben enkele woorden (unigrams) gebruikt als de kleinste eenheid in het systeem van TF-IDF.
Hoewel ze erkennen dat machine learning geavanceerdere methoden te bieden heeft dan TF-IDF, betogen de auteurs dat alles complexer onnodig is voor de gestelde taak.
Het feit dat elk document een bijbehorende bron-URL heeft, stelt het systeem in staat om de herkomst van documenten in de hele dataset te bepalen.

Dit lijkt misschien triviaal voor duizend documenten, maar het zal een ogenblik zijn voor 40 miljoen+.
Nieuwe benaderingen voor tekstzoekopdrachten
Een van de doelen van het project is om zoekresultaten voor tekstgebaseerde queries meer zinvol te maken, waardoor een vruchtbare verkenning mogelijk wordt zonder de noodzaak van uitgebreide voorafgaande kennis. De auteurs verklaren:
‘Hoewel trefwoordzoekopdrachten een intuïtieve en zeer uitbreidbare methode van zoekopdrachten zijn, kunnen ze ook beperkend zijn, aangezien gebruikers verantwoordelijk zijn voor het formuleren van trefwoordqueries die relevante resultaten opleveren.’
Zodra de TF-IDF-waarden zijn verkregen, is het mogelijk om de meest voorkomende woorden te berekenen en een ‘gemiddeld’ document in de corpus te schatten. De onderzoekers beweren dat, aangezien deze cross-document trefwoorden meestal zinvol zijn, dit proces nuttige relaties vormt voor wetenschappers om te onderzoeken, die niet alleen door individuele indexering van de tekst van elk document konden worden verkregen.
Visueel gezien, vergemakkelijkt het proces een ‘mood board’ van woorden die afkomstig zijn van verschillende overheidsdepartementen:

TF-IDF-trefwoorden voor verschillende Amerikaanse overheidsdepartementen, verkregen door TF-IDF.
Deze geëxtraheerde trefwoorden en relaties kunnen later worden gebruikt om dynamische matrices in zoekresultaten te vormen, met de corpus van PDF’s die begint te ‘vertellen’, en trefwoordrelaties die documenten samenbinden (misschien zelfs over honderden jaren), om een onderzoekbare multi-part ‘saga’ voor een onderwerp of thema te schetsen.
De onderzoekers gebruiken k-means clustering om documenten te identificeren die verwant zijn, zelfs waar de documenten geen gemeenschappelijke bron delen. Dit stelt de ontwikkeling van sleutelzinnenmetadata toe die van toepassing zijn op de hele dataset, die zou kunnen verschijnen als rangschikkingen voor termen in een strikte tekstzoekopdracht, of als nabije knooppunten in een meer dynamische verkenningomgeving:

Visuele analyse
De ware noviteit van de benadering van de onderzoekers in Washington is het toepassen van machine learning-gebaseerde visuele analysetechnieken op de gerasterde verschijning van de PDF’s in de dataset.
Op deze manier is het mogelijk om een ‘REDACTED’-tag te genereren op basis van visuele gronden, waar niets in de tekst zelf noodzakelijkerwijs een gemeenschappelijke basis zou bieden.

Een cluster van gewiste PDF-voorbladen geïdentificeerd door computer vision in het nieuwe project.
Bovendien kan deze methode een dergelijke tag afleiden, zelfs uit overheidsdocumenten die zijn gerasterd, wat vaak het geval is met gewiste materiaal, waardoor een uitputtende en alomvattende zoekopdracht naar deze praktijk mogelijk wordt.
Daarnaast kunnen kaarten en schema’s op dezelfde manier worden geïdentificeerd en gecategoriseerd, en de auteurs merken hierover op:
‘Voor wetenschappers die geïnteresseerd zijn in onthullingen van geclassificeerde of anderszins gevoelige informatie, kan het wellicht van bijzonder belang zijn om precies dit type cluster van materiaal te isoleren voor analyse en onderzoek.’
Het artikel merkt op dat een breed scala aan visuele indicatoren die gemeenschappelijk zijn voor specifieke soorten overheids-PDF, eveneens kunnen worden gebruikt om documenten te classificeren en ‘saga’s’ te creëren. Dergelijke ‘tokens’ kunnen het Congreszegel zijn, of andere logo’s of terugkerende visuele kenmerken die geen semantische bestaan hebben in een zuivere tekstzoekopdracht.
Bovendien kunnen documenten die weerstand bieden aan classificatie, of waar het document afkomstig is van een niet-gemeenschappelijke bron, worden geïdentificeerd uit hun lay-out, zoals kolommen, lettertypen en andere distinctieve facetten.

Lay-out alleen kan groeperingen en classificaties bieden in een visuele zoekruimte.
Hoewel de auteurs de tekst niet hebben genegeerd, is het duidelijk dat de visuele zoekruimte het werk heeft aangedreven.
‘De mogelijkheid om PDF’s te zoeken en te analyseren op basis van hun visuele kenmerken is dus een omvattende benadering: het versterkt niet alleen bestaande inspanningen rondom tekstuele analyse, maar herbeeldt ook wat zoekopdrachten en analyse kunnen zijn voor born-digital content.’
De auteurs zijn van plan om hun kader uit te breiden om veel grotere datasets te accommoderen, waaronder de 2008 End of Term Presidential Web Archive dataset, die meer dan 10 miljoen items bevat. Aanvankelijk zijn ze van plan om het systeem op te schalen om ‘tienduizenden’ overheids-PDF’s aan te pakken.
Het systeem is bedoeld om aanvankelijk te worden geëvalueerd met echte gebruikers, waaronder bibliothecarissen, archivarissen, advocaten, historici en andere wetenschappers, en zal evolueren op basis van de feedback van deze groepen.
Grappling with the Scale of Born-Digital Government Publications: Toward Pipelines for Processing and Searching Millions of PDFs is geschreven door Benjamin Charles Germain Lee (at the Paul G. Allen School for Computer Science & Engineering) en Trevor Owens, Public Historian in Residence and Head of Digital Content Management at the Library of Congress in Washington, D.C..
* Mijn conversie van inline-citaten naar hyperlinks.
Oorspronkelijk gepubliceerd op 28 december 2021












