Kunstig intelligens
Å løse USAs regjeringens PDF-fjell med datamaskinsyn

Adobes PDF-format har festet seg så dypt i USAs regjeringsdokumenter at antallet statlige utstedte dokumenter som for tiden eksisterer, kan estimeres til hundre millioner. Ofte uklare og mangler metadata, disse PDF-ene – mange skapt av automatiserte systemer – forteller kollektivt ingen historier eller sagaer; hvis du ikke vet eksakt hva du leter etter, vil du sannsynligvis aldri finne et relevant dokument. Og hvis du visste, hadde du sannsynligvis ikke behov for søket.Men et nytt prosjekt bruker datamaskinsyn og andre maskinlæringsmetoder til å endre dette nesten utilgjengelige fjellet av data til en verdifull og utforskbart ressurs for forskere, historikere, journalister og akademikere.
Da den amerikanske regjeringen oppdaget Adobes Portable Document Format (PDF) på 1990-tallet, bestemte den seg for å like det. I motsetning til redigerbare Word-dokumenter, kunne PDF-er “bakes” på en måte som gjorde dem vanskelige eller umulige å endre senere; fonter kunne innlemmes, som sikret kompatibilitet på tvers av plattformer; og utskrift, kopiering og åpning kunne alle kontrolleres på en granulert basis.
Viktigere ennno, var disse grunnleggende funksjonene tilgjengelige i noen av de eldste “baseline”-spesifikasjonene av formatet, som lovet at arkivmateriale ikke ville trenge å bli behandlet eller besøkt igjen for å sikre tilgjengelighet. Nesten alt som regjeringens publisering trengte, var på plass i 1996.
Med blockchain-proveniens og NFT-teknologier tiår unna, var PDF-en så nær som den nye digitale tiden kunne komme til et “dødt” analogt dokument, bare et konseptuelt hakk unna fra et faks.
Dette var akkurat det som var ønsket.
Intern uenighet om PDF
Omfanget av at PDF-er er hermetiske, uangripelige og “ikke-sosiale” karakteriseres i dokumentasjonen om formatet på Library of Congress, som foretrekker PDF som sitt “foretrukne format”:
‘Hovedformålet med PDF/A-formatet er å representere elektroniske dokumenter på en måte som bevare deres statiske visuelle utseende over tid, uavhengig av verktøyene og systemene som brukes for å lage, lagre eller rendre filene. Til dette formålet, forsøker PDF/A å maksimere enhetsuavhengighet, selvhold og selv-dokumentasjon.’
Den pågående entusiasmen for PDF-formatet, standarder for tilgjengelighet og krav til en minimumsversjon, varierer over USAs regjeringsdepartementer. For eksempel, mens Environmental Protection Agency har strenge, men støttende politikker i denne sammenhengen, erkjenner den offisielle USAs regjeringsnettstedet plainlanguage.gov at ‘brukerne hater PDF’, og lenker sogar direkte til en rapport fra 2020 fra Nielsen Norman Group, med tittelen PDF: Fremdeles uegnet for menneskelig forbruk, 20 år senere.
I mellomtiden er irs.gov, opprettet i 1995 spesifikt for å overføre skattemyndighetens dokumentasjon til digitalt, og er fremdeles en ivrig forkjemper for PDF.
PDF-er: Resistent mot analyse
Forskerne fra Washingtons prosjekt anvender en rekke maskinlæringsmetoder til en offentlig tilgjengelig og annotert korpus av 1 000 utvalgte dokumenter fra Library of Congress, med målet om å utvikle systemer som kan hente tekst- og bildebaserte forespørsler i rammer som kan skaleres opp til dagens (og voksende) PDF-volumer, ikke bare i regjeringen, men også i en rekke sektorer.
Som artikkelen observerer, førte den økende digitaliseringen over en rekke USAs regjeringsdepartementer på 1990-tallet til skiftende politikker og praksiser, og ofte til at PDF-publikasjonsmetoder som ikke inneholdt samme kvalitet på metadata som en gang var gullstandarden for regjeringsbibliotekstjenester – eller selv grunnleggende native PDF-metadata, som kunne ha vært til noen nytte i å gjøre PDF-samlinger mer tilgjengelige og vennlige for indeksering.
Forskernes mål er å utvikle et rammeverk som kan håndtere langt større datamengder, inkludert 2008 End of Term Presidential Web Archive-datasetten, som inneholder over 10 millioner elementer. Først og fremst planlegger de å skalerer opp systemet for å håndtere “tittelusende” regjerings-PDF-er.
Systemet er ment å bli evaluert først med virkelige brukere, inkludert bibliotekarer, arkivarer, jurister, historikere og andre akademikere, og vil utvikle seg basert på tilbakemeldinger fra disse gruppene.
Grappling with the Scale of Born-Digital Government Publications: Toward Pipelines for Processing and Searching Millions of PDFs er skrevet av Benjamin Charles Germain Lee (ved Paul G. Allen School for Computer Science & Engineering) og Trevor Owens, Public Historian in Residence og Head of Digital Content Management ved Library of Congress i Washington, D.C..
Opprinnelig publisert 28. desember 2021












