Tekoäly

Vastaan US-hallituksen PDF-vuoria tietokoneavusteisen näön avulla

Published December 28, 2021

Updated April 26, 2026

Martin Anderson

Adoben PDF-muoto on vakiinnuttanut itsensä niin syvälle Yhdysvaltain hallituksen asiakirjojen putkistoon, että valtion myöntämien asiakirjojen määrä on konservatiivisesti arvioitu satoihin miljooniin. Usein epäselvät ja metadataa puuttuvat, nämä PDF-tiedostot – joista monet on luonut automaattiset järjestelmät – kertovat yhdessä ottaen tarinoita tai saagoja; jos et tiedä tarkalleen, mitä etsit, et luultavasti koskaan löydä asiaankuuluvaa asiakirjaa. Ja jos tiesit, et luultavasti tarvinnut hakua.On kuitenkin uusi projekti, joka käyttää tietokoneavusteista näköa ja muita koneoppimismenetelmiä muuttaakseen tämän lähes lähestymättömän datavuoren arvokkaaksi ja tutkittavaksi resursiksi tutkijoille, historioitsijoille, toimittajille ja tutkijoille.

Kun Yhdysvaltain hallitus löysi Adoben Portable Document Formatin (PDF) 1990-luvulla, se päätti, että se pitää siitä. Toisin kuin muokattavat Word-asiakirjat, PDF-tiedostot voitiin “paistaa” monin tavoin, jotka tekevät niistä vaikeita tai jopa mahdottomia muuttaa myöhemmin; fontit voitiin upottaa, jotta ne olisivat yhteensopivia eri alustoilla; ja tulostus, kopiointi ja jopa avaaminen voitiin hallita hienojakoisesti.

Tärkeämpää oli, että nämä perusominaisuudet olivat saatavilla joissakin vanhimmista “perusviite” -määrityksistä, jotka lupasivat, että arkistomateriaalia ei tarvitsisi käsitellä uudelleen tai tarkastella uudelleen, jotta varmistettaisiin sen saatavuus. Melkein kaikki, mitä hallituksen julkaisemiseen tarvittiin, oli paikallaan vuoteen 1996 mennessä.

Blockchain-provenienssin ja NFT-tekniikoiden ollessa vielä vuosikymmeniä etäällä, PDF oli lähimpänä, mihin digitaalinen aikakausi voisi päästä “kuolleeseen” analogiseen asiakirjaan, vain konseptuaalinen välikäsi faksiin.

Sisäinen erimielisyys PDF:stä

PDF-tiedostojen hermeettisyys, hankaluus ja “epäsosiaalisuus” on kuvattu dokumentaatiossa PDF-muodosta Kongressin kirjastossa, joka suosii PDF:ää “toivottuna muotona”:

‘PDF/A-muodon ensisijainen tarkoitus on edustaa sähköisiä asiakirjoja tavalla, joka säilyttää niiden staattisen visuaalisen ulkonäön ajan myötä, riippumatta työkaluista ja järjestelmistä, joita käytetään asiakirjojen luomiseen, tallentamiseen tai renderöintiin. Tähän tarkoitukseen PDF/A pyrkii maksimoimaan laitteiston riippumattomuutta, itsenäisyyttä ja itseasiointia.’

Jatkuva innostus PDF-muotoa kohtaan, saavutettavuuden standardit ja vähimmäisvaatimukset vaihtelevat Yhdysvaltain hallituksen osastojen välillä. Esimerkiksi Ympäristönsuojeluvirasto on tiukkoja ja tukevia käytännöissä, kun taas virallinen Yhdysvaltain hallituksen verkkosivu plainlanguage.gov tunnustaa, että käyttäjät vihaavat PDF:ää, ja jopa linkittää suoraan raporttiin Nielsen Norman Groupilta, joka on otsikoitu PDF: edelleen sopimaton ihmiskäytölle, 20 vuotta myöhemmin.

Samaan aikaan irs.gov, perustettiin vuonna 1995 erityisesti siirtämään veroviraston asiakirjoja digitaaliseen muotoon, ja se omaksui välittömästi PDF:n ja on edelleen innostunut kannattaja.

PDF:t: Vastustuskykyisiä analyysille

Washingtonin tutkijoiden projekti soveltaa useita koneoppimismenetelmiä julkisesti saatavissa olevaan ja annotoituun korpuksiin 1000 valittua asiakirjaa Kongressin kirjastosta, tavoitteena kehittää järjestelmiä, jotka pystyvät nopeaan, monitapahtumaan hakemiseen teksti- ja kuva-pohjaisille kysymyksille, joissa voidaan skaalata nykyisten (ja kasvavien) PDF-määrien korkeuksiin, ei ainoastaan hallituksessa, vaan monilla aloilla.

Kuten tutkimus huomauttaa, 1990-luvun nopea digitalisointi monissa Yhdysvaltain hallituksen osastoissa johti erilaisiin käytäntöihin ja menettelytapoihin, usein PDF-julkaisumenetelmien omaksumiseen, joissa ei ollut samaa laatua metatietoa, joka oli kerran hallituksen kirjastopalvelun kultainen standardi – tai edes perustavanlaatuista PDF-metatietoa, joka olisi voinut olla avuksi asiakirjojen kokoelmien tekemisessä helpommin saatavilla ja indeksoitavaksi.

Tutkijat toteavat tästä jaksoa:

‘Nämä pyrkimykset johtivat hallituksen julkaisujen määrän räjähdysmäiseen kasvuun, mikä puolestaan johti yleisen lähestymistavan murtumiseen, jossa tuotettiin johdonmukaisia metatietoja julkaisuille ja jolla kirjastot hankkivat niiden kopiot.’

Seurauksena on, että tyypillinen PDF-vuori on olemassa ilman mitään muuta kontekstia kuin URL, joka linkittää suoraan siihen. Lisäksi asiakirjat vuorella ovat suljettuja, itseviittaavia ja eivät muodosta osaa “saagasta” tai kertomuksesta, jota nykyiset hakumenetelmät ovat todennäköisesti havaitsevat, vaikka sellaisia piileviä yhteyksiä ilman varmasti on.

Manuaalinen annotaatio tai kuraattori on mahdoton prospekti. Korpuksen data, josta projektin 1000 Kongressin kirjaston asiakirjaa on johdettu, sisältää yli 40 miljoonaa PDF:ää, joista tutkijat aikovat tehdä osoitettavaksi haasteen lähitulevaisuudessa.

Tietokoneavusteinen näkö PDF-analyysissä

Useimmat aiemmat tutkimukset, joita tutkijat mainitsevat, käyttävät tekstipohjaisia menetelmiä piirreiden ja korkean tason käsitteiden poistamiseen PDF-materiaalista; vastakohtaisesti, heidän projektinsa keskittyy piirreiden ja trendien johdattamiseen PDF:ien visuaalisella tasolla, linjassa nykyisen tutkimuksen monitapahtumaisen uutissisällön analyysissä.

Vaikka koneoppimista on myös sovellettu tällä tavoin PDF-analyysiin erityisalojen kuten Semantic Scholar skeemojen kautta, tutkijat pyrkivät luomaan laajemmin soveltuvia poistoputkia, jotka ovat sovellettavissa laajasti julkaisujen yli, eikä ainoastaan tieteelliseen julkaisemiseen tai muihin yhtä kapeisiin aloihin.

Epätasapainoisen datan käsittely

Luoessaan mittauskaavion, tutkijat ovat joutuneet ottamaan huomioon, kuinka vinoutunut data on, ainakin kooltaan kohden.

1000 PDF:stä valitussa datasetissä (jonka tutkijat olettavat edustavan 40 miljoonaa, joista ne on johdettu), 33 % on vain yhden sivun pituisia, ja 39 % on 2-5 sivun pituisia. Tämä asettaa 72 % asiakirjoista viiden sivun tai vähemmän.

Tästä eteenpäin on melkoinen hyppy: 18 % jäljellä olevista asiakirjoista on 6-20 sivun pituisia, 6 % on 20-100 sivun pituisia ja 3 % on yli 100 sivun pituisia. Tämä tarkoittaa, että pisimmät asiakirjat muodostavat suurimman osan yksittäisistä sivuista, kun taas vähemmän hienojakoinen lähestymistapa, joka ottaa huomioon ainoastaan asiakirjat, vääristäisi huomion kohti lyhyempiä, lukuisampia asiakirjoja.

Kuitenkin nämä ovat tarkoituksenmukaiset mittaukset, koska yksisivuiset asiakirjat ovat usein teknisiä kaavioita tai karttoja; 2-5 sivun asiakirjat ovat usein lehdistötiedotteita ja lomakkeita; ja erittäin pitkät asiakirjat ovat yleensä kirjamaisia raportteja ja julkaisuja, vaikka ne sekoittuvat pituudeltaan laajoihin automaattisiin tietojen dumppeihin, joissa on täysin erilaisia haasteita semanttiselle tulkinnalle.

Tutkijat käsittelevät tämän epätasapainon merkityksellisenä semanttisena ominaisuutena itsessään. Kuitenkin PDF:t on käsiteltävä ja määriteltävä sivukohtaisesti.

Arkkitehtuuri

Prosessin alussa PDF:n metatietoja parsitaan taulukkomuotoon. Tämä metatieto ei ole poissa, koska se koostuu tunnetuista määristä, kuten tiedoston koko ja lähde-URL.

PDF jaetaan sivuihin, ja kunkin sivun muunnetaan JPEG-muotoon ImageMagickin avulla. Kuva syötetään sitten ResNet-50 -verkkoon, joka johtaa 2048-ulotteisen vektorin toiseksi viimeiseltä kerrokselta.

PDF:ien poistoputki. Lähde: https://arxiv.org/ftp/arxiv/papers/2112/2112.02471.pdf

Samaan aikaan sivu muunnetaan tekstitiedostoksi pdf2textillä, ja TF-IDF-ominaisuudet saadaan scikit-learnin avulla.

TF-IDF tarkoittaa Term Frequency Inverse Document Frequency, joka mittailee jokaisen lauseen yleisyyttä asiakirjassa sen yleisyyden mukaan koko asiakirjakokoelmassa, hienojakoisella asteikolla 0-1. Tutkijat ovat käyttäneet yksittäisiä sanoja (unigrameja) järjestelmän TF-IDF-asetuksissa.

Vaikka he myöntävät, että koneoppimisella on monia kehittyneempiä menetelmiä tarjottavana, tutkijat väittävät, että mitään monimutkaisempaa on tarpeen mainittuun tehtävään.

Se, että kullakin asiakirjalla on liittyvä lähde-URL, mahdollistaa järjestelmän määrittää asiakirjojen provenienssin koko tietokannassa.

Tämä saattaa näyttää triviaalilta tuhannesta asiakirjasta, mutta se on varmasti silmäysaukaiseva 40 miljoonalle+.

Uudet lähestymistavat tekstihakuun

Yksi projektin tavoitteista on tehdä tekstipohjaisista hakutuloksista merkityksellisempiä, sallien tutkittavuuden ilman liiallista etukäteistietämystä. Tutkijat toteavat:

‘Vaikka avainsanahaku on intuitiivinen ja laajasti sovellettavissa oleva hakutapa, se voi myös olla rajoittava, koska käyttäjien on muodostettava avainsanakyselyjä, jotka tuottavat merkityksellisiä tuloksia.’

Kun TF-IDF-arvot on saatu, on mahdollista laskea yleisimmin esiintyvät sanat ja arvioida “keskimääräinen” asiakirja korpuksessa. Tutkijat väittävät, että koska nämä ristiasiakirjojen avainsanat ovat yleensä merkityksellisiä, tämä prosessi muodostaa hyödyllisiä suhteita tutkijoille tutkittaviksi, joita ei voida saada ainoastaan yksittäisen asiakirjan tekstistä.

Visuaalisesti prosessi mahdollistaa “mielialan” sanoja eri hallituksen osastoista:

TF-IDF-avainsanat eri Yhdysvaltain hallituksen osastoista, saadut TF-IDF:llä.

Nämä poistetut avainsanat ja suhteet voidaan myöhemmin käyttää dynaamisten matriisien muodostamiseen hakutuloksissa, jolloin korpus PDF:istä alkaa “kertoa tarinoita”, ja avainsanayhteydet muodostavat asiakirjoja (mahdollisesti jopa satojen vuosien ajan), jotta voidaan hahmottaa tutkittava moniosainen “saaga” aiheesta tai teemasta.

Tutkijat käyttävät k-means-klusterointia tunnistamaan asiakirjoja, jotka ovat liittyneitä, vaikka asiakirjat eivät jakaisi yhteistä lähdettä. Tämä mahdollistaa avainsanometatiedon kehittämisen koko tietokannan yli, joka ilmenee joko sanastona tiukassa tekstihaussa tai lähellä solmuja dynaamisemmassa tutkimisympäristössä:

Visuaalinen analyysi

Tutkijoiden lähestymistavan todellinen uutuus on soveltaa koneoppimiseen perustuvia visuaalisen analyysin menetelmiä PDF-tiedostojen rasteroituun ulkoasuun datasetissä.

Tällä tavoin on mahdollista generoida “REDAKTIOITU” -tunniste visuaalisen perusteen mukaan, jossa ei välttämättä ole yhteistä perustaa tekstissä itsessään.

Tietokoneavusteisen näön avulla tunnistettu ryhmä redaktioiden PDF-etusivuja uudessa projektissa.

Lisäksi kartat ja kaaviot voidaan tunnistaa ja luokitella, ja tutkijat kommentoivat tätä potentiaalista toiminnallisuutta:

‘Tutkijoille, jotka ovat kiinnostuneita luokitellun tai muun herkkän tiedon paljastamisesta, voi olla erityisen mielenkiintoista erottaa tällainen aineiston tyyppi analyysia ja tutkimusta varten.’

Tutkimus toteaa, että laaja valikoima visuaalisia indikaattoreita, jotka ovat yleisiä tietyn tyyppisille hallituksen PDF:ille, voidaan käyttää asiakirjojen luokitteluun ja “saagojen” luomiseen. Tällaiset “tokenit” voivat olla kongressin sinetti tai muut logot tai toistuvat visuaaliset piirteet, joilla ei ole semanttista olemassaoloa puhtaassa tekstihaussa.

Lisäksi asiakirjat, jotka vastustavat luokittelua tai joissa lähde on epätavallinen, voidaan tunnistaa niiden ulkoasun perusteella, kuten sarakkeista, fonttityypeistä ja muista ominaispiirteistä.

Ulkoasu yksin voi tarjota ryhmittelyjä ja luokitteluita visuaalisessa hakutilassa.

Vaikka tutkijat eivät ole laiminlyöneet tekstiä, on ilmeistä, että visuaalinen hakutila on ajanut tämän työn eteenpäin.

‘Mahdollisuus hakea ja analysoida PDF:itä visuaalisten ominaisuuksiensa mukaan on siten runsas lähestymistapa: se ei ainoastaan täydennä olemassa olevia pyrkimyksiä tekstianalyysin ympärillä, vaan myös uudelleenmieltää, mitä hakua ja analyysia voidaan tehdä syntypaikalliselle sisällölle.’

Tutkijat aikovat kehittää kehyksensä käsittelyyn paljon suurempia tietoja, mukaan lukien 2008 End of Term Presidential Web Archive tietokanta, joka sisältää yli 10 miljoonaa kohtaa. Aluksi he aikovat kuitenkin laajentaa järjestelmää “kymmenien tuhansien” hallituksen PDF:ien käsittelyyn.

Järjestelmä on tarkoitus arvioida aluksi oikeilla käyttäjillä, mukaan lukien kirjastonhoitajat, arkistot, lakimiehet, historioitsijat ja muut tutkijat, ja se kehittyy näiden ryhmien palautteen perusteella.

Grappling with the Scale of Born-Digital Government Publications: Toward Pipelines for Processing and Searching Millions of PDFs on kirjoittanut Benjamin Charles Germain Lee (Paul G. Allen School for Computer Science & Engineering) ja Trevor Owens, Public Historian in Residence and Head of Digital Content Management at the Library of Congress in Washington, D.C..

* Minun muutos viittauksista hyperlinkkeihin.

Alun perin julkaistu 28. joulukuuta 2021

Related Topics:big data data science Government research