stubbur Að takast á við PDF-fjall Bandaríkjastjórnar með tölvusýn - Unite.AI
Tengja við okkur

Artificial Intelligence

Að takast á við PDF-fjall Bandaríkjastjórnar með tölvusjón

mm
Uppfært on

PDF snið Adobe hefur fest sig svo djúpt í skjalaleiðslum bandarískra stjórnvalda að fjöldi ríkisútgefinna skjala sem nú er til er varlega áætlaður í hundruðum milljóna. Oft ógegnsæ og skortir lýsigögn, þessar PDF-skjöl – margar búnar til með sjálfvirkum kerfum – segja í sameiningu engar sögur eða sögur; ef þú veist ekki nákvæmlega hverju þú ert að leita að muntu líklega aldrei finna viðeigandi skjal. Og ef þú vissir það, þá þarftu líklega ekki leitina.

Hins vegar er nýtt verkefni að nota tölvusjón og aðrar vélanámsaðferðir til að breyta þessu næstum óaðgengilega fjalli gagna í dýrmæt og rannsakandi úrræði fyrir rannsakendur, sagnfræðinga, blaðamenn og fræðimenn.

Þegar bandarísk stjórnvöld uppgötvuðu Adobe Portable Document Format (PDF) á tíunda áratugnum ákvað hún að þeim líkaði það. Ólíkt breytanlegum Word-skjölum var hægt að „baka“ PDF-skjöl á margvíslegan hátt sem gerði þeim erfitt eða jafnvel ómögulegt að breyta síðar; leturgerðir gætu verið felldar inn, sem tryggir samhæfni milli palla; og prentun, afritun og jafnvel opnun gæti allt verið stjórnað á kornóttum grundvelli.

Meira um vert, þessir kjarnaeiginleikar voru fáanlegir í sumum af elstu „grunnlínu“ forskriftum sniðsins, sem lofaði að ekki þyrfti að endurvinna geymsluefni eða endurskoða síðar til að tryggja aðgengi. Næstum allt sem ríkisútgáfan þurfti var til staðar eftir 1996.

Með blockchain uppruna og NFT tækni áratugum í burtu, PDF var eins nálægt og stafræna öldin sem er að verða til gæti komist að „dauðu“ hliðrænu skjali, aðeins hugmyndafræðilegu hiksta frá faxi. Þetta var einmitt það sem óskað var eftir.

Innri ágreiningur um PDF

Að hve miklu leyti PDF-skjöl eru loftþétt, óleysanleg og „ófélagsleg“ einkennist af gögn á sniðinu á Library of Congress, sem aðhyllist PDF sem „valið snið“:

„Megintilgangur PDF/A sniðsins er að tákna rafræn skjöl á þann hátt sem varðveitir kyrrstæðu sjónrænt útlit þeirra með tímanum, óháð verkfærum og kerfum sem notuð eru til að búa til, geyma eða endurgera skrárnar. Í þessu skyni reynir PDF/A að hámarka sjálfstæði tækisins, sjálfheldu og sjálfsskráningu.'

Áframhaldandi áhugi á PDF sniði, staðlar um aðgengi og kröfur um lágmarksútgáfu, allt er mismunandi eftir bandarískum ríkisdeildum. Til dæmis á meðan Umhverfisstofnun hefur strangar en styðjandi stefnur í þessu sambandi, opinbera vefsíða Bandaríkjastjórnar plainlanguage.gov viðurkennir'notendur hata PDF', og tengir jafnvel beint við 2020 Nielsen Norman Group tilkynna titill PDF: Enn óhæf til manneldis, 20 árum síðar.

Á meðan irs.gov, stofnað árið 1995 sérstaklega að færa skjöl skattstofunnar yfir í stafrænt, strax tekið upp PDF og er enn a ákafur málsvari.

Veiruútbreiðsla PDF-skjala

Þar sem kjarnaforskriftirnar fyrir PDF voru gefnar út á opinn uppspretta af Adobe, a áfangi af vinnsluverkfærum og bókasöfnum á netþjóni hafa komið fram, mörg nú sem virðulegur og rótgróin eins og 1996 PDF forskriftir, og eins áreiðanlegar og villuþolnar, á meðan hugbúnaðarframleiðendur flýttu sér að samþætta PDF virkni í ódýr verkfæri.

Þar af leiðandi, elskaðir eða hataðir af gestgjafadeildum þess, eru PDF-skjöl alls staðar aðgengileg í samskipta- og skjalaramma í miklum fjölda bandarískra ríkisdeilda.

Árið 2015, VP Engineering for Document Cloud, Phil Ydens áætlaður að 2.5 billjón PDF skjöl séu til í heiminum, en talið er að sniðið standi fyrir einhvers staðar á milli 6-11% af öllu efni á vefnum. Í tæknimenningu sem er háð því að trufla gamla tækni, hefur PDF orðið óafmáanlegt „ryð“ – miðlægur hluti af uppbyggingunni sem hýsir það.

Frá 2018. Það eru fáar vísbendingar um ægilegan áskoranda ennþá. Heimild: https://twitter.com/trbrtc/status/980407663690502145

Frá 2018. Það eru fáar vísbendingar um ægilegan áskoranda ennþá. Heimild: https://twitter.com/trbrtc/status/980407663690502145

Samkvæmt a Nýleg rannsókn frá vísindamönnum við háskólann í Washington og Library of Congress, „hundruð milljóna einstakra skjala bandarískra stjórnvalda sem sett hafa verið á vefinn á PDF formi hafa verið geymd af bókasöfnum til þessa“.

Samt halda vísindamennirnir því fram að þetta sé bara „toppurinn á ísjakanum“*:

„Eins og Roy Rosenzweig, leiðandi fræðimaður í stafrænni sagnfræði, hafði tekið fram strax árið 2003, þegar kemur að fæddum stafrænum frumheimildum fyrir fræðimennsku, þá er nauðsynlegt að þróa aðferðir og nálganir sem munu stækka upp í tugi og hundruð milljóna og jafnvel milljarða stafrænna [ auðlindir]. Við erum nú komin á þann stað þar sem nauðsynlegt er að þróa nálganir fyrir þennan mælikvarða.

„Sem dæmi inniheldur bókasafn þingsins nú meira en 20 milljarða einstakra stafrænna auðlinda.“

PDF-skjöl: Þolir greiningu

Verkefni Washington vísindamanna beitir fjölda vélanámsaðferða til a aðgengileg almenningi og athugasemdir Corpus af 1,000 völdum skjölum frá bókasafni þingsins, með það fyrir augum að þróa kerfi sem geta leifturhraða, fjölþætta endurheimt texta- og myndatengdra fyrirspurna í ramma sem geta stækkað upp í hæðir núverandi (og vaxandi) PDF bindi, ekki aðeins í ríkinu, en á mörgum sviðum.

Eins og greinir í blaðinu leiddi hraðari hraði stafrænnar væðingar í ýmsum deildum bandarískra stjórnvalda á 1990. áratugnum til ólíkra stefnu og starfshátta og oft til þess að PDF-útgáfuaðferðir voru teknar upp sem innihéldu ekki sömu gæði lýsigagna og áður voru gulls ígildi ríkisbókasafnsþjónustu – eða jafnvel mjög undirstöðu innfædd PDF lýsigögn, sem gætu hafa verið til einhverrar hjálp við að gera PDF söfn aðgengilegri og vingjarnlegri við skráningu.

Þegar rætt er um þetta truflunartímabil taka höfundarnir fram:

„Þessi viðleitni leiddi til mikillar aukningar á magni ríkisútgáfu, sem aftur leiddi til sundurliðunar á almennri nálgun þar sem samræmd lýsigögn voru framleidd fyrir slík rit og bókasöfn öðluðust eintök af þeim.

Þar af leiðandi er dæmigert PDF-fjall til án nokkurs samhengis nema vefslóðirnar sem tengjast beint við það. Ennfremur eru skjölin í fjallinu lokuð, sjálfsvísandi og eru ekki hluti af neinni „sögu“ eða frásögn sem núverandi leitaraðferðir munu líklega greina, jafnvel þó að slík dulin tengsl séu án efa til.

Á þeim mælikvarða sem hér er til skoðunar er handvirk skýring eða sýning ómöguleg. Gagnasafnið sem 1000 þingsafnsskjöl verkefnisins voru fengin úr inniheldur yfir 40 milljónir PDF-skjala sem rannsakendur hyggjast gera áskorun sem hægt er að takast á við í náinni framtíð.

Tölvusjón fyrir PDF greiningu

Flestar fyrri rannsóknir sem höfundar vitna í notar textabundnar aðferðir til að draga eiginleika og háþróuð hugtök úr PDF efni; aftur á móti snýst verkefni þeirra um að draga fram eiginleika og stefnur með því að skoða PDF-skjölin á sjónrænu stigi, í samræmi við núverandi rannsóknir í fjölþætta greiningu á fréttaefni.

Þó að vélanám hafi einnig verið beitt á þennan hátt við PDF greiningu með geirasértækum kerfum eins og Merkingartækni, höfundar miða að því að búa til fleiri háþróaða útdráttarleiðslur sem eiga víða við í ýmsum ritum, frekar en að stilla þær að ströngum vísindaútgáfu eða annarra jafn þröngra geira.

Að taka á ójafnvægi gagna

Við að búa til mælistiku hafa rannsakendur þurft að íhuga hversu skekkt gögnin eru, að minnsta kosti hvað varðar stærð á hlut.

Af 1000 PDF-skjölum í völdum gagnasafni (sem höfundar gera ráð fyrir að sé dæmigerð fyrir þær 40 milljónir sem þær voru teknar úr), eru 33% aðeins blaðsíðu löng og 39% eru 2-5 blaðsíður. Þetta gerir 72% skjala á fimm blaðsíðum eða færri.

Eftir þetta er töluvert stökk: 18% af skjölunum sem eftir eru keyra á 6-20 blaðsíðum, 6% á 20-100 blaðsíður og 3% á 100+ blaðsíðum. Þetta þýðir að lengstu skjölin samanstanda af meirihluta einstakra blaðsíðna sem dregnar eru út, á meðan minna nákvæm nálgun sem telur skjölin ein og sér myndi beygja athyglina í átt að miklu fleiri styttri skjölum.

Engu að síður eru þetta innsæi mælikvarðar, þar sem skjöl á einni síðu hafa tilhneigingu til að vera tæknilegar skýringar eða kort; 2-5 blaðsíðna skjöl hafa tilhneigingu til að vera fréttatilkynningar og eyðublöð; og mjög löngu skjölin eru yfirleitt skýrslur og rit að lengd bóka, þó að lengd þeirra sé blandað saman við stórar sjálfvirkar gagnahaugar sem innihalda allt aðrar áskoranir fyrir merkingarfræðilega túlkun.

Þess vegna eru rannsakendur að meðhöndla þetta ójafnvægi sem þýðingarmikla merkingareiginleika í sjálfu sér. Engu að síður þarf enn að vinna PDF-skjölin og magngreina þær á hverri síðu.

arkitektúr

Í upphafi ferlisins eru lýsigögn PDF flokkuð í töflugögn. Þessi lýsigögn munu ekki vera fjarverandi vegna þess að þau samanstanda af þekktu magni eins og skráarstærð og upprunaslóð.

PDF-skjalinu er síðan skipt í síður, þar sem hverri síðu er breytt í JPEG snið í gegnum ImageMagick. Myndin er síðan færð í ResNet-50 net sem fær 2,048 víddar vektor úr næstsíðasta laginu.

Leiðsla fyrir útdrátt úr PDF skjölum. Heimild: https://arxiv.org/ftp/arxiv/papers/2112/2112.02471.pdf

Leiðsla fyrir útdrátt úr PDF skjölum. Heimild: https://arxiv.org/ftp/arxiv/papers/2112/2112.02471.pdf

Á sama tíma er síðunni breytt í textaskrá með pdf2text og TF-IDF lögun fengnar í gegnum scikit-læra.

TF-IDF stendur fyrir Term Frequency Inverse Document Frequency, sem mælir algengi hverrar setningar innan skjalsins til tíðni þess í gegnum gagnasafn þess, á fínum skala frá 0 til 1. Rannsakendur hafa notað stök orð (unigrams) sem minnstu eininguna í TF-IDF stillingum kerfisins.

Þó þeir viðurkenna að vélanám hafi flóknari aðferðir að bjóða en TF-IDF, halda höfundarnir því fram að allt flóknara sé óþarft fyrir tilgreint verkefni.

Sú staðreynd að hvert skjal hefur tengda upprunavefslóð gerir kerfinu kleift að ákvarða uppruna skjala í gagnasafninu.

Þetta kann að virðast léttvægt fyrir þúsund skjöl, en það mun vera alveg augaopnari fyrir 40 milljónir+.

Nýjar aðferðir við textaleit

Eitt af markmiðum verkefnisins er að gera leitarniðurstöður fyrir textatengdar fyrirspurnir þýðingarmeiri og leyfa frjóa könnun án þess að þörf sé á of mikilli forþekkingu. Höfundar segja:

"Þó að leitarorðaleit sé leiðandi og mjög teygjanleg leitaraðferð getur hún líka verið takmarkandi, þar sem notendur eru ábyrgir fyrir því að móta leitarorðafyrirspurnir sem ná í viðeigandi niðurstöður."

Þegar TF-IDF gildin hafa verið fengin er hægt að reikna út algengustu orðin og áætla „meðaltal“ skjal í málheildinni. Rannsakendur halda því fram að þar sem þessi lykilorð yfir skjala eru yfirleitt þýðingarmikil, myndar þetta ferli gagnleg tengsl fyrir fræðimenn til að kanna, sem ekki var hægt að fá eingöngu með einstaklingsskráningu á texta hvers skjals.

Sjónrænt auðveldar ferlið „stemningarborð“ orða sem koma frá ýmsum ríkisdeildum:

TF-IDF leitarorð fyrir ýmis bandarísk stjórnvöld, fengin af TF-IDF.

TF-IDF leitarorð fyrir ýmis bandarísk stjórnvöld, fengin af TF-IDF.

Síðar er hægt að nota þessi útdregnu leitarorð og tengsl til að mynda kraftmikið fylki í leitarniðurstöðum, þar sem samanlagður PDF-skjala er byrjaður að „segja sögur“ og leitarorðatengsl hnýta saman skjöl (hugsanlega jafnvel á hundruðum ára), til að útlista margskonar hluti 'saga' fyrir efni eða þema.

Rannsakendur nota k-means þyrping til að bera kennsl á skjöl sem tengjast, jafnvel þar sem skjölin deila ekki sameiginlegri heimild. Þetta gerir kleift að þróa lýsigögn lykilsetninga sem eiga við um gagnasafnið, sem myndu birtast annað hvort sem röðun fyrir hugtök í strangri textaleit eða sem nálægir hnútar í kraftmeira könnunarumhverfi:

Sjónræn greining

Hin sanna nýjung í nálgun vísindamanna í Washington er að beita sjónrænum greiningaraðferðum sem byggir á vélanámi á útliti PDF-skjala í gagnasafninu með raster.

Þannig er hægt að búa til „REDACTED“ merki á sjónrænum grunni, þar sem ekkert í textanum sjálfum myndi endilega veita nógu sameiginlegan grunn.

Klasi af útfærðum PDF forsíðum auðkenndar með tölvusjón í nýja verkefninu.

Klasi af útfærðum PDF forsíðum auðkenndar með tölvusjón í nýja verkefninu.

Ennfremur getur þessi aðferð dregið slíkt merki, jafnvel úr opinberum skjölum sem hafa verið rasteruð, sem er oft raunin með klippt efni, sem gerir tæmandi og yfirgripsmikla leit að þessari framkvæmd mögulega.

Að auki er hægt að bera kennsl á og flokka kort og skýringarmyndir, og höfundar gera athugasemdir við þessa hugsanlegu virkni:

„Fyrir fræðimenn sem hafa áhuga á að birta flokkaðar eða á annan hátt viðkvæmar upplýsingar gæti það verið sérstakt áhugavert að einangra nákvæmlega þessa tegund af efnisklasa til greiningar og rannsókna.“

Blaðið bendir á að margs konar sjónrænar vísbendingar sem eru sameiginlegar fyrir ákveðnar gerðir af opinberum PDF-skjölum er einnig hægt að nota til að flokka skjöl og búa til „sögur“. Slík „tákn“ gætu verið innsiglið þingsins, eða önnur lógó eða endurtekin sjónræn einkenni sem hafa enga merkingarfræðilega tilvist í hreinni textaleit.

Ennfremur er hægt að bera kennsl á skjöl sem stangast á við flokkun, eða þar sem skjalið kemur frá óalgengum uppruna, frá útliti þeirra, svo sem dálkum, leturgerðum og öðrum sérkennum hliðum.

Skipulag eitt og sér hefur efni á flokkun og flokkun í sjónrænu leitarrými.

Skipulag eitt og sér hefur efni á flokkun og flokkun í sjónrænu leitarrými.

Þó að höfundar hafi ekki vanrækt texta er greinilega sjónræna leitarrýmið það sem hefur drifið þetta verk áfram.

„Hæfnin til að leita og greina PDF-skjöl í samræmi við sjónræna eiginleika þeirra er því víðtæk nálgun: hún eykur ekki aðeins núverandi viðleitni í kringum textagreiningu heldur endurmyndar einnig hvað leit og greining getur verið fyrir stafrænt efni.

Höfundarnir hyggjast þróa umgjörð sína til að koma til móts við miklu, miklu stærri gagnapakka, þar á meðal 2008 lok kjörtímabils forsetavefskjalasafns gagnapakkinn, sem inniheldur yfir 10 milljónir hluta. Upphaflega ætla þeir hins vegar að stækka kerfið til að taka á „tugþúsundum“ PDF-skjala hins opinbera.

Kerfið er ætlað að vera metið í upphafi með raunverulegum notendum, þar á meðal bókavörðum, skjalavörðum, lögfræðingum, sagnfræðingum og öðrum fræðimönnum, og mun þróast út frá endurgjöf frá þessum hópum.

 

Að glíma við umfang fæddra stafrænna ríkisútgáfu: Í átt að leiðslum til að vinna úr og leita í milljónum PDF-skjala er skrifað af Benjamin Charles Germain Lee (við Paul G. Allen School for Computer Science & Engineering) og Trevor Owens, opinber sagnfræðingur í búsetu og yfirmaður stafrænnar efnisstjórnunar við Library of Congress í Washington, DC.

 

* Breyting mín á innbyggðum tilvitnunum í tengla.

Upphaflega birt 28. desember 2021