Connect with us

Umělá inteligence

Zvládání horského pásma PDF americké vlády s počítačovým viděním

mm

Formát PDF společnosti Adobe se tak hluboce zakořenil v dokumentačních kanálech americké vlády, že počet státních dokumentů, které目前 existují, je konzervativně odhadován na stovky milionů. Často neprůhledné a chybějící metadata, tyto PDF – mnoho vytvořených automatizovanými systémy – společně nevyprávějí žádné příběhy nebo ságy; pokud přesně nevíte, co hledáte, pravděpodobně nikdy nenajdete příslušný dokument. A pokud jste to věděli, pravděpodobně byste nevyžadovali hledání. Ale nový projekt používá počítačové vidění a další přístupy strojového učení ke změně tohoto téměř nepřístupného horského pásma dat na cenný a prozkoumatelný zdroj pro výzkumníky, historiky, novináře a učence.

Když americká vláda objevila formát PDF společnosti Adobe v 90. letech, rozhodla se, že se jí líbí. Na rozdíl od editovatelných dokumentů Word, PDF mohlo být “upečeno” mnoha způsoby, které je dělaly obtížnými nebo dokonce nemožnými pozdějšími změnami; písma mohla být vložena, zajišťující kompatibilitu napříč platformami; a tisk, kopírování a dokonce i otevření mohlo být řízeno na granulární úrovni.

Ještě důležitější je, že tyto základní funkce byly k dispozici v některých z nejstarších “základních” specifikací formátu, slibujících, že archivní materiál nebude muset být později zpracován nebo revidován, aby zajistil přístupnost. Téměř vše, co vládní publikace potřebovala, bylo na místě do roku 1996.

S technologiami blockchain a NFT vzdálenými několika desetiletími, PDF byl tak blízko “mrtvému” analogovému dokumentu, pouze konceptuální skok od faxu. To bylo přesně to, co bylo požadováno.

Vnitřní nesouhlas o PDF

Rozsah, v jakém jsou PDF hermetické, neprůhledné a “nesociální”, je charakterizován v dokumentaci formátu v Knihovně Kongresu, která upřednostňuje PDF jako “přednostní formát”:

‘Hlavním účelem formátu PDF/A je reprezentovat elektronické dokumenty způsobem, který zachovává jejich statický vizuální vzhled v čase, nezávisle na nástrojích a systémech používaných pro vytváření, ukládání nebo vykreslování souborů. K tomuto účelu se PDF/A snaží maximalizovat nezávislost zařízení, samobsažnost a samodokumentaci.’

Trvalý entuziasmus pro formát PDF, standardy pro přístupnost a požadavky na minimální verzi se liší napříč vládními agenturami. Například zatímco Agentura pro ochranu životního prostředí má přísné, ale podpůrné politiky v tomto ohledu, oficiální webová stránka americké vlády plainlanguage.gov uznává, že ‘uživatelé nenávidí PDF’, a dokonce přímo odkazuje na zprávu z roku 2020 Nielsen Norman Group s názvem PDF: Stále nevhodné pro lidskou spotřebu, 20 let poté.

Zatímco irs.gov, vytvořená v roce 1995 speciálně pro přechod dokumentace daňového úřadu na digitální, okamžitě přijala PDF a stále je nadšený obhájce.

Virální šíření PDF

Od doby, kdy Adobe uvolnil specifikace PDF jako open source, se objevila řada server-side procesních nástrojů a knihoven, mnoho z nich je nyní ctihodných a zakořeněných jako specifikace PDF z roku 1996, a stejně spolehlivých a odolných vůči chybám, zatímco softwaroví dodavatelé spěchali integrovat funkčnost PDF do nástrojů s nízkými náklady.

V důsledku toho zůstávají PDF, ať už jsou milovány nebo nenáviděny svými hostitelskými agenturami, všudypřítomné v komunikačních a dokumentačních rámcích napříč obrovským počtem vládních agentur.

V roce 2015 odhadl Phil Ydens, viceprezident pro inženýrství Document Cloud ve společnosti Adobe, že existuje 2,5 bilionu PDF dokumentů na světě, zatímco se předpokládá, že formát představuje somewhere mezi 6-11% veškerého obsahu webu. V technické kultuře, která je závislá na rušení starých technologií, se PDF stal neodstranitelnou “rezavou” – centrální částí struktury, která ho hostí.

Od roku 2018. Není zde žádný důkaz o formidabilním vyzyvateli.

Od roku 2018. Není zde žádný důkaz o formidabilním vyzyvateli. Source: https://twitter.com/trbrtc/status/980407663690502145

Podle nedávné studie výzkumníků z University of Washington a Knihovny Kongresu ‘stovky milionů jedinečných vládních dokumentů USA zveřejněných na webu ve formátu PDF byly archivovány knihovnami do současnosti’.

Výzkumníci však tvrdí, že toto je pouze “špička ledovce”*:

‘Jak uvedl přední digitální historik Roy Rosenzweig již v roce 2003, je-li třeba vyvinout metody a přístupy, které budou škálovat na desítky a stovky milionů, ba sogar miliardy digitálních [zdrojů]. Nyní jsme dospěli do bodu, kdy je nutné vyvinout přístupy pro tuto škálu.

‘Jako příklad, webové archivy Knihovny Kongresu nyní obsahují více než 20 miliard jednotlivých digitálních zdrojů.’

PDF: Odolné vůči analýze

Projekt výzkumníků z Washingtonu aplikuje řadu metod strojového učení na veřejně dostupný a annotovaný korpus 1 000 vybraných dokumentů z Knihovny Kongresu, s cílem vyvinout systémy schopné bleskově rychlé, multimodální rekonstrukce textových a obrazových dotazů ve frameworkách, které mohou škálovat na výšky současných (a rostoucích) objemů PDF, nejen ve vládě, ale napříč množstvím sektorů.

Jak uvádí článek, urychlovací tempo digitalizace napříč řadou balkanizovaných vládních agentur v 90. letech vedlo k rozdílným politikám a postupům, a často k přijetí metod publikování PDF, které neobsahovaly stejnou kvalitu metadat, jakou byla dříve zlatým standardem vládních knihovnických služeb – nebo dokonce základní rodilá metadata PDF, která by mohla být nějak nápomocná při zpřístupnění a indexaci sbírek PDF.

Při diskusi o tomto období narušení autoři poznamenávají:

‘Tyto úsilí vedla k explozivnímu růstu množství vládních publikací, které následně vedly k rozpadu obecného přístupu, jímž byly konzistentní metadata produkována pro tyto publikace a jímž knihovny získaly kopie.’

V důsledku toho existuje typický PDF horský pásma bez jakéhokoli kontextu kromě URL, které přímo odkazují na něj. Kromě toho jsou dokumenty v horském pásmu uzavřené, sebereferenční a nejsou součástí žádné “ságy” nebo narace, kterou současné metodologie hledání pravděpodobně nezjistí, i když takové skryté spojení bezpochyby existují.

Na této škále je ruční anotace nebo katalogizace nemožnou perspektivou. Korpus dat, ze kterého byly odvozeny 1000 dokumentů Knihovny Kongresu, obsahuje více než 40 milionů PDF, které výzkumníci mají v úmyslu řešit v blízké budoucnosti.

Počítačové vidění pro analýzu PDF

Většina předchozích výzkumů, na které autoři odkazují, používá textové metody pro extrakci funkcí a high-level konceptů z materiálu PDF; na rozdíl od toho se jejich projekt zaměřuje na odvození funkcí a trendů zkoumáním PDF na vizuální úrovni, v souladu s současným výzkumem do multimodální analýzy zpravodajského obsahu.

Ačkoli bylo strojové učení také aplikováno tímto způsobem na analýzu PDF prostřednictvím sektorově specifických schémat, jako je Semantic Scholar, autoři mají za cíl vytvořit více high-level extrakční potrubí, která jsou široce aplikovatelná napříč řadou publikací, spíše než upravená pro přísnosti vědeckého publikování nebo jiných stejně úzkých sektorů.

Řešení nevyvážených dat

Při vytváření schématu metrik museli výzkumníci zohlednit, jak je data zkreslená, alespoň z hlediska velikosti položky.

Z 1000 PDF ve vybrané datové sadě (kterou autoři předpokládají jako reprezentativní pro 40 milionů, ze kterých byly vybrány), je 33% pouze jedinou stránkou, a 39% je 2-5 stránek dlouhé. To znamená, že 72% dokumentů má pět stránek nebo méně.

Poté je zde poměrně velký skok: 18% zbývajících dokumentů má 6-20 stránek, 6% má 20-100 stránek a 3% má 100+ stránek. To znamená, že nejdelší dokumenty tvoří většinu jednotlivých stránek, zatímco méně granulární přístup, který zohledňuje dokumenty samotné, by zkreslil pozornost směrem k mnohem více četným kratším dokumentům.

Přesto jsou tyto metriky nápomocné, protože jednostřánkové dokumenty mají tendenci být technickými schématy nebo mapami; 2-5stránkové dokumenty mají tendenci být tiskovými zprávami a formuláři; a velmi dlouhé dokumenty jsou obecně knihy a publikace, i když, z hlediska délky, jsou smíšeny s obrovskými automatickými výpisy dat, které obsahují zcela odlišné výzvy pro sémantickou interpretaci.

Proto výzkumníci považují tuto nerovnováhu za smysluplnou sémantickou vlastnost sama o sobě. Přesto PDF musí být zpracovány a kvantifikovány na základě stránky.

Architektura

Na začátku procesu je metadata PDF parsováno do tabulkových dat. Tato metadata nebudou chybět, protože se skládají z známých množství, jako je velikost souboru a zdroj URL.

PDF je poté rozdělen do stránek, s každou stránkou převedenou do formátu JPEG prostřednictvím ImageMagick. Obrázek je poté krmen do sítě ResNet-50, která odvozuje 2 048dimenzionální vektor ze druhé poslední vrstvy.

Potrubí pro extrakci z PDF.

Potrubí pro extrakci z PDF. Source: https://arxiv.org/ftp/arxiv/papers/2112/2112.02471.pdf

Současně je stránka převedena do textového souboru pomocí pdf2text, a TF-IDF featurizace je získaná prostřednictvím scikit-learn.

TF-IDF znamená Term Frequency Inverse Document Frequency, což měří prevalenci každé fráze v rámci dokumentu vůči jeho frekvenci v rámci hostitelské datové sady, na jemné škále 0 až 1. Výzkumníci použili jednotlivá slova (unigramy) jako nejmenší jednotku v nastavení TF-IDF systému.

Ačkoli uznávají, že strojové učení nabízí sofistikovanější metody než TF-IDF, autoři argumentují, že cokoli složitějšího je zbytečné pro stanovený úkol.

Skutečnost, že každý dokument má přidružený zdroj URL, umožňuje systému určit původ dokumentů v rámci datové sady.

To může vypadat jako triviální pro tisíc dokumentů, ale bude to docela otevřené pro 40 milionů+.

Nové přístupy k textovému hledání

Jedním z cílů projektu je učinit výsledky hledání pro textové dotazy smysluplnějšími, umožňujícími plodné prozkoumání bez potřeby nadměrných předchozích znalostí. Autoři uvádějí:

‘Zatímco hledání klíčových slov je intuitivní a vysoce extenzivní metodou hledání, může být také omezující, protože uživatelé jsou odpovědní za formulaci dotazů klíčových slov, které vracejí relevantní výsledky.’

Jakmile jsou získány hodnoty TF-IDF, je možné vypočítat nejčastěji uváděná slova a odhadnout “průměrný” dokument v korpusu. Výzkumníci tvrdí, že jelikož tyto mezi-dokumentní klíčová slova jsou obvykle smysluplná, tento proces vytváří užitečné vztahy pro učence k prozkoumání, které by nebylo možné získat pouze individualizovaným indexováním textu každého dokumentu.

Vizuálně, proces usnadňuje “mood board” slov vyzařujících z různých vládních agentur:

TF-IDF klíčová slova pro různé americké vládní agentury, získaná pomocí TF-IDF.

TF-IDF klíčová slova pro různé americké vládní agentury, získaná pomocí TF-IDF.

Tyto extrahované klíčová slova a vztahy lze později použít k vytvoření dynamických matic v výsledcích hledání, s korpusu PDF začínajícím “vyprávět příběhy”, a klíčová slova vztahující se k dokumentům (možná i po stovky let), aby obkreslily prozkoumatelnou multi-part “ságu” pro téma nebo téma.

Výzkumníci používají k-means clustering k identifikaci dokumentů, které jsou související, i když dokumenty nesdílejí společný zdroj. To umožňuje vývoj klíčových slov metadat aplikovatelných napříč datovou sadou, které by se manifestovaly buď jako hodnocení pro termíny v přísném textovém hledání, nebo jako blízké uzly v dynamickém prostředí prozkoumání:

Visuální analýza

Skutečná novinka přístupu washingtonských výzkumníků spočívá v aplikaci technik vizuální analýzy založených na strojovém učení na rasterizovaný vzhled PDF v datové sadě.

Tímto způsobem je možné vygenerovat “REDACTED” štítek na vizuálním základě, kde by nic v textu samotném neposkytovalo dostatečně společný základ.

Klastr redigovaných titulních stránek PDF identifikovaných počítačovým viděním v novém projektu.

Klastr redigovaných titulních stránek PDF identifikovaných počítačovým viděním v novém projektu.

Kromě toho lze touto metodou odvodit takový štítek i z vládních dokumentů, které byly rasterizovány, což je často případ redigovaného materiálu, což umožňuje vyčerpávající a komplexní hledání této praxe.

Navíc lze mapy a schémata identifikovat a kategorizovat, a autoři komentují tuto potenciální funkčnost:

‘Pro učence, kteří se zajímají o odhalení klasifikovaných nebo jinak citlivých informací, může být izolovat přesně tento typ klastru materiálu pro analýzu a výzkum velmi zajímavé.’

Článek poznamenává, že široká škála vizuálních indikátorů společných pro konkrétní typy vládních PDF lze podobně použít ke klasifikaci dokumentů a vytváření “ság”. Takové “tokeny” by mohly být pečeť Kongresu nebo jiné loga nebo recurentní vizuální funkce, které nemají žádnou sémantickou existenci v čistém textovém hledání.

Kromě toho lze dokumenty, které se vzpírají klasifikaci, nebo které pocházejí z nekomunálního zdroje, identifikovat podle jejich rozložení, jako jsou sloupce, typy písem a další rozlišující aspekty.

Rozložení samo o sobě může poskytnout seskupení a klasifikace ve vizuálním prostoru hledání.

Rozložení samo o sobě může poskytnout seskupení a klasifikace ve vizuálním prostoru hledání.

Ačkoli autoři nezanedbali text, je zřejmé, že vizuální prostor hledání je tím, co pohání tuto práci.

‘Schopnost hledat a analyzovat PDF podle jejich vizuálních funkcí je tak kapacitní přístup: nejenže doplňuje existující úsilí týkající se textové analýzy, ale také reimagines, co hledání a analýza mohou být pro narozený digitální obsah.’

Autoři mají v úmyslu vyvinout svůj framework, aby zahrnoval mnohem větší datové sady, včetně 2008 End of Term Presidential Web Archive datové sady, která obsahuje více než 10 milionů položek. Zpočátku však mají v úmyslu škálovat systém, aby řešil “desítky tisíc” vládních PDF.

Systém je určen k vyhodnocení inicializací s reálnými uživateli, včetně knihovníků, archivářů, právníků, historiků a dalších učenců, a bude se vyvíjet na základě zpětné vazby od těchto skupin.

 

Zvládání rozsahu narozených digitálních vládních publikací: K pipeline pro zpracování a hledání milionů PDF je napsán Benjaminem Charlesem Germainem Lee (na Paul G. Allen School for Computer Science & Engineering) a Trevorem Owenem, veřejným historikem a vedoucím digitálního obsahu v Knihovně Kongresu ve Washingtonu, D.C..

 

* Moje konverze inline citací na hypertextové odkazy.

Původně zveřejněno 28. prosince 2021

 

Spisovatel o strojovém učení, doménový specialista na syntézu lidského obrazu. Bývalý vedoucí výzkumného obsahu ve společnosti Metaphysic.ai.
Osobní stránky: martinanderson.ai