Umělá inteligence

Vypořádejte se s horou PDF vlády USA s počítačovým viděním

aktualizováno on 9. prosince 2022

Formát PDF společnosti Adobe se tak hluboce zakořenil v zásobování dokumentů vlády USA, že počet aktuálně existujících státem vydaných dokumentů se konzervativně odhaduje na stovky milionů. Tyto soubory PDF, často neprůhledné a postrádající metadata, – mnohé vytvořené automatizovanými systémy – nevyprávějí společně žádné příběhy ani ságy; pokud přesně nevíte, co hledáte, pravděpodobně nikdy nenajdete relevantní dokument. A pokud jste věděli, pravděpodobně jste hledání nepotřebovali.

Nový projekt však využívá počítačové vidění a další přístupy strojového učení, aby změnil tuto téměř nedostupnou horu dat na cenný a prozkoumatelný zdroj pro výzkumníky, historiky, novináře a vědce.

Když americká vláda v 1990. letech objevila formát PDF (Portable Document Format), rozhodla se, že se jí líbí. Na rozdíl od upravitelných dokumentů aplikace Word mohly být soubory PDF „pečeny“ různými způsoby, což ztěžovalo nebo dokonce znemožnilo pozdější úpravy; fonty by mohly být vloženy, což zajišťuje kompatibilitu napříč platformami; a tisk, kopírování a dokonce i otevírání bylo možné kontrolovat na granulární bázi.

Ještě důležitější je, že tyto základní funkce byly dostupné v některých z nejstarších „základních“ specifikací formátu, což slibovalo, že archivní materiál nebude nutné později znovu zpracovávat nebo znovu navštěvovat, aby byla zajištěna dostupnost. Téměř vše, co vládní vydavatelství potřebovalo, bylo na místě by 1996.

S proveniencem blockchainu a technologiemi NFT vzdálenými desítky let bylo PDF tak blízko, jak se nastupující digitální věk mohl dostat k „mrtvému“ analogovému dokumentu, pouze koncepční zádrhel od faxu. To bylo přesně to, co se chtělo.

Vnitřní nesouhlas o PDF

Míra, do jaké jsou soubory PDF hermetické, neovladatelné a „nesociální“, je charakterizována v dokumentace o formátu v Library of Congress, který upřednostňuje PDF jako svůj „preferovaný formát“:

„Primárním účelem formátu PDF/A je reprezentovat elektronické dokumenty způsobem, který zachovává jejich statický vizuální vzhled v průběhu času, nezávisle na nástrojích a systémech používaných k vytváření, ukládání nebo vykreslování souborů. Za tímto účelem se PDF/A pokouší maximalizovat nezávislost na zařízení, sebekontrolu a vlastní dokumentaci.'

Neustálé nadšení pro formát PDF, standardy pro přístupnost a požadavky na minimální verzi, to vše se mezi ministerstvy vlády USA liší. Například, zatímco Agentura pro ochranu životního prostředí ano přísné, ale podpůrné politiky v tomto ohledu oficiální web vlády USA plainlanguage.gov uznává že 'uživatelé nenávidí PDF'a dokonce přímo odkazuje na skupinu Nielsen Norman Group pro rok 2020 zprávy název PDF: O 20 let později stále nevhodný pro lidskou spotřebu.

Mezitím irs.gov, vytvořeno v roce 1995 konkrétně k přechodu dokumentace daňové agentury na digitální, okamžitě přijaté PDF a je stále a horlivý obhájce.

Virové šíření PDF

Vzhledem k tomu, že základní specifikace pro PDF byly uvolněny jako open source společností Adobe, a tranše se objevilo mnoho nástrojů a knihoven pro zpracování na straně serveru ctihodný a zakořeněné jako specifikace PDF z éry 1996 a jako spolehlivé a odolné proti chybám, zatímco dodavatelé softwaru spěchali s integrací funkcí PDF do levných nástrojů.

V důsledku toho, soubory PDF milované nebo nenáviděné svými hostitelskými odděleními, zůstávají všudypřítomné v komunikačních a dokumentačních rámcích napříč velkým počtem ministerstev USA.

V roce 2015 Phil Ydens, viceprezident Adobe pro inženýrství pro Document Cloud odhadované že na světě existuje 2.5 bilionu PDF dokumentů, přičemž se předpokládá, že tento formát tvoří někde mezi 6-11 % veškerého webového obsahu. V technologické kultuře závislé na narušování starých technologií se PDF stalo nevykořenitelným „rezem“ – ústřední částí struktury, která jej hostí.

Od roku 2018. Důkazů o impozantním vyzyvateli je zatím málo. Zdroj: https://twitter.com/trbrtc/status/980407663690502145

Podle jednoho Nedávná studie od výzkumníků z Washingtonské univerzity a Kongresové knihovny, „Knihovny dosud archivovaly stovky milionů jedinečných dokumentů vlády USA zveřejněných na webu ve formátu PDF“.

Přesto vědci tvrdí, že toto je jen „špička ledovce“*:

„Jak přední vědec v oblasti digitální historie Roy Rosenzweig poznamenal již v roce 2003, pokud jde o primární digitální zdroje pro studium, je nezbytné vyvinout metody a přístupy, které se rozšíří na desítky a stovky milionů a dokonce miliardy digitálních [ zdroje]. Nyní jsme dospěli k bodu, kdy je nezbytné vyvinout přístupy pro toto měřítko.

"Například webové archivy Library of Congress nyní obsahují více než 20 miliard jednotlivých digitálních zdrojů."

PDF: Odolné vůči analýze

Projekt washingtonských výzkumníků aplikuje řadu metod strojového učení na a veřejně dostupné a anotován korpus 1,000 XNUMX vybraných dokumentů z Kongresové knihovny se záměrem vyvinout systémy schopné bleskově rychlého, multimodálního vyhledávání textových a obrazových dotazů v rámcích, které mohou škálovat až do výše aktuálních (a rostoucích) svazků PDF, nikoli pouze ve vládě, ale napříč mnoha sektory.

Jak dokument poznamenává, zrychlující se tempo digitalizace v celé řadě balkanizovaných vládních ministerstev USA v 1990. letech vedlo k odlišným politikám a praktikám a často k přijetí metod publikování PDF, které neobsahovaly stejnou kvalitu metadat jako kdysi. zlatý standard služeb státních knihoven – nebo dokonce velmi základní nativní metadata PDF, která mohla pomoci při zpřístupnění sbírek PDF a jejich lepším indexování.

Při diskusi o tomto období narušení autoři poznamenávají:

"Tyto snahy vedly k explozivnímu nárůstu množství vládních publikací, což následně vedlo ke zhroucení obecného přístupu, kterým byla pro tyto publikace vytvářena konzistentní metadata a pomocí kterých knihovny získávaly jejich kopie."

V důsledku toho existuje typická hora PDF bez jakéhokoli kontextu kromě adres URL, které na ni přímo odkazují. Kromě toho jsou dokumenty v hoře uzavřené, odkazují se na sebe a netvoří součást žádné „ságy“ nebo vyprávění, které by současné vyhledávací metodologie pravděpodobně rozeznaly, i když takové skryté souvislosti nepochybně existují.

V uvažovaném měřítku je ruční anotace nebo kurace nemožná vyhlídka. Korpus dat, ze kterých bylo odvozeno 1000 dokumentů Library of Congress projektu, obsahuje přes 40 milionů PDF, což vědci hodlají v blízké budoucnosti řešit jako výzvu.

Počítačové vidění pro analýzu PDF

Většina předchozích výzkumů, které autoři citují, používá metody založené na textu k extrahování funkcí a konceptů na vysoké úrovni z materiálu PDF; jejich projekt se naopak soustředí na odvozování funkcí a trendů zkoumáním souborů PDF na vizuální úrovni, v souladu s aktuální výzkum do multimodální analýzy obsahu zpráv.

Přestože strojové učení bylo tímto způsobem aplikováno také na analýzu PDF prostřednictvím sektorově specifických schémat, jako je např Sémantický učenec, autoři si kladou za cíl vytvořit více extrakčních potrubí na vysoké úrovni, které jsou široce použitelné v celé řadě publikací, spíše než laděné do přísných kritérií vědeckého publikování nebo jiných stejně úzkých sektorů.

Řešení nevyvážených dat

Při vytváření schématu metrik museli vědci zvážit, jak zkreslená jsou data, alespoň pokud jde o velikost na položku.

Z 1000 PDF ve vybraném datovém souboru (u kterého autoři předpokládají, že reprezentují 40 milionů, ze kterých byly nakresleny), 33 % má pouze stránku a 39 % má 2-5 stránek. To znamená, že 72 % dokumentů má pět nebo méně stránek.

Poté je tu docela velký skok: 18 % zbývajících dokumentů běží na 6-20 stranách, 6 % na 20-100 stranách a 3 % na 100+ stranách. To znamená, že nejdelší dokumenty obsahují většinu jednotlivých vyjmutých stránek, zatímco méně podrobný přístup, který bere v úvahu pouze dokumenty, by odvedl pozornost k mnohem početnějšímu kratším dokumentům.

Nicméně jsou to metriky, které jsou prozíravé, protože jednostránkové dokumenty bývají technickými schématy nebo mapami; 2-5stránkové dokumenty bývají tiskové zprávy a formuláře; a velmi dlouhé dokumenty jsou obecně zprávy a publikace v délce knihy, i když z hlediska délky jsou smíšené s rozsáhlými automatickými výpisy dat, které obsahují zcela odlišné výzvy pro sémantickou interpretaci.

Proto vědci zacházejí s touto nerovnováhou jako s významnou sémantickou vlastností samotnou. Soubory PDF je však stále třeba zpracovávat a kvantifikovat na základě jednotlivých stránek.

Architektura

Na začátku procesu jsou metadata PDF analyzována do tabulkových dat. Tato metadata nebudou chybět, protože se skládají ze známých veličin, jako je velikost souboru a zdrojová URL.

PDF je poté rozděleno na stránky, přičemž každá stránka je převedena do formátu JPEG pomocí ImageMagick. Obraz je poté přiveden do sítě ResNet-50, která odvozuje 2,048rozměrný vektor z předposlední vrstvy.

Potrubí pro extrakci z PDF. Zdroj: https://arxiv.org/ftp/arxiv/papers/2112/2112.02471.pdf

Současně je stránka převedena na textový soubor pomocí pdf2text a funkce TF-IDF získané prostřednictvím scikit-učit se.

TF-IDF znamená Termín Frekvence Inverzní Frekvence dokumentu, který měří prevalenci každé fráze v dokumentu na její frekvenci v celém jeho hostitelském datovém souboru, na jemnozrnné stupnici od 0 do 1. Výzkumníci použili jednotlivá slova (unigramy) jako nejmenší jednotku v nastavení systému TF-IDF.

Ačkoli uznávají, že strojové učení nabízí sofistikovanější metody než TF-IDF, autoři tvrdí, že cokoli složitějšího je pro uvedený úkol zbytečné.

Skutečnost, že každý dokument má přidruženou zdrojovou adresu URL, umožňuje systému určit původ dokumentů v datové sadě.

Na tisíc dokumentů se to může zdát triviální, ale za více než 40 milionů to bude docela otevření očí.

Nové přístupy k vyhledávání textu

Jedním z cílů projektu je zvýšit smysluplnost výsledků vyhledávání textových dotazů, což umožní plodné prozkoumávání bez nutnosti nadměrných předchozích znalostí. Autoři uvádějí:

"I když je vyhledávání pomocí klíčových slov intuitivní a vysoce rozšiřitelná metoda vyhledávání, může být také omezující, protože uživatelé jsou zodpovědní za formulování dotazů na klíčová slova, které získávají relevantní výsledky."

Jakmile jsou získány hodnoty TF-IDF, je možné vypočítat nejčastěji uváděná slova a odhadnout „průměrný“ dokument v korpusu. Výzkumníci tvrdí, že jelikož tato klíčová slova pro více dokumentů jsou obvykle smysluplná, tento proces vytváří užitečné vztahy pro vědce k prozkoumání, které nelze získat pouze individuálním indexováním textu každého dokumentu.

Vizuálně tento proces usnadňuje „náladovou tabuli“ slov vycházejících z různých vládních ministerstev:

Klíčová slova TF-IDF pro různá ministerstva vlády USA, získaná TF-IDF.

Tato extrahovaná klíčová slova a vztahy mohou být později použity k vytvoření dynamických matic ve výsledcích vyhledávání, přičemž korpus PDF začíná „vyprávět příběhy“ a vztahy klíčových slov spojují dokumenty (možná i po stovky let), aby nastínily prozkoumatelnou multi- část 'sága' na téma nebo téma.

Výzkumníci používají shlukování k-means k identifikaci dokumentů, které spolu souvisejí, i když dokumenty nesdílejí společný zdroj. To umožňuje vývoj metadat klíčových frází použitelných v celé datové sadě, která by se projevila buď jako hodnocení výrazů v přísném textovém vyhledávání, nebo jako blízké uzly v dynamičtějším prostředí průzkumu:

Vizuální analýza

Skutečnou novinkou přístupu washingtonských výzkumníků je použití technik vizuální analýzy založené na strojovém učení na rastrovaný vzhled souborů PDF v datové sadě.

Tímto způsobem je možné generovat značku 'REDACTED' na vizuálním základě, kde nic v samotném textu nemusí nutně poskytovat dostatečně společný základ.

Shluk redigovaných titulních stránek PDF identifikovaných počítačovým viděním v novém projektu.

Kromě toho může tato metoda odvodit takovou značku i z vládních dokumentů, které byly rastrovány, což je často případ redigovaných materiálů, což umožňuje vyčerpávající a komplexní vyhledávání této praxe.

Kromě toho lze také identifikovat a kategorizovat mapy a schémata a autoři komentují tuto potenciální funkci:

"Pro vědce, kteří se zajímají o zveřejnění utajovaných nebo jinak citlivých informací, může být obzvláště zajímavé izolovat přesně tento typ shluku materiálu pro analýzu a výzkum."

Dokument poznamenává, že pro klasifikaci dokumentů a vytváření „ság“ lze rovněž použít širokou škálu vizuálních indikátorů společných pro konkrétní typy vládních PDF. Takovými „žetony“ mohou být pečeť Kongresu nebo jiná loga nebo opakující se vizuální prvky, které v čistě textovém vyhledávání nemají žádnou sémantickou existenci.

Kromě toho dokumenty, které se vzpírají klasifikaci nebo kde dokument pochází z jiného než běžného zdroje, lze identifikovat podle jejich rozvržení, jako jsou sloupce, typy písem a další charakteristické aspekty.

Samotné rozvržení umožňuje seskupení a klasifikaci ve vizuálním vyhledávacím prostoru.

Ačkoli autoři nezanedbali text, je jasné, že vizuální vyhledávací prostor je hnacím motorem této práce.

"Možnost vyhledávat a analyzovat soubory PDF podle jejich vizuálních vlastností je tedy rozsáhlým přístupem: nejen rozšiřuje stávající úsilí týkající se textové analýzy, ale také přetváří, co může být vyhledávání a analýza pro narozený digitální obsah."

Autoři mají v úmyslu vyvinout svůj rámec tak, aby vyhovoval mnohem, mnohem větším datovým sadám, včetně 2008 Konec funkčního období Prezidentský webový archiv dataset, která obsahuje přes 10 milionů položek. Zpočátku však mají v úmyslu systém rozšířit tak, aby řešil „desítky tisíc“ vládních PDF.

Systém je určen k prvotnímu hodnocení skutečnými uživateli, včetně knihovníků, archivářů, právníků, historiků a dalších vědců, a bude se vyvíjet na základě zpětné vazby od těchto skupin.

Potýkáme se s rozsahem původních digitálních vládních publikací: Na cestě ke zpracování a prohledávání milionů PDF napsal Benjamin Charles Germain Lee (na Paul G. Allen School for Computer Science & Engineering) a Trevor Owens, rezidentní veřejný historik a vedoucí správy digitálního obsahu v Library of Congress ve Washingtonu, DC.

* Můj převod inline citací na hypertextové odkazy.

Původně publikováno 28. prosince 2021