Sztuczna inteligencja

Rozwiązywanie problemu górskiej ilości PDF w rządzie USA za pomocą komputerowego widzenia

Published December 28, 2021

Updated April 26, 2026

Martin Anderson

Format PDF firmy Adobe zakorzenił się tak głęboko w rządowych amerykańskich dokumentach, że liczba dokumentów wydanych przez państwo, które obecnie istnieją, jest konserwatywnie szacowana na setki milionów. Często nieprzezroczyste i pozbawione metadanych, te pliki PDF – wiele z nich zostało utworzonych przez automatyczne systemy – łącznie nie opowiadają żadnych historii ani sag; jeśli nie wiesz dokładnie, czego szukasz, prawdopodobnie nigdy nie znajdziesz odpowiedniego dokumentu. I jeśli wiesz, to prawdopodobnie nie potrzebujesz wyszukiwania. Jednak nowy projekt wykorzystuje komputerowe widzenie i inne podejścia uczenia maszynowego, aby zmienić tę niemal nieprzezwyciężoną górę danych w cenny i przeszukiwalny zasób dla badaczy, historyków, dziennikarzy i uczonych.

Gdy rząd USA odkrył w latach 90. format PDF firmy Adobe, postanowił, że mu się podoba. W przeciwieństwie do edytowalnych dokumentów Word, pliki PDF mogły być “upieczone” na wiele sposobów, co utrudniało lub uniemożliwiało ich późniejszą modyfikację; czcionki mogły być osadzone, co zapewniało kompatybilność międzyplatformową; a drukowanie, kopiowanie i nawet otwieranie mogły być kontrolowane w sposób szczegółowy.

Co więcej, te podstawowe funkcje były dostępne w niektórych z najstarszych “podstawowych” specyfikacji formatu, co obiecywało, że materiały archiwalne nie będą musiały być ponownie przetwarzane lub ponownie odwiedzane później, aby zapewnić dostępność. Prawie wszystko, czego potrzebowało wydawnictwo rządowe, było na miejscu do 1996 roku.

Z technologiami blockchain i NFT jeszcze kilka dekad do przodu, format PDF był tak blisko “martwego” dokumentu analogowego, jak tylko mogło to być możliwe w erze cyfrowej – jedynie konceptualny krok od faksu. To było dokładnie to, czego chciano.

Wewnętrzne sprzeciwy wobec PDF

Stopień, w jakim pliki PDF są hermetyczne, nieprzezroczyste i “niespołeczne”, jest scharakteryzowany w dokumentacji na temat formatu w Bibliotece Kongresu, która faworyzuje format PDF jako swój “preferowany format”:

‘Głównym celem formatu PDF/A jest reprezentowanie dokumentów elektronicznych w sposób, który zachowuje ich statyczny wygląd wizualny w czasie, niezależnie od narzędzi i systemów używanych do tworzenia, przechowywania lub renderowania plików. W tym celu format PDF/A stara się maksymalizować niezależność od urządzenia, samowystarczalność i samodokumentację.’

Trwające entuzjazm dla formatu PDF, standardy dostępności i wymagania dotyczące minimalnej wersji różnią się w różnych departamentach rządu USA. Na przykład, podczas gdy Agencja Ochrony Środowiska ma surowe, ale wspierające polityki w tym zakresie, oficjalna strona internetowa rządu USA plainlanguage.gov uznaje, że ‘użytkownicy nienawidzą plików PDF’, i nawet łączy się bezpośrednio z raportem z 2020 roku grupy Nielsen Norman o tytule PDF: Nadal nieodpowiedni do spożycia przez ludzi, 20 lat później.

Tymczasem strona irs.gov, utworzona w 1995 roku specjalnie w celu przejścia agencji podatkowej na dokumenty cyfrowe, natychmiast przyjęła format PDF i nadal jest gorącym orędownikiem.

Wirusowy rozprzestrzenianie się plików PDF

Od momentu, gdy specyfikacje rdzenia formatu PDF zostały udostępnione przez firmę Adobe, wiele serwerowych narzędzi i bibliotek przetwarzania pojawiło się, wiele z nich jest teraz szanowanym i zakorzenionym jak 1996 roku specyfikacje PDF, i tak samo niezawodnym i odporne na błędy, podczas gdy dostawcy oprogramowania spieszyli, aby zintegrować funkcjonalność PDF z tanimi narzędziami.

W konsekwencji, pliki PDF pozostają wszechobecne w ramach komunikacji i dokumentacji w wielu departamentach rządu USA.

W 2015 roku wiceprezes ds. inżynierii w firmie Adobe, Phil Ydens oszacował, że 2,5 biliona dokumentów PDF istnieje na świecie, podczas gdy format jest uważany za odpowiedzialny za 6-11% wszystkich treści internetowych. W kulturze technologicznej uzależnionej od zakłócania starych technologii, format PDF stał się nieusuwalnym “rdzą” – centralną częścią struktury, która go zawiera.

Od 2018 roku. Nie ma wielu dowodów na potężnego rywala. Źródło: https://twitter.com/trbrtc/status/980407663690502145

Według niedawnego badania przeprowadzonego przez badaczy z Uniwersytetu Waszyngtońskiego i Biblioteki Kongresu, ‘setki milionów unikalnych dokumentów rządowych USA opublikowanych w formacie PDF zostały zarchiwizowane przez biblioteki do tej pory’.

Jednak badacze twierdzą, że jest to tylko “wierzchołek góry lodowej”*:

‘Jak zauważył wiodący historyk cyfrowy Roy Rosenzweig już w 2003 roku, jeśli chodzi o pierwotnie cyfrowe źródła podstawowe dla badań, konieczne jest rozwinięcie metod i podejść, które będą skalować się do dziesiątek i setek milionów, a nawet miliardów cyfrowych [zasobów]. Teraz dotarliśmy do punktu, w którym rozwinięcie podejść do tej skali jest konieczne.

‘Przykładowo, archiwa internetowe Biblioteki Kongresu zawierają obecnie ponad 20 miliardów indywidualnych cyfrowych zasobów.’

Pliki PDF: Odporne na analizę

Projekt badaczy z Waszyngtonu stosuje wiele metod uczenia maszynowego do publicznie dostępnego i opisanego korpusu 1000 wybranych dokumentów z Biblioteki Kongresu, z zamiarem opracowania systemów zdolnych do błyskawicznego, wielomodalnego pobierania tekstu i obrazów opartych na zapytaniach w ramach, które mogą skalować się do aktualnych (i rosnących) wolumenów PDF, nie tylko w rządzie, ale także w wielu sektorach.

Jak zauważa praca, przyspieszony tempem digitalizacji w różnych departamentach rządu USA w latach 90. doprowadził do rozbieżnych polityk i praktyk, i często do przyjęcia metod publikowania PDF, które nie zawierały takiego samego poziomu metadanych, jaki kiedyś był standardem usług bibliotecznych rządu – lub nawet podstawowych rodzimych metadanych PDF, które mogłyby być pomocne w uczynieniu zbiorów PDF bardziej dostępnymi i przyjaznymi do indeksowania.

Omawiając ten okres zakłóceń, autorzy zauważają:

‘Te wysiłki doprowadziły do eksplozywnego wzrostu ilości publikacji rządowych, co z kolei doprowadziło do załamania się ogólnego podejścia, w którym spójne metadane były produkowane dla takich publikacji i w którym biblioteki nabywały kopie.’

W konsekwencji, typowa góra plików PDF istnieje bez żadnego kontekstu, poza adresami URL, które łączą się bezpośrednio z nimi. Ponadto, dokumenty w górze są zamknięte, samoreferencyjne i nie tworzą części żadnej “sagi” lub narracji, którą obecne metody wyszukiwania są prawdopodobnie w stanie rozpoznać, nawet jeśli takie ukryte połączenia bez wątpienia istnieją.

Na takiej skali ręczne adnotowanie lub kuracja jest niemożliwym przedsięwzięciem. Korpus danych, z którego pochodzi 1000 dokumentów Biblioteki Kongresu, zawiera ponad 40 milionów plików PDF, które badacze zamierzają uczynić możliwym do adresowania w najbliższej przyszłości.

Widzenie komputerowe do analizy PDF

Większość wcześniejszych badań, które cytują autorzy, wykorzystuje metody oparte na tekście do wyodrębniania funkcji i wysokopoziomowych pojęć z materiału PDF; w przeciwieństwie do tego, ich projekt koncentruje się na wyodrębnianiu funkcji i trendów poprzez badanie plików PDF na poziomie wizualnym, zgodnie z bieżącymi badaniami nad analizą multimodalną treści informacyjnej.

Chociaż uczenie maszynowe zostało również zastosowane w ten sposób do analizy PDF za pomocą schematów branżowych, takich jak Semantic Scholar, autorzy mają na celu stworzenie bardziej wysokopoziomowych potoków wyodrębniania, które są szeroko stosowalne w różnych publikacjach, a nie dostosowane do surowych wymagań publikacji naukowych lub innych równie wąskich sektorów.

Rozwiązywanie problemu niewyważonych danych

Tworząc schemat metryk, badacze musieli uwzględnić, jak bardzo danych jest nachylonych, przynajmniej pod względem rozmiaru na element.

Z 1000 plików PDF w wybranym zestawie danych (które autorzy zakładają, że są reprezentatywne dla 40 milionów, z których zostały wybrane), 33% ma tylko jedną stronę, a 39% ma od 2 do 5 stron. To oznacza, że 72% dokumentów ma pięć stron lub mniej.

Po tym następuje dość duży skok: 18% pozostałych dokumentów ma od 6 do 20 stron, 6% ma od 20 do 100 stron, a 3% ma ponad 100 stron. To oznacza, że najdłuższe dokumenty stanowią większość poszczególnych stron wyodrębnionych, podczas gdy mniej szczegółowe podejście, które uwzględnia same dokumenty, przekładałoby uwagę na znacznie liczniejsze krótsze dokumenty.

Niemniej jednak, są to pouczające metryki, ponieważ dokumenty jednostroinicowe mają tendencję być technicznymi schematami lub mapami; dokumenty 2-5 stronicowe mają tendencję być komunikatami prasowymi i formularzami; a bardzo długie dokumenty są zwykle raportami książkowymi i publikacjami, chociaż, pod względem długości, są one mieszane z ogromnymi automatycznymi zrzutami danych, które zawierają całkowicie inne wyzwania dla interpretacji semantycznej.

Dlatego badacze traktują ten brak równowagi jako znaczącą własność semantyczną sama w sobie. Niemniej jednak, pliki PDF nadal muszą być przetwarzane i ilościowo określone na podstawie poszczególnych stron.

Architektura

Na początku procesu metadane pliku PDF są parsowane do danych tabelarycznych. Te metadane nie będą niedostępne, ponieważ składają się z znanych ilości, takich jak rozmiar pliku i adres URL źródłowy.

Plik PDF jest następnie podzielony na strony, a każda strona jest konwertowana do formatu JPEG za pomocą ImageMagick. Obraz jest następnie podawany do sieci ResNet-50, która wyodrębnia 2048-wymiarowy wektor z warstwy przedostatniej.

Potok wyodrębniania z plików PDF. Źródło: https://arxiv.org/ftp/arxiv/papers/2112/2112.02471.pdf

Jednocześnie strona jest konwertowana do pliku tekstowego za pomocą pdf2text, a featuryzacje TF-IDF są uzyskiwane za pomocą scikit-learn.

TF-IDF oznacza częstotliwość terminu – odwrotna częstotliwość dokumentu, która mierzy rozpowszechnienie każdego wyrażenia w dokumencie do jego częstotliwości w całym zbiorze danych, na drobnym poziomie od 0 do 1. Badacze użyli pojedynczych słów (unigramów) jako najmniejszej jednostki w ustawieniach TF-IDF systemu.

Chociaż uznają, że uczenie maszynowe ma do zaoferowania bardziej zaawansowane metody niż TF-IDF, autorzy twierdzą, że cokolwiek bardziej złożonego jest niepotrzebne do określonego zadania.

Fakt, że każdy dokument ma powiązany z nim adres URL źródłowy, umożliwia systemowi określenie pochodzenia dokumentów w całym zbiorze danych.

To może się wydawać trywialne dla 1000 dokumentów, ale będzie to dość otwierające oczy dla 40 milionów+.

Nowe podejścia do wyszukiwania tekstu

Jednym z celów projektu jest uczynienie wyników wyszukiwania dla zapytań opartych na tekście bardziej znaczącymi, umożliwiając owocne eksplorowanie bez potrzeby nadmiernej wiedzy wcześniej. Autorzy stwierdzają:

‘Podczas gdy wyszukiwanie słów kluczowych jest intuicyjną i bardzo rozszerzalną metodą wyszukiwania, może być również ograniczające, ponieważ użytkownicy są odpowiedzialni za formułowanie zapytań słów kluczowych, które zwracają istotne wyniki.’

Gdy wartości TF-IDF są uzyskane, możliwe jest obliczenie najczęściej występujących słów i oszacowanie “średniego” dokumentu w korpusie. Badacze twierdzą, że ponieważ te słowa kluczowe międzydokumentowe są zwykle znaczące, ten proces tworzy użyteczne relacje dla uczonych do eksploracji, które nie mogłyby zostać uzyskane wyłącznie przez indywidualne indeksowanie tekstu każdego dokumentu.

Wizualnie, proces ułatwia “tablicę nastrojów” słów pochodzących z różnych departamentów rządowych:

Słowa kluczowe TF-IDF dla różnych departamentów rządowych USA, uzyskane za pomocą TF-IDF.

Te wyodrębnione słowa kluczowe i relacje mogą później zostać użyte do utworzenia dynamicznych macierzy w wynikach wyszukiwania, z korpusem plików PDF zaczynającym “opowiadać historie”, a relacjami słów kluczowych łączącymi dokumenty (może nawet przez setki lat), aby zarysować eksplorowalną, wieloczęściową “sagę” dla tematu lub motywu.

Badacze używają klastrowania k-średnich, aby zidentyfikować dokumenty, które są powiązane, nawet wtedy, gdy dokumenty nie mają wspólnego źródła. To umożliwia rozwinięcie metadanych fraz kluczowych, które mają zastosowanie w całym zbiorze danych, co mogłoby się objawić albo jako rankingi terminów w ścisłym wyszukiwaniu tekstu, albo jako sąsiednie węzły w bardziej dynamicznym środowisku eksploracji:

Analiza wizualna

Prawdziwa nowość podejścia badaczy z Waszyngtonu polega na zastosowaniu technik analizy wizualnej opartych na uczeniu maszynowym do rastrowanego wyglądu plików PDF w zbiorze danych.

W ten sposób możliwe jest wygenerowanie znacznika “REDAKTOWANE” na podstawie wizualnej, gdzie nic w samym tekście niekoniecznie zapewniłoby wystarczająco wspólną podstawę.

Klaster redagowanych stron tytułowych plików PDF zidentyfikowany przez widzenie komputerowe w nowym projekcie.

Ponadto, mapy i schematy mogą być w ten sam sposób identyfikowane i kategoryzowane, a autorzy komentują ten potencjał funkcjonalności:

‘Dla uczonych zainteresowanych ujawnieniami klasyfikowanych lub innych wrażliwych informacji, może to być szczególnie interesujące, aby izolować dokładnie ten typ klastra materiału do analizy i badań.’

Praca zauważa, że szeroka gama wizualnych wskaźników wspólnych dla określonych typów rządowych plików PDF może być również użyta do klasyfikacji dokumentów i tworzenia “sag”. Takie “tokeny” mogą być pieczęcią Kongresu lub innymi logotypami lub powtarzającymi się cechami wizualnymi, które nie mają istnienia semantycznego w czystym wyszukiwaniu tekstu.

Ponadto, dokumenty, które nie dają się zaklasyfikować, lub które pochodzą z niezwykłego źródła, mogą być identyfikowane na podstawie układu, takiego jak kolumny, rodzaje czcionek i inne charakterystyczne aspekty.

Sam układ może zapewnić grupowanie i klasyfikację w przestrzeni wyszukiwania wizualnej.

Chociaż autorzy nie zaniedbali tekstu, jest jasne, że przestrzeń wyszukiwania wizualnego jest tym, co napędza tę pracę.

‘Możliwość wyszukiwania i analizy plików PDF według ich cech wizualnych jest zatem rozległym podejściem: nie tylko uzupełnia istniejące wysiłki wokół analizy tekstowej, ale także wyobraża sobie, czym może być wyszukiwanie i analiza dla pierwotnie cyfrowych treści.’

Autorzy zamierzają rozwinąć swój system, aby pomieścić znacznie większe zbiory danych, w tym archiwum internetowe z 2008 roku zbiór danych, który zawiera ponad 10 milionów elementów. Początkowo jednak zamierzają skalować system, aby rozwiązać “dziesiątki tysięcy” rządowych plików PDF.

System ma być oceniony początkowo z prawdziwymi użytkownikami, w tym bibliotekarzami, archiwistami, prawnikami, historykami i innymi uczonymi, i będzie ewoluował na podstawie opinii z tych grup.

Rozwiązywanie problemu skali publikacji rządowych urodzonych cyfrowo: W kierunku potoków przetwarzania i wyszukiwania milionów plików PDF jest napisany przez Benjamina Charlesa Germaina Lee (w Szkole Inżynierii Komputerowej i Inżynierii Paul G. Allena) i Trevora Owensa, Historyka Publicznego w Bibliotece Kongresu w Waszyngtonie.

* Moja konwersja odniesień do hiperlinków.

Pierwotnie opublikowany 28 grudnia 2021

Related Topics:big data data science Government research