Штучний інтелект

Подолання гори PDF-документів уряду США за допомогою комп’ютерного зору

Published December 28, 2021

Updated April 28, 2026

Martin Anderson

Формат PDF компанії Adobe так глибоко вкоренився в документообіг уряду США, що кількість державних документів, які зараз існують, консервативно оцінюється сотнями мільйонів. Часто непрозорі та позбавлені метаданих, ці PDF – багато з яких були створені автоматизованими системами – колективно не розповідають жодних історій чи саг; якщо ви не знаєте точно, що шукаєте, ви, ймовірно, ніколи не знайдете відповідного документа. І якщо ви знали, вам, ймовірно, не потрібно було проводити пошук.Однак у рамках нового проекту використовуються комп’ютерний зір та інші підходи машинного навчання для перетворення майже недоступної гори даних у цінний і досліджуваний ресурс для дослідників, істориків, журналістів і вчених.

Коли уряд США відкрив формат Adobe Portable Document (PDF) у 1990-х роках, він вирішив, що йому це сподобається. На відміну від редакторських документів Word, PDF можна було “запікати” різними способами, що робило їх важкими або навіть неможливими для подальшої зміни; шрифти можна було вбудувати, забезпечуючи сумісність між платформами; а друкування, копіювання та навіть відкриття можна було контролювати на детальному рівні.

Більш важливо, ці основні функції були доступні в деяких з найдавніших “базових” специфікацій формату, що обіцяло, що архівний матеріал не потребуватиме подальшої переробки чи перегляду для забезпечення доступності. Практично все, що потрібно було урядовому видавництву, було на місці до 1996 року.

З технологіями блокчейну та NFT, які були ще у майбутньому, PDF був якнайближче до “мертвого” аналогового документа, лише концептуальний крок від факсу. Це було саме те, чого хотіли.

Внутрішні розбіжності щодо PDF

Ступінь, у якому PDF є герметичним, недоступним і “несоціальним”, характеризується в документації щодо формату в Бібліотеці Конгресу, яка віддає перевагу PDF як своєму “відповідному формату”:

‘Основною метою формату PDF/A є представлення електронних документів таким чином, щоб зберегти їх статичний візуальний вигляд з часом, незалежно від інструментів і систем, використаних для створення, зберігання чи відтворення файлів. Для цього мети PDF/A намагається максимізувати незалежність пристрою, самодостатність і самодокументування.’

Тривале ентузіазм щодо формату PDF, стандарти доступності та вимоги до мінімальної версії варіюються серед департаментів уряду США. Наприклад, хоча Агентство з охорони довкілля має суворі, але підтримуючі політики в цьому відношенні, офіційний сайт уряду США plainlanguage.gov визнає, що ‘користувачі ненавидять PDF’, і навіть посилається безпосередньо на звіт групи Nielsen Norman 2020 року під назвою PDF: Все ще не підходить для споживання людиною, через 20 років.

Тим часом irs.gov, створений у 1995 році спеціально для переходу документів податкової служби на цифровий формат, негайно прийняв PDF і залишається активним захисником цього формату.

Вірусне поширення PDF

Відразу після того, як Adobe випустив основні специфікації PDF у відкритий доступ, з’явилася низка інструментів серверної обробки та бібліотек, багато з яких тепер стали шанованими і вкоріненими, як і специфікації PDF 1996 року, і такі ж надійні та стійкі до помилок, тоді як виробники програмного забезпечення поспішали інтегрувати функціональність PDF у низькобюджетні інструменти.

Внаслідок цього PDF залишається універсальним у рамках комунікацій та документів у багатьох департаментах уряду США.

У 2015 році віце-президент Adobe з інженерії Document Cloud Філ Йденс оцінив, що у світі існує 2,5 трильйона документів PDF, тоді як формат, як вважається, становить близько 6-11% усіх веб-контентів. У культурі технологій, залежній від порушення старих технологій, PDF став невилучним “іржею” – центральною частиною структури, яка його приймає.

З 2018 року. Ще немає суттєвих суперників. Джерело: https://twitter.com/trbrtc/status/980407663690502145

За даними недавнього дослідження дослідників Університету Вашингтона та Бібліотеки Конгресу, ‘сотні мільйонів унікальних документів уряду США, опублікованих у форматі PDF, були архівовані бібліотеками на даний час’.

Однак дослідники стверджують, що це лише “верхівка айсберга”*:

‘Як провідний вчений-історик Рой Розенцвейг зазначив уже у 2003 році, коли мова йде про первинні джерела, створені в цифровому вигляді для наукових досліджень, необхідно розробити методи та підходи, які зможуть масштабуватися до десятків і сотень мільйонів, а навіть мільярдів цифрових ресурсів. Ми тепер дійшли до точки, коли розробка підходів для цього масштабу є необхідною.

‘Наприклад, веб-архіви Бібліотеки Конгресу тепер містять понад 20 мільярдів окремих цифрових ресурсів.’

PDF: Опір аналізу

Проект дослідників Університету Вашингтона застосовує ряд методів машинного навчання до відкритої та анотованої корпусу з 1000 вибраних документів Бібліотеки Конгресу, з метою розробки систем, здатних здійснювати швидкий, багатомодальний пошук текстових та графічних запитів у рамках, які можуть масштабуватися до висот поточних (та зростаючих) об’ємів PDF, не лише в уряді, а й у багатьох інших секторах.

Як зазначається в статті, прискорений темп цифровізації по різних департаментам уряду США у 1990-х роках привів до розбіжності політики та практики, і часто до прийняття методів публікації PDF, які не містили такого ж рівня метаданих, який раніше був золотим стандартом бібліотечних послуг уряду – або навіть базових вбудованих метаданих PDF, які могли б бути корисними для поліпшення доступності та індексування колекцій PDF.

Обговорюючи цей період розбіжності, автори зазначають:

‘Ці зусилля призвели до вибухового зростання кількості урядових публікацій, що в свою чергу призвело до порушення загального підходу, яким створювалися та придбувалися метадані для таких публікацій.’

Внаслідок цього типова гора PDF існує без будь-якого контексту, окрім URL-адрес, які безпосередньо посилаються на неї. Крім того, документи в горі закриті, самореферентні та не утворюють жодної “саги” або наративу, який сучасні методи пошуку можуть визначити, хоча такі приховані зв’язки, безумовно, існують.

При масштабах, які розглядаються, ручне анотування або кураторство є неможливим. Корпус даних, з якого були отримані 1000 документів Бібліотеки Конгресу, містить понад 40 мільйонів PDF, які дослідники намагаються зробити адресованою проблемою в найближчому майбутньому.

Комп’ютерний зір для аналізу PDF

Більшість попередніх досліджень, на які посилаються автори, використовують текстові методи для витягування ознак та високорівневих концепцій з матеріалів PDF; на відміну від них, їхній проект зосереджується на витягуванні ознак та тенденцій шляхом візуального аналізу PDF на візуальному рівні, у відповідності з поточними дослідженнями щодо багатомодального аналізу новинного контенту.

Хоча машинне навчання також застосовувалося таким чином до аналізу PDF через секторально-специфічні схеми, такі як Semantic Scholar, автори намагаються створити більш високорівневі потоки витягування, які будуть широко застосовні по різних виданнях, а не налаштовані під суворі вимоги наукової публікації чи інших вузьких секторів.

Підходи до нерівноважних даних

Створюючи схему метрик, дослідники мали考虑увати, як перекошені дані, принаймні за розміром кожного елемента.

З 1000 PDF у вибраному наборі даних (який автори припускають представницьким для 40 мільйонів, з яких вони були отримані), 33% мають лише одну сторінку, а 39% – від 2 до 5 сторінок. Це ставить 72% документів до п’яти сторінок або менше.

Після цього відбувається досить великий стрибок: 18% документів мають від 6 до 20 сторінок, 6% – від 20 до 100 сторінок, а 3% – понад 100 сторінок. Це означає, що найдовші документи становлять більшість окремих сторінок, витягнутих з них, тоді як менш детальний підхід, який розглядає документи окремо, зсуне увагу до більш численних коротких документів.

Однак ці метрики є корисними, оскільки одноманітні документи tend до технічних схем або карт; 2-5 сторінкові документи tend до прес-релізів та форм; а дуже довгі документи зазвичай являють собою книги чи великі публікації, хоча, за довжиною, вони змішані з великими автоматизованими витягами даних, які становлять зовсім інші завдання для семантичної інтерпретації.

Тому дослідники розглядають цю нерівновагу як значущу семантичну властивість сама по собі. Тим не менш, PDF все одно потрібно обробити та квантитативно оцінити на основі окремих сторінок.

Архітектура

На початку процесу метадані PDF розбираються у табличні дані. Ці метадані не будуть відсутні, оскільки вони складаються з відомих величин, таких як розмір файлу та джерельна URL-адреса.

PDF потім розділяється на сторінки, з кожної сторінки, яку перетворюють у формат JPEG за допомогою ImageMagick. Зображення потім подається до мережі ResNet-50, яка витягує 2048-мірний вектор з другого передостаннього шару.

Потік витягування з PDF. Джерело: https://arxiv.org/ftp/arxiv/papers/2112/2112.02471.pdf

Водночас сторінка перетворюється у текстовий файл за допомогою pdf2text, а витягування TF-IDF здійснюється за допомогою scikit-learn.

TF-IDF означає Частота терміну – обернена частота документа, яка вимірює поширеність кожного фрази в документі щодо його частоти у всьому наборі даних, на тонкій шкалі від 0 до 1. Дослідники використовували окремі слова (уніграми) як найменшу одиницю в налаштуваннях TF-IDF системи.

Хоча вони визнають, що машинне навчання пропонує більш складні методи, ніж TF-IDF, автори стверджують, що все, що складніше, є непотрібним для задачі.

Той факт, що кожен документ має пов’язану з ним джерельну URL-адресу, дозволяє системі визначити походження документів у всьому наборі даних.

Це може здатися тривіальним для тисяч документів, але це буде досить відкриттям для 40 мільйонів та більше.

Нові підходи до текстового пошуку

Одним з цілей проекту є зробити результати пошуку для текстових запитів більш значущими, дозволяючи плідне дослідження без потреби надмірних попередніх знань. Автори зазначають:

‘Хоча пошук за ключовими словами є інтуїтивним і високо розширеним методом пошуку, він також може бути обмежувальним, оскільки користувачі несуть відповідальність за формулювання ключових запитів, які повертають значимі результати.’

Як тільки значення TF-IDF будуть отримані, можна розрахувати найбільш часто представлені слова та оцінити “середній” документ у корпусі. Дослідники стверджують, що оскільки ці міждокументні ключові слова зазвичай значущі, цей процес формує корисні відносини для вчених, які можуть досліджувати, що не можна було б отримати лише за допомогою індивідуального індексування тексту кожного документу.

Візуально процес полегшує “муд-борд” слів, що походять з різних урядових департаментів:

Ключові слова TF-IDF для різних урядових департаментів США, отримані за допомогою TF-IDF.

Ці витягнуті ключові слова та відносини можуть пізніше бути використані для формування динамічних матриць у результатах пошуку, з корпусом PDF, який починає “розповідати історії”, а відносини ключових слів сполучають документи (можливо, навіть за сотні років), щоб нарисувати досліджувану багатокомпонентну “сагу” для теми чи теми.

Дослідники використовують кластеризацію k-means для визначення документів, які пов’язані, навіть якщо документи не мають спільного джерела. Це дозволяє розробити метадані ключових фраз, застосовних до всього набору даних, які можуть проявитися як рейтинги термінів у суворому текстовому пошуку або як сусідні вузли в більш динамічному середовищі дослідження:

Візуальний аналіз

Правдивою новизною підходу дослідників Університету Вашингтона є застосування методів машинного навчання для візуального аналізу рasteryзованого вигляду PDF у наборі даних.

Цим шляхом можна згенерувати тег “ВИДАЛЕНО” на візуальній основі, де нічого в тексті не давало б достатньої підстави.

Кластер редагованих сторінок PDF, визначених комп’ютерним зором у новому проекті.

Крім того, цей метод може витягнути такий тег навіть з урядових документів, які були рasteryзовані, що часто відбувається з редагованим матеріалом, що робить можливим повний та всебічний пошук цієї практики.

Крім того, карти та схеми можна ідентифікувати та категоризувати, а автори коментують цей потенційний функціонал:

‘Для вчених, які цікавляться розголошенням класифікованої чи іншої чутливої інформації, може бути особливо цікаво виділити саме цей тип кластера матеріалів для аналізу та дослідження.’

У статті зазначається, що широкий спектр візуальних індикаторів, спільних для конкретних типів урядових PDF, можна також використовувати для класифікації документів та створення “саг”. Такі “токени” могли б бути конгрес-штампом або іншими логотипами чи повторюваними візуальними особливостями, які не мають семантичного існування в чистому текстовому пошуку.

Крім того, документи, які суперечать класифікації, або документи, які походять з не спільного джерела, можна ідентифікувати за їхнім макетом, таким як колонки, типи шрифтів та інші характерні особливості.

Сам макет може забезпечити групування та класифікацію у візуальному просторі пошуку.

Хоча автори не забули про текст, очевидно, що візуальний простір пошуку є тим, що спонукало цю роботу.

‘Спроможність шукати та аналізувати PDF за їх візуальними особливостями є таким же потужним підходом: він не тільки доповнює існуючі зусилля щодо текстового аналізу, а й переосмислює, що таке пошук та аналіз для цифрового контенту.’

Автори планують розробити свою систему для обробки набагато більших наборів даних, включаючи Архів веб-сторінок Президента 2008 року набір даних, який містить понад 10 мільйонів елементів. Спочатку, однак, вони планують розширити систему для звернення до “десятків тисяч” урядових PDF.

Систему планується оцінити спочатку з реальними користувачами, включаючи бібліотекарів, архівістів, юристів, істориків та інших вчених, і вона буде розвиватися на основі зворотного зв’язку від цих груп.

Боротьба з масштабом урядових публікацій, створених в цифровому вигляді: До потоків обробки та пошуку мільйонів PDF написано Бенджаміном Чарльзом Джермейном Лі (у школі інформатики та інженерії Пола Г. Аллена) та Тревором Оуенсом, громадським істориком та керівником управління цифровим контентом у Бібліотеці Конгресу у Вашингтоні.

*Мій перехід внутрішніх посилань на гіперпосилання.

Спочатку опубліковано 28 грудня 2021 року

Related Topics:big data data science Government research