人工知能
米政府のPDF山をコンピュータビジョンで攻める

AdobeのPDF形式は、米政府の文書パイプラインに深く根付いており、現在存在する州発行文書の数は、保守的に見積もると数億を超えると考えられている。多くの場合、不透明でメタデータが不足しているこれらのPDFは、自動システムによって作成されたもので、集団的に物語やサーガを語ることはない。何かを探していることがわかっていない限り、関連する文書を見つけることはほとんど不可能である。何かを見つけたとしても、探さなければならなかった理由がない。 しかし、新しいプロジェクトは、コンピュータビジョンと他の機械学習アプローチを使用して、このほとんどアプローチ不能なデータの山を、研究者、歴史家、ジャーナリスト、学者にとって貴重で探索可能なリソースに変えようとしている。
米政府が1990年代にAdobeのPortable Document Format(PDF)を発見したとき、それは気に入った。編集可能なWord文書とは異なり、PDFはさまざまな方法で「焼き付け」られることができ、後で変更することが困難または不可能になる。フォントを埋め込むことができ、クロスプラットフォームの互換性を確保する。印刷、コピー、開くことも粒度の高い方法で制御できる。
もっとも重要なのは、これらの基本的な機能は、フォーマットの最も古い「ベースライン」仕様に含まれており、保存資料を後で再処理または再訪問する必要がなく、アクセシビリティを確保することを約束していた。政府出版に必要なほとんどすべてが1996年までに整っていた。
ブロックチェーンの出自とNFT技術は数十年先の話だったが、PDFは「死んだ」アナログ文書にできるだけ近いものだった。コンセプチュアルなミスだけが、それをファックスから隔てていた。
PDFに関する内部の不満
PDFがどれほど閉じているか、扱いにくいか、そして「非社会的」であるかは、ドキュメントに記載されているように、国立国会図書館のPDF/A形式の説明に表れている。
‘PDF/A形式の主な目的は、電子文書を静的な視覚的な外見を時間の経過とともに独立して保存する方法で表現することである。ツールやシステムが文書を作成、保存、または表示するために使用されるものとは関係なく、デバイスの独立性、自己包含性、自己文書化を最大化することを目指す。 ‘
PDF形式に対する継続的な熱意、可達性の基準、最小バージョンの要件は、米政府の各部門によって異なっている。たとえば、環境保護庁はこの点で厳格だが支援的な政策を持っているが、米政府の公式ウェブサイトであるplainlanguage.govは、認識しているが、‘ユーザーはPDFを嫌がっている’と述べ、2020年のNielsen Norman Groupのレポート「PDF: 20年後でも人間の消費に適していない」へのリンクも提供している。
一方、irs.govは、1995年に税務署の文書をデジタル化するために作成され、現在でも強力な支持者である。
PDFのウイルス性拡散
PDFのコア仕様がAdobeによってオープンソース化された後、一連のサーバーサイド処理ツールとライブラリが登場し、多くは現在尊敬され、1996年のPDF仕様と同等の信頼性とバグ耐性を備えている。ソフトウェアベンダーは、低コストツールにPDF機能を統合するために競争した。
結果として、愛されていようが嫌われていようが、PDFは米政府の各部門のコミュニケーションと文書化の枠組みで普遍的になっている。
2015年、AdobeのドキュメントクラウドのエンジニアリングVPであるPhil Ydensは、推定しているが、世界には2.5兆のPDF文書が存在し、PDF形式はウェブコンテンツの6〜11%を占めていると考えられている。テクノロジー文化は古いテクノロジーを破壊することに依存しているが、PDFはホストする構造の一部となり、根絶できない「錆」になっている。

2018年からのもの。まだ強力な挑戦者は現れていない。 ソース: https://twitter.com/trbrtc/status/980407663690502145
ワシントン大学と国立国会図書館の研究者による最近の研究によると、‘数百万のユニークな米国政府文書がPDF形式でウェブに投稿され、図書館にアーカイブされている。’。
しかし、研究者はこれが「氷山の一角」に過ぎないと主張している:
‘先駆的なデジタル歴史学者であるRoy Rosenzweigは2003年に指摘したように、学問のための生まれたデジタル一次資料の場合、十億を超えるデジタルリソースにスケールする方法とアプローチを開発することが不可欠である。私たちはそのようなスケールでアプローチを開発する必要性に到達した。 ‘
‘例えば、国立国会図書館のウェブアーカイブには、20億を超える個別のデジタルリソースが含まれている。 ‘
PDF: 分析に抵抗する
ワシントン研究者プロジェクトは、公開および注釈付きの国立国会図書館のコーパスの1,000個の選択された文書に、機械学習の方法を適用する。
このプロジェクトの目的は、テキストと画像ベースのクエリのための迅速な多モーダル検索を可能にするシステムを開発することである。政府だけでなく、さまざまなセクターで現在と将来のPDFのボリュームにスケールすることができる。
研究者は、1990年代の米政府の各部門のデジタル化の急速なペースは、政策と慣行の分散につながり、PDF出版方法の採用につながったが、メタデータの質は、かつての政府図書館サービスの黄金標準ではなかった。あるいは、メタデータがまったくなかった。
この混乱の時代について議論し、著者は以下のように述べている:
‘これらの努力は、政府出版物の量の爆発的な成長につながり、結果として、これらの出版物に対する一貫したメタデータの生成と図書館によるコピーの取得の一般的なアプローチが崩壊した。 ‘
結果として、典型的なPDFの山は、直接リンクするURL以外のコンテキストが存在しない。さらに、山にある文書は封じ込められており、自己参照的であり、現在の検索方法では、隠された接続が確かに存在するにもかかわらず、物語やサーガの一部を形成することはない。
このスケールでは、手動での注釈付けやキュレーションは不可能である。 プロジェクトの1000個の国立国会図書館文書を取得したデータコーパスには、4000万を超えるPDFが含まれており、研究者は近い将来にこれを解決することを意図している。
PDF分析のためのコンピュータビジョン
以前の研究の大部分は、PDF素材から特徴と高レベルの概念を抽出するために、テキストベースの方法を使用しているが、このプロジェクトは、PDFを視覚的なレベルで調査することによって特徴と傾向を抽出することに重点を置いている。
これは、現在の研究に沿ったものであり、ニュースコンテンツの多モーダル分析に焦点を当てている。
不均衡データへの対処
メトリクススキーマを作成する際、研究者はデータがどれほど歪んでいるかを考慮しなければならない。少なくともアイテムごとのサイズの点では。
選択されたデータセットの1000のPDF(研究者はこれが4000万から抽出されたものであると想定している)では、33%が1ページだけであり、39%が2〜5ページである。これにより、5ページ以下の文書が72%になる。
ここから大きな飛躍があり、6〜20ページの文書が18%、20〜100ページが6%、100ページ以上が3%となる。これは、最も長い文書が個々のページの多くを占めていることを意味するが、文書自体を考慮するより粗いアプローチでは、より数が多い短い文書に注目が集まる。
しかし、これらは洞察的なメトリクスである。単ページの文書は通常、技術的な図面や地図である。2〜5ページの文書は通常、プレスリリースやフォームである。非常に長い文書は通常、書籍サイズの報告書や出版物であるが、長さの点では、セマンティック解釈にまったく異なる課題を提示する自動データダンプと混在している。
したがって、研究者はこの不均衡を、意味のあるセマンティック特性として扱っている。ただし、PDFはページごとに処理および量化する必要がある。
アーキテクチャ
プロセスの最初に、PDFのメタデータは表形式のデータに解析される。このメタデータは、ファイルサイズやソースURLなどの既知の量で構成されるため、欠けていることはない。
PDFは次にページに分割され、各ページはImageMagickを介してJPEG形式に変換される。画像は次に、2番目の最後の層から2048次元のベクトルを導出するResNet-50ネットワークに供給される。

PDFからの抽出のパイプライン。 ソース: https://arxiv.org/ftp/arxiv/papers/2112/2112.02471.pdf
同時に、ページはpdf2textによってテキストファイルに変換され、scikit-learnを介してTF-IDF特徴量が取得される。
TF-IDFは、Term Frequency Inverse Document Frequencyの略であり、各フレーズの文書内での出現頻度と、ホストデータセット全体での出現頻度の両方を、0から1の微妙なスケールで測定する。
研究者は、システムのTF-IDF設定で、単語(単語)をシステムの最小の単位として使用している。
研究者は、TF-IDFよりも複雑な方法を提供する機械学習があることを認識しているが、記載されたタスクには必要ないと主張している。
各文書にソースURLが関連付けられているという事実は、システムがデータセット全体の文書の出自を決定することを可能にする。

これは1000の文書の場合には些細なことかもしれないが、4000万以上の文書の場合には非常に重要になる。
テキスト検索への新しいアプローチ
プロジェクトの目的の1つは、過度な事前の知識が不要で、豊かな探索を可能にするテキストベースのクエリの検索結果をより意味のあるものにすることである。著者は以下のように述べている。
‘キーワード検索は直感的で、高度に拡張可能な検索方法であるが、制限もある。ユーザーは関連する結果を取得するキーワードクエリを構成する責任があるからである。 ‘
TF-IDF値を取得した後、コーパスで最も共通の単語を計算し、コーパスの「平均」文書を推定することができる。研究者は、これらのクロスドキュメントキーワードは通常意味のあるものであり、個々の文書のテキストのみによっては得られない、学者が探索できる有用な関係を形成することを主張している。
視覚的に、このプロセスはさまざまな政府機関からの単語の「ムードボード」を促進する:

TF-IDFによって取得された、さまざまな米国政府機関のキーワード。
これらの抽出されたキーワードと関係は、後に検索結果で動的な行列を形成するために使用でき、PDFのコーパスは「物語」を始めることができ、キーワードの関係は文書(おそらく数百年間)を結び付け、トピックまたはテーマの探索可能な多部作の「サーガ」をアウトラインする。
研究者は、共通のソースを共有していない関連文書を特定するために、k-meansクラスタリングを使用する。つまり、データセット全体に適用可能なキーフレーズメタデータを開発できる。
これは、厳格なテキスト検索でのランキング、またはよりダイナミックな探索環境での近接ノードとして現れる。

視覚分析
ワシントン研究者アプローチの真正の新規性は、データセットのPDFのラスター化された外見に基づいて、機械学習ベースの視覚分析技術を適用することである。
この方法で、テキスト自体には共通の基盤がない場合でも、「REDACTED」タグを視覚的な基準で生成することができる。

コンピュータビジョンによって新しいプロジェクトで識別された、編集されたPDFの表紙のクラスター。
さらに、この方法は、政府文書がラスター化されている場合でも、編集された素材を導出することができる。これは、編集された資料のための包括的な検索を可能にする。
また、地図や図面も同様に識別および分類でき、著者は以下のように述べている:
‘機密情報やその他の機密情報の開示に興味がある学者にとって、正確にこのタイプの資料のクラスターを分離して分析することは非常に興味深いことになるかもしれない。 ‘
論文では、政府のPDFに共通する視覚的な指標、たとえば議会の印章やその他のロゴ、繰り返し現れる視覚的な特徴は、テキスト検索ではセマンティックに存在しない「トークン」として、文書を分類して「サーガ」を作成するために使用できることを指摘している。
レイアウト、カラム、フォントタイプ、他の特徴から、文書を分類して視覚的な検索空間でグループ化できるものもある。

レイアウトのみで、視覚的な検索空間でグループ化と分類が可能になる。
明らかに、視覚的な検索空間がこの作業を推進している。
‘PDFの視覚的な特徴に従って検索および分析する能力は、広範なアプローチである。既存のテキスト分析の努力を補うだけでなく、生まれたデジタルコンテンツの検索と分析の可能性を再構成する。 ‘
著者は、2008年の大統領任期終了ウェブアーカイブのデータセットを含む、はるかに大きなデータセットを処理することを意図している。このデータセットには1000万を超えるアイテムが含まれている。ただし、最初は、システムを「数万」の政府のPDFにスケールアップすることを意図している。
システムは、図書館員、保存員、弁護士、歴史家、学者を含む実際のユーザーとともに評価される予定であり、これらのグループからのフィードバックに基づいて進化する。
生まれたデジタル政府出版物のスケールに対処する: 数百万のPDFの処理と検索のためのパイプラインに向けては、Paul G. Allen School for Computer Science & EngineeringのBenjamin Charles Germain Leeと、ワシントンD.C.の国立国会図書館のPublic Historian in ResidenceおよびHead of Digital Content ManagementであるTrevor Owensによって書かれた。
2021年12月28日に最初に公開されました。












