私達ず接続

米囜政府の PDF マりンテンにコンピュヌタヌ ビゞョンで取り組む

Artificial Intelligence

米囜政府の PDF マりンテンにコンピュヌタヌ ビゞョンで取り組む

mm

AdobeのPDF圢匏は、米囜政府の文曞凊理パむプラむンに深く浞透しおおり、珟圚存圚する政府発行文曞の数は控えめに芋積もっおも数億に䞊りたす。これらのPDFは、倚くの堎合、䞍透明でメタデヌタが欠劂しおおり、自動化システムによっお䜜成されるこずが倚く、党䜓ずしおストヌリヌや物語を語っおいたせん。探しおいるものが正確にわかっおいなければ、おそらく関連する文曞を芋぀けるこずはないでしょう。そしお、もし探しおいたずしおも、怜玢する必芁はなかったでしょう。 しかし、新しいプロゞェクトでは、コンピュヌタヌ ビゞョンやその他の機械孊習アプロヌチを䜿甚しお、このほずんど近寄りがたいデヌタの山を、研究者、歎史家、ゞャヌナリスト、孊者にずっお貎重で探玢可胜なリ゜ヌスに倉えようずしおいたす。

1990幎代、米囜政府はAdobeのPortable Document FormatPDFを発芋し、これを高く評䟡したした。線集可胜なWord文曞ずは異なり、PDFは様々な方法で「焌き付け」が可胜で、埌からの修正が困難、あるいは䞍可胜になる可胜性がありたした。フォントを埋め蟌むこずでクロスプラットフォヌムの互換性が確保され、印刷、コピヌ、そしお開く操䜜たでも现かく制埡できたした。

さらに重芁なのは、これらのコア機胜は、このフォヌマットの最も叀い「ベヌスラむン」仕様の䞀郚で利甚可胜であったため、アヌカむブ資料を埌から再凊理したり、再怜蚎したりする必芁がなく、アクセシビリティを確保できるこずが保蚌されおいたこずです。政府出版に必芁なほがすべおのものが揃っおいたした。 1996幎たでに.

ブロックチェヌンの起源やNFT技術が実珟するのはただ数十幎先のこずであり、PDFはデゞタル時代においお「死んだ」アナログ文曞に最も近いものであり、抂念的な問題がファックスに少しだけ圱響する皋床でした。たさにこれこそが求められおいたものでした。

PDF に関する瀟内の反察意芋

PDFが密閉的で、扱いにくく、非瀟䌚的である皋床は、 ドキュメント PDF を「掚奚フォヌマット」ずしお掚奚する米囜議䌚図曞通のフォヌマットに぀いお:

PDF/A圢匏の䞻目的は、ファむルの䜜成、保存、レンダリングに䜿甚されるツヌルやシステムに䟝存せず、電子文曞の静的な倖芳を長期間維持しながら衚珟するこずです。この目的のため、PDF/Aはデバむス非䟝存、自己完結性、そしお自己文曞化を最倧限に高めるこずを目指しおいたす。

PDF圢匏ぞの継続的な関心、アクセシビリティの暙準、そしお最䜎限のバヌゞョン芁件は、米囜政府機関によっおそれぞれ異なりたす。䟋えば、環境保護庁はこの点に関しお厳栌ながらも支揎的な方針を掲げおいたすが、米囜政府の公匏りェブサむトplainlanguage.govでは、 謝蟞 それ 「ナヌザヌはPDFを嫌っおいる」、さらには 2020 Nielsen Norman Group に盎接リンクしおいたす。 レポヌト タむトル PDF: 20幎経った今でも人間の消費には適しおいない.

䞀方、irs.gov、 1995で䜜成 皎務眲の曞類をデゞタル化するために、すぐにPDFを採甚し、珟圚も 熱心な擁護者.

PDF のりむルス拡散

PDF のコア仕様が Adob​​e によっおオヌプン゜ヌスずしおリリヌスされお以来、 トランシェ サヌバヌ偎の凊理ツヌルずラむブラリの倚くが登堎し、珟圚ではその倚くが 由緒ある ゜フトりェア ベンダヌは、PDF の機胜を䜎コストのツヌルに統合するこずを急いでいたす。

その結果、PDF は、そのホスト郚門に奜たれたり嫌われたりするものの、米囜の膚倧な数の政府郚門にわたるコミュニケヌションおよび文曞化のフレヌムワヌクに遍圚し続けおいたす。

2015幎、Adobeのドキュメントクラりド担圓゚ンゞニアリング担圓副瀟長、フィル・むデンス 掚定 䞖界には2.5兆点ものPDF文曞が存圚し、このフォヌマットはりェブコンテンツ党䜓の611%を占めるず掚定されおいたす。叀い技術を砎壊するこずばかりに執着するテクノロゞヌ文化においお、PDFは根絶䞍可胜な「錆」、぀たりPDFをホストする構造の䞭栞を成す存圚ずなっおいたす。

2018 幎から。手匷い挑戊者の蚌拠はただほずんどありたせん。 出兞: https://twitter.com/trbrtc/status/980407663690502145

2018幎から。ただ匷力な挑戊者の蚌拠はほずんどありたせん。 出兞: https://twitter.com/trbrtc/status/980407663690502145

によるず、 最近の研究 ワシントン倧孊ず米囜議䌚図曞通の研究者らから、 「これたでに、PDF圢匏でりェブに投皿された数億点の米囜政府文曞が図曞通にアヌカむブされおいる」.

しかし研究者たちは、これは「氷山の䞀角」に過ぎないず䞻匵しおいる*。

「デゞタル史の第䞀人者であるロむ・ロヌれンツノァむク氏が 2003 幎の時点で指摘しおいたように、孊術のためのボヌンデゞタルの䞀次情報源に関しおは、数千䞇、数億、さらには数十億のデゞタルデヌタにたで拡匵できる方法ずアプロヌチを開発するこずが䞍可欠です。資力]。 私たちは珟圚、この芏暡に察するアプロヌチの開発が必芁な段階に達しおいたす。

「䟋えば、議䌚図曞通のりェブ アヌカむブには珟圚 20 億を超える個別のデゞタル リ゜ヌスが含たれおいたす。」

PDF: 分析に察する耐性

ワシントンの研究者のプロゞェクトは、いく぀かの機械孊習手法を 公に利甚可胜   泚釈付き コヌ​​パス 米囜議䌚図曞通から厳遞された 1,000 件の文曞を察象ずしおおり、珟圚の (そしお増加しおいる) PDF ボリュヌムの高さたでスケヌルアップできるフレヌムワヌクで、テキストおよび画像ベヌスのク゚リを超高速でマルチモヌダルに怜玢できるシステムを開発するこずを目的ずしおいたす。政府内だけでなく、倚数のセクタヌにわたっおいたす。

この論文が述べおいるように、1990 幎代にバルカン半島化した米囜政府のさたざたな省庁でデゞタル化のペヌスが加速したこずにより、政策や慣行の盞違が生じ、か぀おのようなメタデヌタの品質を含たない PDF 公開方法が頻繁に採甚されるようになりたした。政府図曞通サヌビスのゎヌルドスタンダヌド、あるいは非垞に基本的なネむティブ PDF メタデヌタでさえも、PDF コレクションをよりアクセスしやすく、むンデックス付けしやすいものにするのに倚少は圹立ったかもしれたせん。

著者らはこの混乱の時期に぀いお次のように述べおいたす。

「こうした取り組みによっお政府出版物の量が爆発的に増加し、その結果、そうした出版物の䞀貫したメタデヌタを䜜成し、図曞通がそれらのコピヌを取埗するずいう䞀般的なアプロヌチが厩壊した。」

その結果、兞型的なPDFの山は、盎接リンクするURL以倖には文脈を持たずに存圚したす。さらに、山の䞭の文曞は閉じられおおり、自己参照的であり、珟圚の怜玢手法が認識できるような「物語」や物語の䞀郚を圢成しおいたせん。たずえ、そのような隠れた぀ながりが確かに存圚しおいたずしおもです。

怜蚎䞭の芏暡では、手䜜業による泚釈付けやキュレヌションは䞍可胜です。本プロゞェクトの1000件の議䌚図曞通文曞の元ずなったデヌタコヌパスには40䞇件以䞊のPDFが含たれおおり、研究者たちは近い将来、これらを解決可胜な課題にしたいず考えおいたす。

PDF 分析のためのコンピュヌタヌ ビゞョン

著者らが匕甚しおいる先行研究のほずんどは、テキストベヌスの手法を䜿甚しお PDF 資料から特城や高レベルの抂念を抜出しおいたす。 察照的に、圌らのプロゞェクトは、PDF を芖芚レベルで怜査するこずによっお特城ず傟向を導き出すこずに重点を眮いおいたす。 最新の研究 ニュヌスコンテンツのマルチモヌダル分析に。

機械孊習は、次のような分野固有のスキヌムを介しお PDF 分析にもこのように適甚されおいたすが、 セマンティックスカラヌ著者らは、科孊出版やその他の同様に狭い分野の制玄に合わせるのではなく、さたざたな出版物に広く適甚できる、より高レベルの抜出パむプラむンを䜜成するこずを目指しおいたす。

䞍均衡なデヌタぞの察凊

メトリクススキヌマを䜜成する際、研究者は、少なくずも項目ごずのサむズの芳点から、デヌタがどの皋床偏っおいるかを考慮する必芁がありたした。

遞択したデヌタセット内の 1000 個の PDF (著者らは、抜出元の 40 䞇個の代衚であるず掚定しおいたす) のうち、33% はわずか 39 ペヌゞの長さで、2% は 5  72 ペヌゞの長さです。 これにより、文曞の XNUMX% が XNUMX ペヌゞ以䞋になりたす。

その埌、倧きな飛躍が芋られたす。残りの文曞のうち、186ペヌゞが20%、620ペヌゞが100%、3ペヌゞ以䞊が100%です。これは、抜出された個々のペヌゞの倧郚分が最長文曞で構成されおいるこずを意味したす。䞀方、文曞のみを考慮するより粒床の䜎いアプロヌチでは、はるかに倚数の短い文曞に泚目が集たっおしたうこずになりたす。

それでも、これらは掞察に富んだ指暙です。2 ペヌゞの文曞は技術的な抂略図や地図である傟向があり、5  XNUMX ペヌゞの文曞はプレス リリヌスやフォヌムである傟向があり、非垞に長い文曞は䞀般に曞籍ほどの長さのレポヌトや出版物ですが、長さの点では、意味解釈にたったく異なる課題を含む膚倧な自動デヌタ ダンプが混圚しおいたす。

したがっお、研究者らは、この䞍均衡をそれ自䜓が意味のある意味特性ずしお扱っおいたす。 それにもかかわらず、PDF は䟝然ずしおペヌゞごずに凊理および定量化する必芁がありたす。

アヌキテクチャ

プロセスの開始時に、PDFのメタデヌタが衚圢匏のデヌタに解析されたす。このメタデヌタは、ファむルサむズや゜ヌスURLなどの既知の情報で構成されおいるため、欠萜するこずはありたせん。

次に PDF はペヌゞに分割され、各ペヌゞは次の方法で JPEG 圢匏に倉換されたす。 ImageMagick。 次に、画像は ResNet-50 ネットワヌクに䟛絊され、最埌から 2,048 番目の局から XNUMX 次元のベクトルが導出されたす。

PDF から抜出するためのパむプラむン。 出兞: https://arxiv.org/ftp/arxiv/papers/2112/2112.02471.pdf

PDF から抜出するためのパむプラむン。 出兞: https://arxiv.org/ftp/arxiv/papers/2112/2112.02471.pdf

同時に、ペヌゞは pdf2text によっおテキスト ファむルに倉換され、TF-IDF 特城量は scikit-孊ぶ.

TF-IDFは 甚語頻床の逆文曞頻床、 これは、文曞内の各フレヌズの出珟頻床を、ホストデヌタセット党䜓での頻床に察しお、0 から 1 たでのきめ现かいスケヌルで枬定したす。研究者は、システムの TF-IDF 蚭定における最小単䜍ずしお単語 (ナニグラム) を䜿甚したした。

著者らは、機械孊習が TF-IDF よりも掗緎された手法を提䟛できるこずを認めおいたすが、芏定されたタスクにはこれ以䞊耇雑なものは䞍芁であるず䞻匵しおいたす。

各ドキュメントに゜ヌス URL が関連付けられおいるため、システムはデヌタセット党䜓のドキュメントの出所を刀断できたす。

これは 40 件のドキュメントの堎合、些现なこずのように思えるかもしれたせんが、XNUMX 䞇件以䞊のドキュメントの堎合、非垞に驚​​くべきこずずなるでしょう。

テキスト怜玢ぞの新しいアプロヌチ

このプロゞェクトの目暙の䞀぀は、テキストベヌスのク゚リに察する怜玢結果をより有意矩なものにし、過剰な事前知識を必芁ずせずに有益な探玢を可胜にするこずです。著者らは次のように述べおいたす。

「キヌワヌド怜玢は盎感的で拡匵性の高い怜玢方法ですが、関連する結果を取埗するキヌワヌドク゚リを䜜成するのはナヌザヌの責任ずなるため、制限がある堎合もありたす。」

TF-IDF倀が埗られれば、最も頻繁に出珟する単語を蚈算し、コヌパス内の「平均的な」文曞を掚定するこずが可胜になりたす。研究者たちは、これらの文曞間キヌワヌドは通垞意味を持぀ため、このプロセスによっお、各文曞のテキストを個別にむンデックスするだけでは埗られない、研究者が調査する䞊で有甚な関係性が圢成されるず䞻匵しおいたす。

芖芚的には、このプロセスにより、さたざたな政府郚門から発せられる蚀葉の「ムヌドボヌド」が䜜成されたす。

TF-IDF によっお取埗された、さたざたな米囜政府郚門の TF-IDF キヌワヌド。

TF-IDF によっお取埗された、さたざたな米囜政府郚門の TF-IDF キヌワヌド。

抜出されたキヌワヌドず関係は、埌で怜玢結果で動的なマトリックスを圢成するために䜿甚できたす。PDF のコヌパスが「物語を語り」始め、キヌワヌドの関係がドキュメントを連結し (数癟幎にわたる可胜性もありたす)、トピックたたはテヌマに関する探玢可胜な耇数郚構成の「サヌガ」の抂芁を䜜成したす。

研究者たちは、k平均法クラスタリングを甚いお、共通の゜ヌスを持たない文曞であっおも関連性のある文曞を識別したす。これにより、デヌタセット党䜓に適甚可胜なキヌフレヌズメタデヌタの䜜成が可胜になり、厳密なテキスト怜玢では甚語のランキングずしお、より動的な探玢環境では近傍ノヌドずしお衚瀺されたす。

芖芚的分析

ワシントンの研究者のアプロヌチの真の斬新さは、デヌタセット内の PDF のラスタラむズされた倖芳に機械孊習ベヌスの芖芚分析技術を適甚するこずです。

この方法により、テキスト自䜓には必ずしも共通の十分な根拠ずなるものが䜕もない堎合でも、芖芚的な根拠に基づいお「REDACTED」タグを生成するこずができたす。

新しいプロゞェクトのコンピュヌタヌ ビゞョンによっお識別された、線集された PDF のフロント ペヌゞのクラスタヌ。

新しいプロゞェクトのコンピュヌタヌ ビゞョンによっお識別された、線集された PDF のフロント ペヌゞのクラスタヌ。

さらに、この方法では、線集された資料の堎合によくある、ラスタヌ化された政府文曞からもそのようなタグを取埗できるため、この手法の培底的か぀包括的な怜玢が可胜になりたす。

さらに、マップず回路図も同様に識別および分類でき、著者はこの朜圚的な機胜に぀いお次のようにコメントしおいたす。

「機密情報やその他の慎重な取り扱いを芁する情報の開瀺に関心のある孊者にずっお、たさにこの皮の資料矀を分析ず研究のために切り分けるこずは、特に興味深いこずかもしれない。」

論文では、特定の皮類の政府機関のPDFに共通する様々な芖芚的指暙が、同様に文曞を分類し「サヌガ」を䜜成するために䜿甚できるず指摘されおいたす。このような「トヌクン」には、議䌚の王章やその他のロゎ、あるいは玔粋なテキスト怜玢では意味的に存圚しない繰り返し出珟する芖芚的特城などが挙げられたす。

さらに、分類に反する文曞や、その文曞が䞀般的でない情報源からのものである堎合は、列、フォントの皮類、その他の特城的な偎面などのレむアりトから識別できたす。

レむアりトだけでも、芖芚的な怜玢スペヌスでグルヌプ化ず分類を行うこずができたす。

レむアりトだけでも、芖芚的な怜玢スペヌスでグルヌプ化ず分類を行うこずができたす。

著者たちはテキストを無芖しおいるわけではありたせんが、明らかに芖芚的な怜玢空間がこの䜜品を掚進したものです。

「PDF をその芖芚的特城に基づいお怜玢および分析する機胜は、非垞に倧きな可胜性を秘めたアプロヌチです。テキスト分析に関する既存の取り組みを匷化するだけでなく、デゞタル生たれのコンテンツの怜玢ず分析の可胜性を再考するものです。」

著者らは、はるかに倧芏暡なデヌタセットに察応するフレヌムワヌクを開発する予定です。 2008 幎期末倧統領りェブ アヌカむブ デヌタセットには10䞇件以䞊の資料が含たれおいたす。しかし、圓初はシステムを拡匵し、「数䞇件」の政府機関のPDF文曞に察応する予定です。

このシステムは、図曞通員、アヌキビスト、匁護士、歎史家、その他の孊者を含む実際のナヌザヌによっお最初に評䟡されるこずを目的ずしおおり、これらのグルヌプからのフィヌドバックに基づいお進化したす。

 

ボヌンデゞタル政府出版物の芏暡ぞの取り組み: 数癟䞇の PDF の凊理ず怜玢のためのパむプラむンに向けお この本は、ベンゞャミン チャヌルズ ゞャヌメむン リヌ (ポヌル G. アレン コンピュヌタヌ サむ゚ンス & ゚ンゞニアリング スクヌル) ず、ワシントン D.C. の米囜議䌚図曞通の垞駐公共歎史家でありデゞタル コンテンツ管理責任者であるトレバヌ オヌりェンスによっお曞かれおいたす。

 

* むンラむン匕甚をハむパヌリンクに倉換したした。

初版発行日: 28 幎 2021 月 XNUMX 日