人工知能
DocLangは、AI対応ドキュメントのための汎用言語を目指す

企業は長年にわたり、人間が読むためのドキュメント形式に頼ってきたが、AIシステムのために設計されたものではなかった。契約書、請求書、報告書、プレゼンテーション、フォームなど、多数のビジネスドキュメントには貴重な情報が含まれているが、AIアプリケーションにその知識を抽出するには、複雑な処理パイプラインが必要となり、コスト、遅延、エラーのリスクが増大する。
企業がジェネレーティブAIや自律エージェントをより多く導入するにつれて、その断絶はますます大きな課題となっている。ABBYYは、IBM、NVIDIA、Red Hat、HumanSignal、Linux FoundationのLF AI & Data Foundationとともに、DocLangという新しいオープン標準を立ち上げ、ドキュメントのAIネイティブ表現を作成することを目指している。支援者は、DocLangがHTMLのウェブコンテンツ標準化と同様の役割を果たす可能性があると考えている。つまり、AIシステムがドキュメントをより一貫性と効率性を持って理解できるようにするための共通言語を作成することである。
ドキュメントがAIの問題になった理由
世界のビジネス知識のほとんどは、PDF、スキャン画像、スプレッドシート、プレゼンテーションなどの形式で存在している。これらの形式は人間の消費者にとっては機能するが、機械の理解のために設計されたものではない。
人間は、見出し、表、セクション間の関係、情報の位置に基づく重要性などを瞬時に認識できる。ただし、AIシステムは、同じコンテンツを信頼性高く解釈するために、OCR、レイアウト分析、ドキュメント解析、ポスト処理などの複数の層が必要となる。
企業が大規模なエンタープライズデータのコレクションを横断して推論できるAIエージェントを採用するにつれて、この課題はさらに重大となる。ドキュメントは、言語モデル、検索システム、または自動ワークフローによって効果的に使用される前に、構造化された表現に変換される必要がある。
結果として、断片化されたエコシステムが生まれ、さまざまなツールが独自のドキュメント表現を作成し、相互運用性が難しくなり、不一致の可能性が増大する。
ABBYYがビジョンを形作るのに貢献した方法
ABBYYは、DocLangイニシアチブの重要な貢献者として登場している。同社は、ドキュメントインテリジェンス、OCR、自動化技術の開発に数十年を費やしており、企業が従来のドキュメントと現代のAIシステムの間のギャップを埋めようとする際に直面する課題に対する独自の視点を持っている。
マキシム・ベルメール氏は、ABBYYのAI戦略担当副社長であり、DocLangのアイデアは、ドキュメントAIコミュニティ内での、生のドキュメントとAIアプリケーションの間に共通の表現層を配置する必要性についての議論から生まれたと述べている。
「DocLangは、企業AIの基礎的な問題を解決することを目的として設計されています。ドキュメントは人間のために、機械のために設計されていません」とベルメール氏は説明している。
DocLangは、ドキュメントのレイアウト、表、関係、メタデータ、構造を個別に解釈するのではなく、プラットフォームやアプリケーション全体で共有できる標準化されたフレームワークを確立することを目指している。
目標は、ドキュメントの理解をより信頼性高くし、コンテキストの欠如によるホールユーションを減らし、同じ情報を繰り返し処理することによる計算コストを低減することである。
DocLangとは何であるか
DocLangは、AIシステムのために最適化された形式でドキュメントを表現するためのオープン仕様である。
従来の形式が主に視覚的な表現に焦点を当てているのに対し、DocLangは、同時に複数の情報層を保存するように設計されている。具体的には、以下の情報層が含まれる。
- セマンティック意味
- ドキュメント構造と階層
- 幾何学的レイアウトと位置
- 表と複雑なドキュメント要素
- メタデータ
- ガバナンスと使用制御
このアプローチにより、AIシステムは、ドキュメント内に存在する情報だけでなく、その情報がどのように組織化され、関連付けられているかを理解できる。
例えば、財務表に含まれる値は、単に数値そのものの意味だけではなく、周囲の行、列、見出し、コンテキスト情報との関係によっても意味を持つ。DocLangは、これらの関係を標準化された形式で保存することで、AIシステムがドキュメントのコンテンツについてより正確に推論できるようにする。
DocLangには、組織がドキュメントのコンテンツの使用方法を指定できるガバナンスコントロールも含まれている。プライバシー、抽出、AIモデルトレーニングに関するポリシーなどが含まれる。
HTMLとの比較
イニシアチブの支援者は、DocLangをHTMLの役割と比較することが多い。
HTMLが広く採用される以前、コンテンツを一貫して解釈して表示するための普遍的な方法は存在しなかった。HTMLは、ウェブサイトが異なるシステムやプラットフォームで理解できる共通の構造を導入した。
DocLangは、企業ドキュメントに同様の標準化をもたらすことを目指している。AIプラットフォームが個別にドキュメント構造を解釈するのではなく、共有された形式がドキュメント理解のための共通の基盤を提供できる。
AIの採用が進むにつれて、提唱者は、標準化されたドキュメント表現が、モデル、应用、自律エージェント間の相互運用性を確保する上でますます重要になる可能性があると主張している。
DocLangとDoclingがどのように協力するか
このイニシアチブは、IBM Research Zurichによって開発され、2024年にオープンソースとしてリリースされた、Doclingというオープンソースのドキュメント処理ツールキットを基盤としている。
Doclingは、ドキュメントのインジェストと変換に焦点を当てている。PDF、Word文書、スプレッドシート、プレゼンテーション、HTMLファイル、画像を処理し、先進的なレイアウト分析とドキュメント理解モデルを使用して構造化された表現に変換する。
DocLangは、Doclingによって生成される構造化された出力を表現して交換するための標準化された形式を提供することで、この機能を補完する。
これら2つのプロジェクトは、より完全なドキュメントAIスタックを作成する。
- Doclingは、インジェストとドキュメント理解を担当する
- DocLangは、普遍的な表現層を提供する
- AIモデルとエージェントは、結果として得られる構造化された情報を消費する
この分離により、断片化が軽減され、ベンダーや開発者が採用できる共通のフレームワークが作成される。
企業AIにおけるオープン標準の重要性
企業のAI導入が実験から本格的な生産に移行するにつれて、相互運用性はますます重要になってきている。
組織は、単一のAIモデル、ドキュメントプラットフォーム、またはソフトウェアベンダーに頼ることはない。代わりに、複数のシステム間で情報が無шовに移動する複雑なエコシステムを運営している。
オープン標準は、技術の採用を可能にする共通のフレームワークを作成することで、歴史的に重要な役割を果たしてきた。Kubernetesはクラウドネイティブインフラストラクチャの標準化を助け、HTMLは現代のウェブの基盤となった。
DocLangの支援者は、AIネイティブのドキュメント標準が、ドキュメントインテリジェンスとエージェントAIワークフローに対して同様の機能を果たす可能性があると信じている。
今後の展望
AI業界は、人間が読むために設計されたドキュメントを解釈する方法を機械に教えるために、多大な努力を払ってきた。DocLangは、その課題に対処するための取り組みであり、AIのために特別に設計されたドキュメント言語を作成することを目指している。
このイニシアチブが成功すれば、ドキュメントの解釈を改善し、構造的なコンテキストの欠如によるホールユーションを減らし、処理コストを削減し、AIシステムがプラットフォーム間で情報を交換しやすくなる可能性がある。
企業がビジネス知識の膨大なコレクションをナビゲートするためにAIエージェントに依存する時代に、ドキュメントの表現を標準化することは、モデル自体を進歩させることと同等の重要性を持つことになる。ABBYYとそのコラボレーターにとって、DocLangは、その未来を可能にする基盤を構築するための取り組みである。
ationsは、AIエージェントを使用してビジネス知識の膨大なコレクションをナビゲートする企業が増えてきているため、ドキュメントの表現を標準化することは、モデル自体を進歩させることと同等の重要性を持つことになる。ABBYYとそのコラボレーターにとって、DocLangは、その未来を可能にする基盤を構築するための取り組みである。












