人工知能

トップAIモデルは長いドキュメントで迷う

Published February 13, 2025

Updated April 26, 2026

Alex McFarland

ミュンヘン大学、ミュンヘンマシンラーニングセンター、Adobe Researchの研究者による新しい研究は、AI言語モデルに弱点があることを明らかにしました：長いドキュメントを理解する際に、単純な単語マッチングに頼ることができない場合に、つながりを結ぶのに苦労します。研究チームの調査結果は、最も高度なAIモデルでも、単語マッチングに頼ることができない場合に、情報を結びつけるのに苦労していることを示しています。

AIの読解スキルの隠れた問題

長い研究論文の中で特定の詳細を見つけることを考えてみましょう。つまり、必要な情報を組み立てるために、さまざまなセクション間で精神的なつながりを作りながらそれをスキミングすることができます。多くのAIモデルは、実際にはまったく異なる方法で動作します。代わりに、Ctrl+Fを使用するのと同様に、正確な単語マッチを見つけることに大きく依存しています。

研究チームは、NOLIMA（No Literal Matching）という新しいベンチマークを開発して、さまざまなAIモデルをテストしました。結果は、AIモデルが2,000語を超えるテキストを扱うと、パフォーマンスが急激に低下することを示しました。32,000語（短い本の長さ）に達すると、ほとんどのモデルは通常の能力の半分以下で動作します。これには、GPT-4o、Gemini 1.5 Pro、Llama 3.3 70Bなどの主要モデルも含まれていました。

医療研究者が患者記録を分析するためにAIを使用したり、法的チームが事件文書を確認するためにAIを使用したりする場合、AIが関連するつながりを逃すと、重大な結果をもたらす可能性があります。

単語マッチングだけでは不十分

現在のAIモデルは、テキストを処理するために注意メカニズムと呼ばれるものを使用しています。このシステムは、AIがテキストのさまざまな部分に焦点を当てて、単語とアイデアの関係を理解するのに役立ちます。短いテキストの場合、これは十分に機能します。ただし、研究は、このメカニズムがテキストが長くなるにつれて、特に正確な単語マッチに頼ることができない場合に、圧倒されることを示しています。

NOLIMAテストは、この限界を、AIモデルに単語マッチングではなくコンテキストを理解する必要がある質問を出すことで明らかにしました。結果は物語的に富んでいました。モデルは短いテキストではうまく機能しましたが、テキストの長さが増加するにつれて、これらのつながりを作る能力が急激に低下しました。推論タスク用に特別に設計されたモデルも、長いドキュメントを扱う場合、50%未満の精度でスコアしました。

単語マッチングのクレードルなしで、AIモデルは次のことに苦労しました:

異なる用語を使用する関連概念を接続する
複数ステップの推論パスをたどる
重要なコンテキストの後に表示される関連情報を見つける
無関係なセクションの誤解を招く単語マッチを無視する

数字が物語る

研究結果は、AIモデルが長いテキストを扱う方法について、厳しい絵を描いています。GPT-4oは、約6,000語（8,000トークン）まで効果を維持する最も強力なパフォーマンスを示しました。ただし、長いテキストでは、パフォーマンスが大幅に低下しました。他のモデル、Gemini 1.5 ProやLlama 3.3 70Bも、2,000から8,000トークンの間でパフォーマンスが急激に低下しました。

パフォーマンスの低下は、複数の推論ステップを必要とするタスクでさらに顕著になりました。たとえば、モデルが2つの論理的なつながりを作る必要がある場合（たとえば、キャラクターが特定のランドマークの近くに住んでおり、そのランドマークが特定の都市にあることを理解する）、成功率は大幅に低下しました。研究は、このような多段階の推論が16,000トークンを超えるテキストで特に課題であることを示しました。Chain-of-Thoughtプロンプティングなどの技術を使用して推論を改善する場合でも、同様です。

これらの調査結果が特に注目に値するのは、AIモデルの長いコンテキストを処理する能力に関する主張に異議を唱えることです。多くのモデルは、広範なコンテキストウィンドウをサポートすることを宣伝していますが、NOLIMAベンチマークは、有効な理解がこれらの理論的限界に達する前に低下することを示しています。

Source: Modarressi et al.

AIが森を見失うとき

これらの限界は、現実世界のアプリケーションでAIを使用する方法について重大な意味を持ちます。法的AIシステムが事件法を検索することを考えてみましょう。検索クエリと同じ用語を使用していない場合、関連する先例を見逃す可能性があります。代わりに、システムは検索用語と共有する単語が多いが、関連性は低いケースに焦点を当てる可能性があります。

検索と文書分析への影響は特に懸念されます。現在のAI駆動型検索システムは、Retrieval-Augmented Generation (RAG)と呼ばれるテクニックに大きく依存しています。システムが正しい情報を含む文書を成功的に取得した場合でも、AIは、文書の用語が検索クエリと異なる場合、関連性を認識するのに苦労する可能性があります。代わりに、AIは、検索用語と表面的な類似性があるが、関連性は低い文書に惹かれる可能性があります。

AIユーザーにとって、これらの調査結果はいくつかの重要な考慮事項を示唆しています:

第一に、短いクエリと文書は、より信頼性の高い結果をもたらす可能性が高いです。長いテキストを扱う場合、重要なコンテキストを維持するために、それらを小さな、焦点を当てたセグメントに分割することが役立ちます。

第二に、ユーザーは、AIが長いドキュメントのさまざまな部分間のつながりを作るように依頼する場合に、特に注意する必要があります。調査結果は、AIモデルが最も苦労するのは、単語の共有による明らかなつながりがない場合、異なるセクション間で情報を組み立てる必要がある場合であることを示しています。

最後に、これらの限界は、人間の監視の継続的な重要性を強調しています。AIは複雑な文書の重要なつながりを識別するための唯一の手段として頼るべきではなく、テキストの処理と分析の強力なツールであるということを認識する必要があります。

これらの調査結果は、AI技術の進歩が速いにもかかわらず、これらのシステムが情報を処理する方法が人間と根本的に異なることを思い出させるものです。AIツールを効果的に使用するには、これらの限界を理解することが不可欠です。

次に何が起こるか

長いテキストを処理するAIモデルの限界を理解することは、AI開発の将来について重要な疑問を提起します。NOLIMAベンチマークの背後にある研究は、現在のAIテキスト処理アプローチが、特にモデルが長いパス間の情報を処理する方法について、重大な改良が必要であることを示しています。

現在の解決策は部分的な成功しか示していません。Chain-of-Thoughtプロンプティングは、AIモデルが推論を段階的に分解することを促すことで、パフォーマンスを改善するのに役立ちます。たとえば、このテクニックを使用すると、Llama 3.3 70Bは長いコンテキストを扱う能力が向上しました。ただし、このアプローチは16,000トークンを超えるテキストではまだ不足しており、より根本的な解決策が必要であることを示しています。

現在のAIモデルがテキストを処理するために使用する注意メカニズムは、再検討する必要があります。つまり、混雑した部屋で会話を試みるのと同じです。会話が長くなるにつれて、前に言及されたすべての重要なポイントを追跡することがより困難になります。現在のAIモデルは、はるかに大きなスケールで同様の課題に直面しています。

将来を見ると、研究者はいくつかの有望な方向性を探究しています。1つのアプローチは、単語の共有ではなく、意味に基づいて概念的なつながりを理解することで、長いテキスト内の情報を整理して優先順位を付ける新しい方法を開発することです。これは、人間が情報の精神地図を作成するのと同様に機能します。アイデアを単語の共有ではなく、意味に基づいてつながれます。

開発のもう1つの分野は、AIモデルが「潜在的なホップ」と呼ばれるものを処理する方法を改善することに焦点を当てています。潜在的なホップとは、異なる情報の断片を結びつけるために必要な論理的なステップです。現在のモデルは、これらのつながりを特に長いテキストで苦労していますが、新しいアーキテクチャがこのギャップを埋めるのに役立ちます。

今日AIツールを使用している人にとって、これらの調査結果はいくつかの実用的なアプローチを示唆しています:

AIで作業するときは、長いドキュメントを意味のあるセグメントに分割することを検討してください。これにより、重要なコンテキストを維持する論理的なセクションが作成されます。たとえば、研究論文を分析する場合、方法と結果のセクションを一緒に維持することができます。なぜなら、これらはしばしば関連する情報を含むからです。

長いテキストを分析するようにAIに依頼する場合、作成したいつながりに具体的に指示する必要があります。広範な質問ではなく、興味がある特定の関係にAIを導きます。これにより、モデルが独立してこれらのつながりを作成する能力の限界を補うことができます。

おそらく最も重要なのは、長いテキストに関するAIの能力について現実的な期待を維持することです。AIは多くのタスクで非常に役立つツールですが、複雑な文書の分析の唯一の手段として扱うべきではありません。人間が長いテキストを通してコンテキストを維持し、概念的なつながりを作る能力は、現在のAI能力を上回っています。

この分野におけるAI開発の道は、課題がありながらも興奮するものです。AIの限界を理解するにつれて、長いテキストを真正に理解するAIシステムではなく、単に処理するシステムを開発することができます。そうなるまで、AIの限界を認識しながら、AIの長所を活用することが重要です。