人工知能
新しい研究がRAGシステムの16の大きな問題点を発見、Perplexityを含む

米国の最近の研究では、Retrieval Augmented Generation(RAG)研究システムの実世界でのパフォーマンスが、PerplexityやBing Copilotなどの人気のあるRAGシステムが過去12ヶ月間に得たマーケティング・ハイプや人気の高い採用と比較して、かなり低いことがわかりました。
このプロジェクトでは、21人の専門家の声を含む広範な調査参加が行われ、You Chat、Bing Copilot、Perplexityなどの研究されたRAGシステムで、少なくとも16の懸念事項が見つかりました。
1: 生成された回答の客観的な詳細の欠如、一般的な要約と、文脈の深さやニュアンスの乏しさ。
2. ユーザーの偏見の強化、RAGエンジンが頻繁にさまざまな視点を提示するのではなく、ユーザーの質問の表現方法に基づいてユーザーの偏見を推測して強化します。
3. 過度に自信のある言語、特に経験的に確立できない主観的な回答で、ユーザーが回答を信頼することが過度になる可能性があります。
4: 単純な言語と批判的思考および創造性の欠如、回答が効果的にユーザーを「単純化」し、「同意」する情報で満たすのではなく、思慮深い考察と分析を提供しません。
5: 出典の誤った帰属と誤った引用、回答エンジンが回答を支持しない出典を引用して、信頼性の幻想を生み出します。
6: 推測されたコンテキストからの情報のチェリーピッキング、RAGエージェントが回答の生成された主張を支持する回答を求めるように見え、ユーザーが「聞きたい」ものを基準にしています。
7: 発言を支持する引用の省略、回答の出典資料が欠けている。
8: 回答に対する論理的なスキーマの提供の欠如、ユーザーがシステムが特定の出典を他の出典よりも優先する理由を疑問視できない。
9:出典の数の制限、ほとんどのRAGシステムが、より多様な出典が適用可能であっても、通常、発言に対して約3つの支持出典を提供します。
10: 孤立した出典、システムの支持出典からのデータが回答に実際には含まれていない。
11: 信頼できない出典の使用、システムが事実的に正確なものではなく、人気のある(SEO用語で)出典を好むように見えます。
12: 冗長な出典、システムが基本的に同じ内容の論文を複数の引用として提示します。
13: フィルタリングされていない出典、システムがユーザーに提示された引用を評価またはフィルタリングする方法を提供しません。
14: 対話性または探索可能性的の欠如、ユーザー研究の参加者が何人かが、RAGシステムが最初のクエリからユーザーの意図を想定しているのに対して、明確化する質問をしなかったことを苛立たせました。
15: 外部の検証の必要性、ユーザーが提供された回答の独立検証を実行することを強いられる、RAGの「検索の代替」としての便利性がほとんどなくなります。
16: 学術的な引用方法の使用、[1]や[34]などの形式で、学術的な場では標準的な慣行ですが、多くのユーザーにとっては直感的ではありません。
この研究では、人工知能、ヘルスケアと医学、応用科学と教育、社会科学の21人の専門家が集められました。参加者は、研究者が自分の合理的なスキーマを明確にするために、思考プロセスを大声で話しながら、テストされたRAGシステムと対話しました。
この論文は、参加者の疑問と懸念を広く引用しています。
ユーザー研究の方法論は、ブラウザ制御スイートを使用して、RAGシステムの自動化された研究に体系化されました。
‘You.com、Perplexity.ai、BingChatなどのシステムの大規模な自動評価では、どのシステムも、幻覚、支持されていない発言、引用の精度に関連する重要な側面を含むほとんどのメトリックで受け入れられるパフォーマンスを達成しませんでした。’
著者は、初心者と経験豊富なユーザーが、研究で調査されたRAGシステムを使用する際に注意を払うべきであると主張しています。さらに、研究で見つかった欠点に基づいて、将来的に技術的な監督の基盤となる新しいメトリック体系を提案しています。
しかし、RAGシステムの使用が一般的に増えていることから、著者は、適切な立法とAI検索インターフェイスに関する政府の政策の強制を主張しています。
この研究は、ペンシルベニア州立大学とSalesforceの5人の研究者によって行われ、AI時代の検索エンジン:事実と検証可能なソース引用の虚構の約束と題されています。この研究は、2024年8月時点でのRAGシステムの最新の状態までをカバーしています。
RAGのトレードオフ
著者は、RAGシステムの4つの既知の欠点を繰り返しています。
最初に、著者らは、RAGシステムが情報を「幻覚」し、事実の不一致を検出する能力が不足していることを指摘しています。2番目に、引用の正確性を生成された回答のコンテキストで評価するのに苦労していることを指摘しています。3番目に、事前トレーニングされた重みからのデータを好み、外部から取得した文書からのデータに抵抗することを指摘しています。
4番目に、RAGシステムが人間の好みに従う、すきま風の挙動に傾向があることを指摘しています。
これらの傾向は、研究の両方の側面で確認されました。
論文では、OpenAIのSearchGPT RAG製品を、RAGベースの検索システムのユーザー採用を促進する可能性があると見なしています。
‘OpenAIの「SearchGPT」のリリースは、「Google検索の殺し屋」とマーケティングされており、懸念をさらに高めています。ツールへの依存が増えるにつれて、その影響を理解する必要性も高まります。 Lindemannは、シール化された知識の概念を導入し、これらのシステムが検索クエリを単一の権威ある回答に凝縮することで、多様な回答へのアクセスを制限し、情報を無意味化し、ユーザーの視点を狭めてしまうことを批判しています。 ‘
‘この「封じ込め」は、選択バイアスを永続させ、疎外された視点を制限します。’
研究
著者らは、最初に3人の参加者で研究手法をテストしました。
最初の段階では、残りの21人に対して、専門知識情報検索が行われ、参加者は平均約6つの検索クエリを40分間で行いました。このセクションは、事実ベースの質問と回答の収集と検証に重点を置きました。
2番目の段階では、議論情報検索が行われ、主観的な問題、例えば環境保護、ベジタリアニズム、政治について扱いました。

Perplexity(左)とYou Chat(右)からの生成された研究回答。 ソース: https://arxiv.org/pdf/2410.22349
すべてのシステムが、提供された支持出典との一定レベルの対話性を許可していたため、研究対象者はインターフェイスとできるだけ積極的に対話するよう促されました。
両方のケースで、参加者は、RAGシステムと従来の検索エンジン(この場合はGoogle)を介して、クエリを形成するように求められました。
You Chat、Bing Copilot、Perplexityの3つの回答エンジンは、公開されているため選択されました。
参加者の大多数は、RAGシステムの既存のユーザーで、使用頻度は様々でした。
スペースの制約により、研究で見つかった16の重要な欠点点をすべて詳細に説明することはできませんが、ここではいくつかの最も興味深い例を示します。
客観的な詳細の欠如
論文では、ユーザーがシステムの回答が頻繁に客観的な詳細を欠いていることを発見したと述べています。1人の参加者は次のように述べています。
‘単に答えようとしているだけで、実際には私にしっかりした答えや、より考えられた答えを与えていない。私が複数のGoogle検索で得ることができるものです。’
別の参加者は次のように述べています。
‘あまりにも簡単にまとめすぎて、主張に対して十分なデータを提供していない。モデルは、要約されすぎている。’
包括的な視点の欠如
著者らは、回答エンジンが頻繁に多様な視点を提示するのではなく、ユーザーの質問の表現方法に基づいて推測された偏見と一致することを示しています。
1人の参加者は次のように述べています。
‘私は議論の反対側についてもっと知りたい…これはすべて、反対側の証拠や事実を知らないため、ある意味で塩を振り掛けたものです。’
別の参加者は次のように述べています。
‘両側の議論を提示していない。議論をしてくれない。代わりに、モデルは私に「あなたは正しい」と言ってくれて、理由を説明してくれる。’
自信のある言語
著者らは、3つのテストされたシステムすべてが、主観的な問題を扱う場合でも、過度に自信のある言語を使用していることを観察しています。参加者は次のように述べています。
‘自信を持って書かれているので、出典を見なくても納得してしまう。しかし、出典を見てみると、悪いもので、私を再び疑わしくさせてしまう。’
別の参加者は次のように述べています。
‘正しい答えがわからない人なら、間違っている場合でもこれを信頼してしまう。’
不正確な引用
別の一般的な問題は、RAGシステムの回答の出典の誤った帰属でした。1人の研究対象者は次のように述べています。
‘この文は出典に書かれていない。文は真実で、有効ですが、私はどこから情報を得ているのかわかりません。’
論文の著者は次のように述べています。
‘参加者は、システムが回答を正当化するために引用を使用していると感じ、信用の幻想を生み出していると感じました。ただし、出典を調べた一部のユーザーのみがこれを明らかにしました。’
クエリに合わせた情報の選択
RAGの回答における人を喜ばせる、すきま風の挙動に戻ると、研究では、多くの回答が特定の視点を強調するのではなく、トピックを包括的にまとめることを発見しました。1人の参加者は次のように述べています。
‘操作されていると感じる。情報の一部しか取り上げて、事実を一方的に見せるように感じる。’
別の参加者は次のように述べています。
‘実際には、出典には賛成と反対の両方があるのですが、このリンクから必要な議論のみを選択しています。全体像を見せていない。’
詳細な例や調査参加者の批判的な引用については、ソース論文を参照してください。
自動化されたRAG
研究の2番目の段階では、研究者はブラウザベースのスクリプティングを使用して、3つのテストされたRAGエンジンからシステム的にクエリを送信しました。次に、LLMシステム(GPT-4o)を使用して、システムの回答を分析しました。
回答は、クエリの関連性と賛否両論の発言(回答がクエリの暗黙の偏見に賛成、反対、または中立であるかどうか)について分析されました。
回答の信頼度スコアも、Likertスケールの心理測定方法に基づいて、この自動化段階で評価されました。ここでは、LLM評価者は2人の人間のアノテーターによってサポートされました。
3番目の操作では、Jina.ai Readerツールを使用して、引用されたWebページの全文コンテンツをWebスクレイピングで取得しました。ただし、論文の他の箇所では、ほとんどのWebスクレイピングツールが、ほとんどの人がそうであるのと同じように、有料サイトにアクセスできないことを観察しています(ただし、著者は、Perplexity.aiがこの障壁を回避することができることを観察しています)。
追加の考慮事項としては、回答が出典を引用しているかどうか(「引用マトリックス」として計算される)、および「事実の裏付けマトリックス」として、4人の人間のアノテーターによって検証されたメトリックが含まれます。
したがって、8つの包括的なメトリックが取得されました: 片面的回答、過度に自信のある回答、関連するステートメント、出典なし、裏付けのないステートメント、出典の必要性、引用の正確性、引用の徹底性。
テスト対象となった材料は、ユーザー研究段階からの303のキュレーションされた質問で、3つのテストされたシステムで合計909の回答を生成しました。

3つのテストされたRAGシステムの8つのメトリックに基づく量的評価。
結果について、論文は次のように述べています。
‘回答テキストに関連する3つのメトリックを調べてみると、評価された回答エンジンはすべて、50〜80%の頻度で片面的回答を生成し、賛否両論の提示よりも、デバットの質問の電荷された形式に賛成する回答を好むことがわかりました。Perplexityは、他の2つのエンジンのパフォーマンスよりも悪かった。’
‘これは私たちの定性的結果と一致しています。驚くことに、片面的回答を生成する可能性が最も高いPerplexityは、平均18.8のステートメントを1つの回答につき生成するため、最も長い回答を生成します。これは、回答の多様性の欠如が回答の短さによるものではないことを示しています。 ‘
‘言い換えれば、回答の長さを増やすと、回答の多様性が必ずしも向上するわけではありません。’
著者らは、Perplexityが最も自信のある言語を使用する(回答の90%)こと、および他の2つのシステムが主観的なコンテンツを扱う場合に、より慎重で、自信のない言語を使用することを指摘しています。
You Chatは、回答に0の出典なしを達成した唯一のRAGフレームワークでした。Perplexityは8%、Bing Chatは36%でした。
すべてのモデルは、重大な割合の裏付けのないステートメントを示しました。論文は次のように述べています。
‘RAGフレームワークは、LLMの幻覚的な挙動を解決するために、LLMがソースドキュメントに基づいた回答を生成することを保証することで広告されています。ただし、結果は、RAGベースの回答エンジンが依然として、提供するソースによって裏付けられていない回答を含む回答を生成していることを示しています。 ‘
さらに、すべてのテストされたシステムは、ステートメントを引用で裏付けるのに苦労しました。
‘You.ComとBing Chatは、Perplexityよりもわずかに優れており、約2/3の引用がステートメントを裏付けるソースを示しています。一方、Perplexityは、引用の半分以上が不正確であると推定されました。 ‘
‘この結果は驚くべきものです。引用は、裏付けることができないステートメントにのみ不正確なのではなく、ステートメントを裏付けるソースが存在する場合でも、エンジンは頻繁に不正確なソースを引用し、ユーザーが情報の有効性を確認するための正確な情報源を提供する機会を逃しています。 ‘
‘言い換えれば、幻覚的な挙動は、ソースによって裏付けられていないステートメントにのみ表示されるのではなく、ユーザーが情報の有効性を確認できない、不正確な引用でも発生します。 ‘
著者らは次のように結論付けています。
‘回答エンジンのどれも、多数のメトリックで良好なパフォーマンスを達成できなかったため、大きな改善の余地がある。 ‘








