Artificial Intelligence

検索拡張生成 (RAG) を使用して LLM 幻覚を克服する

公開済み

3週間前

2024 年 3 月 5 日

大規模な言語モデル (LLM) は言語の処理方法と生成方法に革命をもたらしていますが、それらは不完全です。人間が雲の形や月の顔を見るのと同じように、LLM も「幻覚」を起こし、不正確な情報を作成することがあります。として知られるこの現象は、 LLM幻覚、LLM の使用が拡大するにつれて、懸念が増大しています。

間違いはユーザーを混乱させ、場合によっては企業の法的トラブルにつながることもあります。たとえば、2023 年には、空軍退役軍人のジェフリーバトル (航空宇宙教授として知られる) がマイクロソフトに対して訴訟を起こした彼は、Microsoft の ChatGPT を利用した Bing 検索が、自分の名前検索に関して事実に反して有害な情報を提供することがあることを発見しました。検索エンジンは彼を有罪判決を受けた重犯罪者のジェフリー・レオン・バトルと混同した。

幻覚に対処するには、検索拡張生成 (RAG) が有望なソリューションとして浮上しています。外部データベースからの知識を組み込んで、LLM の結果の精度と信頼性を高めます。 RAG がどのように LLM の精度と信頼性を高めるのかを詳しく見てみましょう。また、RAG が LLM 幻覚問題に効果的に対抗できるかどうかについても説明します。

LLM 幻覚を理解する: 原因と例

LLM には、次のような有名なモデルが含まれます。 ChatGPT, チャットGLM, クロード、大規模なテキストデータセットでトレーニングされていますが、事実に誤りのある出力、つまり「幻覚」と呼ばれる現象の生成を免れることはできません。幻覚は、LLM が事実の正確さに関係なく、基礎となる言語規則に基づいて意味のある応答を作成するように訓練されているために発生します。

A ティディオの研究ユーザーの 72% が LLM は信頼できると信じている一方で、75% が AI から誤った情報を少なくとも 3.5 回受け取ったことがあることを発見しました。 GPT-4 や GPT-XNUMX などの最も有望な LLM モデルでも、不正確なコンテンツや意味不明なコンテンツが生成される場合があります。

一般的な LLM 幻覚の概要を以下に示します。

一般的な AI 幻覚のタイプ:

ソースの組み合わせ: これは、モデルがさまざまなソースからの詳細を結合するときに発生し、矛盾やソースの捏造につながることがあります。
事実上の誤り: LLM は、特にインターネット固有の不正確さを考慮すると、不正確な事実に基づいたコンテンツを生成する可能性があります。
無意味な情報: LLM は確率に基づいて次の単語を予測します。文法的には正しいが意味のないテキストとなり、コンテンツの信頼性についてユーザーを誤解させる可能性があります。

昨年、2人の弁護士は、ChatGPTが生成した情報に惑わされ、法的文書の中で存在しない6件の事件に言及したとして、制裁を受ける可能性がありました。この例では、LLM で生成されたコンテンツに批判的な目で取り組むことの重要性を強調し、信頼性を確保するための検証の必要性を強調しています。その創造力はストーリーテリングなどのアプリケーションには有益ですが、学術研究の実施、医学および財務分析レポートの作成、法的アドバイスの提供など、事実を厳密に遵守する必要があるタスクには課題が生じます。

LLM 幻覚の解決策の探求: 検索拡張生成 (RAG) の仕組み

2020年には、 LLM研究者と呼ばれるテクニックを導入しました検索拡張生成 (RAG) 外部データソースを統合することで LLM 幻覚を軽減します。事前トレーニングされた知識のみに依存する従来の LLM とは異なり、RAG ベースの LLM モデルは、質問に答えたりテキストを生成したりする前に、外部データベースから関連情報を動的に取得することによって、事実に正確な応答を生成します。