ソートリーダー

LLMs内の現在の問題に対処し、次のステップを見据える

Published January 2, 2025

Updated April 27, 2026

Uday Kamath, Chief Analytics Officer at Smarsh

現在、GPT-3、GPT-4、LaMDA、またはBardのような、大規模な言語モデル（LLMs）が数十個公開されており、その数は新しいモデルがリリースされるにつれて不断に増加している。LLMsは人工知能を革命し、様々な業界でテクノロジーとのかかわり方を完全に変えている。これらのモデルにより、多数の人間の言語データセットから学び、新しいイノベーション、創造性、効率のための新たな道を開いている。

しかし、偉大な力には偉大な複雑さが伴う。LLMsをその全潜在能力で利用する前に、解決しなければならない固有の課題と倫理的問題がある。例えば、スタンフォード大学の最近の研究では、ChatGPT-4が人種や性別を暗示する名前を含む特定のクエリに対して、人種や性別の偏見があることが発見された。この研究では、プログラムに、ジャマル・ワシントンという名前の人物が売っている使用済み自転車の価格についてのアドバイスを求め、ローガン・ベッカーという名前の人物が売っている場合と比較して、価格が大幅に低いことがわかった。こうした発見が続いてくると、LLMsの課題に対処する必要性は増すだけである。

一般的なLLMsの懸念を軽減する方法

偏見

LLMsの中で最もよく議論される問題の1つは、偏見と公平性である。最近の研究では、専門家が4つの最近公開されたLLMsをテストし、それらすべてが男性と女性について、事実に基づいていない偏った仮定を表明していることがわかった。この文脈では、偏見は、社会的グループ間の不平等な扱いまたは結果を指し、歴史的または構造的な力関係の不均衡によるものである。

LLMsにおける偏見は、データの選択、作成者の人口統計、言語または文化の偏りによって引き起こされる。データの選択偏見は、LLMsのトレーニングに使用されるテキストがウェブ上で使用される言語の多様性を完全に表していない場合に発生する。限定されたデータセットでトレーニングされたLLMsは、既存のテキストに含まれる偏見を継承する可能性がある。作成者の人口統計では、特定の人口統計グループが他のグループよりも頻繁に強調されるため、偏見を減らすためにコンテンツの作成における多様性と包摂性の必要性が示される。例えば、WikipediaはLLMsのトレーニングデータの一般的なソースであるが、編集者の人口統計的バランスが著しく男性が多く（84%）、言語や文化の偏りも同様である。

LLMsをフィルタリングされたデータでトレーニングし、ガードレールを設けて、データの正確な表現ではないトピックを抑制することが重要である。1つの方法は、データ増強ベースのテクニックを使用することである。トレーニングデータに、代表性のないグループからの例を追加することで、データセットの多様性を拡大することができる。別の軽減策は、データのフィルタリングと再加重であり、主に特定の、代表性のない例を既存のデータセット内で正確にターゲットにすることに焦点を当てている。

幻覚

LLMsの文脈では、幻覚は、文法的に正しく、見かけ上は一貫性のあるテキストを生成する現象であるが、事実の正確さやソース資料の意図から乖離する。実際、最近の報告では、ミネソタ州の法律に関する訴訟がLLMsの幻覚によって直接影響を受けていることが発見された。法律を支持するために提出された宣誓書には、ChatGPTまたは他のLLMsによって幻覚化された可能性のある、実在しないソースが含まれていることがわかった。これらの幻覚は、LLMsの信頼性を簡単に低下させることができる。

幻覚には3つの主な形式がある：

入力と矛盾する幻覚: これは、LLMsの出力がユーザーが提供した入力、つまりタスクの指示と実際の処理が必要なコンテンツから乖離する場合に発生する。
コンテキストと矛盾する幻覚: LLMsは、複数のやり取りや対話を伴うシナリオで、内部的に矛盾した応答を生成する可能性がある。これは、モデルがコンテキストを追跡したり、複数のやり取り間で一貫性を維持したりする能力に潜在的な欠陥を示唆する。
事実と矛盾する幻覚: この種の幻覚は、LLMsが既存の事実的知識と矛盾するコンテンツを生成する場合に発生する。こうした誤りの起源は多様であり、LLMsのライフサイクルの中でさまざまな段階で発生する可能性がある。

この現象に寄与する要因は、知識の欠如などがあり、LLMsが前処理の段階で情報を正確に吸収または統合する能力が不足していることを説明する。さらに、トレーニングデータ内の偏見や、LLMsの順次生成戦略（「幻覚の雪球化」と呼ばれる）によって幻覚が生じる可能性がある。

幻覚を軽減する方法はあるが、幻覚はLLMsの特徴である。幻覚の有効な軽減戦略は、前処理の段階で（フィルタリング技術を使用してデータを手動で精製する）またはファインチューニングの段階で（トレーニングデータをカーソリする）である。ただし、推論の段階での軽減が最もコスト効率が高く、制御しやすい。

プライバシー

インターネットの普及により、個人情報やその他のプライベートデータへのアクセスが容易になり、広く認知されている懸念事項となっている。ある研究では、80%のアメリカ人消費者が、自分のデータがAIモデルをトレーニングするために使用されていることを心配している。最も著名なLLMsはウェブサイトから得られるため、プライバシー上のリスクをもたらす可能性と、LLMsの未解決問題であることを考慮する必要がある。

LLMsが個人情報を配布しないようにする最も直接的な方法は、トレーニングデータから個人情報を除去することである。ただし、LLMsで使用されるデータの量は膨大であるため、すべての個人情報が除去されることを保証することはほぼ不可能である。別の一般的な代替手段は、外部で開発されたモデルではなく、オープンソースのLLMsを選択することである。

このアプローチでは、モデルを内部にデプロイすることができる。ユーザーのプロンプトは、サードパーティのサービスに公開されるのではなく、組織のネットワーク内で安全に保たれる。こうすることで、機密情報の漏洩のリスクが大幅に軽減されるが、複雑さも増す。個人情報の保護を完全に保証することは難しいが、アプリケーションの開発者は、これらのモデルがユーザーにどのようなリスクをもたらす可能性があるかを考慮することが重要である。

LLMsの次のフロンティア

LLMsのリスクを軽減し続け、進化を促進するにつれて、LLMsエージェントの登場が期待される。これは、すでにHのような企業がRunner Hのような製品をリリースし始めている。純粋な言語モデルからエージェントアーキテクチャへの移行は、AIシステムの設計における変化を表し、業界はチャットインターフェイスやシンプルな生成の限界を超えることになる。これらの新しいエージェントフレームワークには、複雑な目標を原子的なサブタスクに分解する高度な計画モジュール、エピソード記憶によるコンテキスト推論、明確に定義されたAPIを介した専用ツールの活用が含まれる。これにより、タスクの自動化に対するアプローチが強化される。アーキテクチャの進化は、従来のLLMs実装におけるタスク、推論、ツール統合、実行の監視に関する一般的な課題を軽減する。

LLMsに加えて、小規模な言語モデルへのトレーニングに重点が置かれることになる。これは、小規模モデルがコスト効率が高く、利用しやすく、デプロイが容易であるためである。例えば、ドメイン特有の言語モデルは特定の業界や分野に特化している。これらのモデルは、ドメイン特有のデータと用語で微調整されており、精度が重要な医療や法律などの複雑で規制の厳しい環境に最適である。こうしたターゲットアプローチにより、汎用モデルが専門的なコンテンツに直面したときに生じる可能性のあるエラーや幻覚の可能性が低くなる。

LLMsの新しいフロンティアを探求し続けるにつれて、イノベーションの境界を押し広げ、LLMsの開発と展開に関連する潜在的なリスクを特定し、軽減することが重要である。偏見、幻覚、プライバシーに関する課題を積極的に特定し、対処することで、LLMsが様々な分野で繁栄するためのより強固な基盤を創造することができる。

Uday Kamath, Chief Analytics Officer at Smarsh

Uday Kamathは、Smarshのチーフアナリティクスオフィサーであり、同社はコミュニケーションデータおよびインテリジェンスのグローバルリーダーである。彼の役割は、会話AIにおけるデータサイエンスおよび研究を主導することを含む。分析開発における25年以上の経験と、スケーラブルマシンラーニングの博士号を持つKamathの著名な貢献は、多数のジャーナル、会議、書籍、特許にわたる。他にも、Falkonryのような商業会社や、GMUのCenter for Human-Machine Partnershipのような学術機関を含むエンティティのアドバイザー理事会の活発なメンバーでもある。

Unite.AI

LLMs内の現在の問題に対処し、次のステップを見据える

一般的なLLMsの懸念を軽減する方法

偏見

幻覚

プライバシー

LLMsの次のフロンティア

You may like