ソートリーダー
合成データの真実: LLMの成功には人間の専門知識が不可欠である

LLM開発者は、開発を迅速化し、コストを削減するために、合成データを使用することが増えています。LLama 3、Qwen 2、DeepSeek R1などのトップモデルの研究者たちは、研究論文の中で、合成データを使用してモデルをトレーニングしたことを言及しています。外から見ると、完璧な解決策のように思えます。開発を迅速化し、コストを削減するための情報の無限の源です。しかし、この解決策には、ビジネスリーダーが無視できない隠れたコストが伴います。
単純に言えば、合成データは、AIモデルによって生成され、LLMやAIエージェントのトレーニング、ファインチューニング、評価のための人工的なデータセットを作成するために使用されます。伝統的な人間の注釈付けに比べて、データパイプラインを迅速にスケールさせることができます。これは、AI開発の速いペースと競争的な景色では不可欠です。
企業には、合成データを使用する他の理由があるかもしれません。たとえば、金融やヘルスケアの設定では、機密情報や機密情報を保護するために匿名化されたバージョンを生成することができます。合成データは、プロプライエタリデータが利用できない場合、たとえば製品の発売前に、またはデータが外部クライアントに属する場合の良い代替手段となります。
しかし、合成データはAI開発を革命的に変えているのでしょうか。簡単に言えば、潜在的に大きな可能性がありますが、厳格な人間の監視なしに、LLMやエージェントに重大な脆弱性をさらす可能性があります。LLM製造者やAIエージェント開発者は、不十分に検証された合成データでトレーニングされたAIモデルが、不正確または偏った出力を生成し、評判の危機を引き起こし、業界や倫理基準との非準拠につながる可能性があることを発見するかもしれません。人間の監視への投資は、利益を保護し、利害関係者の信頼を維持し、責任あるAIの採用を保証するための直接的な投資です。
人間の入力により、合成データを高品質のトレーニングデータに変換することができます。合成データを生成してからトレーニングに使用する前に、3つの重要な理由で精製する必要があります。ソースモデル知識のギャップを埋めること、データ品質を向上させてサンプルサイズを削減すること、および人間の価値観と一致させることです。
ユニークな知識を捉える必要がある
合成データは、主に、LLMによって生成され、公開されているインターネットソースでトレーニングされています。これには、固有の制限があります。公開コンテンツは、実際の仕事で使用される実践的な、手作業の知識を捉えることはほとんどありません。マーケティングキャンペーンの設計、財務予測の準備、市場分析の実行などの活動は、通常、プライベートであり、オンラインで文書化されていません。さらに、ソースは、米国中心の言語と文化を反映しており、グローバルな表現を制限しています。
これらの制限を克服するために、専門家を巻き込んで、合成データ生成モデルがカバーできない領域のデータサンプルを作成することができます。企業の例に戻ると、最終的なモデルが財務予測や市場分析を効果的に処理するようにしたい場合は、トレーニングデータにこれらの分野からのリアルなタスクを含める必要があります。専門家がこれらのギャップを特定し、合成データを専門家が作成したサンプルで補足することが重要です。
専門家は、プロジェクトの初期段階で、仕事の範囲を定義するために関与することがよくあります。これには、モデルが実行する必要がある知識の特定の領域を概説したタクソノミーの作成が含まれます。たとえば、ヘルスケアでは、一般的な医学は、栄養、心血管健康、アレルギーなど、サブトピックに分割できます。ヘルスケアに焦点を当てたモデルは、カバーする予定のすべてのサブ領域でトレーニングを受ける必要があります。タクソノミーがヘルスケアの専門家によって定義された後、LLMは、典型的な質問と答えを迅速に、大規模に生成できます。ただし、人間の専門家は、コンテンツが正確であるだけでなく、安全で、文脈に適切であることを確認するために、レビュー、修正、および改善する必要があります。この品質保証プロセスは、高リスクのアプリケーション、たとえばヘルスケアでは、データの正確性を確保し、潜在的な危害を軽減するために不可欠です。
品質よりも数量: モデルの効率性を高めるための、より少ない、より良いサンプル
ドメインの専門家がLLMやAIエージェントのトレーニングデータを作成する場合、タクソノミーを作成し、プロンプトを書き、理想的な答えを作成し、特定のタスクをシミュレートします。すべてのステップは、モデルが目的を達成するように慎重に設計されており、品質は対応する分野の専門家によって保証されています。
合成データ生成は、このプロセスを完全に複製しません。生成されたデータの品質は、人間がキュレーションしたデータに比べて、しばしば一致しません。これは、合成データが、満足のいく結果を達成するために、より大きなボリュームを必要とすることを意味し、計算コストと開発時間が増加します。
複雑なドメインでは、人間の専門家だけが気づくことができるニュアンスがあります。特に、外れ値やエッジケースでは、人間がキュレーションしたデータは、常により優れたモデルのパフォーマンスを提供します。データ作成プロセスに人間の専門知識を戦略的に統合することで、モデルが効果的に実行するために必要なサンプルの数を削減できます。
私たちの経験によると、この課題に対処するための最善の方法は、専門家を合成データセットの構築に参加させることです。専門家がデータ生成のルールを設計し、データタクソノミーを定義し、生成されたデータをレビューまたは修正する場合、最終的なデータ品質は大幅に高まります。このアプローチにより、クライアントは、より少ないデータサンプルを使用して強力な結果を達成し、より迅速かつ効率的なプロダクションへの道を実現することができます。
信頼を築く: AIの安全性と整合性における人間の不可欠な役割
自動化システムは、すべての脆弱性を予測したり、人間の価値観との整合性を保証したりすることはできません。特に、エッジケースや曖昧なシナリオでは、専門家の人間レビュアーは、エマージングリスクを特定し、展開前に倫理的な結果を保証する上で重要な役割を果たします。これは、AIが現在、完全に提供できない保護レベルです。
したがって、強力なレッドチームデータセットを構築するには、合成データだけでは十分ではありません。プロセスの初期段階でセキュリティの専門家を関与させることが重要です。彼らは、潜在的な攻撃の種類をマッピングし、データセットの構造をガイドすることができます。LLMは、次に、多数の例を生成できます。ただし、専門家は、データが現実的、品質が高く、AIシステムのテストに役立つことを確認するために、データを検証および改良する必要があります。たとえば、LLMは、標準的なハッキングプロンプトを数千件生成できますが、人間のセキュリティ専門家は、ニュアンスな心理的偏見を利用する「ソーシャルエンジニアリング」攻撃などの新しい攻撃を構築できます。これは、自動化システムが独自に発明するのに苦労する創造的な脅威です。
人間のフィードバックからの強化学習を使用してLLMを整合させることについては、重要な進歩が見られます。研究論文「RLAIF vs. RLHF: 人間のフィードバックからの強化学習をAIのフィードバックでスケーリングする」では、研究者は、AIベースの整合が、多くの場合、人間のフィードバックと同等のパフォーマンスを発揮することを示しています。ただし、AIのフィードバックは、モデルが改善するにつれて改善しますが、私たちの経験によると、RLAIFは、複雑なドメインやエッジケース、またはアウトライアーのような領域でまだ苦労しています。人間の専門家は、タスクのニュアンスやコンテキストを扱うことがより効果的であり、整合のためのより信頼性が高いことを示しています。
AIエージェントも、幅広い安全性リスクに対処するために自動テストから利益を得ます。仮想テスト環境は、生成されたデータを使用して、オンラインツールとのやり取りやウェブサイトでのアクションの実行などのエージェントの動作をシミュレートします。現実的なシナリオでのテストカバレッジを最大化するために、人間の専門知識は、テストケースの設計、自動評価の結果の検証、および脆弱性の報告に不可欠です。
合成データの将来
合成データは、特にスケーリングと迅速な展開が重要な今日の迅速な景色では、LLMの開発において非常に有価値なテクニックです。合成データ自体に根本的な欠陥はありませんが、潜在能力を発揮し、最大の価値を提供するには、精製が必要です。自動データ生成と人間の専門知識を組み合わせたハイブリッドアプローチは、有能で信頼性の高いモデルを開発するための非常に効果的な方法です。最終的なモデルのパフォーマンスは、総量よりもデータ品質に依存するためです。この統合プロセスは、AIをスケールに使用し、人間の専門家を検証に使用することで、より有能なモデルを生成し、安全性の整合性が向上し、ユーザーの信頼を築き、責任ある展開を保証します。












