

新しいものに直面したとき、人間は本能的に比較を求める。原子について学ぶ子供は、電子が原子核を「太陽の周りを公転する惑星のように」周回することを聞くかもしれない。起業家は、自分のスタートアップを「ペットの美容師のためのUber」と表現するかもしれない。科学者は、非専門家の聴衆に、脳が情報を「コンピューターのように」処理することを説明するかもしれない。この精神的な飛躍 – 一つのものが他の一つのものと似ていることを、より深い構造で見ることができる – は、類推的推論と呼ばれる。現在の形態のAIと人間の知能を区別するものであるかもしれない。如果、我々が、まだ到達できていないAIの「聖杯」である、Artificial General Intelligenceを開発するのであれば、機械が類推的に考えることを学ぶことが可能かどうかを判断する必要がある。賭けは、さらに高くなっている。如果、答えが「いいえ」であれば、最も洗練されたAIシステムも、単なる計算機以上のものにはなり得ない。データを並べ替えること以上のことを要求される問題を解決することはできない。理解のアーキテクチャ類推的推論は、表面的な類似性ではなく、構造的な類似性のレベルで機能する。たとえば、心臓と水ポンプは何が似ているのか?確かに、それらの物理的な外見ではない。両者が同じ機能、つまりシステム内を流体を循環させることを実行するという事実である。人間の学習、創造性、問題解決が独自のものであるのは、まさにこのような関係を一つのコンテキストから別のコンテキストにマッピングする能力である。実世界の例は数多くある。ドイツの優秀な化学者、アウグスト・ケクレが、夢の中で蛇が自分の尾を咬むのを見て、ベンゼンの構造についてのヒントを得たという話は有名である。現在、プログラマーは、コードを構造化する際に、キッチンを整理することからの教訓を適用し、教師は、電流をパイプを通る水の流れに例えて説明する。しかし、現在のAIシステムは、この共通の認知スキルを非常に難しいと見なしている。現代の大規模言語モデル(LLM)は、質問に応えて、「時間は金なり」と説明したり、語彙的推論のパズルを解いたりすることができる。しかし、増加する証拠は、これらが本物の構造的なマッピングではなく、洗練されたパターンマッチングに従事していることを示唆している。研究者がこれらのモデルに、訓練データから外れた新しい類推的問題を提示すると、パフォーマンスはしばしば低下する。これは、LLMが以前見た類推を再現することに優れているが、新しい接続を築くことが求められると失敗するためである。類推的推論なしでは、AGIなし明らかに、類推的推論は、AGIの不可欠な条件である。それなしでは、AIシステムは脆弱で、あるドメインで関連する知識を別のドメインで問題を解決するために適応できない。たとえば、日向のカリフォルニアの通りを移動することを学んだ自律走行車が、雪道を扱う方法を外挿できない場合を想像してみてください。車のAIシステムは、高価なパターンマッチャーであり、真正の知能を持つシステムではない。真正の知能は、氷面での運転が他の滑らかな表面のシナリオと構造的に類似していることを認識するための認知的柔軟性を必要とする。同じ原理は、自動運転車以外のドメインにも適用される。類推的思考は、科学、医療診断、法的推論、創造的な取り組みにおける進歩も推進する。類推的能力を持たないAIシステムは、図書館全体を暗記した学者だが、知識を分野間で統合できない学者に似ている。印象的ではあるが、狭い意味でのみである。類推的思考の構築人間のような類推的推論を可能にするAIシステムを開発するには、何が必要か?新しい研究と類推的思考の基本的な性質に基づいて、重要な条件と技術がいくつか必要である。構造的に豊かで多様な訓練データ最初の要件は、AIシステムを表面レベルのテキストパターンを超えたデータで訓練することである。インターネットは、科学論文、技術文書、創造的な作品、説明的なコンテンツの膨大なリポジトリを備えているため、良い出発点となる。しかし、どんなインターネットデータでもよいわけではない。構造的な多様性が必要である。つまり、開発者は、AIシステムを関係の対比に最初から晒す必要がある。訓練データには、建築の青写真と音楽のスコア、数学の証明と詩、法的な議論と料理のレシピが並んでいたりする。各ドメインには異なるタイプの関係構造が含まれているため、将来のAGIはこのような訓練から利益を得ることができる。さらに重要なのは、このデータが構造的な関係を保存し、強調する必要があることである。知識グラフ、因果図、概念間の明示的にマッピングされた関係は、AIシステムが「構造」を学習し、機械的に関連性を記憶するのではなく、関係を「見る」ことを学ぶのに役立つ。AIに、物事が何であるかだけでなく、どのように関連しているかを教えるのと同じである。訓練セットを超えたテストAIシステムが類推的に推論を学習していることを確認するには、構造を新しい状況にマッピングする能力を意図的にテストするツールが必要である。これには、訓練データに現れる可能性の低いテスト問題を構築することが含まれる。研究者はこれを「反実仮想」タスクと呼ぶ。例えば、AIに標準的な類推を完成させるのではなく、「犬の子犬は犬に対して何であるか、子猫は猫に対して何であるか」という問題を出すのではなく、発明された概念を使用した問題や、AIが以前見たことがないドメイン間の関係をマッピングする問題を出すことができる。AIは、材料とレシピの関係が法的な議論と証拠の関係と平行していることを認識できるか?これは、システムが表面的な類似性ではなく、根本的な構造を理解しているかどうかを明らかにする。重要なものを測定するAI開発者にとっての良いニュースは、人間が類推をどのように処理するかについて、認知科学の研究が数十年間行われてきたということである。これらの研究を使用して、類推的推論のための堅牢なベンチマークを開発することができる。しかし、これらのベンチマークは、単に類推テストの正解の数を数えるのではなく、関係のマッピングの一貫性を維持し、表面的な類似性を無視する能力を評価する必要がある。これには、関係の識別を評価するメトリックが必要である。たとえば、AIが原子と太陽系の両方で公転が関係していることを認識し、さらにそれらの公転を支配する因果関係を理解することができると、高く評価される。別の評価基準として、AIが新しい概念を説明するために適切な類推を自発的に生成できるかどうかを評価することができる。プロンプティングによるサポート最近の研究によると、AIの類推的思考能力は、大きく依存しているのは、どのようにしてそれを行うように求められているかである。類推的プロンプティング – モデルを構造的なマッピングのプロセスを通じて明示的に導く – は、問題を冷たい状態で提示するよりも、より洗練された推論を引き出すことができる。このテクニックは、双方に役立つ。現在のAIシステムの類推的能力を向上させるだけでなく、将来のモデルに訓練データを生成することもできる。類推的推論の成功した例を記録することで、将来のシステムがより自然にこのプロセスに従事するように教えることができる。ハイブリッドアーキテクチャ人間のような類推的推論を達成するには、純粋なニューラルネットワークアプローチを超える必要がある。パターン認識とシンボル推論を組み合わせたハイブリッドシステム – 構造的な関係を明示的に表現し操作する – が、欠けているピースを提供する可能性がある。ニューラルネットワークは、暗黙的なパターンを学習することに優れているが、シンボルシステムは、類推的推論が要求する構造的一貫性と論理的マッピングを強制することができる。ハイブリッドアーキテクチャはまだ幼少期にあるが、研究者はその潜在性を積極的に探究している。いくつかの研究では、ニューラルネットワークとシンボル推論を組み合わせ、類推的能力を高めることができる。別の研究では、ハイブリッドモデルを提案し、AIモデルの類推的思考の浅い方法を解決する。次に何が起こるか誰に聞いても、類推的推論はすでに現れているか、またはAIは単にその模倣を改善しているかのどちらかである。どちらの立場が真実に近いかは明らかではないが、AGIの夢が実現するためには、単に大きなモデルや多くのデータだけでは不十分であることは明らかである。構造、訓練、評価の方法に根本的な革新が必要である。AIの変革的な能力が展開するにつれて、類推的推論は、パフォーマンスの重要な基準と、AIの現在の能力と真正の人間の認知のギャップを思い起こさせるものとなる。AIシステムが、民主主義は市民に対して何であるか、オーケストラは音楽家に対して何であるかと同じである – 表面的な特徴ではなく、深い構造的な関係、調整、表現、出現する調和を認識する – ことを認識することができるならば、重要な境界を越えたことになる。


Elon Muskは最近、AIモデルを訓練するために利用可能な人間のデータが尽きたと述べた。彼の警告は、AIが急速に進歩するために新しいデータソースが必要であるという必要性に関する最新のコメントである。ヘルスケアや金融などの業界では、厳格なプライバシー規制がデータ不足をさらに深刻化させている。合成データ – この不足に対する可能な解決策 – は新しいものではないが、その重要性は、最近の合併やこの分野への投資の増加によって示されるように、継続的に成長している。ただし、合成データの使用には、特にモデル崩壊のリスクがあり、これは、多モーダル大規模言語モデルの(LLM)出力の品質が、訓練に実世界のデータを使用しないと低下することを指す。 この問題が解決可能かどうかは、生成AI(Gen AI)の将来に大きな影響を与えるかもしれない。合成データとは何か、それはどうやって作られるのか合成データは、実際のイベントから収集されるのではなく、人工的に作成される。現在、最も広く使用されている合成データは、AIによって生成されたもので、これには、実世界のデータを使用してパターンと相関関係を検出し、次にこれらの統計的特性を模倣する新しいデータを生成することが含まれる。LLMは、構造化されたデータ(たとえば、表形式のデータ)や、非構造化されたデータ(たとえば、自由形式のテキスト、ビデオ、画像)などのさまざまな種類の合成データを生成するために使用されている。生成されるデータの種類に応じて、さまざまな方法が使用される。たとえば、合成画像データを生成するために使用される2つの一般的な方法は、GANと拡散モデルである。GANは、2つのニューラルネットワークを使用する:生成器は実データの人工的なバージョンを作成し、判別器は実際のものと生成されたものを識別する。継続的に協力することで、生成器は判別器を「欺く」ことを目指し、人工データのリアリティと多様性を不断に改善する。拡散モデルは、実データを学習して歪ませ、それを逆転させて「ノイズ除去」するという異なるアプローチを取る。効果的に訓練されると、高品質の合成オーディオとビジュアルデータを生成できる。合成データの重要性の増大合成データに対する関心は長年のものである。ただし、過去5年間で、LLMの急速な開発により、合成データの需要が高まり、また、大規模に生成するためのより効果的な手段が生まれた。結果として、合成データの使用は急激に増加した。Gartnerは予測、2024年までに、LLMの訓練に使用されるデータの60%が合成データになるだろうと述べている。これは、2021年の1%から大幅な増加である。MicrosoftのPhi-4モデルは、他のLLMよりも小さいながらも優れたパフォーマンスを発揮し、主に合成データで訓練された。AmazonのAlexaエンジニアは、「先生/学生」モデルを使用して、合成データを生成し、それを使用してより小さい「学生」モデルを微調整することを検討している。この広範な採用は、市場での大きな動きによって反映されている。合成データセクターは2021年から2022年にかけて投資ブームを経験した。Gretel AIとTonic.aiは、それぞれ5000万ドルと3500万ドルのシリーズBラウンドを確保した。これに続いて、MOSTLY AIが2500万ドルのシリーズBラウンドを閉じ、Synthesis AIが1700万ドルのシリーズA資金調達を確保した。最近の傾向は、大規模な買収に向かっている。NVIDIAのGretel買収は、同社自身のこの分野での取り組みを支える。同様に、AIソリューション会社のSASは、2024年11月に合成データスタートアップのHazyを買収した。分析会社のCognilyticaは、2021年の合成データ生成市場を約1.1億ドルと推定している。同社は、2027年までに11.5億ドルに達すると予測している。他の予測では、セクターのCompound Annual Growth Rate(CAGR)が31%で、2030年までに23.3億ドルの価値に達することを予測している。モデル崩壊しかし、合成データの興奮する潜在能力は、モデル崩壊という重大な欠点を伴う。モデル崩壊とは、合成データのみで訓練されたLLMが、精度の低いまたは多様性の低い出力を生み出す現象である。実世界のデータは複雑さが高く、合成データはモデルによって簡素化され、凝縮されることが多い。たとえば、研究者は、がん性のある痣を写真から検出するために訓練されたモデルの精度は、合成訓練データの量と反比例することを発見した。オックスフォード、ケンブリッジ、インペリアル・カレッジ、トロント大学の学者による最近の研究では、モデルの生成データを無差別に使用すると、結果として生じるモデルの「不可逆的な欠陥」が生じることが示された。さらに悪いことに、ほとんどのLLMは「ブラックボックス」であるため、合成データに対してどのように反応するかを理解することが難しい。 ライス大学とスタンフォード大学の研究者は、新しい実世界のデータがない場合、「将来の生成モデルは、品質(精度)または多様性(リコール)が漸次的に低下することになる」と結論付けた。実世界のデータの継続的な必要性明らかに、合成データの需要が高まっているにもかかわらず、実世界のデータの必要性は依然として残っている。実際、質の高い実世界データの需要は増加する可能性もある。理由は2つある。まず、実世界のデータは、合成データを生成するAIモデルを訓練するために必要である。二つ目は、モデル崩壊を避けるために、合成データを継続的に実世界のデータと同期する必要がある。合成データ生成AIモデルの訓練用実データ先ほど述べたように、現在の合成データのほとんどは、Gen AIを使用して生成される。Gen AIモデルは、合成データを生成するために、実世界のデータで訓練される必要がある。これは、これらのモデルが実世界のデータセットのパターンと統計的特性を複製することによってのみ合成データを生成できるためである。たとえば、最近の例として、保険会社が、機密性の高い顧客データを危険にさらすことなく、さまざまなベンダーをテストするために合成データを使用できた。実世界を正確に模倣するこの合成データセットを生成するには、合成データを生成するAIモデルを訓練するために、自身の実世界のデータを使用する必要があった。モデル崩壊の軽減のための実データモデル崩壊のリスクを軽減するための戦略は複数ある。これらには、合成データセットを検証して定期的にレビューすること、生成モデルで使用される前に合成データの品質を確認することが含まれる。ただし、最も一般的なアプローチは、合成データと人間のデータを組み合わせてデータを多様化することである。 Gartnerの調査では、回答者の63%が部分的に合成されたデータセットを使用することを好み、13%が完全に合成されたデータを使用していると回答した。実世界のデータを少しでも追加することで、モデルのパフォーマンスを大幅に改善できる。 南カリフォルニア大学の研究者は、企業は実データの最大90%を合成データに置き換えることができず、パフォーマンスに大きな低下が見られないと発見した。ただし、最後の10%の人間のデータを置き換えると、パフォーマンスが大幅に低下する。品質も重要であり、MicrosoftのPhi-4の成功の例に示されている。Phi-4は、主にGPT-4oによって生成された合成データで訓練された。ただし、事前訓練データの多く – モデルの最初の段階の訓練に使用される一般的なデータセット – は、書籍や研究論文を含む、慎重にキュレーションされた、高品質の実世界のデータであった。合成データがもたらす潜在的な利点合成データを賢く使用し、実世界のデータと効果的に組み合わせることで、AI訓練データに関する6つの特定の問題を解決できる。これらは、データの希少性、データの入手可能性、データの均質性、偏り、プライバシー問題、コストである。データの希少性AI企業が市場シェアを獲得し、新しい第一人者になるために競争するにつれて、LLMを訓練するために必要なデータの需要は増加する。合成データは、このギャップを埋める可能性がある。 Gartnerの研究によれば、実データを大量に使用する必要があるため、実データは依然として必要である。データの入手可能性大手テクノロジー企業は、データの門番として機能し、新規参入者への障壁を作っている。合成データは、Gen AIを民主化し、大量の訓練データを小規模企業にとって入手可能かつ費用対効果の高いものにする可能性がある。ただし、これは、合成データ生成モデルを訓練するために、またモデル崩壊を避けるために実世界のデータが必要であることを変えるものではない。データの均質性特定のニッチなユースケース、たとえば自律走行のためのAIの訓練では、実世界のデータセットは均質性が高すぎる。開発者は、合成データを生成して、データのギャップを埋めることができる。たとえば、道路上のまれな状況に対してモデルを訓練することができる。偏り実世界のデータセットには、内在的な偏りが含まれていることがある。合成データは、AIモデルがよりバランスの取れた画像を受け取るように生成できる。たとえば、金融では、英国金融行為監視機構(FCA)は、合成データが、特定のグループが人間のデータセットに表れない潜在的な偏りに対抗する可能性があると主張している。プライバシーヘルスケアや金融などの分野では、プライバシー要件がデータ不足をさらに深刻化させている。合成データを使用すると、企業は顧客のプライバシーを損なうことなく、モデルにニッチなデータを含む訓練データセットを構築できる。ただし、英国王立協会が依頼した報告書は、合成データは「本質的にプライベート」であるという「誤解」があることを指摘している。研究者は、合成データは、元のデータから情報を漏らす可能性があると指摘している。特に、機密データで訓練されたモデルは、モデル逆転攻撃に対して脆弱で、ハッカーが元のデータセットの一部を再構築できる。コスト一般的に、合成データは実世界のデータよりも低コストで生成される。さらに、ラベル付けが必要ないため、時間とコストを節約できる。AIの訓練プロジェクトでは、最大で80%がデータの準備に費やされることがあり、ラベル付けを含む。これは、シリコンバレーの巨大企業のデータ処理ニーズを満たすために、専門の会社が登場した理由である。実データを置き換えるのではなく補完する合成データの利点は、実データの代替ではなく補完として使用することで活用できる。Metaの次世代LLM、LLAMA Behemothは、30兆のデータポイントで訓練される。明らかに、この規模の実世界のデータを見つけることは、不可能に近い。ただし、合成データ生成モデルを訓練するために、またはモデル崩壊を避けるために実世界のデータと同期するために、実世界のデータは依然として必要である。LLMが現在使用している規模では、合成データが訓練データの相当部分を占めるとしても、実世界のデータの需要は依然として大きく、ゲートキーピング、入手可能性、偏り、コスト、時間に関する複雑な問題が残る。