ソートリーダー
来る「エボリューション」of AI

今日、技術的な断層線の端に立って、LLMからエージェント、そして最終的にエージェントAIとAGIへの旅を観察しています。これは、より大きなモデルやより速い応答だけについて話すのではなく、機械が受動的なアシスタントから能動的なコラボレーター、そしておそらく、独立した思考者へと移行することについて話すのです。
この道をたどり、仕事、専門知識、そして人間が明日の知能を形作る役割について何を意味するかを探ってみましょう。
LLM、エージェントベースのシステム、エージェントAIの違い
違いをよりよく理解するために、例を挙げます。もし私がLLMに「シカゴからオースティンまで、1日4時間以上運転せず、風光明媚な場所に立ち寄りたい」というようなことを聞いたら、通常のLLMはテキスト形式で静的な応答を返します。ただ、それは要望に対して徹底的な分析を行うことなく応答するだけです。
エージェントは、まずリクエストを旅行に関連するものとして分類します。次に、必要なデータを決定します。マッピングサービスを使用したルート、天気情報、燃料費、ホテル、レストランなどです。次に、エージェントはリクエストをサブタスクに分割し、それらを関連するソースでトレーニングされた専門化されたモジュールまたはLLMにルーティングします。これは、統一されたロジックの下で複数のモデルとツールを調整することです。
今日、ChatGPTやAnthropicのClaudeのようなほとんどの主要システムは、実質的に既にエージェントです。ユーザーから見ると、単一のモデルとやり取りしているように見えますが、実際には多くのモデルとシステムが複雑なアーキテクチャの背後で動作しています。彼らはすでに複雑なクエリを処理できますが、その能力はほとんど情報を提供することのみに限定されています。まだ行動をとることはできません。
完全に自律エージェントは、情報を収集し、例えば、ホテルを予約したり、チケットを購入したり、支払いを開始したりすることができるシステムです。ただし、関連するAPIまたはユーザーデータへのアクセス権が必要です。这样的エージェントは現在、初期開発段階にあります。この時点では、情報を処理することができますが、まだ自律的な行動をとることはできません。
研究コミュニティで議論されている興味深い分野はエージェントAIです。通常のエージェントとは異なり、エージェントAIは、実行するタスクを独立して決定し、必要なデータを決定し、さらには自身のトレーニングを続ける方法を決定するシステムです。これは、指示を実行することだけではなく、自律的な決定を下すことを意味します。ただし、エージェントAIは現在、理論的な段階にあります。実際的なシステムはまだ存在しません。
AGI – 新しい地平線。但し、達成可能か?
Metaは3か月前にScale AIに投資しました。AGI、人工一般知能の構築への道に力を合わせることを目的としていたのです。今日のAIは技術的な革命ですが、AGIは真のメガ革命になります。私はこれを「エボリューション」と呼びます。AIが影から出てくることを意味します。誰が最初に達成するかによって、世界的な戦略的な優位性が得られます。
実際のAGIに近いのかどうかは、AGIをどのように定義するかによって大きく異なります。私はIlya Sutskeverの見解に賛成しています。AGIは、人間が行うことができる任意の知的タスクを実行できるシステムです。質問に答えるだけでなく、推論、意思決定、一般化、解釈を行うことができます。真のAGIは普遍的であり、狭いタスクの境界に限定されていません。
現在のモデルは、そのレベルに達していません。私たちはその方向に進んでいますが、理論的な意味での真のAGIはまだ存在しません。もしかしたら、それが最善のことかもしれません。私たちはまだ近似の段階にあり、しばらくそのままでいる可能性があります。
AGIの基盤は、おそらくエージェントベースのシステムになります。必ずしも単一のLLMに頼る必要はありません。なぜなら、どれほど優れた人間であっても、すべての知識とスキルの分野をマスターすることはできないのと同じように、単一のLLMがAGIの全タスクを処理することはできないからです。私たちが必要とするのは、ある種の「集団的知能」です。複数のモデルとコンポーネントを調整することができるアーキテクチャです。
AGIは、単に人間が設計したエージェントとしてではなく、エージェントとして発生する可能性があります。AI自身の助けを借りて部分的に開発され、進化するシステムです。これは重要です。人間によって設計されたシステムは、内在的な制限を抱える可能性があります。設計プロセスにAIを関与させることで、これらの制限を克服し、システムをより適応性の高いものにすることができます。
AGIは、特定のブレークスルーから来る可能性は低いです。より大きなLLM、より賢いエージェント、または全く新しいアーキテクチャだけではありません。むしろ、これら3つの要素の総合です。現在のカテゴリを超えた、根本的に新しい何かから来る可能性があります。
「人間の最後の試験」とその他のAGIベンチマーク
「人間の最後の試験」(HLE)は、LLM、エージェント、AGIの文脈で現在議論されている、より野心的なベンチマークの1つです。実質的に、広範な学術分野(数学、物理学、生物学、化学、工学、コンピューターサイエンス、そしてチェスまで)にわたる約2,500の質問で構成されるテストです。アイデアは、AIシステムが真正な人間の理解を反映したレベルで問題を解決できるかどうかを評価することです。
現在の言語モデルは、HLEで非常に悪い成績です。5%未満の精度でスコアします。これは、MMLUやGPQAなどの他のベンチマークと対照的です。モデルはそこではるかに高いスコアを達成します。HLEでモデルが苦労することは、まだ真正の一般知能からどれだけ遠いのかを強調しています。
ベンチマークで高いスコアを出すことは、必ずしも真の一般知能の存在を示すわけではありません。モデルは、特定のテストに「トレーニングする」ことができます。これは、モデルが実際に持っている能力よりも高い能力を持っているように見せる可能性があります。したがって、HLEで完全なスコアを出すことは、AGIに達したことを意味しません。ただ、特定のテストに合格したことを意味します。
AGIを動かすもの
私は、AGIの核となる柱は、データ、コンピューティング、才能であると完全に同意しています。コンピューティングの状況は明らかです。Metaのような主要プレーヤーは、自社のチップ開発プロセスに数十億ドルを投資して、自社製のチップを生産しようとしました。ただし、企業はまだ他のチップやNvidiaのような他のプレーヤーのコンピューティングパワーに大きく依存しています。Nvidiaは、必要なハードウェアを提供するだけでなく、生産をスケールアップすることの重要性を理解しています。
より多くの質問は、データと才能についてです。インターネットは枯渇しました。現在、オープンソースから利用可能な人間が作成したテキストの1つでも、トレーニングに使用されていないものはありません。人間がこれまでに生成した情報の総量は、驚くほど小さなものであることがわかりました。したがって、企業は、ハイクオリティの人間のデータを生成できるパートナーと積極的に提携しています。
完全な自動化または人間がループに?
別の点は、手動データ注釈の需要の減少です。数年前、業界は全力で拡大していました。AIパイプラインの飢えを満たすために、数千人の注釈者が乗り出されました。今日、多くのその勢いは自動化に向かってシフトしました。モデルは成熟しました。ツールも成熟しました。
顔認識を考えてみましょう。以前は、画像注釈のボリュームの1つの主な推進力でした。しかし、このカテゴリはほとんど解決済みです。YOLO、SAM、Samuraiのようなモデルは、ルーチンワークを急速に吸収しています。これらのシステムは、数週間の手動労働を数分で、驚くほどの精度で圧縮します。私たちは、独自のプラットフォームKeylabsにも、多くのMLアシストツールを実装しました。実際に、ルーチンワークフローをカットするのに役立ちます。
しかし、これらのモデルは、一般化によって制限されており、標準化された操作の自動化に適しています。複雑またはユニークなケースでは、まだ人間の注意が必要です。
私たちは、注釈者が単に細部に注意を払うことができ、オブジェクトや感情を認識できる人であった旧パラダイムから遠ざかっていきます。新しい現実では、専門家が必要です。医師が医療画像を注釈し、プログラマーがコードを書き、建築家が青図を制作し、マーケターが顧客の洞察を提供し、軍事専門家が防衛シナリオに携わる必要があります。
私たちは、実際のケースをすでに見ています。例えば、戦闘機のパイロットがAIのためにデータを注釈し、1時間あたり1,000ドルを稼いでいます。専門知識が希少で、ハイパフォーマンスAIのトレーニングに重要であるためです。
世界は変わります。多くの人々が、人工知能のオペレーターと「トレーナー」になっているのです。ただ、ボタンをクリックする人ではなく、知識が明日の知能を形作る専門家です。
私たちはすでにこの新しい現実の中に生きています。データラベリングとAIトレーニングの世界です。誰がこれを認識し、適応するかによって、重大な優位性が得られます。












