Connect with us

AIの信頼性問題について誰も話したがらない

ソートリーダー

AIの信頼性問題について誰も話したがらない

mm

AIの信頼性についての支配的な物語はシンプルである:モデルは妄想する。したがって、企業がそれらから最大の利益を得るには、モデルを改善する必要がある。より多くのパラメータ。より良いトレーニングデータ。より多くの強化学習。より多くの整列。

しかし、最先端のモデルがより能力の高いものになっても、信頼性に関する議論は消え去らない。企業のリーダーはまだ、エージェントがコアシステム内で有意義なアクションを取ることを許可することを躊躇している。取締役会はまだ「信頼できるか?」と尋ねている。

しかし、妄想は主にモデル問題ではない。コンテキスト問題である。私たちは、AIシステムにエンタープライズインフラストラクチャ上で動作するように求めているが、安全に推論するために必要な構造的な可視性を与えていない。すると、モデルが推測したときにそれを非難する。

実際の信頼性ギャップは、重みにあるのではなく、情報層にある。

イメージングなしの外科医

イメージングなしで外科手術を想像してみて。MRIはなし。CTスキャンはなし。周囲の組織のリアルタイム可視化はなし。一般的な解剖学の理解とメスだけ。最も熟練した外科医でも推測することになる。近似することになる。確率的推論に頼ることになる。

これが現在、エンタープライズAIエージェントが行っていることである。

エージェントがワークフローを変更したり、ERPルールを更新したり、ツール間で自動化をトリガーしたりするように求められたとき、ほとんどの場合、環境の完全な依存グラフを持っていない。使用されていないフィールドがどのダウンストリームダッシュボードをパワーするかを知らない。どの自動化がそのバリデーションルールを参照するかを知らない。第二次的な影響を信頼性高くシミュレートできない。

したがって、モデルは大規模な言語モデルがトレーニングされているように予測する。予測は理解ではない。構造的なコンテキストなしで予測することは妄想のようである。

間違った議論を続けています

AIコミュニティはモデル中心の信頼性に関する議論に陥っている。スケーリング法に関する論文。思考の連鎖プロンプティングに関する研究。リトリーバル増強テクニック。評価ベンチマーク。

すべて必要。すべて有価値。但し、欠けているものに注目してください:エンタープライズシステムのトポロジーに関する議論。

エンタープライズコンテキストにおける信頼性は、単に「モデルが正しいテキストを生成する」ということではない。「システムが安全で、追跡可能で、予測可能な変更を行う」ということである。

これは根本的に異なる要件である。

オープンなシステムの問題

エンタープライズシステムは静的なデータベースではない。生きているシステムである。新しい統合はトレースを残す。キャンペーンはフィールドを導入する。各「クイックフィックス」は追加の自動化レイヤーを導入する。時間の経過とともに、これらのレイヤーは誰も完全に理解していない方法で相互作用する。

これは成長の機能である。複雑な適応システムは自然にエントロピーを蓄積する。MITスローンスクールの研究は、長い間、組織内の情報非対称性が運用リスクを高める方法を強調してきた。同時に、ガートナーは、データの質の低さが組織に平均して$12.9百万の年間コストをもたらすと推定している。

これに、構造的な不透明性を解決せずに自律エージェントを挿入することを想像してみて。

結果が予測不可能であることに驚く必要はない。エージェントは悪意的でも愚かでもない。盲目である。暗闇の中で構築している。

リトリーバルは十分ではない

いくつかの人々は、リトリーバル増強生成(RAG)がこの問題を解決すると主張する。モデルにドキュメントへのアクセスを与えます。スキーマの説明を与えます。APIに接続します。

それは役に立つ。

しかし、ドキュメントはトポロジーではない。

ワークフローが「どのように」動作するべきかを説明するPDFは、17の他の自動化と実際に相互作用する方法を示すリアルタイムグラフではない。

エンタープライズの現実は、エンタープライズのドキュメントにほとんど一致しない。

エージェントレイヤーは実際の安全レイヤーである

私たちは、安全性を整列トレーニング、ガードレール、レッドチーム、ポリシーフィルターとして考える傾向がある。すべて重要である。但し、エンタープライズコンテキストでは、安全性はコンテキストである。以下のことを知ることが重要である。

  • このフィールドに依存するものは何ですか?
  • どの自動化がこのオブジェクトを参照しますか?
  • どのダウンストリームレポートが壊れるでしょうか?
  • 誰がこのプロセスを所有していますか?
  • いつ最後に変更しましたか?
  • 現在の構成に先行する歴史的な変更は何ですか?

このレイヤーがなければ、エージェントは基本的にブラックボックスの中で即興で動作している。 このレイヤーがあれば、エージェントは実行する前に影響をシミュレートできる。 妄想と信頼性の違いは、可視性にあることが多い。

モデルが非難される理由

なぜ、議論はモデルに焦点を当てているのでしょうか? モデルは読みやすいからです。 パーセプトロンを測定できます。 ベンチマークスコアを比較できます。 スケーリング曲線を公開できます。 トレーニングデータの品質について議論できます。

エンタープライズ内の情報トポロジーははるかに汚いです。クロスファンクショナルな調整が必要です。ガバナンスの規律が必要です。組織は自身のシステムの蓄積された複雑さに直面する必要があります。

「モデルが準備できていない」と言う方が、「インフラストラクチャが不透明である」と言うよりも簡単です。

しかし、AIエージェントがコンテンツ生成から運用実行に移行するにつれて、この枠組みは危険になります。

もし信頼性をモデル問題としてのみ扱う場合、環境を有意義に認識できないエージェントを展開し続けることになる。

自律性にはコンテキストが必要

アンソロジーの最近の実験は、マルチエージェントソフトウェア開発チームが構造化されたコンテキストと永続的なメモリを提供されたときに、複雑なタスクを跨いで調整できることを示しています。 能力のフロンティアは急速に進化しています。 しかし、この種の自律性は環境の認識がなければ脆い。

自律走行車は、強力なニューラルネットワークだけに頼っていない。 それには、ライダー、カメラ、地図システム、リアルタイム環境センシングが必要である。 モデルは、より広い認識スタックの中のレイヤーである。

隠されたリスク:過信

現在の枠組みには、もう1つの微妙なリスクがあります。

モデルが改善すると、その出力はより流暢になり、より説得力があり、より権威的になる。

流暢さは過信を増幅する。

エージェントがコンテキストを完全に理解せずにシステムを変更すると、失敗はすぐには明らかにならないかもしれない。 それは、数週間後に報告の不一致、コンプライアンスギャップ、または収益予測エラーとして表面化するかもしれない。 モデルは有能であるように見えるので、組織はその運用安全性を過大評価するかもしれない。 実際の故障モードは、妥当な計算ミスである。

妥当な計算ミスは暗闇の中で繁栄する。

信頼性の質問を再定義する

「モデルが十分に良い吗?」と尋ねるのではなく、「エージェントは安全に動作するために十分な構造的なコンテキストを持っていますか?」と尋ねるべきです。 ベンチマークの精度を測定するのではなく、環境の可視性を測定するべきです。 パラメータ数について議論するのではなく、システムの不透明性を監査するべきです。

AIの信頼性の次のフロンティアは、単に大きなモデルだけではありません。 より豊かなコンテキストレイヤーです。

これには以下が含まれます:

  • エンタープライズシステムの依存グラフ
  • リアルタイムの変更追跡
  • 所有権マッピング
  • 歴史的な構成認識
  • 実行前の影響シミュレーション

これらはすべて、華々しくない。ソーシャルメディアではトレンドにならない。但し、これらが信頼性を勝ち取る場所である。

ライトを点けた状態で構築する

エンタープライズのリーダーは、エージェントに運用上の権限を与える前に信頼性を要求することが正しい。 しかし、前進する道は、妄想のないモデルを待つことではない。 可視性インフラストラクチャに投資することである。

目標は、盲点を減らすことである。

エージェントが構造的な認識で動作する場合、妄想の発生率は、モデルが変わったからではなく、推測する表面が縮小したからである。

予測は推論になる。推論はシミュレーションになる。シミュレーションは安全な実行になる。

避けられないシフト

今後5年間で、AIスタックは分岐する。 一つのレイヤーはモデル能力に焦点を当てる:推論の深さ、多モーダルな流暢さ、コスト効率。 もう一つのレイヤーは情報的/コンテキストのトポロジーに焦点を当てる:システムグラフ、メタデータの知性、ガバナンスのフレームワーク。

信頼性をモデル選択の演習のみとして扱う組織は苦労する。

信頼性をアーキテクチャの特性として扱う組織は、リスクを減らして迅速に進む。

妄想に関する議論は、後から見れば古いものになる。 実際の話は可視性についてである。

AIは本質的に無謀ではない。

暗い部屋で作業しているだけである。

それを解決しない限り、私たちは知的システムを構築していない。 私たちは、不透明な環境の中で強力な予測者を構築している。

そして、それは、進歩にもかかわらず、AIはまだ暗闇の中で構築していることを意味する。

Ido Gaverは、SweepのCEOおよび共同創設者であり、AI、メタデータアーキテクチャ、エンタープライズガバナンスの交差点で研究および製品戦略を主導しています。彼の仕事は、大規模なエンタープライズソフトウェアエコシステム内で安全かつ文脈的に動作するエージェントAIシステムを可能にすることに焦点を当てています。