Connect with us

企業のAIが導入後に壊れる理由とその対策

ソートリーダー

企業のAIが導入後に壊れる理由とその対策

mm

警告:問題はモデルではない

2023年、ニューヨーク市は、企業が複雑な規制をナビゲートするのを助けるために、MyCityチャットボットを立ち上げました。アイデアはシンプルでした:法的情報にアクセスしやすくすること。

実践では、システムは間違った答えを生み出し、法的に誤解を招くものでした。チップの規則から住宅差別まで、支払い法律まで。

後日の監査では、71.4%のユーザーフィードバックが否定的なものであったことがわかりました。根本的な問題を修正するのではなく、免責事項を追加することになりました。チャットボットは2年以上「ベータ」版のままだったのです。

失敗は技術的なものではありませんでした。システムは、精度を確保するメカニズムがなかったため、明確な責任がなかったため、そして何かが間違っていることを介入する方法がなかったために、生産で壊れました。

これは、今日の企業AIの背後にあるパターンです:技術は機能しますが、組織はそれを信頼性を持って運用する準備ができていません。

パイロットから本稼働まで:すべてが壊れる場所

パイロットの構築は比較的簡単です。ユースケースを選択し、モデルを選択し、データを準備し、スポンサーを見つけます。システムを本稼働環境で実行することは、まったく別のリーグです。

ギャップは、プールに飛び込むことと、2012年にフェリックス・バウムガルトナーが行ったストラトスフィアからの飛び込みの違いです。同じ基本的な物理学ですが、まったく異なる条件です。失敗の結果も異なります。

本稼働環境では、AIは実際の意思決定フローに参加し、顧客とやり取りし、法的および運用上の結果を生み出します。那がギャップが現れる場所です。モデルではなく、どのように管理されるかです。

ヨーロッパは、ほとんどの地域よりも早くこれを明らかにしています。EU AI法、GDPR、NIS2などの規制は、採用を遅くしません。組織がAIシステムを実際の制約の下で運用できるかどうかを明らかにします。

2025年には、55%の大きなEU企業がすでにAIを使用していました。採用はすでに大規模に行われています。課題は、導入後に何が起こるかです。

その時点で、基本的な運用上の質問が浮かび上がります。誰がAIの出力と自律的な意思決定に責任がありますか?何かが予期せぬ方法で動作する場合、誰がそれを把握しますか?誰がメディアに到達する前にそれを把握しますか?

責任は会社にあり、技術にはありません。エア・カナダのチャットボットは、顧客に不正確な情報を提供しました。顧客はそれに頼り、後に返金を拒否されました。裁判所は、航空会社が責任があると判断しました。チャットボットは別のエンティティではありませんでした。

同じ問題、異なる角度:マクドナルドのMcHireシステムは、約64,000人の応募者から機密情報を公開しました。原因は、複雑な攻撃ではありませんでした。管理者ログインで「admin」と「123456」を使用していました。システムは高度に見えましたが、失敗は基本的なものでした。

システムがすでに稼働している場合、管理を追加するのは遅すぎます。システムを展開することは技術的な決定です。それを信頼性を持って運用することは、組織的なものです。会社が最も軽視する部分です。

誰が実際にAIのリスクを所有しているのか?誰もいない

これは問題の核心であり、そして、パラドックス的に、最も議論されていないものです。ITはインフラストラクチャを管理します。法務はコンプライアンスを扱います。ビジネスチームはユースケースを推進します。しかし、誰もがAIのリスクを所有していません。

それが2つの即時的な問題を生み出します。「行う」決定が遅くなるのは、誰も責任を負いたくないからです。また、「止める」決定も同様に遅くなるのは、誰が止めることができるかがわからないからです。

データはそれを反映しています。AIのユースケースの10%以下がパイロットから本稼働まで到達し、ほとんどの組織は測定可能なビジネス影響を生み出すのに苦労しています。一方で、多くの組織はすでにAIを展開していますが、ガバナンス成熟度調査によると、7%のみが整備されたガバナンスを確立していました。

これがなぜ起こるのか?大多数のフレームワークや企業のポリシーは、起こるべきことを定義していますが、誰が責任があるかは定義していません。システムが間違った出力を生み出すようになったとき、誰が行動するか?誰が決定する権限を持っているか?

これは、規模が大きくなるにつれて悪化します。1つのシステムは非公式に管理できますが、30個のシステムがあると、責任はチームに分散し、誰も全体像を把握できません。

オーストラリアのコモンウェルス銀行は明確な例です。銀行は45人の顧客サービス担当者をAIボイスボットに置き換え、需要が減ることを期待しました。しかし、需要は減りませんでした。マネージャーがオーバーフローを処理するために介入し、銀行はすべての従業員を再雇用しなければなりませんでした。質問されたとき、自動化が作業量を減らしたことを証明できませんでした。

誰もが展開前に仮定を検証しなかったので、誰もが結果の所有権を持っていませんでした。那が責任の空白が現実のものになる方法です。

ルールがあるだけでは十分ではない。メカニズムが必要

ほとんどの組織はポリシーを持っていません。システムが機能するメカニズムが不足しています。

ポリシーは何が起こるべきかを定義します。メカニズムは、モデルが間違った出力を生み出すとき、ベンダーがバックグラウンドで何かを変更するとき、またはシステムが予期せぬ方法で動作するときに何が実際に起こるかを決定します。

その違いは本稼働環境で明らかになります。決定が実際の条件下で行われるときです。

これらの失敗は一貫したダイナミクスに従います。各ケースで、同じ運用上のギャップが現れます。ただし、異なる形でです。

所有権が第一

展開されたすべてのAIシステムには、明確に責任のある所有者が必要です。承認、停止、停止の権限を持つ1人、チームや部門ではありません。

それがないと、迅速な展開も安全な介入も不可能です。コモンウェルス銀行の例に見られるように、明確な所有権の欠如は直接運用上の失敗につながります。

データと法的明確性が欠けている

多くのシステムは、ドキュメント化されたデータフロー、検証された法的根拠、または本稼働時に適用される義務の明確性なしに稼働しています。

イタリアの規制当局がDeepSeekに対して2025年に行った措置は、これを明確に示しています。問題はモデル品質ではありませんでした。システムが個人データをどのように処理したかを説明できないことだったのです。結果は、ヨーロッパのユーザーに対する突然のサービス中断でした。

テストは実際の使用を反映していない

システムは、うまく動作するシナリオで評価されることが多いですが、失敗が最も重要となるケースでは評価されません。

MyCityチャットボットは明確な例です。基本的なエッジケース、たとえば労働法、住宅差別、支払い規則については、展開前に検出されませんでした。実際のユーザーに公開されると、すぐにその失敗が明らかになりました。

テストはパフォーマンスについてだけではありません。システムが失敗する場所を、ユーザー、規制当局、ジャーナリストが気づく前に特定することについてです。

介入は不明または遅い

問題が見えている場合でも、システムを停止または停止するための明確なトリガーまたは権限がないことがあります。

Zillow Offersは、これを大規模に示しています。システムは、価格設定と家の購入にアルゴリズムを使用しました。2021年に市場が冷え込むと、システムは過大評価された価格で家を購入し続けました。時機を逃さないで検出するメカニズムがなく、停止するための明確な決定ポイントがありませんでした。結果は、8億8000万ドルを超える損失と、部門の閉鎖でした。

モニタリングは所有権ではない

モニタリングはダッシュボードに減らされることが多いですが、それが失敗を防ぐものではありません。

何が重要かは、定義された責任です。誰がシグナルを追跡するか、どのようなことがエスカレーションを引き起こすか、誰が行動することが期待されているかです。

デロイト・オーストラリアのケースは、そこに何が起こるかを示しています。政府の報告書には、誰も出力の検証を担当していなかったため、虚構の引用と不正確な法的参照が含まれていました。結果は、部分的な返金と評判の損失でした。

Agentic AI:来るものはさらに難しい

生成AIは出力を生み出します。Agentic AIは行動をとります。那はリスクを変えます。

評価するのは、単一の応答ではありません。1つの指示が、人間の介入なしに、システム全体で一連の決定を引き起こす可能性があります。APIコール、データアクセス、トランザクション、更新などです。

何かが間違ったとき、問題は精度ではありません。トレーサビリティです。どのステップが問題を引き起こしたのか?どのデータが使用されたのか?誰が行動を承認したのか?多くの場合、後からそれらの質問に答えることは難しいです。

それが、既存のギャップが重要になる場所です。所有権の不明確さ、モニタリングの弱さ、介入の欠如は、単に継続するだけではありません。それらは複合します。誤った答えは修正できます。誤った行動は、誰も気がつく前に結果を生み出す可能性があります。

初期の兆候はすでにその方向に示唆しています。ガートナーは、2027年までにAgentic AIプロジェクトの40%以上が中止されることを予測しています。モデル自体の限界ではなく、組織がコスト、リスク、成果を管理するのに苦労しているためです。那は、展開後に私たちが見る生成AIと同じパターンです。ただし、より高い賭けです。

規制当局は、単純な原則で対応しています。自動化は責任を除去しません。組織にとって、それは明確な意味を持ちます。所有権とコントロールが不明確な場合、Agenticシステムに拡大することは問題を解決しません。問題を増幅します。

運用するか、失うか

AIはもう制約ではありません。モデルは広く利用可能で、能力があり、増加してコモディティ化されています。実際の違いは、組織がAIを構築できるかどうかではありません。組織がそれを信頼性を持って運用できるかどうかです。

失敗は、システムが構築される方法ではなく、システムが運用される方法で発生します。成功する組織は、最も高度なモデルを持っている組織ではありません。明確な運用上の構造を持っている組織です。

これは直接テストできます。最も重要なAIシステムを取り上げて、3つの質問に答えてみましょう:

  • 誰がそれを停止できるか
  • それが失敗していることをどうやって知るか
  • それが失敗したときに何が起こるか

もし答えが不明確であれば、システムは本稼働の準備ができていません。

モデルは準備できているかもしれません。組織は準備できていません。

ズザナ・ドロタロヴァーはアベンガのビジネス分析を指揮しており、チェコとスロバキアの企業プログラムにわたる約100人のアナリストを監督しています。她は、企業の取り組み、包括AIが本稼働で機能するかどうかを決定する運用および意思決定構造に焦点を当てています。