ソートリーダー
AI-First Means Safety-First

新しい自転車を子どもに買ってあげると、自転車の方に注目が集まり、付属しているヘルメットにはあまり注目されません。しかし、親たちはヘルメットを大切にします。
私たちは、AIの面で多くの人々が子供のように考えているのではないかと思います。私たちは、AIがどれほど素晴らしいか、どれほど速く進むことができるかについて焦点を当てています。ただし、AIを使用する際に安全を確保する方法についてはあまり考慮していません。これは残念です。なぜなら、安全性がなければAIの利点を享受することはできないからです。
簡単に言えば、安全性を慎重に計画せずにAIを適用することは、単にリスクを冒すことではありません。それは、危険な道を進むことと同じです。
AIの安全性とは何か?
AIの安全性には、多くのステップが含まれます。しかし、最も重要な要素は、いつそれらのステップを実施するかです。AIの安全性を効果的に実現するには、設計段階で考慮する必要があります。
つまり、テストを実施する前に、どのようにして害を防ぐかを考える必要があります。AIが私たちの価値観や社会的期待と一致した結果を生成するようにする方法を最初に考える必要があります。後からひどい結果が出た後に考えるのではなくてです。
AIの安全性を設計するには、AIを頑健性を持たせることも含まれます。つまり、AIが予測可能な方法で動作するようにすることです。また、AIの透明性を確保することも含まれます。つまり、AIが行う決定が理解可能で、監査可能で、偏見がないようにすることです。
しかし、AIが機能する世界についても考える必要があります。どのような制度的および法的安全対策が必要か、特に適用される政府の規制に準拠するために。さらに、人々の要素も考慮する必要があります。AIの使用が、AIとやり取りする人々に与える影響は何でしょうか。
設計段階で安全性を考慮することは、プロセス、ワークフロー、運用のすべてにAIの安全性を組み込むことを意味します。最初のプロンプトを入力する前にです。
リスクは懸念を上回る
すべての人が同意しているわけではありません。AIの安全性を優先することを聞くと、一部の人々は、「あまりにも慎重に進む」と聞こえるようです。当然、それがAIの安全性を優先することの意味ではありません。イノベーションを妨げることや、市場投入の時間を遅くする必要はありません。また、拡大できないパイロットプロジェクトの無限のストリームでもありません。実際には、その逆です。
AIの安全性を設計しないことのリスクを理解することは意味があります。いくつかの例を考えてみましょう。
- Deloitteの金融サービスセンターは、GenAIが2027年までに米国だけで400億ドルの損失をもたらす可能性があると予測しています。2023年の123億ドルから32%の年間複合成長率です。
- 偏った決定。ケーススタディは、偏ったデータでトレーニングされたAIによる偏った医療を文書化しています。
- 悪い決定がさらに悪い決定をもたらす。AIの初期の悪い決定よりも、研究によると、そのような決定が将来の決定の形成の一部になる可能性があります。
- 実際の結果。 悪い医療アドバイスを提供したAIは、致命的な患者の結果につながりました。AIの妄想を法的根拠として引用したことによる法的問題が発生しました。また、AIアシスタントが誤った情報を提供したことによるソフトウェアエラーは、会社の製品や評判を傷つけ、広範囲にわたるユーザーの不満を引き起こしました。
そして、状況はさらに興味深いものになります。
エージェントAIの出現と急速な採用、AIが自律的に動作して決定に基づいて行動できるAIは、AIの安全性を設計することの重要性を強調するでしょう。
あなたの代わりに行動できるエージェントAIは非常に役立つでしょう。例えば、最適なフライトについてあなたに教えるのではなく、フライトを予約することができます。製品を返品したい場合は、会社のエージェントAIは返品ポリシーと返品の方法について教えるだけでなく、返品手続きを代行することができます。
素晴らしいのですが、エージェントがフライトを妄想したり、金融情報を不正に扱ったり、会社の返品ポリシーを間違えたり、有効な返品を拒否したりしない限りです。
現在のAIの安全性リスクが、AIエージェントが決定と行動をとる複数のエージェントが存在する状況で簡単に増大する可能性が見て取れるでしょう。エージェント間の協力でタスクを実行するエージェントチームからの実際の価値の多くは、個々のエージェントがタスクの一部を処理し、エージェント間で協力して作業を完了することから生じます。
したがって、イノベーションを妨げずに、またその潜在的な価値を損なわずに、AIの安全性を設計するにはどうすればよいのでしょうか。
設計段階での安全性
アドホックな安全性チェックは答えではありません。しかし、AIの実装のすべての段階に安全性実践を統合することは答えです。
データから始めましょう。データがラベル付けされ、必要に応じて注釈付けされ、偏りがなく、高品質であることを確認します。これは、特にトレーニングデータにおいて重要です。
人間のフィードバックでモデルをトレーニングします。人間の判断は、モデルを形成するために不可欠です。強化学習による人間のフィードバック(RLHF)や同様のテクニックを使用すると、注釈者がレスポンスを評価して導き、LLMが安全で人間の価値観と一致した出力を生成することができます。
次に、モデルをリリースする前に、ストレステストを実行します。悪意のあるプロンプト、エッジケース、またはジャイルブレイクの試みで安全でない動作を誘発しようとするレッドチームは、脆弱性を暴露できます。問題が発生する前にそれらを修正することで、問題が発生する前に安全性を確保することができます。
これらのテストにより、AIモデルが堅牢であることを確認できますが、脆弱性やモデルへの調整が必要になる可能性のある新たな脅威に注目して継続的にモニタリングする必要があります。
同様に、不正行為の兆候を監視するために、コンテンツソースやデジタルインタラクションを継続的に監視します。重要なのは、AIの自動化を使用して大量のデータを監視し、熟練した人間がレビューを担当して精度を確保することです。
エージェントAIを適用するには、さらに注意が必要です。基本的な要件は、エージェントが自身の限界を理解できるようにトレーニングすることです。不確実性、倫理的なジレンマ、新しい状況、または特に高リスクの決定に遭遇した場合、エージェントが助けを求める方法を知っていることを確認します。
さらに、エージェントに追跡可能性を設計する必要があります。これは、エージェントのインタラクションが検証されたユーザーだけと行われるようにするため、特に重要です。詐欺師がエージェントの行動に影響を与えるのを防ぐためです。
エージェントが効果的に機能しているように見えると、エージェントを自由に動かして行動させることが誘惑的かもしれません。しかし、私たちの経験則は、エージェントとエージェントが実行するタスクを継続的に監視することです。エラーまたは予期しない動作に注意するために、自動チェックと人間のレビューの両方を使用します。
実際、AIの安全性の重要な要素は、人間の関与を定期的に行うことです。人間は、判断、共感、またはニュアンスと曖昧さが関与する決定や行動に関与する必要があります。
再び強調しますが、これらはすべて、AIの実装の段階で予め組み込まれている実践です。何かが間違った後に損害を最小限に抑える方法を急いで考える結果ではありません。
実際に機能するか?
私たちは、GenAIの出現と現在Agentic AIへの高速トラックで、クライアントと一緒にAIの安全性を優先する哲学と「設計段階での」フレームワークを適用してきました。私たちは、心配されるようなものではなく、実際にはそれらを加速することができることを発見しています。
エージェントAIは、顧客サポートのコストを25〜50%削減しながら、顧客満足度を向上させる可能性があります。しかし、それは信頼性に依存します。
人間は、AIを使用する必要があります。また、AIを使用する人間は、信頼を損なうような単一のインタラクションを経験することはできません。信頼を損なう1つの悪い経験は、ブランドに対する信頼を完全に破壊する可能性があります。
私たちは、安全でないものを信頼しません。したがって、私たちがAIをロールアウトするすべてのレイヤーに安全性を組み込むと、自信を持ってロールアウトできます。スケールアップする準備ができたら、自信を持ってスケールアップできます。
AIの安全性を設計する実践を適用することは、圧倒的なもののように思えるかもしれませんが、独りではありません。専門家やパートナーがいて、学んだことや学んでいることを共有して、AIの価値を安全に活用できるようにサポートしてくれるでしょう。
AIは今までとても楽しい乗り物でしたが、スピードが上がるにつれて、ヘルメットを着用していることを幸いに思います。












