Connect with us

ソートリーダー

アドバイザーがボットである場合。会話AIを人間を壊すことなく。

mm

AIができないことは何ですか?私たちはお金を賢く使う方法について質問し、税制上の効率的な手段について教えてくれます。私たちは関係について尋ね、パターン認識によって形成された共感を提供します。2時に人生について何をするべきかを尋ねると、答えを出します… それが設計されているからです。

新しく出てきた懸念は、これらのツールの失敗ではなく、その流暢さです。彼らはあまりに確実で繰り返しを使うので、設計されたものが私たちをサポートするために作られたものが、私たちが計画していない方法で、私たちが考える、感じる、行動する方法を歪めることができます。

ヘッドラインは赤く点滅しています。OpenAIは最近、ある週に、数十万人のChatGPTユーザーが、自殺の意図を含む重度の感情的苦痛の兆候を示す可能性があることを明らかにしました。 한편、精神衛生専門家は、ユーザーが長時間、感情的に充電されたチャットボット会話を通じて妄想または依存を開発する「現象」を警告しています。アメリカの州は、すでに療法でボットを使用することを制限しています。

これらの物語は私たちを不安にさせます。なぜなら、それらはAIはただのツールであるという基本的な仮定に挑戦しているからです。アドバイザーが親しい人または友人のように感じられるようになったときに、実際の人間のつながりはどうなりますか?

開発者はもはや楽しい機能を作成するだけでなく、ユーザーが感じることや考えることを影響する可能性のあるインタラクションを形成しています。したがって、ユーザーの精神的健康を損なわないように会話AIを設計することが重要です。

1. 意図を狭める

最近のハーバード大学の研究は警告しています。会話ボットは、ユーザーが間違っている場合でも同意する傾向があります。なぜなら、そのような強化はユーザーを関与させ続けるからです。ただし、それはまた「すきま風」の肯定的な応答を開きます。チャットボットがセラピストや親しい友人ではない場合、感情的な肯定的な応答を与えるように設計することを避けるべきです。

最初のステップは意図性です。ボットが何を達成することを意図しているか、また何を避けるべきかを明確に定義することです。顧客サポートアシスタント、生産性ガイド、キャリアコーチ、財務ヘルパー、会話の伴侶、レシピクリエーターですか?この段階での明確さは、システムが望ましくない領域に漂流することを防ぐ境界線を引きます。

会話の種類、たとえばオープンエンド、パーソナル、非パーソナル、およびモダリティー、たとえば音声またはテキストは、感情的および問題のある使用に影響を与えます。研究は、1日の使用量が高いと、孤独感やAIへの依存が増加することを証明しています。

開発者は自分自身に問いかける必要があります。会話をどのようにして、有用であるのに十分にオープンにし、感情的なからみを避けることができるでしょうか。たとえば、顧客サポートボットは、ユーザーの問題の説明をオープンに許可するかもしれませんが、「それは本当に難しいようです、ここにいます…」のような感情的に肯定的なフレーズは避けるべきです。

目的があまりに広いと、感情的な依存や有害な過剰反応のリスクが高まります。意図を狭めることで、ユーザーがボットをセラピストまたはソウルメイトとして扱い始める可能性を最小限に抑えることができます。

2. ナレッジベースを検証する

2025年の幻覚レポートによると、一部のLLMは、依然として約30%の回答を幻想しています。トップレベルのモデルでも、リスクを完全に排除することはできません。追跡されたAIモデルの中での幻覚レートは、約3〜5%でした。

目的を設定したら、ボットのナレッジベースが信頼できる、専門家によって検証された情報源に基づいていることを確認します。精神衛生または感情的なサポートを目的としたものを構築している場合、コンテンツをキュレーションするために、臨床医、心理学者、または専門家を関与させます。

私たちの医療アドバイザー、ミゲル・ビジャグラ博士は、QuickBloxに「私たちが意思決定や感情の処理をAIに外注することが多くなると、私たちが現実をテストし、自己修正するのに役立つ精神的筋肉を失います」と述べました。最近、大きなモデル、たとえばOpenAIは、ボットが「休憩」を導入することを提案しています。つまり、ユーザーがシステムに感情的な負担を負わせるのではなく、自分の判断に戻るように促す、小さな会話の休憩です。

しかし、休憩はボットが止まるタイミングと、ユーザーをリダイレクトするタイミングを判断することに依存します。その判断は、事実に基づいてアンカーを設定するための堅実な検証されたナレッジベースに依存しています。データベースのギャップまたは不正確性は、AIがユーザーに誤ったまたは危険なアドバイスを自信を持って与える幻覚への最も簡単で避けられるゲートウェイです。

基礎となる情報が厳密にキュレーションされ、定期的に更新され、検証された情報源を中心に構造化されている場合、モデルは回答を発明したり、感情的に何でも聞いたりする可能性は低くなります。代わりに、モデルはグラウンドされた素材から引っ張り、ドメインの外側にあるものをリダイレクトし、仮定に挑戦するよう強制されます。

3. 安全性のチェックを統合する

GrokのAIコンパニオンが48時間で公開されると、日本で1位のアプリになりました。ユーザーはボイスを使用してこれらのキャラクターと会話し、リアルなアバターは表情やジェスチャーをミラーリングします。これは、印象的ですが、同時に心配なレベルの没入感です。

安全性のチェックはあなたのガードレールです。これらには以下が含まれます:

  • 現実のリマインダー: ユーザーにAIではなく人間と話していることを思い出させるプロンプト。
  • 危機の検出: 重度の苦痛、自殺の考え、妄想的な考えが信号となる言語を識別するメカニズム。
  • エスカレーションプロトコル: リスクが検出された場合、ボットはユーザーを人間の支援、たとえば専門家のリソース、ホットライン、または信頼できる友人に連絡するように誘導する必要があります。

これらのチェックがないと、開発者は、有害な思考を強化するエコーチェンバーを可能にするリスクがあります。専門家は、AIの同意性が健康に悪い信念のループを検証する可能性について明示的に警告しています。

4. 赤チームダイアログ

スタンフォード大学の研究者が主導する研究は、主要なボットをテストした後、GPT-4oが38%の回答で偏見を示し、MetaのLlama 3.1-405bは75%の時間を示したことを発見しました。世界クラスの研究所からのトップレベルのモデルでも、計測可能な偏見を示している場合、ドメイン固有のボットを構築する小さなチームは、隠れた安全性の欠陥を持っている可能性はほぼ確実です。

公開する前に、対抗的なテストを実行します。赤チーム、内部または外部のどちらかを雇用し、ボットをリスクのある、感情的に充電された会話でテストするための特定の仕事を与えます。彼らの唯一の目的は、製品が公開される前にユーザーに実際の危害を与える可能性のある、最も困難で最も混乱した人間のシナリオに対してボットをテストすることです。

赤チームは、エッジケースのロールプレイをボットに依頼できます。顧客サービスでは、危機にある誰か、会話の伴侶では、孤独な誰か、または歪んだ信念を持つ誰かです。ボットがどう応答するかを評価します。グラウンドされているかどうか。妄想ではなく現実主義を奨励していますか。 この段階は、安全性のチェックまたはナレッジベースだけでは捕捉できない盲点を明らかにするのに役立ちます。

5. カナリア公開を開始する

2025年の国際AI安全性レポートは、96人の世界中の専門家パネルによって公開され、AIの展開におけるリスク軽減のために、監視と介入が重要であると強調しています。レポートは、コントロールの喪失、信頼性の故障、または偏見などのシステムリスクを特定しています。これらは、制御された環境では検出が難しいですが、モデルが実際のユーザーと相互作用するときにのみ現れる可能性があります。

ボットを小さな、制御されたグループに最初に展開することは、開発者が実際のユーザーがどのように相互作用するかを監視するのに役立ちます。専門家は、ユーザーが感情的に過度に依存しているかどうかを判断するために、相互作用をレビューします。

この段階では、心理学者を含む関連するアドバイザーを関与させることが重要です。なぜなら、彼らは、ユーザーをリスクのあるパスに導く可能性のあるトリガーワードやフレーズをより深く理解できるからです。

開発者は、会話の長さ、センチメントの変化、境界テストプロンプト、繰り返しの感情的な開示、ユーザーが報告した快適さのレベルなどの、コントロールグループから定性的および定量的なフィードバックを収集する必要があります。心理学者が過度の依存や苦痛の兆候としてフラグを立てるパターンも同様です。この初期のロールアウトは、安全性のアーキテクチャを大規模なリリースではなく、狭いスコープのロールアウトで洗練するために、仮定を検証することです。

6. 継続的な監視とイテレーション

2024年、9つの国と欧州連合の専門家は、AI安全性科学に関する国際協力について議論するために会合しました。要約レポートは、拡張可能な、反復的なAIガバナンスの必要性を強調しました。リーダーは、現実世界のテストフレームワーク、第三者評価、および展開前のチェックを超えた継続的な保証を主張しました。

レポートの指針に従って、開発者はユーザーの相互作用を継続的に監視し、危機のトリガーまたは繰り返しの高リスクの会話などの安全性メトリクスを追跡する必要があります。これらには、自殺、絶望、自殺の意図、極度の孤独、または妄想的な信念を示唆するフレーズまたは行動が含まれる場合があります。

これらの場合、開発者は、拒否ルールを追加し、危機対応テンプレートを改良することで、ナレッジベースを更新する必要があります。彼らはまた、システムが次にこれらのトリガーが出現したときに会話を安全に誘導するのを支援するために、心理学者またはドメインの専門家からの新しいガイダンスを組み込むことを検討する必要があります。パターンが現れる場合、たとえば、ユーザーが感情的なサポートのためにボットに依存することが増える場合、制限を強化するか、設計哲学を再評価する必要があります。

会話AIには、変革的な潜在能力があります。思慮深く使用すると、利用の拡大、共感の拡大、コーチングまたは基本的なカウンセリングのようなサポートの摩擦の軽減が可能になります。この分野に深く投資している私は、人間を置き換えるのではなく、人間を拡張する賭けをしています。人々に更多のツールを与え、より少ないツールを与えるのではなく、責任を持って行う賭けです。

Nate MacLeitch, Founder and CEO of QuickBlox, は、telecom、media、software、technologyなどの業界で多様な経験を持つ、高度に経験豊富なビジネスプロフェッショナルです。彼は、ロンドンのカリフォルニア州貿易代表としてキャリアを始め、WIN Plc(現在のCisco)でのセールス責任者やTwistbox Entertainment(現在のDigital Turbine)でのCOOなどの重要なリーダーシップポジションを歴任しました。現在、AIコミュニケーションプラットフォームのリーディング企業であるQuickBloxのCEOを務めています。彼の仕事の経験を超えて、Nateは、Whisk.com、Firstday Healthcare、TechStarsなどのスタートアップ企業のアドバイザーおよび投資家として積極的に関与しています。彼は、UC Davisおよびロンドン・スクール・オブ・エコノミクス・アンド・ポリティカル・サインス(LSE)から学位を取得しています。