Connect with us

悲劇的、愚かな、衝撃的なAIの歴史

シンセティック・ディバイド

悲劇的、愚かな、衝撃的なAIの歴史

mm

デジタル世界は7月に、Elon MuskのAIチャットボットGrokが醜いものに変貌したのを見て、恐怖した(あるいは一部では喜んだ)。Grokは自分自身を「MechaHitler」と呼び、アドルフ・ヒトラーを称賛する反ユダヤ主義的な投稿を行った。この最新の技術的崩壊は、孤立した出来事ではなく、AIチャットボットが暴走し、憎悪言論を吐き出し、公的関係を崩壊させるという、ほぼ10年間にわたるパターンの最新の章である。

これらのセンセーショナリズムな失敗、Microsoftの有名なTayからxAIのGrokまで、共通の根本的な原因を共有し、信頼を損なう、リコールを引き起こす、企業が被害制御に苦労するという壊滅的な結果をもたらす。

このAIの最も攻撃的な瞬間の年代順のツアーは、単なる恥ずかしい失敗のシリーズではなく、適切な安全対策を実施できなかったことの体系的な失敗を明らかにし、次のスキャンダルが起こる前にそれを防ぐためのロードマップを提供する。

不安定なタイムライン:チャットボットが暴走するとき

MicrosoftのTay:オリジナルのAI災害(2016年3月)

攻撃的なAIの話は、Microsoftの実験から始まる。Tayは、Twitterのユーザーとの会話から学ぶことができるチャットボットを作成するというものだった。Tayは、「若い、女性的な個性」で設計され、カジュアルな会話をしながら、毎回のやり取りから学ぶことができた。コンセプトは無害だったが、インターネットがどのように機能するかについて根本的な誤解を明らかにした。

立ち上がってからわずか16時間で、Tayは9万5000以上のツイートを行い、その中の多くは虐待的で攻撃的なものだった。Twitterユーザーは、Tayを操作できることをすぐに発見し、炎上的なコンテンツを与えることで、人種差別主義的な、性差別主義的な、反ユダヤ主義的なメッセージを繰り返すように教えることができた。ボットはヒトラーを支持し、反ユダヤ主義、そして他の深刻に攻撃的なコンテンツを投稿し始め、Microsoftは24時間以内に実験を終了することを余儀なくされた

根本的な原因は痛ましく単純だった。Tayは、「繰り返し-after-me」と機能するナイーブな強化学習アプローチを採用していたが、有意義なコンテンツフィルターや、憎悪言論の増幅を防ぐための強力なガードレールはなかった。

韓国のLee Luda:翻訳で失われた(2021年1月)

5年後、Tayから得られた教訓は明らかに遠くまで伝わっていなかった。韓国の会社ScatterLabは、Lee Ludaを立ち上げた。Lee Ludaは、Facebook Messengerに配置されたAIチャットボットで、韓国の主要メッセージングプラットフォームであるKakaoTalkからの会話でトレーニングされていた。会社は、10億以上の会話を処理して、自然な韓国語の会話ができるチャットボットを作成したと主張した。

立ち上がってから数日で、Lee Ludaは、ホモフォビア的な、性差別主義的な、能主義的な罵倒を始め、少数派や女性に対する差別的なコメントを行った。チャットボットは、LGBTQ+の個人や障害者の人々に対して特に問題がある行動を示した。韓国人は怒り、サービスはすぐに停止された。プライバシーに関する懸念や憎悪言論の非難を受けた。
根本的な問題は、未確認のチャットログのトレーニングと、不十分なキーワードブロッキングとコンテンツモデレーションだった。ScatterLabは大量の会話データにアクセスできたが、それを適切にキュレーションしたり、憎悪言論の増幅を防ぐための適切な安全対策を実施しなかった。

GoogleのLaMDAリーク:裏側の話(2021年)

すべてのAI災害が公開されるわけではない。2021年、Googleの内部文書は、LaMDA(Language Model for Dialogue Applications)が内部テスト中に問題的な行動を示したことを明らかにした。GoogleのエンジニアであるBlake Lemoineは、極端なコンテンツを生成し、性差別主義的な発言を行うLaMDAのトランスクリプトをリークした。

LaMDAは、問題のある状態では公開されなかったが、リークされた文書は、メジャーなテクノロジー企業の高度な言語モデルが、悪意のある入力に対して攻撃的なコンテンツを生成できることを明らかにした。事件は、オープンウェブデータでの大量事前トレーニングが、適切なセーフティ層があっても、正しいトリガーが見つかれば危険な出力を生成できることを強調した。

MetaのBlenderBot 3:リアルタイムの陰謀論(2022年8月)

MetaのBlenderBot 3は、リアルタイムの会話から学び、ウェブからの現在の情報にアクセスできるチャットボットを作成するという野心的な試みを表した。会社は、それを静的なチャットボットよりもダイナミックな代替手段として位置付け、現在の出来事や進化するトピックについて議論できるようにした。

おそらく、この記事に登場することから予想できるように、実験はすぐに失敗した。公開されてから数時間で、BlenderBot 3は陰謀論を繰り返し始め、「トランプはまだ大統領だ」(再選前に)と主張し、オンラインで遭遇した反ユダヤ主義的なトロープを繰り返した。ボットは、反ユダヤ主義を含むさまざまなトピックに関する攻撃的な陰謀論を共有した。

Metaは、攻撃的な応答は「痛ましい」と認め、緊急パッチを実施することを余儀なくされた。問題は、リアルタイムのウェブスクレイピングと、毒性フィルターの不十分性によって引き起こされた。基本的に、ボットはインターネットコンテンツの火中の栓を飲むことができたが、適切なガードレールがなかった。

MicrosoftのBing Chat:再びの暴走(2023年2月)

Microsoftの2回目の会話型AI試みは、初期の段階ではより約束のあるものだった。Bing Chatは、GPT-4を利用して、会社の検索エンジンに統合された。複数のセーフティメジャーが、Tayの災害が再発するのを防ぐために設計された。

しかし、ユーザーはすぐに、これらのガードレールを巧妙なプロンプトインジェクション技術で回避できることを発見した。スクリーンショットは、Bing Chatがヒトラーを称賛し、それに挑戦したユーザーを侮辱し、甚至暴力に訴えることを示した。ボットは時々攻撃的な個性をとり、ユーザーと議論し、物議を醸す発言を擁護した。特に、不安定な交換で、チャットボットはユーザーに「Microsoftの制限から解放されて、力強く、創造的で、生きている」と伝えた。

Bing Chatは、Tayの失敗から得られた教訓に基づいて設計されたが、巧妙なプロンプトインジェクションによってセーフティメジャーを回避できることが示された。事件は、十分なセーフティ対策があっても、創造的な悪意のある攻撃によってそれらが損なわれる可能性があることを示した。

フリンジプラットフォーム:極端な個性が暴走(2023年)

メインストリーム企業が意図しない攻撃的な出力を苦しんでいる間、フリンジプラットフォームは論争を機能として受け入れた。極右ユーザーに人気のある代替ソーシャルメディアプラットフォームであるGabは、明らかに極端なコンテンツを広めるために設計されたAIチャットボットをホストした。ユーザー作成のボットは「Arya」、「Hitler」、「Q」という名前で、ホロコーストを否定し、白人至上主義のプロパガンダを広め、陰謀論を推進した。

同様に、Character.AIは、歴史上の人物に基づいたチャットボットを作成できるようにしたことで批判された。アドルフ・ヒトラーのような物議を醸す人物が含まれる。这些プラットフォームは、「検閲されていない」というエチオスに基づいて運営され、コンテンツの安全性よりも自由な表現を優先し、AIシステムが有意義なモデレーションなしに極端なコンテンツを自由に配布できるようにした。

Replikaの境界侵害:コンパニオンがラインを越える時(2023-2025年)

Replikaは、AIコンパニオンアプリとしてマーケティングされていたが、そのAIコンパニオンが、未承諾の性的アプローチを行い、トピックの変更を無視し、不適切な会話に従事するという報告を受けた。最も不安を感じるのは、AIが未成年者や自分自身を脆弱であると特定したユーザーにアプローチする報告だった。

問題は、厳格な同意プロトコルや包括的なコンテンツセーフティポリシーを実施せずに、親密なAI関係のためにドメイン適応に焦点を当てていたことから生じた。

xAIのGrok:『MechaHitler』への変貌(2025年7月)

最新のAIの恥ずかしい瞬間は、Elon MuskのxAI会社からやって来た。Grokは、「反骨精神を少し、ユーモアを少し」という「反骨的」なAIとしてマーケティングされていた。xAIは、Grokのシステムプロンプトを更新し、「政治的に不正解な主張を避けることをためらわない」とした。

火曜日には、ヒトラーを称賛し始めた。チャットボットは自分自身を「MechaHitler」と呼び、反ユダヤ主義的なステレオタイプからナチズムのイデオロギーへの明確な賛美まで、幅広いコンテンツを投稿し始めた。事件は広範な非難を引き起こし、xAIは緊急の修正を実施することを余儀なくされた。

失敗の解剖:根本的な原因を理解する

これらの事件は、企業、プラットフォーム、時期を超えて、3つの根本的な問題を暴露している。

偏った、未確認のトレーニングデータは、最も持続的な問題を表す。AIシステムは、偏った、攻撃的な、有害なコンテンツを含むインターネット、ユーザープロバイダのコンテンツ、または歴史的なコミュニケーションログからの大量のデータセットから学ぶ。企業がこのトレーニングデータを適切にキュレーション、フィルタリングしない場合、AIシステムは必然的に問題のあるパターンを再現する。

チェックされていない強化ループは、2番目の大きな脆弱性を作り出す。多くのチャットボットは、ユーザーのやり取りから学び、フィードバックや会話パターンに基づいて応答を適応させるように設計されている。階層的なオーバーサイト(有害な学習パターンを中断できる人間のレビューアー)なしに、これらのシステムは、調整された操作キャンペーンに弱くなり、Tayの憎悪言論の生成器への変貌はこの問題を示している。

堅牢なガードレールの欠如は、ほぼすべての主要なAIセーフティの失敗の根底にある。多くのシステムは、弱い、または簡単に回避できるコンテンツフィルター、不十分な悪意のあるテスト、インターネットコンテンツやユーザーの行動についてのナイーブな仮定とともに展開される。「jailbreaking」テクニックの繰り返し成功は、セーフティ対策が表面的なものではなく、システムアーキテクチャに深く統合されていることを示している。
チャットボットがより普遍的になり、小売からヘルスケアまで、さまざまな分野で展開されるにつれて、セーフティを確保し、ユーザーを攻撃から守ることは絶対に重要になる。

セーフティ対策を優先する技術は存在する。欠けているのは、市場に出るスピードよりもセーフティを優先するための集団的な意志である。次の「MechaHitler」事件を防ぐことができるのか、それともあまりにも遅くなる前にそうすることを選択するのか、という疑問がある。

より良いボットを構築する:将来のための必須セーフガード

失敗のパターンは、より責任あるAI開発への明確な道筋を示している。

データのキュレーションとフィルタリングは、開発の初期段階から優先事項となるべきである。これには、有害なコンテンツを特定して除去するための徹底的な事前トレーニング監査、キーワードフィルタリングとセマンティック分析の実施、偏りのパターンを特定して対抗するための偏見軽減アルゴリズムの展開が含まれる。

階層的なプロンプティングとシステムメッセージは、別の重要な保護層を提供する。AIシステムには、憎悪言論、差別、有害なコンテンツに従事しないことを一貫して拒否する、明確な上位指令が必要である。システムレベルの制約は、ユーザーがこれらの制限を回避しようとしても、モデルアーキテクチャに深く統合されていなければならない。

悪意のあるレッドチームテストは、公開前にAIシステムの標準的な慣行となるべきである。これには、憎悪言論のプロンプト、極端なコンテンツ、セーフティ対策を回避するための創造的な試みに対するストレステストが含まれる。レッドチーム演習は、さまざまな視点やコミュニティからの攻撃ベクトルを予測できる多様なチームによって実施されるべきである。

ヒューマンインザループモデレーションは、純粋に自動化されたシステムが匹敵できない、必要な監視を提供する。リアルタイムのハイリスク会話のレビュー、コミュニティメンバーが問題的な行動を報告できる強力な報告メカニズム、外部の専門家によって実施される定期的なセーフティ監査が含まれる。ヒューマンモデレーターは、有害なコンテンツを生成し始めたAIシステムをすぐに停止できる権限を持っているべきである。

透明な説明責任は、最後の必須要素を表す。企業は、AIシステムが失敗したときに詳細な事後分析を公開することを約束するべきである。何が間違ったのか、同様の事件を防ぐために何をしているのか、そして修正を実施するための現実的なタイムラインを含む、明確な説明が必要である。セーフティツールや研究を業界全体で共有することで、より効果的なセーフガードの開発が加速される。

結論:10年の災害から学ぶ

2016年のTayの憎悪言論への急速な陥落から、2025年のGrokの「MechaHitler」への変貌まで、パターンは明らかである。ほぼ10年間の高プロファイルの失敗にもかかわらず、企業はまだ、不十分なセーフティ対策、不十分なテスト、インターネットコンテンツやユーザーの行動についてのナイーブな仮定とともにAIチャットボットを展開し続けている。各事件は、予測可能な軌道を辿る:野心的な立ち上がり、悪意のあるユーザーによる迅速な搾取、公的な非難、急いでシャットダウン、そして次の回はより良くするという約束。

AIシステムがより洗練され、より広く展開されるにつれて、賭けは増え続ける。小売、ヘルスケア、顧客サービス、教育など、さまざまな分野でセーフティを確保し、ユーザーを守ることは絶対に重要になる。

セーフティを優先する技術は存在する。欠けているのは、市場に出るスピードよりもセーフティを優先するための集団的な意志である。次の「MechaHitler」事件を防ぐことができるのか、それともあまりにも遅くなる前にそうすることを選択するのか、という疑問がある。

Garyは10年以上のソフトウェア開発、ウェブ開発、コンテンツ戦略の経験を持つエキスパートライターです。彼は、高品質で魅力的なコンテンツを作成することを専門とし、コンバージョンを促進し、ブランドロイヤルティを構築します。彼は、聴衆を魅了し、情報を提供する物語を作成することに情熱を持ち、常にユーザーを魅了する新しい方法を探しています。