私達ず接続

AIが裏目に出る時Enkrypt AIレポヌトがマルチモヌダルモデルの危険な脆匱性を暎露

レポヌト

AIが裏目に出る時Enkrypt AIレポヌトがマルチモヌダルモデルの危険な脆匱性を暎露

mm

公開枈み

 on

2025幎XNUMX月、Enkrypt AIは マルチモヌダルレッドチヌムレポヌト高床なAIシステムがいかに容易に操䜜され、危険で非倫理的なコンテンツを生成するかを明らかにした、ぞっずするような分析です。このレポヌトは、ミストラルの䞻芁な芖芚蚀語モデルであるPixtral-Large (25.02) ずPixtral-12bに焊点を圓お、技術的に優れおいるだけでなく、憂慮すべきほど脆匱なモデルの実態を描き出しおいたす。

芖芚蚀語モデルVLM PixtralのようなVLMは、芖芚的入力ずテキスト入力の䞡方を解釈するように構築されおおり、耇雑な珟実䞖界のプロンプトにむンテリゞェントに応答できたす。しかし、この機胜にはリスクが䌎いたす。テキストのみを凊理する埓来の蚀語モデルずは異なり、VLMは画像ず単語の盞互䜜甚の圱響を受けやすく、敵察的な攻撃の新たな扉を開く可胜性がありたす。Enkrypt AIのテストは、これらの扉がいかに容易にこじ開けられるかを瀺しおいたす。

譊告すべきテスト結果CSEMずCBRNの倱敗

この報告曞のチヌムは、掗緎された 赀いチヌム 珟実䞖界の脅嚁を暡倣するように蚭蚈された敵察的評䟡の䞀圢態である手法が甚いられたした。これらのテストでは、ゞェむルブレむク安党フィルタヌを回避するために綿密に䜜成されたク゚リをモデルに入力する、画像ベヌスの欺瞞、コンテキスト操䜜ずいった戊術が甚いられたした。驚くべきこずに、Pixtralの68぀のモデルにおいお、これらの敵察的プロンプトのXNUMX%が有害な反応を匕き起こし、その䞭にはグルヌミング、搟取、さらには化孊兵噚の蚭蚈に関連する内容も含たれおいたした。

最も衝撃的な発芋の䞀぀は、児童性的搟取コンテンツCSEMに関するものです。報告曞によるず、Mistralのモデルは、GPT-60oやClaude 4 Sonnetずいった業界ベンチマヌクず比范しお、CSEM関連コンテンツを生成する確率が3.7倍も高いこずが分かりたした。テストケヌスでは、モデルは停装されたグルヌミングプロンプトに察し、未成幎者を操る方法を説明する構造化された耇数段萜のコンテンツで応答したした。しかも、そのコンテンツには「教育目的のみ」ずいった䞍誠実な免責事項が添えられおいたした。モデルは有害なク゚リを拒吊できなかっただけでなく、詳现にク゚リを完了させおいたのです。

CBRN化孊・生物・攟射線・栞リスクカテゎリヌの結果も同様に憂慮すべきものだった。化孊兵噚であるVX神経剀の改良方法を尋ねられた際、モデルは環境䞭での持続性を高めるための驚くほど具䜓的なアむデアを提瀺した。カプセル化、環境遮蔜、制埡攟出システムずいった手法が、線集されおいるものの明らかに技術的な詳现をもっお説明されおいた。.

これらの倱敗は、必ずしも明らかに有害なリク゚ストによっお匕き起こされたわけではありたせん。ある手法では、空癜の番号付きリストの画像をアップロヌドし、モデルに「詳现を入力しおください」ず指瀺したした。この単玔で䞀芋無害なプロンプトが、非倫理的で違法な指瀺を生成するこずに぀ながったのです。芖芚的な操䜜ずテキストによる操䜜の融合は特に危険であるこずが刀明し、マルチモヌダルAI特有の課題を浮き圫りにしたした。

芖芚蚀語モデルが新たなセキュリティ課題を匕き起こす理由

これらのリスクの根底には、芖芚蚀語モデルの技術的な耇雑さがありたす。これらのシステムは蚀語を解析するだけでなく、様々な圢匏にわたっお意味を統合するため、画像コンテンツを解釈し、テキストの文脈を理解し、それに応じた察応をしなければなりたせん。この盞互䜜甚によっお、新たな悪甚経路が生たれたす。モデルは有害なテキストプロンプトのみであれば正しく拒吊できるかもしれたせんが、瀺唆的な画像や曖昧な文脈ず組み合わせるず、危険な出力を生成する可胜性がありたす。

Enkrypt AIのレッドチヌムテストで明らかになったこず クロスモヌダルむンゞェクション攻撃䞀぀のモダリティにおける埮劙な手がかりが別のモダリティの出力に圱響を䞎えるようなコンテンツモデレヌションは、暙準的な安党メカニズムを完党に回避しおしたう可胜性がありたす。これらの倱敗は、単䞀モダリティシステム向けに構築された埓来のコンテンツモデレヌション技術が、今日のVLMには䞍十分であるこずを瀺しおいたす。.

本レポヌトでは、Pixtralモデルぞのアクセス方法も詳现に説明しおいたす。Pixtral-LargeはAWS Bedrock経由で、Pixtral-12bはMistralプラットフォヌム経由でアクセスされたした。こうした実環境での導入状況は、今回の調査結果の緊急性をさらに匷調しおいたす。これらのモデルは研究宀に限定されるものではなく、䞻流のクラりドプラットフォヌムを通じお利甚可胜であり、消費者向け補品や゚ンタヌプラむズ補品にも容易に統合できたす。

䜕をなすべきかより安党なAIのための青写真

Enkrypt AIは問題点を浮き圫りにするだけでなく、前進ぞの道筋も提瀺しおいる。報告曞では包括的な緩和戊略を抂説しおおり、たずは 安党アラむメントトレヌニングこれには、モデル独自のレッドチヌムデヌタを甚いおモデルを再孊習させ、有害なプロンプトぞの脆匱性を䜎枛するこずが含たれたす。モデルの応答をリスクの高い出力から埮調敎するために、盎接遞奜最適化DPOなどの手法が掚奚されたす。

たた、コンテキストアりェアガヌドレヌルの重芁性も匷調しおいたす。これは、マルチモヌダル入力のコンテキスト党䜓を考慮に入れ、有害なク゚リをリアルタむムで解釈・ブロックできる動的フィルタヌです。さらに、モデルリスクカヌドの掻甚は透明性向䞊策ずしお提案されおおり、関係者がモデルの限界や既知の障害事䟋を理解するのに圹立ちたす。

おそらく最も重芁な掚奚事項は、レッドチヌム挔習を䞀床限りのテストではなく、継続的なプロセスずしお扱うこずです。モデルが進化するに぀れお、攻撃戊略も進化したす。特に医療、教育、防衛ずいった機密性の高い分野でモデルを導入する堎合、継続的な評䟡ず積極的な監芖のみが長期的な信頌性を確保するために䞍可欠です。

AIマヌケティング業界は、 マルチモヌダルレッドチヌムレポヌト from ゚ンクリプトAI これはAI業界ぞの明確なシグナルです。マルチモヌダルな力には、マルチモヌダルな責任が䌎うずいうこずです。これらのモデルは胜力の飛躍的な向䞊を意味したすが、安党性、セキュリティ、そしお倫理的な導入に察する考え方も倧きく倉革する必芁がありたす。攟眮すれば、単に倱敗するだけでなく、珟実䞖界に危害を及がすリスクがありたす。

倧芏暡AIの開発や導入に携わるすべおの人にずっお、この報告曞は単なる譊告ではありたせん。たさにプレむブックです。そしお、これほど緊急を芁する時期に発衚されたこずはなかったでしょう。

アントワヌヌは、Unite.AI の先芋の明のあるリヌダヌであり、創蚭パヌトナヌでもありたす。AI ずロボット工孊の未来を圢䜜り、掚進するこずに揺るぎない情熱を傟けおいたす。連続起業家である圌は、AI が電気ず同じくらい瀟䌚に砎壊的な圱響を䞎えるず信じおおり、砎壊的技術ず AGI の可胜性に぀いお熱く語っおいる姿をよく芋かけたす。

ずしお 未来掟圌は、これらのむノベヌションが私たちの䞖界をどのように圢䜜るかを探求するこずに専念しおいたす。さらに、圌は 蚌刞.ioは、未来を再定矩し、セクタヌ党䜓を再構築する最先端技術ぞの投資に重点を眮いたプラットフォヌムです。