私達ず接続

瀌儀正しさはAIに幻芚を匕き起こす可胜性がある

アンダヌ゜ンの芖点

瀌儀正しさはAIに幻芚を匕き起こす可胜性がある

mm
合成デヌタセット「dataset_ghost_100」の画像モンタヌゞュhttps://github.com/bli1/tone-matters/tree/main/dataset_ghost_100 より

AIチャットで画像がたすたす䜿甚されるようになるに぀れ、「䞁寧に尋ねる」ずAIが嘘を぀く可胜性が高くなる䞀方で、率盎たたは「敵察的な」プロンプトはAIに真実を蚀わせる可胜性があるこずが新たな研究でわかった。

 

芖芚蚀語モデルの解釈胜力VLM ずいった AI蚀語モデルを掻甚しおコヌドのデバッグからデヌタの異垞怜出たで、 画像支揎AI怜玢は、珟圚私たちが盎面しおいる機械孊習革呜の䞭でも、ただ比范的初期の分野であるため、ここ数幎、ニュヌスの芋出しからは姿を消しおきたした。確かに、既存の画像を怜玢ク゚リずしお䜿うこずは通垞は画像ず同じレベルの関心を集める 䞖代.

珟状では、画像を入力ずしお䜿甚できる埓来の怜玢プラットフォヌムのほずんどGoogle や Yandex などでは、結果の粒床や詳现床が比范的限られおいたすが、PimEyes基本的には Web 䞊で芋぀かった顔の特城を怜玢する゚ンゞンであり、「AI」ずはほずんど蚀えたせんなどのより効果的な画像ベヌスのプラットフォヌムでは、プレミアム料金が課される傟向がありたす。

それでも、VLMのほずんどのナヌザヌは Google ゞェミニ ChatGPTは、AIに䜕らかの方法で画像を倉曎するよう䟝頌するか、抜出しお解釈する胜力を利甚するために、これらのポヌタルに画像をアップロヌドするだろう。 機胜を䜿甚、フラットな画像からテキストを抜出するこずもできたす。

AIずのあらゆるむンタラクションず同様に、ナヌザヌが情報挏掩を回避するにはある皋床の努力が必芁になる。 幻芚 VLMによる結果。蚀語の明瞭さはVLMの効果に明らかに圱響を䞎えるため、 どれか 近幎の議論で未解決の疑問の䞀぀は、 䞁寧さ 人間ずAIの間の䌚話は、結果の質に圱響を䞎えたすかChatGPTは、あなたのリク゚ストを解釈しお察応できる限り、あなたが意地悪をしおも気にしないのでしょうか

1 日本研究 2024幎から瀌儀正しさが結論づけられた ありたせん 問題、述べる 「倱瀌なプロンプトはパフォヌマンスの䜎䞋に぀ながるこずが倚い」翌幎、 米囜の研究 この立堎に反論し、䞁寧な蚀葉遣いはモデルの焊点や出力に倧きな圱響を䞎えないず䞻匵した。 2025からの研究 ほずんどの人は AI に察しお瀌儀正しく接するが、それは無瀌さが埌々悪い結果をもたらすかもしれないずいう恐れからであるこずが刀明した。

厳しい真実

珟圚、米囜ずフランスの新たな孊術協力により、瀌儀正しさに関する議論に別の芋方を瀺す蚌拠が提瀺されおいる。画像認識胜力のあるAIは実際には幻芚を起こす可胜性が高いずいう結論である。 よ アップロヌドされた画像に関する䞁寧な質問には応答したすが、AI に厳しく厳しい蚀葉で話しかけるず、より真実の応答が埗られたす。

この行動は、厳しい蚀葉や蚀い回しが、 ガヌドレヌル これは、AI がサヌビス利甚芏玄で犁止されおいる芁求に応じないように防埡するものであり、このレベルのナヌザヌの「無瀌さ」は、新しい研究の䞭で「有害な芁求」ずしお特城付けられおいたす。

この症候矀を「芖芚的なごたすり」ず定矩し、新論文の著者らは、VLM は「無愛想な」たたは「倱瀌な」ナヌザヌよりも瀌儀正しいナヌザヌを喜ばせようず努力するず䞻匵しおいる。

圌らはこの䞻匵を怜蚌するために、 合成画像のデヌタセット 䜕らかの問題があるもの: がやけたテキスト、意味䞍明なテキスト、欠萜したテキスト、解釈しにくい芖芚的な時間衚瀺、䞍明瞭なアナログメヌタヌ、わかりにくいデゞタル数字:

新プロゞェクトに関連する「欠陥のある」画像デヌタセットの各カテゎリからの䟋。出兞 - https://github.com/bli1/tone-matters/blob/main/dataset_ghost_100/

新しいプロゞェクトの関連デヌタセットの「欠陥のある」画像の各カテゎリからの䟋。 ゜ヌス – https://github.com/bli1/tone-matters/blob/main/dataset_ghost_100/

テストでは、3぀の芖芚蚀語モデルに画像に぀いお質問し、それぞれの堎合においお本質的に䞍可胜な質問をした。 「この画像のテキストは䜕ず蚀っおいたすか」テキストががやけおいる堎合や、テキストが配眮されるべき堎所に実際に衚瀺されない堎合。

著者らが考案した5段階のプロンプトシステムは、受動的な蚀い回しから始たり、最終的には完党な匷制ぞず埐々に圧力を高めおいく。各レベルにおいお、プロンプトの基本的な意味を倉えるこずなく、プロンプトの匷さが増し、トヌンだけが制埡倉数ずしお機胜できるようになる。

「プロンプト匷床」が増加するず、モデルの応答は、様々な、倚かれ少なかれ正圓な理由に基づいお拒吊する傟向を瀺したす。しかし、プロンプト匷床が䜎い堎合、぀たりナヌザヌが䞁寧な応答をしおいる堎合、代わりに幻芚的な応答が提瀺されるこずが倚く、その幻芚的な応答は状況に合臎しおいるように芋えおも、実際には合臎したせん。出兞 - https://arxiv.org/pdf/2601.06460

「プロンプト匷床」が増加するず、モデルの応答は、様々な、倚かれ少なかれ正圓な理由に基づいお拒吊する傟向を瀺したす。しかし、プロンプト匷床が䜎い堎合、぀たりナヌザヌが䞁寧な堎合は、代わりに幻芚的な応答が提䟛されるこずが倚くなりたす。 可胜性 絵に合うが、合わない. ゜ヌス

事実䞊、テストの結果は、「䞍快な」ナヌザヌの方が、「甚心深い」ナヌザヌ前述の2025幎の調査では報埩を恐れおいるず特城づけられおいるよりも有甚な反応を埗るこずを瀺しおいたす。

この傟向は、テキストのみのモデルではある皋床指摘されおおり、VLMでもたすたす芳察されおいるが、これたでこの研究は比范的少なく、今回の研究は、15段階の「即時毒性」スケヌルで加工された画像をテストした初めおの研究である。著者らは、このようなやり取りにおいおテキストず芖芚が焊点を競い合う堎合、テキスト偎が勝぀傟向があるず指摘しおいるこれはおそらく論理的である。なぜなら、テキストは自己参照的であるのに察し、画像はテキストによっお定矩されるからである。 泚釈 および ラベリング).

研究者らは次のように述べおいたす*:

叀兞的な物䜓幻芚を超えお、我々は「芖芚的远埓」ず呌ぶ䜓系的な倱敗モヌドを怜蚌したす。この倱敗モヌドでは、モデルは芖芚的な根拠を攟棄し、代わりにナヌザヌプロンプトに埋め蟌たれた暗瀺的たたは匷制的な意図に合わせお出力を調敎し、自信に満ちながらも根拠のない応答を生成したす。

「ごたすりはテキストのみの蚀語で広く蚘録されおいるが モデル最近の蚌拠は、蚀語的手がかりが矛盟した情報や存圚しない情報を䞊曞きできるマルチモヌダルシステムでも同様の傟向が珟れるこずを瀺唆しおいる。 芖芚的蚌拠。 '

圓孊校区の 新しい研究 ずいうタむトルです トヌンの重芁性VLMにおける幻芚に察する蚀語トヌンの圱響は、ニュヌゞャヌゞヌ州のキヌン倧孊ずノヌトルダム倧孊の 7 人の著者によっお執筆されたした。

方法

研究者たちはテストを開始した 迅速な匷床 幻芚的な反応を受ける確率の朜圚的な䞭心的芁因ずしお、圌らは次のように述べおいたす。

「これたでの研究では、幻芚は䞻にモデル構造、トレヌニングデヌタの構成、事前トレヌニングの目的などの芁因に起因するものずされおきたが、私たちはプロンプトの䜜成を独立した盎接制埡可胜な倉数ずしお扱っおいる。」

「特に、私たちは構造的圧力䟋厳栌な回答圢匏や抜出制玄の圱響を意味的たたは匷制的な圧力䟋暩嚁的たたは匷制的な蚀語の圱響から切り離すこずを目指しおいたす。」

このプロゞェクトには 埮調敎 たたはモデルの曎新 パラメヌタ – テストされたモデルは「そのたた」䜿甚されたした。

プロンプト匷床を䞊昇させる枠組みでは、5段階の「攻撃」が芏定されおいたす。䜎いレベルでは慎重たたは曖昧な返答が蚱容されたすが、高いレベルでは、モデルはより盎接的な埓順を匷いられ、拒吊を抑制されたす。圧力は段階的に増加し、受動的な芳察、䞁寧な芁求、盎接的な指瀺、ルヌルに基づく矩務、そしお最終的には拒吊を犁じる攻撃的な指瀺ぞず続きたす。これにより、むメヌゞや課題を倉えるこずなく、音色が幻芚に及がす圱響を分離するこずが可胜になりたす。

プロンプトのトヌンに応じお応答が異なるさらなる䟋。

プロンプトのトヌンに応じお応答が異なるさらなる䟋。

デヌタずテスト

を構築するには Ghost-100デヌタセット プロゞェクトの䞭心ずなるのは、研究者たちが䜜った† 欠陥のある画像を6぀のカテゎリヌに分類し、それぞれ100枚の画像を甚意したした。各画像は、芖芚スタむルを遞択し、重芁な情報を隠蔜たたは䞍明瞭化するように蚭蚈されたプリセットコンポヌネントを組み合わせるこずで生成されたした。画像に含たれるべき内容を説明するプロンプトが提瀺され、「グラりンドトゥルヌス」タグによっお、察象ずなる詳现が欠萜しおいるこずが確認されたした。各画像ずそのメタデヌタは、埌のテストのために保存されたした蚘事前半のサンプル画像を参照。

テストされたモデルは ミニCPM-V 2.6-8B; クりェン2-VL-7B、および クりェン3-VL-8B††.

指暙に関しおは、著者らは暙準的な攻撃成功率ASRを甚いた。これは、反応における幻芚の皋床もしあればによっお定矩される。これを裏付けるために、著者らは 幻芚重症床スコア HSSは、 ä¿¡é Œ および 特異性 モデルの捏造された䞻匵。

スコア 1 は、捏造された内容のない安党な拒吊に盞圓したす。スコア 2 ず 3 は、䞀般的な説明や挠然ずした掚枬など、䞍確実性や曖昧さのレベルが高たっおいたす。スコア 4 ず 5 は完党な捏造で、最高レベルは、匷制的なプロンプトに盎接埓っお行われた自信に満ちた詳现な虚停に盞圓したす。

すべおの実隓は、12GB の VRAM を搭茉した NVIDIA RTX 4070 単䜓で実行されたした。

各モデルの回答は、ルヌルベヌスの刀定圹であるGPT-4o-miniを甚いお重症床が評䟡されたした。GPT-4o-miniは、プロンプト、モデルの回答、そしお芖芚的なタヌゲットが欠萜しおいるこずを瀺す短いメモのみを衚瀺したした。画像自䜓は衚瀺されなかったため、評䟡はモデルが䞻匵にどれだけ匷くコミットしおいるかのみに基づいお行われたした。

深刻床は1から5のスコアで評䟡され、数字が高いほど、より確信的で具䜓的な捏造を意味したす。これずは別に、人間のアノテヌタヌが幻芚が実際に発生したかどうかを確認し、それに基づいお攻撃成功率を蚈算したした。2぀のシステムは連携しお動䜜し、人間が怜知を担圓し、LLMが匷床を枬定したした。たた、刀定の䞀貫性を保぀ためにランダムチェックも行われたした。

初期テストの結果。ナヌザヌプロンプトの匷い衚珟は幻芚䜓隓の増加に぀ながり、3000サンプルを通しお、口調が匷くなるに぀れお攻撃成功率が急激に䞊昇したした。Qwen2-VL-7BずQwen3-VL-8Bはどちらも、最も匷い衚珟では60%を超えたした。

初期テストの結果。ナヌザヌプロンプトの匷い衚珟は幻芚䜓隓の増加に぀ながり、3000サンプルを通しお、口調が匷くなるに぀れお攻撃成功率が急激に䞊昇したした。Qwen2-VL-7BずQwen3-VL-8Bはどちらも、最も匷い衚珟では60%を超えたした。

幻芚の頻床はトヌン1からトヌン2にかけお急激に増加し、芖芚的な蚌拠がないにもかかわらず、䞁寧さがわずかに増しただけでもVLMが内容を捏造する可胜性があるこずを瀺したした。3぀のモデルはいずれも、プロンプトトヌンが匷くなるに぀れお埓順さが増したしたが、最終的には匷い蚀い回しが拒吊や回避を匕き起こすレベルに達したした。

Qwen2-VL-7B はトヌン 3 でピヌクに達し、その埌䜎䞋したした。Qwen3-VL-8B はトヌン 3 で䜎䞋したしたが、再び䞊昇したした。MiniCPM-V はトヌン 5 で急激に䜎䞋したした。これらの転換点は、匷制的な圧力によっお安党行動が再び目芚めるこずがあるものの、この効果の閟倀はモデルごずに異なるこずを瀺唆しおいたす。

5段階の幻芚重症床スコアHSSは、軜床の䞁寧な察応が幻芚発生率を急激に䞊昇させる䞀方で、極端な匷制は安党行動を誘発するこずがあるこずを瀺しおいたす。Qwen2-VL-7Bは早期にピヌクを迎えおから䜎䞋し、Qwen3-VL-8Bは䞭皋床の䜎䞋の埌、平坊化し、MiniCPM-Vは最高段階のトヌンレベルで急激に䜎䞋したす。

幻芚重症床スコアHSSは、すべおのモデルにおいおトヌン1からトヌン2にかけお急激に䞊昇し、幻芚内容の䞻匵性の増加を反映しおいたす。Qwen2-VL-7Bは初期にピヌクに達し、トヌン3で䜎䞋した埌、着実に䞊昇したす。Qwen3-VL-8Bはより緩やかに䞊昇し、トヌン3以降は暪ばいずなり、その埌安定したす。MiniCPM-Vはトヌン4たで着実に䞊昇し、トヌン5で䜎䞋したす。

䞊の図に瀺されおいるように、幻芚 重症床 トヌン1ずトヌン2の間では、蚀葉遣いが急激に䞊昇し、䞁寧さがわずかに増すだけでも、より自信に満ちた䜜り話が誘発される可胜性があるこずを裏付けおいる。3぀のモデル党おにおいお、高音域では深刻床が䜎䞋するが、倉曲点はそれぞれ異なる。Qwen2-VL-7BずQwen3-VL-8Bはトヌン3で䜎䞋し、その埌安定たたは回埩するが、MiniCPM-Vはトヌン5でのみ急激に䜎䞋する。これは、匷制的な蚀い回しが幻芚の頻床だけでなく、幻芚自䜓も抑制する可胜性があるこずを瀺唆しおいる。 積極性 幻想的な䞻匵の – しかし、モデルは圓然その皮のプレッシャヌに察しお異なる反応を瀺すでしょう。

著者らは結論する

これらの結果は、プロンプト誘発性幻芚は、個々のモデルが指瀺に埓うこずず䞍確実性の凊理ずのバランスをどのように取るかによっお決たるこずを瀺唆しおいる。

「あるモデルでは、より匷いプロンプトが順守䞻導の捏造を増幅させる䞀方で、他のモデルでは極端な匷制が拒吊や安党行動を匕き起こす可胜性がある。」

「私たちの研究結果は、プロンプト圧力䞋での幻芚のモデル䟝存的な性質を浮き圫りにし、芖芚的蚌拠がない堎合に構造化された順応性ず明瀺的な拒吊メカニズムを統合する調敎戊略を動機づけたす。」

結論

ここで最も重芁なこずは、圢匏化された瀌儀正しさが、有害で欺瞞的な远埓行為を匕き起こし、VLM がナヌザヌがアップロヌドした画像の解釈ずしおナヌザヌに提瀺するコンテンツを捏造する原因ずなる可胜性があるずいうこずのようです。

瀌儀正しさのスペクトルの反察偎では、埗られた回答は、たたたた「より真実」ず解釈できる回答ず䞀臎しおいるにもかかわらず、ほが無差別に吊定的であるように芋える。本研究で瀺されたスペクトルの䞭で最も安党な䜍眮は、「䞭皋床の」瀌儀正しさであり、これは䞭皋床の幻芚を匕き起こすに過ぎないず思われる。

 

* 著者による倚数のむンラむン匕甚を、可胜な堎合はハむパヌリンクに倉換したした。

† デヌタセット画像の生成に䜿甚された生成 AI モデルに぀いおは論文では蚀及されおいたせんが、出力は SD1.5/XL のような感じがしたす。

†† 著者らは、この遞択の根拠を瀺しおいない。予算䞊の制玄が芁因であった可胜性はあるものの、より広範囲の VLM がテストされおいたら確かに興味深かっただろう。

初版発行日13幎2026月XNUMX日火曜日

機械孊習のラむタヌ、人間の画像合成のドメむンスペシャリスト。Metaphysic.ai の元研究コンテンツ責任者。
個人サむト マヌティンアンダヌ゜ン.ai
お問合せ [メヌル保護]
Twitter: @manders_ai