人工知能
メンタルヘルスAIツールが偶然に発見した正確なディープフェイク検出方法

テクノロジー大手のOpen AIが、2025年9月に旗艦のSora 2ビデオとオーディオ生成モデルを発売したとき、ディープフェイク動画がソーシャルメディアプラットフォームを氾濫し、観客は潜在的に危険な超現実的なコンテンツにますます慣れ親しんできた。
Open AIは、Sora 2の責任ある発売を最優先事項とみなし、主張したが、「ユーザーがフィードで見るものをコントロールするためのツールと選択肢をユーザーに与える」というもので、自分の似姿に対するエンドツーエンドのコントロールを提供するというものだった。しかし、2025年10月の調査によると、このモデルは80%の時間に偽の主張ビデオを生成していた。
モルドバの選挙担当官が投票用紙を破壊するというニュースリポートを模倣したビデオから、入国管理官によって拘束された幼児や、コカ・コーラのスポークスパーソンが会社がスーパーボウルを後援しないことを発表するという架空のシーンまで、相互接続された世界で誤情報を生成することのリスクは、より高くなることはない。
Soraを超えて:Vishing
Open AIのツールが発売される前から、ディープフェイクファイルの作成とオンラインでの拡散は増加していた。サイバーセキュリティ会社DeepStrikeの2025年9月の報告書によると、ディープフェイクコンテンツは2023年の50万から2025年の驚くべき800万に増加し、その多くが詐欺目的で使用されていた。
この趨勢は停止する兆しを見せていない。米国だけで、AIによる詐欺は2027年までに400億ドルに達することが予想されている。
この増加は数量に限られていない。Sora 2やGoogleのVeo 3のようなツールを使用して、AI生成の顔、声、フルボディパフォーマンスのコンテンツは、以前よりもリアルなものになっている。コンピューターサイエンティストであり、ディープフェイク研究者のSiwei Luyが示唆したように、現代のモデルは、歪みや歪曲なしに安定した顔を生成することができ、声のクローニングは「区別できないしきい値」を超えた。
真実は、ディープフェイクが検出を上回っていることである。テクノロジー会社が「すべてを生成するための楽しいツール」として販売するものは、実際には企業と個人を標的にする犯罪者によって利用されている。2025年上半期だけで、ディープフェイク事件は企業に356万ドル、個人に541万ドルの損失をもたらした。
伝統的なディープフェイク検出法、つまりウォーターマークの特定、エアブラシで描かれた顔、メタデータの確認などは、失敗している。また、声のディープフェイクはAIを使用した詐欺の2番目に一般的な形式であり、声によるフィッシング(Vishing)は2025年に442%増加したため、結果はすでに現れている。
「数秒のオーディオで、自然なイントネーション、リズム、強調、感情、間、呼吸音を備えた説得力のあるクローンを生成できる」とLyuは書いた。
人間を聞く科学
Kintsugiは、臨床的うつ病と不安を検出するためのAI音声バイオマーカーテクノロジーを開発しているヘルスケアスタートアップである。彼らの仕事は、単純な前提から始まった。人間を聞く必要がある。
「私はKintsugiを、自分が経験した問題のために始めました。私は、セラピーの初回予約をスケジュールするために、5ヶ月近くプロバイダーに電話をかけ続けましたが、誰も電話に応答しませんでした。私は続けて試みましたが、もしもそれが私の父や兄だったら、誰もが私よりも前に止めてしまったであろうと、はっきりと考えたことを覚えています」と、CEOのGrace ChangはUnite.AIとの会話の中で述べた。
カリフォルニア州に拠点を置くこの会社は、2019年に「トライアージュボトルネック」とChangが呼ぶ問題の解決策として設立された。創設者は、早期に重症を検出して、受け入れをより迅速に行うことができるのではないかと考えた。Kintsugi Voiceを通じて、音声バイオマーカーは、臨床的うつ病と不安を特定する。
研究は、AI駆動のスピーチおよび音声分析を、精神衛生状態のバイオマーカーとして使用することに成功していることを証明している。2025年5月の論文では、たとえば、発見されたことがある。音響バイオマーカーは、精神衛生と神経発達の初期の兆候を検出でき、臨床現場での認知機能低下の評価のために歌の分析を統合することを主張した。
実際、声の尺度は、うつ病のある人とない人を識別する精度が78%から96%であるため、アメリカ精神医学協会によると。別の研究では、1分間の言語流暢性テストを使用し、個人に可能な限り多くの単語を特定のカテゴリ内で名付けるよう依頼し、うつ病と不安を両方持っている場合に、70%から83%の精度で検出することができた。
ユーザーの精神衛生を評価するために、Kintsugiは短いスピーチクリップを要求し、その後、声のバイオマーカーテクノロジーは、ピッチ、イントネーション、トーン、間を分析する。うつ病、不安、双極性障害、認知症などの状態に関連していることがわかっているマーカーである。
しかし、Changは当初、技術がセキュリティ業界の最も重要な現代の課題の1つ、つまり人間の声が人間であることを示すものを解明したことを認識していなかった。
メンタルヘルスケアからサイバーセキュリティへ
2025年後半、ニューヨークで開催されたサミットに出席したChangは、サイバーセキュリティ分野の友人に、チームの合成音声の実験が失望したものだったと話した。
「私たちは、メンタルヘルスモデルをトレーニングするための合成データを試みていましたが、生成された声は本物の人間のスピーチと比べてかなり異なっていたので、ほぼ100%の確率でそれらを識別できました」と彼女は言った。
「彼は私を止めて、『グレース、これはセキュリティでは解決された問題ではありません』と言った。それがすべてが繋がった瞬間でした。以来、セキュリティ、金融サービス、テレコ会社との会話は、ディープフェイクの声攻撃がどれだけ急速に増加しているか、また生の電話での人間の声と合成声を区別する必要性がどれだけ現実的かを証明しています」と、CEOは付け加えた。
昨年4月、FBIは、上級米国政府職員を名乗る悪意のあるテキストおよび音声メッセージキャンペーンについて警告した。このキャンペーンは、元政府職員やその連絡先を標的にしていた。米国の大手銀行も、1日平均5.5件の音声操作詐欺の標的となっていた。ベンダービルト大学医療センターの病院スタッフも、友人、上司、同僚を装ったVishing攻撃に遭遇した。
しかし、ディープフェイクは当初、Kintsugiの仕事には関係しなかった。会社のチームは、管理センターのエージェントやアウトバウンドワークフロー用の合成音声を試験するために、Cartesia、Sesame、ElevenLabsのようなオフザシェルフモデルを使用していたが、ディープフェイク詐欺は、Soraのようなモデルを備えたアクセス可能な市場の中で焦点ではなかった。
人間の声の真実性を示す人間レベルの信号は、誰かを人間たらしめるバイオマーカーと同じものである。言語やセマンティクスに関係なく、Kintsugi Voiceは、信号処理とスピーチの物理的遅延で動作し、スピーチが生成される方法を反映する、繊細なタイミング、Prosodic変動、認知負荷、生理的マーカーを捉える。
「合成音声は流暢に聞こえるかもしれないが、同じ生物学的および認知的アーティファクトを持っていない」とChangは述べた。会社のモデルは、検出精度で上位10パーセントのパフォーマーであり、わずか3〜5秒のオーディオで動作する。
Kintsugiは、特に専門家との治療を受けるのに時間とリソースを要する地域の人々がメンタルヘルスと闘うのに革命的であるかもしれない。同様に、その技術はディープフェイク検出とサイバーセキュリティ全般の革命をもたらす。ディープフェイクの認識ではなく、真実性の検出である。
未来は人間中心のテクノロジーにある
サイバーセキュリティは、長い間、技術の悪用や加害者そのものに焦点を当ててきた。ただし、Kintsugiの偶発的な発見は、人間性そのものに賭けている。
「私たちは、完全に異なる表面領域で動作しています。人間の真実性そのものに焦点を当てています。LLMは、LLM生成コンテンツを信頼性高く検出できないし、アーティファクトベースの方法は脆い。実在する人間の変動性を符号化した、大規模な臨床的にラベル付けされたデータセットを取得することは、高価で遅く、ほとんどのセキュリティ会社の専門外なので、このアプローチを複製することは難しい」とChangは指摘した。
スタートアップのアプローチは、より広範な変化も示唆している。ヘルスケアの先駆者は、AIを支援したVishing検出のリーダーとなるかもしれない。同様に、宇宙テクノロジーのイノベーターは、新しい緊急対応メカニズムをサポートするかもしれない。ゲームアーキテクチャーは都市計画をサポートするかもしれない。
Changについては、最終的に声のやり取りを介して、本当の人間と本当の意図を検証するための標準になることを計画している。
「HTTPSがウェブのデフォルトの信頼レイヤーになったように、人間の証明は、声ベースのシステムの基礎レイヤーになるだろう」と彼女は言った。
生成AIが加速するにつれて、最も効果的な安全対策は、人間が人間であることを理解することから来るかもしれない。










