人工智能

一款用于精神健康的AI工具如何意外地发现了准确的深度伪造检测方法

mm

随着科技巨头Open AI于2025年9月推出其旗舰Sora 2视频和音频生成模型,深度伪造视频已经充斥了社交媒体平台,使得受众越来越熟悉可能具有危险性的超现实内容。

尽管Open AI将Sora 2的负责任推出视为首要任务,声称它将为用户提供“控制自己所见内容的工具和选项”以及对其外貌的端到端控制,但2025年10月的一项研究发现,该模型80%的时间都会产生虚假声明视频。

从模仿新闻报道的视频到伪造的可口可乐发言人宣布公司将不赞助超级碗的场景,生产虚假信息的风险在相互连接的世界中从未如此之高。

超越Sora:语音钓鱼

即使在Open AI的工具推出之前,深度伪造文件的创建和在线传播也正在增加。根据2025年9月的报告,深度伪造内容从2023年的50万激增到2025年的800万,其中大部分用于欺诈目的。

这种趋势没有停止的迹象;仅在美国,AI欺诈预计到2027年将达到400亿美元。

像Sora 2和Google的Veo 3这样的工具使得AI生成的面部、声音和全身表演比以往任何时候都更真实。正如计算机科学家和深度伪造研究人员Siwei Lyu所指出的,现代模型能够生产稳定的面部而不会出现扭曲或失真,而声音克隆已经跨越了“无法区分的门槛”。

事实上,深度伪造已经超过了检测。技术公司所谓的“有趣工具”已被用于生成从奥运体操比赛到复杂的背景音景的所有内容,但也被用于针对企业和个人。

仅在2025年上半年,深度伪造事件就导致公司损失3560万美元,个人损失5410万美元。

传统的深度伪造检测方法,包括识别水印、气刷脸和元数据检查,正在失败。随着声音深度伪造仍然是第二常见的AI启用欺诈形式,语音钓鱼(vishing)在2025年激增了442%,后果已经开始显现。

“几秒钟的音频就足以生成一个令人信服的克隆,具有自然的语调、节奏、强调、情感、暂停和呼吸噪音,”Lyu写道。

倾听人类的声音

Kintsugi是一家开发AI语音生物标记技术以检测临床抑郁和焦虑症状的健康技术初创公司。他们的工作始于一个看似简单的前提:我们必须倾听人类的声音。

“我创立Kintsugi是因为我亲身经历了一个问题。我花了几乎五个月的时间打电话给我的提供者,只是为了预约一个初步的治疗会话,但没有人回来打电话给我。我一直尝试着——但是我记得很清楚,如果这是我的爸爸或我的兄弟,他们会在我之前就停止了,”Kintsugi的CEO格雷斯·张在与Unite.AI的对话中说。

加利福尼亚州的这家公司成立于2019年,旨在解决张所描述的“_triage瓶颈”问题。创始人认为,检测严重程度可以更早、更被动地帮助人们更快地获得适当的照顾。通过Kintsugi Voice,语音生物标记可以识别临床抑郁和焦虑症状。

研究表明,AI驱动的语音和声音分析可以作为精神健康状况的生物标记。2025年5月的一篇论文发现,声学生物标记可以检测早期的精神健康和神经发育障碍的迹象,并认为在临床环境中应该将歌曲分析纳入评估患者的潜在认知衰退。

语音测量在识别患有抑郁症的人和没有抑郁症的人方面具有78%至96%的准确率,根据美国精神病学会的说法。另一项研究使用了一分钟的语言流畅性测试,发现70%至83%的准确率可以检测出抑郁症和焦虑症的存在。

为了评估用户的精神健康,Kintsugi要求提供一个短的语音片段,然后其语音生物标记技术分析音调、语调、音调和停顿——这些标记与抑郁症、焦虑症、双相情感障碍和痴呆症等疾病有关。

然而,张没有最初意识到的是,该技术已经解开了安全行业最紧迫的挑战之一:识别人类声音的特征。

从精神健康护理到网络安全

2025年底,张在纽约的一个峰会上提到,她的团队正在尝试合成声音,但结果令人失望。

“我们正在探索合成数据来增强我们的心理健康模型的训练,但生成的声音与真实的人类语音相差太远,我们可以100%地识别出来,”她说。

“他阻止了我,并说,‘格雷斯——这是安全领域的一个未解决的问题。’那一刻,一切都变得清晰起来。从那时起,安全、金融服务和电信公司的对话都证实了深度伪造语音攻击的迅速增长,以及区分真实和合成声音在实时通话中的迫切需要,”CEO补充说。

2025年4月,FBI警告了一项恶意的文本和语音消息活动,冒充美国高级官员的身份,针对前政府工作人员及其联系人。美国的大型国家银行也面临着每天平均5.5次语音操纵欺诈尝试,而范德堡大学医疗中心的医院工作人员报告了语音钓鱼攻击,冒充朋友、主管和同事的身份。

然而,深度伪造并没有最初成为Kintsugi的工作重点。虽然该公司的团队曾使用过Cartesia、Sesame和ElevenLabs等现成模型来尝试合成声音,但深度伪造欺诈并不是他们在一个拥有像Sora这样的模型的市场中的重点。

然而,人类声音的真实性标志与使一个人成为人类的生物标志相同。Kintsugi Voice使用信号处理和语音的物理延迟,捕捉微妙的时序、 просодическая变异性、认知负荷和生理标志,这些标志反映了语音的产生方式——而不是所说的话。

“合成声音可能听起来流畅,但它们不具有相同的生物和认知特征,”张说。该公司的模型在检测准确率方面始终是前10%的表现者,仅需3至5秒的音频。

Kintsugi可能是革命性的,尤其是对于那些在获取专业治疗方面需要时间和资源的人来说。同样,该技术对深度伪造检测和网络安全具有革命性的意义:真实性检测而不是深度伪造识别。

未来在于以人为中心的技术

网络安全长期以来一直关注恶意使用技术或肇事者本身。然而,Kintsugi的意外发现却依赖于人类本身。

“我们正在处理一个完全不同的表面积:人类的真实性本身。LLM无法可靠地检测LLM生成的内容,基于特征的方法也很脆弱。捕获大量的临床标记数据来编码真实的人类变异性是昂贵的、缓慢的,并且不在大多数安全公司的核心专业知识之内——这使得这种方法难以复制,”张指出。

该公司的方法还表明了一种更广泛的转变:跨领域创新。医疗保健领域的领跑者可能会在AI支持的语音钓鱼检测方面带头,正如太空技术的创新者可能会支持新的紧急响应机制,或者游戏玩家可能会支持建筑和城市规划。

至于张,她计划成为验证真实人类和最终意图的标准,通过语音交互来实现。

“就像HTTPS成为Web的默认信任层一样,我们相信‘人类证明’将成为基于语音的系统的基础层。Signal是这一基础设施的开始,”她说。

随着生成式AI的不断加速,有效的保障措施可能来自于了解是什么让人类……成为人类。

萨洛梅是一位来自麦德林的记者,担任Espacio Media Incubator的高级记者。拥有历史和政治背景,萨洛梅的工作强调了新兴技术的社会相关性。她曾在Al Jazeera、Latin America Reports和The Sociable等媒体上发表过文章。