人工智能

Vijay Balasubramaniyan，Pindrop 联合创始人兼 CEO – 采访系列

Published June 3, 2024

Updated April 27, 2026

Antoine Tardif, CEO & Founder of Unite.AI

Vijay Balasubramaniyan 是 Pindrop 的联合创始人兼 CEO。他曾在 Google、Siemens、IBM 研究和 Intel 担任过各种工程和研究职务。

Vijay 在 VoIP 安全和可扩展性方面拥有专利，他经常在技术会议上讨论电话欺诈威胁，包括 RSA、Black Hat、FS-ISAC、CCS 和 ICDCS。Vijay 获得了佐治亚理工学院计算机科学博士学位。他的博士论文是关于电信安全的。

Pindrop‘s 解决方案正在引领语音的未来，通过为每次语音交互建立身份、安全和信任的标准。Pindrop 的解决方案使用专利技术保护世界上一些最大的银行、保险公司和零售商，提取每次呼叫和语音的智能。Pindrop 解决方案有助于检测欺诈者和验证真实客户，减少欺诈和运营成本，同时提高客户体验和保护品牌声誉。Pindrop 是一家总部位于亚特兰大，GA 的私营公司，成立于 2011 年，由 Dr. Vijay Balasubramaniyan、Dr. Paul Judge 和 Dr. Mustaque Ahamad 创立，获得 Andreessen Horowitz、Citi Ventures、Felicis Ventures、CapitalG、GV、IVP 和 Vitruvian Partners 的风险投资。有关更多信息，请访问 pindrop.com。

根据 Pindrop 的 2024 年语音智能和安全报告，当前语音基于欺诈和安全的状态有哪些关键收获？

该报告对安全问题和未来趋势进行了深入分析，特别是在为金融和非金融机构提供服务的呼叫中心。报告中的关键发现包括：

呼叫中心欺诈显著增加：过去两年，呼叫中心欺诈增加了 60%，达到 2019 年以来最高水平。到今年年底，每 730 个呼叫中就有一个是欺诈性的。
使用深度伪造的攻击者日益复杂：深度伪造攻击，包括复杂的合成语音克隆，正在增加，对美国呼叫中心构成 50 亿美元的欺诈风险。这种技术被用来增强欺诈策略，例如自动和大规模账户侦察、语音模仿、有针对性的短信欺诈和社会工程学。
传统的欺诈检测和身份验证方法不起作用：公司仍然依赖手动身份验证消费者，这种方法耗时、昂贵且无法有效阻止欺诈。3.5 亿数据泄露受害者，每年在身份验证上花费 120 亿美元，而欺诈损失 100 亿美元，证明当前的安全方法不起作用。
需要新的方法和技术：生存检测对于打击恶意 AI 和增强安全至关重要。语音分析仍然很重要，但需要与生存检测和多因素身份验证结合使用。

根据报告，67.5% 的美国消费者担心银行业的深度伪造。您能否详细说明金融机构面临的深度伪造威胁类型？

由于多种因素，通过电话渠道进行银行欺诈正在增加。由于金融机构严重依赖客户确认可疑活动，呼叫中心可能成为欺诈者的主要目标。欺诈者使用社会工程学策略欺骗客户服务代表，说服他们删除限制或帮助重置在线银行凭证。根据一位 Pindrop 银行客户的说法，36% 的已识别的欺诈电话主要旨在删除由欺诈控制施加的限制。另一位 Pindrop 银行客户报告称，19% 的欺诈电话旨在访问在线银行。随着生成式 AI 和深度伪造的兴起，这些攻击变得更加强大和可扩展。现在，一两个车库里的欺诈者可以创建任意数量的合成语音，并对多个金融机构发起同时攻击，并放大他们的策略。这在消费者中创造了一个提高的风险和担忧水平，他们担心银行业是否准备好抵御这些复杂的攻击。

生成式 AI 的进步如何促进深度伪造的兴起，它们对安全系统提出了哪些具体挑战？

虽然深度伪造并非新事物，但生成式 AI 的进步使其在过去一年中成为一个强大的攻击媒介，因为它们能够在更大规模上变得更可信。生成式 AI 的进步使大型语言模型更擅长创建可信的语音和语言。现在，自然听起来的合成（假）语音可以很便宜地以大规模创建。这些发展使深度伪造对每个人（包括欺诈者）都变得可及。这些深度伪造通过使高度令人信服的钓鱼攻击、传播虚假信息和通过逼真的模仿实现金融欺诈来挑战安全系统。它们破坏传统的身份验证方法，造成重大的声誉风险，并要求先进的检测技术来跟上它们的快速演变和可扩展性。

Pindrop Pulse 如何有助于识别用于对拜登总统的 robocall 攻击的 TTS 引擎，以及这对未来深度伪造检测有什么影响？

Pindrop Pulse 在识别用于对拜登总统的 robocall 攻击的 ElevenLabs TTS 引擎方面发挥了至关重要的作用。使用我们先进的深度伪造检测技术，我们实施了一个四阶段分析过程，包括音频过滤和清理、特征提取、段分析和连续评分。该过程使我们能够过滤掉非语音帧（例如静默、噪音、音乐），提取区分机器生成和普通人类语音的低级别光谱时间特征。

通过将音频分成 155 个段，并为每个段分配生存评分，我们确定音频是一致的人工合成的。使用“假指纹”，我们将音频与 122 个 TTS 系统进行比较，并确定 ElevenLabs 或类似系统被使用的可能性为 99%。该发现通过 ElevenLabs SpeechAI 分类器以 84% 的可能性得到了验证。我们的详细分析揭示了深度伪造伪像，特别是在具有丰富的摩擦音和不常见的表达方式的短语中，对于拜登总统来说是陌生的。

此案例凸显了我们可扩展和可解释的深度伪造检测系统的重要性，这些系统增强了准确性、建立信任并适应新技术。它还强调了生成式 AI 系统需要纳入防止滥用的保障措施，以确保声音克隆得到真实个人的同意。我们的方法为解决合成媒体威胁设定了一个基准，强调了持续监测和研究以保持领先于不断演变的深度伪造方法的必要性。

报告提到了对媒体和政治机构的深度伪造的重大担忧。您能否提供此类事件的例子及其潜在影响？

我们的研究发现，美国消费者最担心的是银行和金融部门的深度伪造威胁。但是，除了这些之外，深度伪造对我们媒体和政治机构的威胁也构成了同样重大的挑战。在美国以外，印度尼西亚（苏哈托深度伪造）和斯洛伐克（米哈尔·希梅卡和莫尼卡·托多娃语音深度伪造）也观察到了深度伪造的使用。

2024 年是美国和印度的重要选举年，预计 40 个国家的 40 亿人将参与投票。人工智能技术的普及使得欺骗互联网上的人们比以往任何时候都更容易。我们预计将会看到针对政府机构、社交媒体公司、其他新闻媒体和普通民众的有针对性的深度伪造攻击，这些攻击旨在制造人们对机构的不信任和在公共话语中传播虚假信息。

Pindrop 使用什么技术和方法来实时检测深度伪造和合成语音？

Pindrop 使用一系列先进的技术和方法来实时检测深度伪造和合成语音，包括：

- 生存检测：Pindrop 使用大规模机器学习来分析非语音帧（例如静默、噪音、音乐）并提取区分机器生成和普通人类语音的低级别光谱时间特征
- 音频指纹识别– 这涉及为每个语音创建一个数字签名，基于其音频属性，例如音调、语调和节奏。这些签名然后用于比较和匹配不同呼叫和交互中的语音
- 行为分析– 用于分析似乎不寻常的行为模式，包括异常访问各种帐户、快速机器人活动、帐户侦察、数据挖掘和机器人拨号

语音分析– 通过分析语音特征，例如声带特征、语音变异和说话风格，Pindrop 可以为每个个体创建语音特征。任何偏离预期语音特征的行为都可能触发警报

多层安全方法– 这涉及组合不同的检测方法来交叉验证结果并增加检测的准确性。例如，音频指纹识别结果可能与生物识别分析进行交叉参考，以确认怀疑
持续学习和适应– Pindrop 持续更新其模型和算法。这涉及纳入新数据、改进检测技术并领先于新出现的威胁。持续学习确保其检测能力随着时间的推移而改进，并适应新的合成语音攻击类型

什么是 Pulse 深度伪造保修，并且它如何增强客户对 Pindrop 处理深度伪造威胁的能力的信心？

Pulse 深度伪造保修是一种首创的保修，针对呼叫中心的合成语音欺诈提供赔偿。当我们站在网络攻击格局发生重大转变的边缘，预计潜在的经济损失将在 2025 年飙升至 10.5 万亿美元，Pulse 深度伪造保修通过提供几个关键优势来增强客户信心：

增强信任：Pulse 深度伪造保修表明 Pindrop 对其产品和技术的信心，向客户提供一个值得信赖的安全解决方案来服务他们的账户持有人
损失赔偿：Pindrop 客户可以获得针对 Pindrop 产品套件未检测到的合成语音欺诈事件的赔偿
持续改进：Pindrop 客户通过保修计划收到的请求有助于 Pindrop 跟上不断演变的合成语音欺诈策略

有没有值得注意的案例研究表明 Pindrop 的技术成功地减轻了深度伪造威胁？结果是什么？

皮克斯维尔高中事件：2024 年 1 月 16 日，据称巴尔的摩马里兰州皮克斯维尔高中的一位校长在 Instagram 上发布了一段录音，该录音包含对黑人学生和教师的侮辱性言论，引发了公众的强烈愤怒和严重关注。

鉴于这些发展，Pindrop 进行了全面调查，进行了三次独立分析以揭露真相。我们彻底调查的结果得出了细致的结论：虽然 1 月份的音频被修改过，但它缺乏 AI 生成的合成语音的明确特征。我们的分析指标支持我们 97% 的确定性。这个关键发现凸显了在对可能被操纵的媒体的性质做出公开声明之前，进行详细和客观分析的重要性。

在一家大型美国银行中，Pindrop 发现一名欺诈者正在使用合成语音来绕过 IVR 身份验证。我们发现欺诈者正在使用机器生成的语音来绕过 IVR 身份验证以针对特定帐户，提供正确的答案来回答安全问题，并且在某些情况下，甚至可以通过一次性密码 (OTP)。成功在 IVR 中身份验证的机器人识别出有价值的帐户，通过基本的余额查询。随后的呼叫是由真正的人打来的，以实施欺诈。Pindrop 及时提醒银行注意这一欺诈，并使用 Pulse 技术能够阻止欺诈者。

在另一家金融机构中，Pindrop 发现一些欺诈者正在训练自己的语音机器人来模仿银行自动响应系统。在听起来很奇怪的第一次呼叫中，一个语音机器人呼叫银行的 IVR，不是为了进行帐户侦察，而是重复 IVR 提示。多个呼叫进入 IVR 对话树的不同分支，每两秒钟，机器人就会重复它所听到的内容。一周后，观察到更多的呼叫正在执行相同的操作，但这次，机器人以与银行 IVR 完全相同的语音和风格重复短语。我们相信一个欺诈者正在训练一个语音机器人来镜像银行的 IVR 作为短信欺诈攻击的起点。有了 Pindrop Pulse 的帮助，金融机构能够在任何损害发生之前阻止这一攻击。

独立 NPR 音频深度伪造实验：数字安全是一个不断演变的欺诈者和安全技术提供者之间的军备竞赛。有几个提供者，包括Pindrop，声称能够一致地检测音频深度伪造 –NPR 将这些说法置于测试之下，以评估当前的技术解决方案是否能够一致地检测 AI 生成的音频深度伪造。

Pindrop Pulse 准确地检测到了 84 个音频样本中的 81 个，相当于 96.4% 的准确率。此外，Pindrop Pulse 检测到了 100% 的深度伪造样本。虽然其他提供者也在研究中进行了评估，但 Pindrop 通过证明其技术能够可靠地和准确地检测深度伪造和真实音频而脱颖而出。其他提供者也被评估，但 Pindrop 通过展示其技术能够可靠地和准确地检测深度伪造和真实音频而脱颖而出。

您预见未来语音基于欺诈和安全的趋势，特别是随着人工智能技术的快速发展？Pindrop 如何为这些做准备？

我们预计 2024 年呼叫中心欺诈将继续上升。根据各个行业的欺诈率年至今分析，我们保守地估计欺诈率将达到每 730 个呼叫中就有一个，代表着与当前水平相比 4-5% 的增加。

预计大部分增加的欺诈将影响银行业，因为保险、券商和其他金融部门预计将保持在当前水平。我们估计这些欺诈率代表了美国金融机构 70 亿美元的欺诈敞口，这需要得到保护。然而，我们预计会发生重大转变，尤其是欺诈者利用 IVR 作为测试场所。最近，我们观察到欺诈者手动输入个人身份信息 (PII) 以验证帐户详细信息。

为了帮助应对这一问题，我们将继续推进 Pindrop 的当前解决方案，并推出新的和创新的工具，例如 Pindrop Pulse，以保护我们的客户。我们将继续推进 Pindrop 的当前解决方案，并推出新的和创新的工具，例如 Pindrop Pulse，以保护我们的客户。

除了当前的技术之外，正在开发哪些新工具和技术来增强语音欺诈防护和身份验证？

语音欺诈防护和身份验证技术不断演变，以跟上技术的进步和欺诈活动的复杂性。正在开发的一些新兴工具和技术包括：

持续欺诈检测和调查：提供对欺诈实例的历史“回顾”，现在有了新的信息。通过这种方法，欺诈分析师可以“倾听”新的欺诈信号，扫描可能相关的历史呼叫，并重新评分这些呼叫。这为公司提供了对欺诈的连续和全面的实时视图
智能语音分析：传统的语音生物识别系统容易受到深度伪造攻击。为了增强他们的防御，需要新的技术，例如语音不匹配和负面语音匹配。这些技术提供了额外的防御层，通过识别和区分多个语音、重复呼叫者，并识别可能构成威胁的不同听起来的语音
早期欺诈检测：能够快速可靠地在呼叫过程开始时提供欺诈信号的欺诈检测技术至关重要。除了生存检测外，例如运营商元数据分析、呼叫者 ID 欺骗检测和音频基于欺骗检测，提供了对欺诈攻击的保护，当对话最容易受到攻击时

感谢您接受这次精彩的采访，阅读更多内容请参阅 Pindrop 的 2024 年语音智能和安全报告或访问 Pindrop。

Antoine Tardif, CEO & Founder of Unite.AI

安托万是一位具有远见的领导者和Unite.AI的创始合伙人，他被对塑造和推广AI和机器人人的未来充满不动摇的热情所驱动。作为一位连续创业者，他相信AI将对社会产生与电力一样的颠覆性影响，他经常被听到对颠覆性技术和AGI的潜力大加赞赏。

作为一位未来学家，他致力于探索这些创新将如何塑造我们的世界。另外，他也是Securities.io的创始人，这是一个专注于投资于重新定义未来和重塑整个行业的尖端技术的平台。

Unite.AI

Vijay Balasubramaniyan，Pindrop 联合创始人兼 CEO – 采访系列

You may like