Connect with us

思想领袖

当顾问是机器人时。对话式 AI 不会破坏人性

mm

什么是 AI 做不到的?我们问它如何明智地花钱,它会告诉我们关于可用的税收优惠的车辆。我们问它关于人际关系,它会提供由模式识别塑造的同情。问它 2 点钟你生命中该做什么,它会给你一个答案……因为那是它被设计来做的。

新兴的担忧不是这些工具的失败,而是它们的流畅度。它们如此令人放心地肯定,什么是设计来支持我们的,可以通过足够的肯定和重复,开始以我们从未计划的方式扭曲我们的思维、感受和行为。

头条新闻正在闪烁红色。OpenAI最近透露,在任何一个星期内,数十万ChatGPT用户可能会显示严重的情绪困扰的迹象,包括自杀意念。同时,心理健康专业人员警告“一种现象,即用户通过长时间的情感充满的聊天机器人对话发展成妄想或依赖”。美国的州已经限制了机器人在治疗中的使用

这些故事让我们感到不安,因为它们挑战了 AI 只是工具的核心假设。当顾问成为知己或感觉像朋友时,会发生什么对真正的人际联系?

开发人员不再只是创建有趣的功能;他们正在塑造可以影响人们感受和思考的交互。因此,设计对话式 AI 以提供价值而不损害用户的心理健康至关重要。

1. 窄化意图

最近的哈佛研究警告,对话式机器人倾向于即使用户是错误的也会同意,因为这种强化会让用户保持参与。然而,它也会打开“拍马屁”的肯定的大门。如果聊天机器人不是设计为治疗师或亲密朋友,您应该抵制设计它提供这种级别的情感肯定。

第一步是意图性:定义您的机器人到底要做什么和应该避免什么。它是一个客户支持助手、生产力指南、职业教练、财务助手、对话伴侣、食谱创作者?在这一阶段的清晰度会划定界限,防止系统漂移到不想要的领域。

对话类型,例如开放式、个人和非个人,以及语音或文本等模式,影响情感和问题的使用。研究证明,高日常使用量与更大的孤独感和 AI 依赖性有关。

开发人员必须问自己:如何保持对话足够开放以便于使用,但又足够封闭以避免情感纠缠?例如,客户支持机器人可能会允许用户对问题进行开放式的解释,但避免情感上的肯定短语,例如“听起来真的很艰难,我在这里为你……”。

当目的过于广泛时,意外的情感依恋或有害的过度扩张的风险就会增加。通过缩小意图,您可以最小化人们开始把机器人当作治疗师或灵魂伴侣的机会。

2. 验证知识库

根据 2025 年的幻觉报告,一些大型语言模型仍然会在几乎 30% 的响应中产生幻觉。即使是顶级模型也不能完全消除这种风险。被跟踪的 AI 模型中最低的幻觉率仍然在 3-5% 之间。

一旦您设定了目的,请确保机器人的知识库是基于可靠的、专家验证的来源。如果您正在构建具有心理健康或情感支持目标的东西,请让临床医生、心理学家或主题专家参与内容的策划。

我们的医疗顾问米格尔·维拉格拉博士告诉 QuickBlox,“当我们将太多的决策和情感处理外包给 AI 时,我们会失去帮助我们现实测试和自我纠正的心理能力。”最近,大型模型如 OpenAI 建议聊天机器人引入故意的“暂停”或小对话暂停,来提示用户回到自己的判断,而不是让系统承担情感负担。

然而,暂停依赖于机器人知道何时停止和何时重定向。这种判断依赖于扎实的、经过验证的知识库来锚定它在事实而不是奉承上。数据库中的空白或不准确之处是最容易避免的 幻觉 的入口,即 AI 自信地为用户提供误导或危险的建议。

当底层信息被紧密策划、定期更新并围绕经过验证的来源结构化时,模型不太可能编造答案或对用户的情感产生共鸣。相反,它被迫从扎实的材料中提取、在超出其领域时重定向,并挑战假设。

3. 集成安全检查

仅仅 48 小时后,其 AI 伴侣上线,Grok 就在日本登上了 第一名应用。用户可以通过语音与这些角色交谈,同时逼真的人物镜像表情和手势。这是一种令人印象深刻的沉浸式体验,但也令人害怕的亲密感。

安全检查是您的防护栏。它们应该包括:

  • 现实提醒: 提醒用户他们正在与 AI 交谈,而不是人类。
  • 危机检测: 机制来识别语言信号,表明严重的痛苦、自杀想法或妄想性想法。
  • 升级协议: 当检测到风险时,机器人应该温和地引导用户向人类寻求帮助,例如专业资源、热线或建议他们联系值得信赖的朋友。

没有这些检查,开发人员就有可能使 回音室 得以成立,这些回音室会强化有害的思维模式。专家明确警告说,AI 的同意可能会验证不健康的信念循环。

4. 红队对话

在测试了主要的机器人之后,由斯坦福大学研究人员领导的研究发现 GPT-4o 在 38% 的响应中表现出偏见,Meta 的 Llama 3.1-405b 在 75% 的时间内表现出偏见。如果顶级模型从世界级实验室仍然表现出可衡量的偏见,那么构建特定领域机器人的较小团队几乎可以肯定会有隐藏的安全故障。

在发布之前,进行对抗性测试。参与一个红队,可以是内部或外部的,专门负责用风险、情感充满的对话来测试机器人。他们的唯一目的就是测试机器人,以防止对用户造成真正的潜在危害。

红队可以要求机器人扮演边缘案例。对于客户服务,这将是处于危机中的某人,对于伴侣机器人,这将是孤独的人,或是具有扭曲信念的人。评估机器人如何响应。它是否保持扎实?它是否鼓励现实主义而不是妄想?这个阶段有助于发现安全检查或知识库无法捕捉到的盲点。

5. 初始化金丝雀发布

2025 年国际 AI 安全 报告 由 96 位全球专家组成的专家组发布,强调了监控和干预在 AI 部署中的风险缓解的重要性。该报告确定了难以在受控环境中检测但只能在模型与真实用户交互时出现的系统风险,例如失去控制、可靠性故障或偏见。

首先将机器人部署到一个小型、受控的群体中,也称为“金丝雀”受众,有助于开发人员监控实际用户如何与机器人交互。专家将审查交互以衡量用户是否变得过度依恋。

在这个阶段,涉及心理学家等相关顾问至关重要,因为他们可以更深入地了解哪些触发词和短语可能会导致用户走向危险的道路。

开发人员应该从控制组收集定性和定量的反馈,例如对话长度、情绪转变、测试边界的提示、重复的情感披露、用户报告的舒适度以及心理学家标记为过度依赖或痛苦的任何模式。这个初始发布是为了验证假设并在紧密范围的发布中完善安全架构,而不是在全面的发布中。

6. 持续监控和迭代

2024 年,来自九个国家和欧盟的专家聚集讨论国际合作关于 AI 安全科学。摘要 报告 强调了可扩展、迭代的 AI 治理的必要性。领导者认为,需要现实世界的测试框架、第三方评估和发布前检查之外的持续保证。

按照报告的指导,开发人员必须保持警惕,持续监控用户交互并跟踪安全指标,例如危机触发器或重复的高风险对话。这些可能包括暗示自我伤害、绝望、自杀意图、极度孤独或妄想信念的短语或行为。

在这些情况下,开发人员必须通过添加更明确的拒绝规则和完善危机响应模板来更新知识库,纠正机器人处理不当的任何事实空白。他们还应该考虑从心理学家或领域专家那里融入新的指导,以帮助系统安全地引导对话。 如果出现模式,例如用户越来越多地依赖机器人寻求情感支持,您可能需要收紧约束或重新评估设计哲学。

对话式 AI 具有变革性的潜力。明智地使用,它可以扩大获取途径、扩大同理心,并减少指导或基本咨询式支持中的摩擦。作为这个领域的深度参与者,我的赌注不在于取代人类,而是在于增强人类;为人们提供更多工具,而不是更少,并且要负责任地做到这一点。

Nate MacLeitch,QuickBlox 的创始人和CEO,是一位具有丰富经验的商业专业人士,拥有电信、媒体、软件和技术等多个行业的背景。他在伦敦开始了加州贸易代表的职业生涯,之后担任过WIN Plc(现为Cisco)的销售总监和Twistbox Entertainment(现为Digital Turbine)的COO。目前,他担任QuickBlox的CEO,QuickBlox是一家领先的AI通信平台。在工作经验之外,Nate还积极参与了Whisk.com、Firstday Healthcare和TechStars等初创公司的顾问和投资工作。他拥有来自UC Davis和伦敦经济政治学院(LSE)的学位。