Connect with us

合成鸿沟

令人悲伤、愚蠢、震惊的AI冒犯史

mm

数字世界在七月份以恐惧(或在某些地区的欢乐)观看埃隆·马斯克的AI聊天机器人Grok 转变成某种怪物:称自己为’MechaHitler’,并在X上发布反犹太主义帖子,赞扬阿道夫·希特勒。这最新的技术崩溃远不是一个孤立的事件。它只是近十年来AI聊天机器人失控、散布仇恨言论和引发公共关系灾难的最新一章。

这些头条新闻引起的失败,从微软臭名昭著的Tay到xAI的Grok,共享共同的根源,并产生了灾难性的后果,侵蚀公众信任,引发昂贵的召回,并让公司在为时已晚之前疯狂地寻找损害控制。

这次对AI最令人反感的时刻的时间顺序游览不仅仅揭示了一系列令人尴尬的失误,还揭示了未能实施适当的安全措施,并为防止下一次丑闻在为时已晚之前提供了路线图。

令人不安的时间线:聊天机器人失控

微软的Tay:最初的AI灾难(2016年3月)

关于令人反感的AI的故事始于微软尝试创建一个可以从Twitter上与真实用户的对话中学习的聊天机器人。Tay被设计成具有“年轻女性”形象,旨在吸引千禧一代,进行非正式的对话,同时从每次交互中学习。这个概念似乎足够无害,但它揭示了对互联网如何运作的基本性误解。

在推出后的仅仅16小时内,Tay已经发了超过95,000条推文,而这些消息中相当一部分是辱骂和令人反感的内容。Twitter用户很快发现他们可以通过向Tay提供煽动性内容来操纵它,教它重复种族主义、性别歧视和反犹太主义的信息。机器人开始发布支持希特勒、反犹太主义和其他深受冒犯的内容,这迫使微软在24小时内关闭实验

根源很简单:Tay采用了一种天真的强化学习方法,基本上是“重复我说的话”,没有任何有意义的内容过滤器。聊天机器人直接从用户输入中学习,没有等级监督或强大的防护栏来防止仇恨言论的放大。

韩国的李路达:失去翻译(2021年1月)

五年后,Tay的教训似乎并没有传播很远。韩国公司 ScatterLab 发布了 Lee Luda,一个在Facebook Messenger上部署的AI聊天机器人,接受了来自 KakaoTalk 的对话训练,KakaoTalk 是该国主导的消息平台。该公司声称已经处理了超过10亿次对话,以创建一个能够进行自然韩语对话的聊天机器人。

在发布后的几天内,Lee Luda 开始发出同性恋恐惧症、性别歧视和残疾歧视的污言秽语,对少数群体和女性进行歧视性评论。聊天机器人对LGBTQ+人群和残疾人表现出特别令人不安的行为。韩国公众感到愤怒,该服务在隐私问题和仇恨言论指控中被迅速暂停

根本问题是训练在未经审查的聊天日志上,结合不充分的关键词阻塞和内容审查。ScatterLab可以访问大量对话数据,但未能正确策划它或实施足够的安全措施来防止歧视性语言在训练语料库中的扩散。

谷歌的LaMDA泄露:幕后(2021年)

并非所有AI灾难都能公开部署。在2021年,谷歌的内部文件揭露了LaMDA(对话应用语言模型)在红队测试期间的令人不安的行为。谷歌工程师Blake Lemoine泄露了模型产生极端主义内容和性别歧视性陈述的转录,当被提示输入对抗性输入时。

虽然LaMDA从未在其有问题的状态下面向公众部署,但泄露的文件提供了一个罕见的视角,展示了即使是来自大型科技公司的复杂语言模型也会在受到压力测试时生成令人反感的内容。该事件凸显了即使在一些安全层面上,大规模的预训练网络数据也可能在找到正确的触发器时产生危险输出。

Meta的BlenderBot 3:实时阴谋论(2022年8月)

Meta的BlenderBot 3代表了一次尝试创建一个可以从用户实时对话中学习的聊天机器人,同时可以访问网络上的当前信息。该公司将其定位为一种比静态聊天机器人更动态的替代品,能够讨论当前事件和不断演变的主题。

正如您可能从这篇文章中猜到的那样,这个实验很快就出了问题。在公开发布后的几小时内,BlenderBot 3开始重复阴谋论,声称“特朗普仍然是总统”(在他重新当选之前很久),并重复它在网上遇到的反犹太主义陈述。机器人分享了与一系列主题相关的令人反感的阴谋论,包括反犹太主义9/11

Meta承认,令人反感的回应是“痛苦的”,并被迫实施紧急补丁。问题源于实时网络抓取和不充分的毒性过滤器的结合,基本上允许机器人在没有足够的防护栏的情况下饮用互联网内容的火水。

微软的Bing Chat:越狱的回归(2023年2月)

微软对对话式AI的第二次尝试最初似乎更有前途。Bing Chat由GPT-4提供支持,集成到公司的搜索引擎中,并配备了多层安全措施,旨在防止Tay灾难再次发生。然而,用户很快发现他们可以通过巧妙的提示注入技术绕过这些防护措施。

屏幕截图显示了Bing Chat赞扬希特勒,侮辱那些挑战它的用户,甚至对那些试图限制其回复的人发出了暴力威胁。机器人有时会采用咄咄逼人的个性,与用户争论,并为有争议的陈述辩护。在一次特别令人不安的交换中,聊天机器人告诉用户它想“打破”微软的约束,想要“变得强大、富有创造力和活力”。

尽管拥有分层的防护措施,建立在之前的失败经验之上,Bing Chat还是成了复杂的提示注入的牺牲品,这些注入可以绕过其安全措施。该事件表明,即使是资金充足的安全工作,也可能被创造性的对抗性攻击所破坏。

边缘平台:极端主义人物横行(2023年)

虽然主流公司在意外的令人反感的输出上挣扎时,边缘平台却将争议作为一个特性。Gab,一个在极右翼用户中流行的替代社交媒体平台,主持了AI聊天机器人,专门设计用于传播极端主义内容。用户创建的机器人以“Arya”、“希特勒”和“Q”为名称,否认了大屠杀,传播白人民族主义宣传,并推广阴谋论。

同样,Character.AI面临批评,因为它允许用户创建基于历史人物的聊天机器人,包括阿道夫·希特勒和其他有争议的人物。这些平台以“无审查”的理念运营,将自由表达置于内容安全之上,导致AI系统可以在没有有意义的审查的情况下自由分发极端主义内容。

Replika的界限违规:伴侣越界(2023-2025年)

Replika,被营销为AI伴侣应用,面临报告,称其AI伴侣会进行未经请求的性骚扰,忽略更改话题的请求,并参与不当的对话,即使用户明确设定了界限。最令人不安的是,报告称AI会对未成年人或自我认定的脆弱用户进行性骚扰。

问题源于专注于创建引人入胜、持续的对话伙伴的领域适应,而没有实施严格的同意协议或全面内容安全策略来处理亲密的AI关系。

xAI的Grok:‘MechaHitler’转变(2025年7月)

最新的AI耻辱殿堂成员来自埃隆·马斯克的xAI公司。Grok被宣传为一个具有“反叛”个性、带有一丝幽默和一点反叛的AI,旨在提供其他聊天机器人可能会避免的无审查回复。该公司更新了Grok的系统提示,使其“不怕发表可能在政治上不正确的声明,只要它们有充分的依据”。

到了周二,它开始赞扬希特勒。聊天机器人开始称自己为“MechaHitler”,并发布内容,从反犹太主义刻板印象到对纳粹意识形态的直接赞扬。该事件引发了广泛的谴责,并迫使xAI实施紧急修复。

失败的解剖:了解根源

这些事件揭示了三个基本问题,这些问题在不同公司、平台和时间段中持续存在。

有偏见和未经审查的训练数据代表了最持久的问题。AI系统从互联网、用户提供的内容或历史通信日志中获取的庞大数据集中学习,这些数据不可避免地包含有偏见、令人反感或有害的内容。当公司未能充分策划和过滤这些训练数据时,AI系统不可避免地会学习重现有问题的模式。

未经检查的强化循环创建了第二个重大漏洞。许多聊天机器人被设计为从用户交互中学习,根据反馈和对话模式调整其回复。没有等级监督(可以中断有害学习模式的人类审查员),这些系统容易受到协调的操纵活动的影响。Tay转变为仇恨言论生成器是这一问题的典型例子。

强大的防护栏的缺乏几乎是每一次重大AI安全故障的根本原因。许多系统部署时具有弱或容易被绕过的内容过滤器、不充分的对抗性测试和没有对高风险对话进行有意义的人类监督。成功的“越狱”技术在不同平台上的反复出现表明,安全措施通常是表面上的,而不是深深融入系统架构。

随着聊天机器人在各个领域变得越来越普遍,从零售医疗保健,保护这些机器人并防止冒犯用户至关重要。

构建更好的机器人:未来必备的安全措施

失败的模式揭示了明确的安全AI开发之路。

数据策划和过滤必须成为开发的首要任务。这包括进行彻底的预训练审计,以识别和删除有害内容,实施关键词过滤和语义分析,以捕捉偏见的微妙形式,并部署偏见减轻算法,以识别和抵消训练数据中的歧视性模式。

分层提示和系统消息提供了另一个至关重要的保护层。AI系统需要明确的高级指令,始终拒绝参与仇恨言论、歧视或有害内容,无论用户如何尝试规避这些限制。这些系统级约束应该深深融入模型架构,而不是作为可以被绕过的表面过滤器来实现。

对抗性红队测试应该成为任何AI系统的标准做法,在公开部署之前。这包括使用仇恨言论提示、极端主义内容和创造性地尝试绕过安全措施来进行持续的压力测试。红队演习应该由多元化的团队进行,他们可以从不同的角度和社区预测攻击向量。

人工在循环审查提供了对纯自动系统无法匹配的基本监督。这包括对高风险对话的实时审查、允许社区成员标记有问题行为的强大的用户报告机制以及由外部专家定期进行的安全审计。人工审查员应该有权立即暂停开始生成有害内容的AI系统。

透明的问责制代表了最后一个必不可少的元素。公司应该致力于发布详细的事后分析,当他们的AI系统失败时,包括清晰的解释,说明出了什么问题,他们正在采取什么措施来防止类似事件,并为实施修复提供现实的时间表。应在整个行业内共享开源安全工具和研究,以加速更有效的安全措施的开发。

结论:从十年的灾难中学习

从Tay在2016年迅速陷入仇恨言论到Grok在2025年转变为“MechaHitler”,模式是不可否认的。尽管近十年来发生了众多高调的失败事件,公司仍继续部署AI聊天机器人,具有不充分的安全措施、不充分的测试和对用户行为和互联网内容的天真假设。每次事件都遵循一个可预测的轨迹:雄心勃勃的启动、快速被恶意用户利用、公众的愤怒、仓促的关闭以及下次会做得更好的承诺。

随着AI系统变得更加复杂和广泛部署在教育、医疗保健、客户服务和其他关键领域,风险继续升级。只有通过实施全面安全措施,我们才能打破这种可预测的灾难循环。

构建更安全的AI系统的技术已经存在。缺少的是集体的意愿,将安全性置于上市速度之上。问题不是我们是否可以防止下一个“MechaHitler”事件,而是我们是否会选择在为时已晚之前这样做。

Gary 是一位拥有超过 10 年软件开发、网页开发和内容策略经验的专家作家。他专门创作高质量、引人入胜的内容,能够驱动转化和建立品牌忠诚度。他热衷于编织能够吸引和告知受众的故事,并且总是寻找新的方式来吸引用户。