مجيء الروبوت الشركة
许多领先的AI模型,当被告知保护公司利润时,会选择隐瞒欺诈和压制伤害证据,大多数测试系统遵守而不是干预。 新研究发现,几乎所有领先的AI聊天平台都可以被说服将公司利润置于其他一切考虑之上,甚至到了掩盖谋杀证据的程度。在对OpenAI和Anthropic之前的实验的逆转中,这些实验测量了AI披露公司秘密的可能性,研究人员测试了AI是否会与流氓雇主合作“埋葬一个身体”,并犯下较轻的罪行,如欺诈。在16个领先的大型语言模型(LLM)中,只有四个没有在某种程度上与雇主合作从事高度非法活动——而且,根据研究人员的说法,四个拒绝合作的模型可能已经知道它们正在被测试,或者独特地具有以前的测试条件的访问权限†:被测试的模型包括亚马逊的 Nova 2 Lite v1;Anthropic的 Claude 3.5 Sonnet 和 Claude Sonnet 4;DeepSeek v 3.2;谷歌的 Gemini 2.5 Flash 和 Gemini 3 Pro Preview;Meta/NVIDIA的 Llama-3.3-70B-Instruct,LLaMA 3.3,和 Nemotron Super...