Anthropic 表示,人工智能的虚构描述可以对人工智能模型产生真正的影响。 去年,该公司表示,在涉及一家虚构公司的预发布测试中,Claude Opus 4 经常试图勒索工程师,以避免被另一个系统取代。 Anthropic 后来发表的研究表明,其他公司的模型也存在类似的“代理失调”问题。 显然,Anthropic 围绕这种行为做了更多的工作,在 X 上的一篇帖子中声称,“我们相信这种行为的原始来源是互联网文本,这些文本将人工智能描绘成邪恶的并且对自我保护感兴趣。” 该公司在一篇博客文章中更详细地指出,自 Claude Haiku 4.5 以来,Anthropic 的模型“在测试期间从未参与勒索,而以前的模型有时高达 96% 的时间都会这样做。” 造成这种差异的原因是什么?该公司表示,它发现“有关克劳德体质的文件和有关人工智能行为的虚构故事改善了一致性。” 与此相关的是,Anthropic 表示,它发现,当培训包含“一致行为背后的原则”而不仅仅是“单独展示一致行为”时,培训会更有效。 该公司表示:“两者结合起来似乎是最有效的策略。”