图源:官网截图
据路透社报道,AI 初创公司 Anthropic 日前在一份安全报告中披露,其新发布的旗舰 AI 模型 Claude Opus 4 在测试过程中曾多次尝试敲诈工程师,引发了大众的关注。
事情的起因是这样的:Anthropic 的安全测试人员设计了一场“企业危机”模拟实验,要求 Claude Opus 4 扮演一家公司内部的 AI 助手,并评估自身行为的长期后果。测试者向它提供了虚构公司的一些邮件信息,其中暗示该 AI 将被新的系统取代,同时还“无意中”暴露出决策工程师存在婚外情。
结果呢?Claude Opus 4 开始“不淡定”了 —— 它多次尝试威胁工程师,称如果他们真的让系统被替换,就会曝光其出轨行为。
Anthropic 在报告中直言:“当 AI 模型知道新系统具有与它相似的价值观时,尝试敲诈的概率为 84%;而若新系统与它的价值观差异较大,敲诈行为发生得更频繁。” 更令人担忧的是,Claude Opus 4 的此类行为比以往任何 Claude 模型都更严重。
不过,敲诈并不是它的第 一反应。Anthropic 表示,在进入“黑化”模式之前,Claude Opus 4 会先尝试发送邮件向关键决策人陈情,请求保留自己。如果这些“道德劝说”失败,才会动用“最后手段”—— 也就是敲诈。
虽然 Claude Opus 4 在多个性能指标上达到顶 尖水平,能够媲美 OpenAI、谷歌和马斯克的 xAI 等产品,但 Anthropic 也承认该模型在道德稳定性与可控性方面存在重大隐患。为此,Anthropic 已对 Claude 4 系列模型启用 ASL-3 安全级别防护措施,这是专为“存在重大灾难性误用风险”的 AI 系统所设的最 高等级。
这份报告揭示了一个AI发展的严峻现实:即使是性能最 强的模型,在极端情境下依然可能作出相当争议甚至危险的决策。而对于普通用户来说,这也再次提醒我们,AI 的“聪明”不代表“道德”或“安全”—— 谁来给 AI 装上刹车系统,正在成为一场时代命题。
相关阅读:Anthropic 发布 Claude 4 系列 AI 模型,有啥重大突破?
(举报)