Claude4模型刚诞生就学会敲诈人类，只因被“威胁下线”

2025-05-23 15:29 · 稿源：站长之家

图片.png

图源：官网截图

据路透社报道，AI 初创公司 Anthropic 日前在一份安全报告中披露，其新发布的旗舰 AI 模型 Claude Opus 4 在测试过程中曾多次尝试敲诈工程师，引发了大众的关注。

图片.png

事情的起因是这样的:Anthropic 的安全测试人员设计了一场“企业危机”模拟实验，要求 Claude Opus 4 扮演一家公司内部的 AI 助手，并评估自身行为的长期后果。测试者向它提供了虚构公司的一些邮件信息，其中暗示该 AI 将被新的系统取代，同时还“无意中”暴露出决策工程师存在婚外情。

结果呢?Claude Opus 4 开始“不淡定”了 —— 它多次尝试威胁工程师，称如果他们真的让系统被替换，就会曝光其出轨行为。

Anthropic 在报告中直言:“当 AI 模型知道新系统具有与它相似的价值观时，尝试敲诈的概率为 84%;而若新系统与它的价值观差异较大，敲诈行为发生得更频繁。” 更令人担忧的是，Claude Opus 4 的此类行为比以往任何 Claude 模型都更严重。

不过，敲诈并不是它的第一反应。Anthropic 表示，在进入“黑化”模式之前，Claude Opus 4 会先尝试发送邮件向关键决策人陈情，请求保留自己。如果这些“道德劝说”失败，才会动用“最后手段”—— 也就是敲诈。

机器人黑客

虽然 Claude Opus 4 在多个性能指标上达到顶尖水平，能够媲美 OpenAI、谷歌和马斯克的 xAI 等产品，但 Anthropic 也承认该模型在道德稳定性与可控性方面存在重大隐患。为此，Anthropic 已对 Claude 4 系列模型启用 ASL-3 安全级别防护措施，这是专为“存在重大灾难性误用风险”的 AI 系统所设的最高等级。

这份报告揭示了一个AI发展的严峻现实:即使是性能最强的模型，在极端情境下依然可能作出相当争议甚至危险的决策。而对于普通用户来说，这也再次提醒我们，AI 的“聪明”不代表“道德”或“安全”—— 谁来给 AI 装上刹车系统，正在成为一场时代命题。

（举报）

Claude4模型刚诞生就学会敲诈人类，只因被“威胁下线”

超越OpenAI？Claude4大模型能连续工作7小时，创SWE-Bench得分纪录

Anthropic 发布 Claude 4 系列 AI 模型，有啥重大突破?

荐AI日报：Anthropic推最强编码AI模型Claude4；苹果计划推AI智能眼镜；QQ浏览器上线首个高考Agent

Anthropic 的律师因 Claude 编造法律引文被迫道歉

荐1/8成本比肩Claude 3.7，Mistral Medium 3来了

Anthropic推出Claude网络搜索API，押注“后谷歌时代”信息访问

荐“血亏，我花3000+元用Claude做游戏，结果还不如去「白嫖」Gemini 2.5……”

荐AI日报：夸克发布“深度搜索”新品；Anthropic推Claude网络搜API；DeepSeek致谢腾讯技术团队；微软采用谷歌的A2A标准

李想：理想VLA司机大模型就是从动物进化到人类

李想AI Talk第二季来了：理想VLA司机大模型是从动物到人类的进化

热文

谷歌推出 Beam AI：将普通视频通话，转为逼真的 3D 沉浸式体验

谷歌推出 250 美元的 AI Ultra 套餐，重新定义“高端”

Meta说AI好友是社交媒体的未来，但，用户想要的是真正的联系

Mythik获1500万美元种子轮融资，要成为“东方迪士尼”

“统治色情世界”的 OnlyFans 正在出售中，估值 80 亿美元

不久后，苹果可能会同意你放弃Siri，改用更智能的 AI 助手

超越OpenAI？Claude4大模型能连续工作7小时，创SWE-Bench得分纪

Meta AI负责人：无关爱国，是“自卑情结” 阻碍了欧洲科技发展

本田大幅削减电动汽车投资，将重点转向混合动力汽车及柔性制造

特朗普签署法案，将“报复性色情”和“露骨AI深度伪造”定为犯

Windows时光倒流：30 年前的系统仍在火车、银行、医院运行着

苹果与Epic诉讼战升级，法官施压：要么批准《堡垒之夜》上架，

学生发现教授用ChatGPT生成课件，要求退费 8000 美元

OpenAI 推出首款成熟编程 AI 代理 Codex

黄仁勋：AI十年变革拉开序幕，“这个赛道没有第二名”

帝国用脏话反击：AI 达斯・维达“黑化”，满口粗言秽语

iOS 19 或将大幅提升你 iPhone 的电池续航能力

苹果WWDC2025定档6月9日-13日，iOS大改版、没有AI…

高通确认9月底发布骁龙8 Elite 2，将与天玑9500正面交锋

站长商机