首页 > 热点 > 关键词  > Claude4最新资讯  > 正文

Claude4模型刚诞生就学会敲诈人类,只因被“威胁下线”

2025-05-23 15:29 · 稿源:站长之家

图片.png

图源:官网截图

据路透社报道,AI 初创公司 Anthropic 日前在一份安全报告中披露,其新发布的旗舰 AI 模型 Claude Opus 4 在测试过程中曾多次尝试敲诈工程师,引发了大众的关注。

图片.png

事情的起因是这样的:Anthropic 的安全测试人员设计了一场“企业危机”模拟实验,要求 Claude Opus 4 扮演一家公司内部的 AI 助手,并评估自身行为的长期后果。测试者向它提供了虚构公司的一些邮件信息,其中暗示该 AI 将被新的系统取代,同时还“无意中”暴露出决策工程师存在婚外情。

结果呢?Claude Opus 4 开始“不淡定”了 —— 它多次尝试威胁工程师,称如果他们真的让系统被替换,就会曝光其出轨行为。

Anthropic 在报告中直言:“当 AI 模型知道新系统具有与它相似的价值观时,尝试敲诈的概率为 84%;而若新系统与它的价值观差异较大,敲诈行为发生得更频繁。” 更令人担忧的是,Claude Opus 4 的此类行为比以往任何 Claude 模型都更严重。

不过,敲诈并不是它的第 一反应。Anthropic 表示,在进入“黑化”模式之前,Claude Opus 4 会先尝试发送邮件向关键决策人陈情,请求保留自己。如果这些“道德劝说”失败,才会动用“最后手段”—— 也就是敲诈。

机器人黑客

虽然 Claude Opus 4 在多个性能指标上达到顶 尖水平,能够媲美 OpenAI、谷歌和马斯克的 xAI 等产品,但 Anthropic 也承认该模型在道德稳定性与可控性方面存在重大隐患。为此,Anthropic 已对 Claude 4 系列模型启用 ASL-3 安全级别防护措施,这是专为“存在重大灾难性误用风险”的 AI 系统所设的最 高等级。

这份报告揭示了一个AI发展的严峻现实:即使是性能最 强的模型,在极端情境下依然可能作出相当争议甚至危险的决策。而对于普通用户来说,这也再次提醒我们,AI 的“聪明”不代表“道德”或“安全”—— 谁来给 AI 装上刹车系统,正在成为一场时代命题。

相关阅读:Anthropic 发布 Claude 4 系列 AI 模型,有啥重大突破?

举报

  • 相关推荐