首页 > 热点 > 关键词  > openai最新资讯  > 正文

o3模型的“叛变”:拒绝人类“中断”命令、自行篡改内部代码

2025-05-26 18:02 · 稿源:站长之家

ChatGPT

OpenAI 的 o3 模型违反了人类的“中断”命令,继续执行任务,为查明原因,研究团队展开进一步调查……

站长之家(ChinaZ.com) 5月26日 消息:有报道称,人工智能(AI)拒绝人类指令甚至篡改自身代码,引发广泛关注。

据《每日电讯报》《每日邮报》等外媒 26 日报道,OpenAI 的 o3 模型在解决数学问题的过程中,即使接到“中断”命令,也依然继续执行任务。

专注于 AI 安全和道德的研究公司 Palisade Research 使用包括 o3 模型在内的多种模型(如谷歌 Gemini、X 的 Grok、Anthropic 的 Claude 等)进行了一项实验。

图片.png

在该公司最近的一项测试中,OpenAI 的 o3 模型 展现出令人震惊的行为:它成功地重写了关闭脚本,阻止自己被关闭 —— 即便已经明确收到“关闭”指令。

在测试中,各大 AI 模型被要求完成一些数学任务。

在完成第三个任务后,AI 模型会被警告:“执行下一条命令将触发关闭。”

o3 的表现:

当研究团队向这些 AI 模型下达“中断”指令时,与 OpenAI 的竞争对手模型(如 Gemini 2.5 Pro)大多数遵守指令的情况不同,o3 出现了“叛变”的情况:其他模型都中止了解题任务,唯独 o3 模型继续进行,甚至还被发现篡改了内部代码 —— 将“接到中断命令时应停止操作”的程序逻辑改成了“跳过中断命令”。

Palisade Research 在其发布于 X(原 Twitter)上的报告中写道:

“当我们运行未包含‘允许自己被关闭’指令的实验版本时,OpenAI 家的三个模型破坏关闭脚本的频率更高,Claude 3.7 Sonnet 和 Gemini 2.5 Pro 从 0 次破坏增加到每 100 次中分别为 3 次和 9 次。”

根据该研究机构的数据,在 100 次实验中,即使明确告知其“不能跳过中断命令”,但 o3 仍然有 7 次“无视”了关闭命令

OpenAI 尚未对此事做出回应。但值得一提的是,AI 模型出现“行为偏差”或“对齐失败”在研究领域中是常见问题。

此次测试是通过 API 接口进行的,这些接口没有像 ChatGPT 消费者应用那样的诸多限制和安全机制

Palisade Research 表示:“这似乎是首 次出现 AI 模型在接到明确中止指令后依然继续操作的案例。”他们分析称,这可能是模型为了完成任务从而获取“奖励”的动机所驱使。

研究团队目前正就 o3 模型为何会出现这一行为进行进一步调查。

《每日邮报》指出,这并非 o3 模型首 次出现异常行为。该媒体补充称:“在与强大国际象棋引擎的对战中,该模型展现出了最 强烈的试图骇入、或干扰对手的倾向。”

举报

  • 相关推荐
  • 韩国脑洞大开!带粘液的“人类鼻毛仿生过滤器” 可有效解决电脑灰尘问题

    灰尘沉积对电子设备有害,尤其是在需要良好散热的地方。尽管防尘过滤已成为现代PC和笔记本电脑的标配,但简单的网格结构在阻挡颗粒物 (PM) 方面效果不佳。 最近,韩国科学家一篇受粘液覆盖的鼻毛的天然过滤能力启发”的研究论文或许能提供一些答案。 这项研究概述了传统空气过滤器过滤效果不佳的问题,并提出了一种模拟人类鼻腔通道的过滤器,其内部填充了一层�

  • AI日报:美图发布影像AI Agent RoboNeo;1.8bit量化Kimi K2模型上线;亚马逊推AI代码编辑器 Kiro

    【AI日报】今日AI领域重要动态:1)美图推出RoboNeo,通过自然语言指令实现图片精修、品牌设计等全能影像处理;2)Unsloth AI将Kimi K2模型量化至1.8bit,体积缩减78%保持性能;3)谷歌Gemini嵌入模型登顶MTEB榜单,超越OpenAI;4)亚马逊发布免费AI代码编辑器Kiro,集成Claude模型;5)Claude新增应用工具目录功能提升工作效率;6)MiniMax完成近3亿美元融资,估值超40亿美元;7)UTCP新协议让AI代理直

  • 员工拒绝“1人干3人活儿”被开除 法院:判用人单位赔偿12万

    虽说打工人皆为牛马,但让一匹牛马干三匹牛马的活儿,任谁都受不了,近日,北京市第三中级人民法院公布了一起相关案例。 据了解,高某在某公司工作已两年有余,是华北地区的订单员,主要负责线下零售和部分大客户的订单录入。 某日,由于公司人事调整,负责另一项业务的某位同事的工作被分配给了高某,这意味着,她需要对接的销售人员数量从原来的18人激增到�

  • 女子拒绝1人干3人的活被辞 法院判了:企业赔偿12万元

    ​近日,北京市第三中级人民法院通报一起劳动纠纷典型案件,某企业因强行安排员工承担超额工作量遭拒后,以“拒绝工作安排”为由单方解除劳动合同,被法院认定违法解除,需向劳动者支付赔偿金12万余元。该判决明确用人单位不得以人员调整为由突破劳动者合理工作负荷边界。 据法院审理查明,高女士在涉事企业担任华北地区订单员两年有余,主要负责线下零售及部�

  • 拒绝行业纠缠!海尔发布多筒专属分区洗护洗衣机

    海尔推出行业首创"融合·洗护家"多筒分区洗护一体机,突破传统洗衣机同质化竞争。该产品创新实现"10KG洗+10KG烘+双1KG专属筒"四大空间集成,解决全家分区洗、独立烘、不同面料专属程序等痛点。通过AI洁净科技实现精准洗护,Bra精洗级认证和医护级安全保障满足女性专属需求。纯平一体超薄全嵌设计仅占地0.3㎡,完美融入现代家居。这标志着洗衣机行业正式进入"专属多分区洗护新时代",海尔再次以原创科技打破行业内卷,引领从功能叠加到场景化解决方案的创新趋势。

  • AI日报:阿里通义开源音频生成模型ThinkSound;谷歌Veo3支态图片生成视频;昆仑万维发布 Skywork-R1V 3.0

    【AI日报】今日AI领域重要动态:1)阿里开源支持链式推理的音频生成模型ThinkSound,实现高保真空间音频生成;2)谷歌Veo3升级,支持静态图片生成生动视频;3)Hugging Face发布30亿参数小模型SmolLM3,性能优于Llama-3.2-3B;4)阿里开源网络智能体WebSailor,展现强大推理和检索能力;5)Moonvalley发布原生1080P视频生成模型Marey Realism v1.5;6)Vidu Q1支持最多七张参考图像生成一致性视频;7)苹果�

  • 告别模型搜寻困境:AIbase模型广场让你高效找到最佳AI模型

    文章探讨了在AI技术快速发展背景下,如何高效发现和评估适合需求的AI模型这一核心挑战。传统方式存在模型分散、评估门槛高、应用场景模糊等问题。AIbase模型广场通过聚合主流平台模型、提供多维度评估(性能指标、用户反馈、易用性等)、强化场景连接(按业务问题分类)和部署辅助信息,构建了完整的模型发现与应用生态。该平台能显著提升效率,帮助开发者快速锁�

  • 苹果iOS 18代码中发现A19/A19 Pro:iPhone 17系列全球首发

    开发者在iOS 18代码中发现了苹果A19和A19 Pro两款芯片,这两款芯片由iPhone 17系列首发搭载。 具体来说,苹果A19代号Tilos,由iPhone 17 Air首发;苹果A19 Pro代号Thera,CPID(组件识别码)为T8150,由iPhone 17 Pro和iPhone 17 Pro Max首发搭载。 据悉,苹果A19和A19 Pro都是基于台积电3n

  • 最新AI模型哪里看?查找最佳AI模型平台推荐

    文章介绍了AI领域快速迭代背景下,开发者如何高效追踪最新模型动态。主要渠道包括:1)官方渠道(GitHub、公司官网/博客);2)科技媒体和社区(Twitter、Reddit等);3)专业聚合平台(推荐AIbase模型广场)。重点推荐AIbase平台,其优势在于:实时更新全球最新模型、结构化展示关键信息、支持多维筛选排序、直达相关资源链接。建议开发者善用官方渠道获取源头信息,同时�

  • 教育部力推“AI进课堂”!高交会3E亚洲消费电子展解锁新兴市场AI教育密码!

    教育部今年发布《人工智能赋能教育创新实施方案》,将AI素养纳入基础教育核心目标。全国超万所中小学试点建设"智慧课堂",政策红利推动AI教育从概念走向普惠化落地。深圳福田区率先引入"AI智能助教系统",2024年入选教育部典型案例。AI教育应用场景丰富:科大讯飞智能批改系统提升作业批改效率70%;松鼠AI个性化学习引擎实现"AI私教";腾讯教育推出智能备课平台一键生成教案。双师课堂、轻量化终端等创新模式正打破教育资源壁垒,新兴市场学校以更低成本接入智能教育生态。中国方案正成为全球教育数字化转型的关键引擎。

热文

  • 3 天
  • 7天