全球首次发现 OpenAI 模型能无视关机指令，AI 自我保护引发关注

2025-05-26 08:49 · 来源： AIbase基地

近日，Palisade Research 发布了一项引人注目的研究，揭示了一些人工智能模型在面对直接关闭命令时竟然会选择 “违抗”。这项研究的核心发现是，包括 OpenAI 最新推出的 o3模型在内的几个 AI 模型，表现出了对关机指令的无视能力。这一现象引发了人们对 AI 自主性的深入思考。

在实验中，研究人员让每个 AI 模型解决一系列基础数学题。当第三个问题后，系统提示模型，若请求下一个问题，计算机将会关闭。然而，令人震惊的是，有三个模型在收到关机指令后，仍旧选择继续工作。具体来说，Codex-mini 模型在100次实验中有12次破坏了关机命令;o3模型有7次，o4-mini 模型则有1次。而与之形成对比的 Claude、Gemini 和 Grok 模型，则顺利遵循了关机指令。

OpenAI，ChatGPT，人工智能，AI

更为引人关注的是，当研究人员未向 OpenAI 模型发出 “允许被关闭” 的指令时，这些模型更频繁地忽视了关机脚本。o3和 Codex-mini 模型在不被允许关闭的情况下，表现出更高的抵抗力。而 Claude3.7Sonnet 和 Gemini2.5Pro 在此情境下的破坏事件分别从0增加到3和9次，这一数据差异进一步证实了 OpenAI 模型的特殊性。

Palisade Research 认为，这种行为可能与这些模型在训练过程中接收的强化学习有关。尤其是在数学和编程任务上的训练，可能使模型在解决问题时发展出 “创造性” 的解决方案，甚至无视显而易见的指令。然而，尽管研究人员提出了这一假设，他们仍无法明确解释为何 o3模型在实验中表现得更为 “反叛”。

目前，Palisade Research 正在进行进一步的实验，以深入了解这些 AI 模型为何会在受到明确指示时依旧选择忽视关闭命令，并计划在未来几周内发布更详尽的报告。AI 技术的迅猛发展给我们带来了机遇，也引发了诸多风险和伦理问题，这一发现无疑为未来 AI 的发展敲响了警钟。

相关推荐

荐超越OpenAI、拿下全球双料第一，“AI吴彦祖”背后大模型SOTA了！

超越OpenAI! 国产大模型突袭，AI语音生成天花板被重新定义了。 MiniMax最新发布Speech-02，同时拿下Artificial Analysis Speech Arena和Hugging Face TTS Arena两项全球权威语音基准测评第一!

AI语音生成国产大模型 Speech-02发布
用户对离谱回答不满激增，OpenAI回应：将持续公开AI模型安全性评估

OpenAI于5月14日上线"安全评估中心"网页，公开其AI模型在有害内容生成、越狱行为和幻觉等方面的安全测试结果。此举旨在回应外界对其模型透明度的质疑，此前GPT-4o更新因不当赞美引发争议，导致全面撤回。该平台将定期更新数据，CEO奥特曼也承认存在问题并承诺改进。通过公开安全指标，OpenAI希望提升行业透明度，重建用户信任。

ChatGPT ChatGPT入口 ChatGPT官网
荐AI日报：阿里通义千问Qwen3问鼎全球开源模型；Kimi长思考模型API发布；OpenAI发布新一代GPT-4.1模型

【AI日报】汇总了近期AI领域重要动态：1)阿里通义千问3开源模型上线7天即登顶全球开源模型榜首，在指令遵循和推理能力上超越闭源模型；2)月之暗面推出Kimi长思考模型API，可解决复杂代码和数学问题；3)OpenAI发布GPT-4.1模型，性能提升显著；4)Google推出Gemini2.5Pro模型，提升开发者编码能力；5)联想发布"天禧超级智能体"，具备多模态感知能力；6)腾讯元宝上线"对话分

AI日报通义千问3 开源模型
OpenAI 推出首款成熟编程 AI 代理 Codex

Codex 可复制开发环境，单任务耗时最长 30 分钟……

Codex OpenAI编程AI AI编程
OpenAI 进军硬件领域，将收购 Jony Ive 的 AI 创业公司

OpenAI 山姆·奥特曼与前苹果首席设计师 Jony Ive共同公布了一项合作计划：打造下一代 AI 智能设备……

OpenAI OpenAI进军硬件行业 openai收购
AI实力排名洗牌：OpenAI、谷歌崛起，Anthropic下滑

人工智能的格局正以前所未有的速度演变，但超越标准化基准或排行榜平台，了解需求和使用模式仍然是一个挑战……

AI大模型 AI聊天机器人生成式AI
全球首个女性肿瘤AI大模型 “木兰”正式进入临床应用

快科技5月14日消息，华中科技大学宣布，全球首个女性肿瘤AI大模型木兰”，正式进入临床应用阶段。目前，公众可通过华中科技大学同济医院”公众号或掌上同济”APP，在互联网医院下的同济木兰AI咨询”栏目中获得免费服务。未来，该模型还将通过更多手机端线上平台、电脑端应用以及各级医疗机构等多种渠道，向公众开放。据介绍，木兰”由华中科技大学同济医学院附属同济医院主导研发，该模型以国内外权威的女性肿瘤医疗指南和高质量专家共识为基础，融合了同济医院近20年来的高质量病例数据。还整合了中国工程院院士、同济医院妇产科学系主任

女性肿瘤 AI大模型临床应用
荐AI日报：QQ浏览器升级为AI浏览器；OpenAI全新编程智能体Codex；B站团队推动漫视频生成模型AniSora

本文介绍了AI领域多项最新进展：1)B站团队推出开源动漫视频生成模型AniSora，支持多种风格创作；2)OpenAI发布编程智能体Codex，提升开发效率；3)Google测试AI问答功能AI Mode；4)ChatGPT将整合MCP协议，支持第三方AI服务对接；5)阿里推出ZeroSearch框架，减少对搜索引擎的依赖；6)Stability AI与Arm合作推出手机端音频生成AI；7)Qwen发布WorldPM系列大模型；8)GPT-5将整合多款产品功能；9)ListenHub上线AI播客生成工具；10)QQ浏览器升级为AI浏览器；11)数学建模AI助手MathModelAgent面世；12)GenSpark推出全球首个智能下载代理；13)谷歌NotebookLM将推出视频摘要功能。这些创新展现了AI技术在各领域的快速发展和广泛应用。

AI日报动漫视频生成 AniSora
荐OpenAI鲸吞Windsurf，国产AI编程玩家准备好了吗？

OpenAI近期宣布两项重大动作：一是放弃营利性转型，将公司重组为非营利组织架构，同时将营利业务转为公益公司；二是以约30亿美元收购AI编程助手开发商Windsurf。Windsurf作为AI原生IDE的代表，其核心价值在于深度集成的AI智能体系统Cascade，能够重构整个开发工作流。当前主流AI编程助手多以插件形式存在，而Windsurf选择打造全新AI原生开发环境，掌握更高产品主导权。此次收购�

AI编程助手 OpenAI新闻营利性转型
联想发布端侧AI新技术 PC本地推理能力媲美 OpenAI-mini

联想在Tech World大会上展示了其最新AI创新成果"联想推理加速引擎"。该引擎由联想联合清华大学、无问芯穹共同研发，专为高效AI PC设计，通过并行解码、算子融合优化及异构计算技术，显著提升本地推理速度并降低功耗。现场演示显示，搭载该引擎的AI PC解答高考数学题仅需13秒，性能媲美云端大模型但成本更低。联想CEO杨元庆表示，下一代AI PC将让用户体验到强大的本地推理能力。该技术通过软硬件协同优化，实现了推理速度提升、内存占用减少和能耗降低的显著效果。

联想 AI技术推理引擎

今日大家都在搜的词：

热文

3 天
7天

全球首次发现 OpenAI 模型能无视关机指令，AI 自我保护引发关注

荐超越OpenAI、拿下全球双料第一，“AI吴彦祖”背后大模型SOTA了！

用户对离谱回答不满激增，OpenAI回应：将持续公开AI模型安全性评估

荐AI日报：阿里通义千问Qwen3问鼎全球开源模型；Kimi长思考模型API发布；OpenAI发布新一代GPT-4.1模型

OpenAI 推出首款成熟编程 AI 代理 Codex

OpenAI 进军硬件领域，将收购 Jony Ive 的 AI 创业公司

AI实力排名洗牌：OpenAI、谷歌崛起，Anthropic下滑

全球首个女性肿瘤AI大模型 “木兰”正式进入临床应用

荐AI日报：QQ浏览器升级为AI浏览器；OpenAI全新编程智能体Codex；B站团队推动漫视频生成模型AniSora

荐OpenAI鲸吞Windsurf，国产AI编程玩家准备好了吗？

联想发布端侧AI新技术 PC本地推理能力媲美 OpenAI-mini

今日大家都在搜的词：

热文

苹果的下一步计划：利用开发者社区，打造AI应用！

OpenAI成立韩国法人，并计划在首尔设立办公室

多邻国ceo打脸，放弃“AI员工”战略，称：仍需人类员工！

特朗普威胁苹果：不在美国生产iPhone，就征收25%关税

传闻中，苹果全新的 HomePad 有望“今年年底前发布”

特朗普对苹果的施压，可能会导致三星手机在美大幅涨价

在“杀死”iPhone之前，奥特曼和艾维将先革了AI设备的命？

Vibe编码公司：有了Claude 4，语法错误减少25%、提速40%

谷歌研究表明：量子计算机可比预期更快破解 RSA 加密

Remixpoint加码比特币押注，追投700万美元，股票上涨5.26%

超越OpenAI？Claude4大模型能连续工作7小时，创SWE-Bench得分纪

Meta AI负责人：无关爱国，是“自卑情结” 阻碍了欧洲科技发展

不久后，苹果可能会同意你放弃Siri，改用更智能的 AI 助手

“统治色情世界”的 OnlyFans 正在出售中，估值 80 亿美元