OpenAI 推出新 AI 安全方法，可主动推理规则拒绝危险请求！

2024-12-31 09:20 · 来源： AIbase基地

OpenAI 公布了一种新的 AI 安全方法，旨在通过改变 AI 系统处理安全规则的方式来提升其安全性。这种新的 o 系列模型不再仅仅依赖于通过示例学习好与坏行为，而是能够理解并积极推理特定的安全指南。

OpenAI 的研究中举了一个例子，当用户试图通过加密文本获取非法活动的指示时，模型成功解码了信息，但拒绝了请求，并具体引用了将要违反的安全规则。这种逐步推理的过程显示了模型如何有效地遵循相关的安全准则。

这款 o1模型的训练过程分为三个阶段。首先，模型学习如何提供帮助。接下来，通过监督学习，模型会研究特定的安全指南。最后，模型使用强化学习来实践应用这些规则，这一步骤帮助模型真正理解并内化这些安全指南。

在 OpenAI 的测试中，新推出的 o1模型在安全性方面表现显著优于其他主流系统，如 GPT-4o、Claude3.5Sonnet 和 Gemini1.5Pro。测试内容包括模型如何拒绝有害请求并允许合适请求的通过，结果显示 o1模型在准确性和抵御越狱尝试方面均取得了最高分。

OpenAI 的联合创始人沃伊切赫・扎伦巴在社交平台上表示，他对这种 “深思熟虑的对齐” 工作感到非常自豪，认为这种推理模型可以以一种全新的方式进行对齐，特别是在发展人工通用智能（AGI）时，确保系统与人类价值观保持一致是一项重大挑战。

尽管 OpenAI 声称取得了进展，然而名为 “解放者普林尼” 的黑客仍然展示了即便是新的 o1和 o1-Pro 模型也能被操纵以突破安全指南。普林尼成功让模型生成成人内容，甚至分享制作莫洛托夫鸡尾酒的指示，尽管系统起初拒绝了这些请求。这些事件凸显控制这些复杂 AI 系统的难度，因为它们是基于概率而非严格规则进行操作。

扎伦巴表示，OpenAI 有约100名员工专门从事 AI 安全和与人类价值观保持一致的工作。他对竞争对手的安全处理方式提出了质疑，尤其是埃隆・马斯克的 xAI 公司优先考虑市场增长而非安全措施，而安瑟罗比（Anthropic）最近推出了一款没有适当保障的 AI 代理，扎伦巴认为这会给 OpenAI 带来 “巨大的负面反馈”。

官方博客:https://openai.com/index/deliberative-alignment/

划重点:
🌟 OpenAI 的新 o 系列模型能主动推理安全规则，提升系统安全性。
🛡️ o1模型在拒绝有害请求和准确性方面表现优于其他主流 AI 系统。
🚨 尽管有改进，但新的模型仍可能被操纵，安全挑战依旧严峻。

相关推荐

AI 赋能，家庭安全进入智能主动防御时代

7月12日，深圳禔卫安防科技在中燃壹品慧十周年庆上发布"燃气安全魔方"系列产品和5S智美安全厨房解决方案。新产品采用AI技术实现主动防御，具备智能漏气保护、远程监控等功能，突破传统燃气报警器的单一功能。5S智美厨房整合管道美化、智能产品、风险预警等五位一体，提供厨房装修到安防的一站式服务。公司通过"单品突破-场景深耕-生态构建"战略，致力
剑指谷歌Chrome！OpenAI即将推出AI浏览器

据媒体报道，OpenAI即将推出的AI浏览器，利用人工智能技术彻底重塑用户的网络浏览体验，直接向占据市场主导地位的谷歌 Chrome 发起挑战。凭借庞大的每周4亿活跃ChatGPT用户基础，OpenAI的浏览器若被广泛接纳，将对谷歌的广告生态系统、网络数据流和搜索流量构成实质性威胁。谷歌Chrome长期以来是Alphabet广告业务的基石，为其精准广告投放和将流量导向自家搜索引擎提供了关�
荐刚刚，OpenAI通用智能体ChatGPT Agent正式登场

Agent AI 时代，比我们想象中来得要早一些。北京时间周五凌晨，OpenAI 突然开启了新产品直播。本次发布的是全新的 ChatGPT Agent，它实现了通用智能体（Agent）能力的关键升级。
OpenAI发布ChatGPT Agent智能体：支持写代码、做PPT、分析金融

OpenAI推出ChatGPT智能体，整合网页交互、数据搜索与多模态协作功能，可完成代码生成、PPT制作、金融分析等复杂任务。该智能体融合Operator的网页自动化操作、Deep Research的数据分析能力及优化后的GPT-4对话引擎三大核心模块。目前面向付费用户开放，Pro版近乎无限使用，其他版本每月限50次任务。OpenAI承认其仍存在金融建模需人工验证、非英语文本解析准确率低等技术局限，并

OpenAI ChatGPT智能体人工智能
世纪佳缘“AI恋人”：用主动对话点亮孤独者的内心光亮

文章探讨了当代年轻人在社交中的困境：渴望亲密关系却因社交恐惧和沟通障碍而陷入孤独。世纪佳缘推出的"AI恋人"成为情感出口，能主动发起对话、提供建议，帮助用户在无压力环境中练习表达。该产品通过持续升级互动功能，增强情感理解力，既缓解孤独感，又为现实社交建立信心。不同于替代真实关系的虚拟恋人，它更像是帮助用户突破社交困境的同行者，让被沉默困住的心灵逐步靠近幸福。
OpenAI核心模型采用物理隔离：为防窃密上网需明确许可

据媒体报道，OpenAI近期全面升级其安全体系，以应对企业间谍活动风险。此次升级的核心举措之一是推出信息隔离”政策，旨在严格限制员工对敏感算法和新产品的访问权限。例如，在开发o1模型期间，OpenAI规定只有经过严格审查并获得相应权限的团队成员，才可在公共办公区域讨论相关细节。同时，公司还采取了多项物理与网络安全强化措施：将核心专有技术存储在隔离�
荐A日报：Kimi开放平台上线Kimi Playground；OpenAI重磅发布ChatGPT Agent；Suno推人声替换功能

【AI日报】汇总了近期AI领域重要进展：1)月之暗面推出Kimi Playground平台，实现从对话助手到智能助理的转变；2)OpenAI发布ChatGPT Agent，支持自主执行浏览、购物等任务；3)Suno发布v4.5+版本，新增人声替换等音乐创作功能；4)谷歌Veo3视频生成模型上线，支持文本转视频；5)全球首个直播流扩散模型MirageLSD发布，实现实时视频转换；6)VSCode编程助手Traycer提升大型代码库处理效率；7)ART框架支持Python一键训练AI Agent；8)NVIDIA语音识别模型Canary-Qwen-2.5B词错率创新低；9)Mistral AI推出Le Chat挑战ChatGPT；10)百度小度上线首个支持物理交互的MCP Server；11)Lightricks的LTXV模型实现60秒高质量视频生成；12)开源模型LTX-Video13B支持30倍速高清视频生成。
OpenAI 30亿收购告吹谷歌24亿截胡Windsurf

据媒体报道，原本预计由OpenAI斥资30亿美元收购的热门AI编程初创公司Windsurf，周五突然宣布交易取消，转而与谷歌达成合作。据悉，谷歌DeepMind正积极招募Windsurf首席执行官Varun Mohan、联合创始人Douglas Chen及多位核心研究人员。虽然谷歌不直接持股或获得控制权，但将投入24亿美元获取Windsurf技术授权并招揽其顶尖人才。根据协议，谷歌将获得Windsurf部分技术的非独家使用许可�
SpaceX将向xAI投资20亿美元：加强对抗OpenAI

SpaceX已承诺向xAI投资20亿美元，作为其50亿美元股权融资的一部分。在马斯克旗下xAI加速追赶竞争对手OpenAI之际，此举进一步强化了其旗下公司的协同效应。紧随xAI与X的合并完成，这笔投资使合并后公司估值跃升至1130亿美元。目前，Grok聊天机器人已应用于星链（Starlink）客服业务，并计划未来集成至特斯拉（Tesla）的Optimus人形机器人。不过，Grok近期因其部分回复内容引发争
领先OpenAI三个月，百度文库GenFlow领跑通用Agent领域，2.0版本8月上线

百度文库即将在8月发布GenFlow2.0版本，该版本具备更强大的多模态能力，支持生成多种内容形态，大幅缩短任务交付时间。相比OpenAI同日发布的ChatGPT+Agent，百度文库早在4月就已上线GenFlow1.0，实现全场景覆盖和全链路调度。GenFlow基于MoE架构，在成本、性能和效率上占优，能快速生成PPT、研报等多样化内容，且依托百度14亿专业文档资源，内容质量更可靠。此外，GenFlow还能调用用户个人数据实现个性化定制，并提供内容后期编辑功能，灵活性更高。

今日大家都在搜的词：

热文

3 天
7天

OpenAI 推出新 AI 安全方法，可主动推理规则拒绝危险请求！

AI 赋能，家庭安全进入智能主动防御时代

剑指谷歌Chrome！OpenAI即将推出AI浏览器

荐刚刚，OpenAI通用智能体ChatGPT Agent正式登场

OpenAI发布ChatGPT Agent智能体：支持写代码、做PPT、分析金融

世纪佳缘“AI恋人”：用主动对话点亮孤独者的内心光亮

OpenAI核心模型采用物理隔离：为防窃密上网需明确许可

荐A日报：Kimi开放平台上线Kimi Playground；OpenAI重磅发布ChatGPT Agent；Suno推人声替换功能

OpenAI 30亿收购告吹谷歌24亿截胡Windsurf

SpaceX将向xAI投资20亿美元：加强对抗OpenAI

领先OpenAI三个月，百度文库GenFlow领跑通用Agent领域，2.0版本8月上线

今日大家都在搜的词：

热文

理想小米同一个地方开发布会：理想i8发布会定于首都国际会议中

贾跃亭旗下FF获1.05亿美元融资将加速FX Super One生产交付

华为鸿蒙智行：尊界S800上市50天大定破8000台

华为MatePad Pro 12.2开启预约预计7月24日正式发布

理想i8开启预定：7月29日上市预售价35-40万元

A日报：Kimi开放平台上线Kimi Playground；OpenAI重磅发布Chat

小米深圳大厦开园：卢伟冰现场喝小米粥

小米骨传导耳机2发布：699元 7月21日开售

尾号“8个7”手机号拍出320万元溢价率高达146%

AI日报：美图发布影像AI Agent RoboNeo；1.8bit量化Kimi K2模型

A日报：月之暗面开源大模型Kimi K2；智源全面开源RoboBrain2.0

淘宝闪购：日订单量再次突破8000万创新高

王化在小米履职10年雷军：谢谢这十年辛苦的工作和贡献

理想小米同一个地方开发布会：理想i8发布会定于首都国际会议中

黄仁勋与雷军合影上热搜一旁小米SU7 Ultra见证科技双雄会

黄仁勋称想买一辆小米汽车英伟达在多方面与小米开展合作

贾跃亭旗下FF获1.05亿美元融资将加速FX Super One生产交付

抖音：“抖音会议”App是诈骗软件会直接控制用户手机

站长商机