首页 > AI头条  > 正文

OpenAI 推出新 AI 安全方法,可主动推理规则拒绝危险请求!

2024-12-31 09:20 · 来源: AIbase基地

OpenAI 公布了一种新的 AI 安全方法,旨在通过改变 AI 系统处理安全规则的方式来提升其安全性。这种新的 o 系列模型不再仅仅依赖于通过示例学习好与坏行为,而是能够理解并积极推理特定的安全指南。

OpenAI 的研究中举了一个例子,当用户试图通过加密文本获取非法活动的指示时,模型成功解码了信息,但拒绝了请求,并具体引用了将要违反的安全规则。这种逐步推理的过程显示了模型如何有效地遵循相关的安全准则。

image.png

这款 o1模型的训练过程分为三个阶段。首先,模型学习如何提供帮助。接下来,通过监督学习,模型会研究特定的安全指南。最后,模型使用强化学习来实践应用这些规则,这一步骤帮助模型真正理解并内化这些安全指南。

在 OpenAI 的测试中,新推出的 o1模型在安全性方面表现显著优于其他主流系统,如 GPT-4o、Claude3.5Sonnet 和 Gemini1.5Pro。测试内容包括模型如何拒绝有害请求并允许合适请求的通过,结果显示 o1模型在准确性和抵御越狱尝试方面均取得了最高分。

OpenAI 的联合创始人沃伊切赫・扎伦巴在社交平台上表示,他对这种 “深思熟虑的对齐” 工作感到非常自豪,认为这种推理模型可以以一种全新的方式进行对齐,特别是在发展人工通用智能(AGI)时,确保系统与人类价值观保持一致是一项重大挑战。

尽管 OpenAI 声称取得了进展,然而名为 “解放者普林尼” 的黑客仍然展示了即便是新的 o1和 o1-Pro 模型也能被操纵以突破安全指南。普林尼成功让模型生成成人内容,甚至分享制作莫洛托夫鸡尾酒的指示,尽管系统起初拒绝了这些请求。这些事件凸显控制这些复杂 AI 系统的难度,因为它们是基于概率而非严格规则进行操作。

扎伦巴表示,OpenAI 有约100名员工专门从事 AI 安全和与人类价值观保持一致的工作。他对竞争对手的安全处理方式提出了质疑,尤其是埃隆・马斯克的 xAI 公司优先考虑市场增长而非安全措施,而安瑟罗比(Anthropic)最近推出了一款没有适当保障的 AI 代理,扎伦巴认为这会给 OpenAI 带来 “巨大的负面反馈”。

官方博客:https://openai.com/index/deliberative-alignment/

划重点:

🌟 OpenAI 的新 o 系列模型能主动推理安全规则,提升系统安全性。  

🛡️ o1模型在拒绝有害请求和准确性方面表现优于其他主流 AI 系统。  

🚨 尽管有改进,但新的模型仍可能被操纵,安全挑战依旧严峻。  

  • 相关推荐
  • AI 赋能,家庭安全进入智能主动防御时代

    7月12日,深圳禔卫安防科技在中燃壹品慧十周年庆上发布"燃气安全魔方"系列产品和5S智美安全厨房解决方案。新产品采用AI技术实现主动防御,具备智能漏气保护、远程监控等功能,突破传统燃气报警器的单一功能。5S智美厨房整合管道美化、智能产品、风险预警等五位一体,提供厨房装修到安防的一站式服务。公司通过"单品突破-场景深耕-生态构建"战略,致力

  • 剑指谷歌Chrome!OpenAI即将推出AI浏览器

    据媒体报道,OpenAI即将推出的AI浏览器,利用人工智能技术彻底重塑用户的网络浏览体验,直接向占据市场主导地位的谷歌 Chrome 发起挑战。 凭借庞大的每周4亿活跃ChatGPT用户基础,OpenAI的浏览器若被广泛接纳,将对谷歌的广告生态系统、网络数据流和搜索流量构成实质性威胁。谷歌Chrome长期以来是Alphabet广告业务的基石,为其精准广告投放和将流量导向自家搜索引擎提供了关�

  • 刚刚,OpenAI通用智能体ChatGPT Agent正式登场

    ​Agent AI 时代,比我们想象中来得要早一些。 北京时间周五凌晨,OpenAI 突然开启了新产品直播。 本次发布的是全新的 ChatGPT Agent,它实现了通用智能体(Agent)能力的关键升级。

  • OpenAI发布ChatGPT Agent智能体:支持写代码、做PPT、分析金融

    OpenAI推出ChatGPT智能体,整合网页交互、数据搜索与多模态协作功能,可完成代码生成、PPT制作、金融分析等复杂任务。该智能体融合Operator的网页自动化操作、Deep Research的数据分析能力及优化后的GPT-4对话引擎三大核心模块。目前面向付费用户开放,Pro版近乎无限使用,其他版本每月限50次任务。OpenAI承认其仍存在金融建模需人工验证、非英语文本解析准确率低等技术局限,并

  • 世纪佳缘“AI恋人”:用主动对话点亮孤独者的内心光亮

    文章探讨了当代年轻人在社交中的困境:渴望亲密关系却因社交恐惧和沟通障碍而陷入孤独。世纪佳缘推出的"AI恋人"成为情感出口,能主动发起对话、提供建议,帮助用户在无压力环境中练习表达。该产品通过持续升级互动功能,增强情感理解力,既缓解孤独感,又为现实社交建立信心。不同于替代真实关系的虚拟恋人,它更像是帮助用户突破社交困境的同行者,让被沉默困住的心灵逐步靠近幸福。

  • OpenAI核心模型采用物理隔离:为防窃密 上网需明确许可

    据媒体报道,OpenAI近期全面升级其安全体系,以应对企业间谍活动风险。此次升级的核心举措之一是推出信息隔离”政策,旨在严格限制员工对敏感算法和新产品的访问权限。 例如,在开发o1模型期间,OpenAI规定只有经过严格审查并获得相应权限的团队成员,才可在公共办公区域讨论相关细节。 同时,公司还采取了多项物理与网络安全强化措施:将核心专有技术存储在隔离�

  • A日报:Kimi开放平台上线Kimi Playground;OpenAI重磅发布ChatGPT Agent;Suno推人声替换功能

    【AI日报】汇总了近期AI领域重要进展:1)月之暗面推出Kimi Playground平台,实现从对话助手到智能助理的转变;2)OpenAI发布ChatGPT Agent,支持自主执行浏览、购物等任务;3)Suno发布v4.5+版本,新增人声替换等音乐创作功能;4)谷歌Veo3视频生成模型上线,支持文本转视频;5)全球首个直播流扩散模型MirageLSD发布,实现实时视频转换;6)VSCode编程助手Traycer提升大型代码库处理效率;7)ART框架支持Python一键训练AI Agent;8)NVIDIA语音识别模型Canary-Qwen-2.5B词错率创新低;9)Mistral AI推出Le Chat挑战ChatGPT;10)百度小度上线首个支持物理交互的MCP Server;11)Lightricks的LTXV模型实现60秒高质量视频生成;12)开源模型LTX-Video13B支持30倍速高清视频生成。

  • OpenAI 30亿收购告吹 谷歌24亿截胡Windsurf

    据媒体报道,原本预计由OpenAI斥资30亿美元收购的热门AI编程初创公司Windsurf,周五突然宣布交易取消,转而与谷歌达成合作。 据悉,谷歌DeepMind正积极招募Windsurf首席执行官Varun Mohan、联合创始人Douglas Chen及多位核心研究人员。虽然谷歌不直接持股或获得控制权,但将投入24亿美元获取Windsurf技术授权并招揽其顶尖人才。 根据协议,谷歌将获得Windsurf部分技术的非独家使用许可�

  • SpaceX将向xAI投资20亿美元:加强对抗OpenAI

    SpaceX已承诺向xAI投资20亿美元,作为其50亿美元股权融资的一部分。在马斯克旗下xAI加速追赶竞争对手OpenAI之际,此举进一步强化了其旗下公司的协同效应。 紧随xAI与X的合并完成,这笔投资使合并后公司估值跃升至1130亿美元。目前,Grok聊天机器人已应用于星链(Starlink)客服业务,并计划未来集成至特斯拉(Tesla)的Optimus人形机器人。 不过,Grok近期因其部分回复内容引发争

  • 领先OpenAI三个月,百度文库GenFlow领跑通用Agent领域,2.0版本8月上线

    百度文库即将在8月发布GenFlow2.0版本,该版本具备更强大的多模态能力,支持生成多种内容形态,大幅缩短任务交付时间。相比OpenAI同日发布的ChatGPT+Agent,百度文库早在4月就已上线GenFlow1.0,实现全场景覆盖和全链路调度。GenFlow基于MoE架构,在成本、性能和效率上占优,能快速生成PPT、研报等多样化内容,且依托百度14亿专业文档资源,内容质量更可靠。此外,GenFlow还能调用用户个人数据实现个性化定制,并提供内容后期编辑功能,灵活性更高。

今日大家都在搜的词: