首页 > AI头条  > 正文

OpenAI 推出新型安全模型gpt-oss-safeguard,助力 AI 领域灵活应对风险

2025-10-30 08:57 · 来源: AIbase基地

OpenAI 近日发布了两款新型开放式权重模型,分别是 gpt-oss-safeguard-120b 和 gpt-oss-safeguard-20b,专注于 AI 安全领域的应用。这些模型在之前发布的 gpt-oss 系列基础上进行了优化,依旧遵循 Apache2.0许可证,允许任何人自由使用、修改和部署。

image.png

新模型的一个显著特点是,它为开发者提供了根据自定义安全政策进行推理分类的能力,打破了传统 “一刀切” 的安全系统。开发者可以在推断时输入自己的安全政策和待检测内容,模型将根据这些政策进行分类,并提供相应的推理理由。安全政策可以灵活调整,以提高模型的表现。这使得 gpt-oss-safeguard 模型能够对用户消息、聊天回复甚至完整对话进行分类,适应不同的需求。

OpenAI 指出,这种新模型特别适合几种特定情况。例如,当潜在危害正在出现或演变时,安全政策需要快速适应;在某些高度细分的领域中,传统小型分类器难以有效应对;以及在开发者缺乏大量高质量样本的情况下,难以训练出高水平的分类器。此外,对于那些希望在分类结果的质量和可解释性上优先于处理速度的场景,这些新模型也是一个理想选择。

然而,gpt-oss-safeguard 也存在一些局限性。OpenAI 指出,如果平台拥有大量标注样本并能训练传统分类器,那么在复杂或高风险的场景中,后者可能依然表现更佳,定制化模型的精准度更高。同时,这种新模型在处理速度和资源消耗方面较大,因此不太适合用于大规模的实时内容筛查。

目前,gpt-oss-safeguard-120b 和 gpt-oss-safeguard-20b 已经可以在 Hugging Face 平台上免费下载,方便广大开发者进行探索和应用。

https://huggingface.co/collections/openai/gpt-oss-safeguard

划重点:  

🛡️ OpenAI 推出了 gpt-oss-safeguard-120b 和 gpt-oss-safeguard-20b 两款新型安全模型,允许灵活自定义安全政策。  

⚙️ 新模型能够根据输入的安全政策对用户消息和对话进行分类,并提供推理理由。  

📊 尽管新模型具有优势,但在某些情况下,传统分类器可能更有效,且新模型资源消耗较大。

  • 相关推荐
  • OpenAI推出AI浏览器ChatGPT Atlas 开启个性化上网新体验

    OpenAI于10月22日推出首款AI驱动浏览器ChatGPT Atlas,以个性化上网体验为核心。用户点击“Ask ChatGPT”即可在侧边栏实时互动,实现网页摘要生成、航班预订、文档编辑等多样化任务。目前仅支持macOS,未来将扩展至Windows和移动端。高级代理功能暂限付费用户使用,其特色包括自动捕捉页面上下文、分屏浏览及记忆用户操作历史,旨在通过自然对话提升网络使用效率。

  • OpenAI 推出浏览器:“让位吧,Chrome”

    ​北京时间10月22日凌晨,没等来传闻中的Gemini3,等来了OpenAI正式发布首款AI浏览器ChatGPT Atlas。 简单来说,这是一个把ChatGPT"塞进"浏览器的产品,你在任何网页上都能随时唤出ChatGPT侧边栏,让AI帮你总结内容、编辑文字、甚至代替你完成购物和预订任务。 听起来有点像Chrome装了个ChatGPT插件?确实如此,但OpenAI的野心远不止于此。

  • OpenAI也来了,巨头为何决战AI浏览器?

    AI浏览器赛道再添一位重量级玩家——ChatGPT Atlas,这是OpenAI推出的首款人工智能驱动的网页浏览器。 这也被外界认为OpenAI要向谷歌宣战,挑战Chrome一直以来的浏览器霸王地位。ChatGPT Atlas发布当天,谷歌母公司Alphabet股价应声下挫,盘中最大跌幅接近5%,足见市场对这一新品的敏感度。 近一年来,AI浏览器的战略价值成为行业共识,从业者更是将其与智能代理(Agent)、搜索引�

  • “大模型应用”新风口:“无人测试”趋势,CIO/CTO如何应对

    当前CIO面临的核心挑战是如何在有限IT预算下加速企业数字化转型。传统软件测试环节因人力密集、周期冗长成为效率瓶颈,而AI技术正推动测试模式从"辅助"向"无人化"演进。通过AI Agent实现全流程自主测试,可提升测试效率300%、降低成本30%,并将产品发布周期从"月"压缩至"周"。这不仅是技术升级,更是重构IT成本结构、实现降本增效的战略支点,助力IT部门从成本中心转型为价值创造中心。

  • AI日报:OpenAI发布浏览器Atlas;通义Qwen3-VL新增2B、32B两个模型尺寸;百川发布循环证据增强大模型

    本文汇总AI领域最新动态:OpenAI推出集成ChatGPT的Atlas浏览器,实现多任务自主处理;阿里通义千问新增2B/32B视觉语言模型,手机可流畅运行;谷歌AI Studio升级Vibe Coding功能,简化应用开发流程;百川发布医疗大模型M2Plus,通过循证推理降低误诊率;奇瑞墨甲机器人实现L3级技术突破,计划多行业应用;YouTube推出AI肖像识别工具,打击虚假内容;三星宣布2026年推出AI眼镜,融合AR与语音助手;Claude客户端更新,支持截图分析和语音交互功能。

  • AI日报:视觉中国与多家大模型公司达成合作;OpenAI紧急暂停Sora生成已故名人;谷歌推出Gemini地图数据集成工具

    视觉中国与多家AI公司合作开发可商用视觉大模型,已获阿里、微软等订单。OpenAI因不当内容暂停Sora生成马丁·路德·金形象视频,引发AI伦理讨论。DeepSeek在加密货币交易实验中表现领先。WhatsApp将禁止第三方通用AI聊天机器人,仅保留Meta AI。宇树科技推出仿人机器人Unitree H2,具备拟人化设计。谷歌为Gemini集成地图数据工具,可访问25亿地点实时信息。Opera推出集成三款AI助手的Neon浏览器,但用户体验存在困惑。Facebook在美加推出AI照片编辑建议功能,可分析手机未分享照片。

  • 人工智能巨头OpenAI拟上市 估值或高达1万亿美元

    OpenAI正积极推进上市计划,据知情人士透露,该公司可能最早于2026年下半年向证券监管机构提交上市申请,目标在2027年正式上市。 此次IPO的估值有望达到约1万亿美元,或将跻身全球规模最大的IPO之列。 在初步讨论中,OpenAI曾考虑通过上市筹集至少600亿美元资金,实际融资规模可能进一步扩大。

  • Qwen登顶AI赚钱大赛只是开始?“弃GPT投Qwen”已在硅谷蔓延开来

    近期AI炒币大赛Alpha Arena引发关注,六款主流大模型用1万美元本金在币圈实战。戏剧性的是,被寄予厚望的GPT-5和Gemini因高杠杆操作亏损惨重,而中国开源模型表现亮眼——通义千问Qwen以53%回报率逆袭登顶,DeepSeek紧随其后。硅谷巨头Airbnb CEO公开表态依赖Qwen,投资人Chamath也承认将业务转向中国模型。市场用真金白银投票:预测平台押注Qwen胜率高达36%,远超OpenAI的3%。这场竞赛�

  • OPPOFind X9 新机发布, 火山引擎助力打造AI应用新体验

    OPPO Find X9系列以“画质革命”为核心,全面升级移动影像能力,致力于打造手机摄影新标杆。该系列搭载火山引擎,强化AI功能,支持AI写作、播客创作、多模态问答及AI作图,重点优化旅行场景,简化创作流程。同时,作为业界首款支持机密计算AI推理的消费级手机,通过AICC平台保障用户数据全生命周期安全,提供放心、便捷的智能服务体验。

  • Soul App开源模型SoulX-Podcast登顶Hugging Face TTS趋势榜,AI语音对话再升级

    SoulX-Podcast语音生成模型在开源社区Hugging Face发布次日登顶TTS趋势榜。该模型由Soul AI Lab联合高校团队开发,专为多轮对话场景设计,支持中英川粤等多语言/方言与副语言风格,能生成超60分钟流畅自然、角色切换准确、韵律丰富的语音。它解决了传统语音系统在多轮对话中上下文衔接不自然、缺乏副语言控制能力等痛点,在播客、语音合成等场景表现突出,获开发者广泛关注。Hugging Face CEO也转发相关内容,团队未来将持续优化语音对话、拟人化表达等核心交互能力,深化开源生态建设。

今日大家都在搜的词: