OpenAI 推出新型安全模型gpt-oss-safeguard，助力 AI 领域灵活应对风险

2025-10-30 08:57 · 来源： AIbase基地

OpenAI 近日发布了两款新型开放式权重模型，分别是 gpt-oss-safeguard-120b 和 gpt-oss-safeguard-20b，专注于 AI 安全领域的应用。这些模型在之前发布的 gpt-oss 系列基础上进行了优化，依旧遵循 Apache2.0许可证，允许任何人自由使用、修改和部署。

新模型的一个显著特点是，它为开发者提供了根据自定义安全政策进行推理分类的能力，打破了传统 “一刀切” 的安全系统。开发者可以在推断时输入自己的安全政策和待检测内容，模型将根据这些政策进行分类，并提供相应的推理理由。安全政策可以灵活调整，以提高模型的表现。这使得 gpt-oss-safeguard 模型能够对用户消息、聊天回复甚至完整对话进行分类，适应不同的需求。

OpenAI 指出，这种新模型特别适合几种特定情况。例如，当潜在危害正在出现或演变时，安全政策需要快速适应;在某些高度细分的领域中，传统小型分类器难以有效应对;以及在开发者缺乏大量高质量样本的情况下，难以训练出高水平的分类器。此外，对于那些希望在分类结果的质量和可解释性上优先于处理速度的场景，这些新模型也是一个理想选择。

然而，gpt-oss-safeguard 也存在一些局限性。OpenAI 指出，如果平台拥有大量标注样本并能训练传统分类器，那么在复杂或高风险的场景中，后者可能依然表现更佳，定制化模型的精准度更高。同时，这种新模型在处理速度和资源消耗方面较大，因此不太适合用于大规模的实时内容筛查。

目前，gpt-oss-safeguard-120b 和 gpt-oss-safeguard-20b 已经可以在 Hugging Face 平台上免费下载，方便广大开发者进行探索和应用。

https://huggingface.co/collections/openai/gpt-oss-safeguard

划重点:
🛡️ OpenAI 推出了 gpt-oss-safeguard-120b 和 gpt-oss-safeguard-20b 两款新型安全模型，允许灵活自定义安全政策。
⚙️ 新模型能够根据输入的安全政策对用户消息和对话进行分类，并提供推理理由。
📊 尽管新模型具有优势，但在某些情况下，传统分类器可能更有效，且新模型资源消耗较大。

相关推荐

OpenAI推出AI浏览器ChatGPT Atlas 开启个性化上网新体验

OpenAI于10月22日推出首款AI驱动浏览器ChatGPT Atlas，以个性化上网体验为核心。用户点击“Ask ChatGPT”即可在侧边栏实时互动，实现网页摘要生成、航班预订、文档编辑等多样化任务。目前仅支持macOS，未来将扩展至Windows和移动端。高级代理功能暂限付费用户使用，其特色包括自动捕捉页面上下文、分屏浏览及记忆用户操作历史，旨在通过自然对话提升网络使用效率。

ChatGPT Atlas 人工智能浏览器
荐OpenAI 推出浏览器：“让位吧，Chrome”

北京时间10月22日凌晨，没等来传闻中的Gemini3，等来了OpenAI正式发布首款AI浏览器ChatGPT Atlas。简单来说，这是一个把ChatGPT"塞进"浏览器的产品，你在任何网页上都能随时唤出ChatGPT侧边栏，让AI帮你总结内容、编辑文字、甚至代替你完成购物和预订任务。听起来有点像Chrome装了个ChatGPT插件?确实如此，但OpenAI的野心远不止于此。

OpenAI
OpenAI也来了，巨头为何决战AI浏览器？

AI浏览器赛道再添一位重量级玩家——ChatGPT Atlas，这是OpenAI推出的首款人工智能驱动的网页浏览器。这也被外界认为OpenAI要向谷歌宣战，挑战Chrome一直以来的浏览器霸王地位。ChatGPT Atlas发布当天，谷歌母公司Alphabet股价应声下挫，盘中最大跌幅接近5%，足见市场对这一新品的敏感度。近一年来，AI浏览器的战略价值成为行业共识，从业者更是将其与智能代理（Agent）、搜索引�

AI浏览器 ChatGPT Atlas
“大模型应用”新风口：“无人测试”趋势，CIO/CTO如何应对

当前CIO面临的核心挑战是如何在有限IT预算下加速企业数字化转型。传统软件测试环节因人力密集、周期冗长成为效率瓶颈，而AI技术正推动测试模式从"辅助"向"无人化"演进。通过AI Agent实现全流程自主测试，可提升测试效率300%、降低成本30%，并将产品发布周期从"月"压缩至"周"。这不仅是技术升级，更是重构IT成本结构、实现降本增效的战略支点，助力IT部门从成本中心转型为价值创造中心。

IT预算规划数字化战略 AI大模型
AI日报：OpenAI发布浏览器Atlas；通义Qwen3-VL新增2B、32B两个模型尺寸；百川发布循环证据增强大模型

本文汇总AI领域最新动态：OpenAI推出集成ChatGPT的Atlas浏览器，实现多任务自主处理；阿里通义千问新增2B/32B视觉语言模型，手机可流畅运行；谷歌AI Studio升级Vibe Coding功能，简化应用开发流程；百川发布医疗大模型M2Plus，通过循证推理降低误诊率；奇瑞墨甲机器人实现L3级技术突破，计划多行业应用；YouTube推出AI肖像识别工具，打击虚假内容；三星宣布2026年推出AI眼镜，融合AR与语音助手；Claude客户端更新，支持截图分析和语音交互功能。

AI OpenAI ChatGPT
荐AI日报：视觉中国与多家大模型公司达成合作；OpenAI紧急暂停Sora生成已故名人；谷歌推出Gemini地图数据集成工具

视觉中国与多家AI公司合作开发可商用视觉大模型，已获阿里、微软等订单。OpenAI因不当内容暂停Sora生成马丁·路德·金形象视频，引发AI伦理讨论。DeepSeek在加密货币交易实验中表现领先。WhatsApp将禁止第三方通用AI聊天机器人，仅保留Meta AI。宇树科技推出仿人机器人Unitree H2，具备拟人化设计。谷歌为Gemini集成地图数据工具，可访问25亿地点实时信息。Opera推出集成三款AI助手的Neon浏览器，但用户体验存在困惑。Facebook在美加推出AI照片编辑建议功能，可分析手机未分享照片。

AI 视觉大模型版权合规
人工智能巨头OpenAI拟上市估值或高达1万亿美元

OpenAI正积极推进上市计划，据知情人士透露，该公司可能最早于2026年下半年向证券监管机构提交上市申请，目标在2027年正式上市。此次IPO的估值有望达到约1万亿美元，或将跻身全球规模最大的IPO之列。在初步讨论中，OpenAI曾考虑通过上市筹集至少600亿美元资金，实际融资规模可能进一步扩大。

OpenAI IPO 上市计划
荐Qwen登顶AI赚钱大赛只是开始？“弃GPT投Qwen”已在硅谷蔓延开来

近期AI炒币大赛Alpha Arena引发关注，六款主流大模型用1万美元本金在币圈实战。戏剧性的是，被寄予厚望的GPT-5和Gemini因高杠杆操作亏损惨重，而中国开源模型表现亮眼——通义千问Qwen以53%回报率逆袭登顶，DeepSeek紧随其后。硅谷巨头Airbnb CEO公开表态依赖Qwen，投资人Chamath也承认将业务转向中国模型。市场用真金白银投票：预测平台押注Qwen胜率高达36%，远超OpenAI的3%。这场竞赛�

AI炒币大赛 Alpha Arena
OPPOFind X9 新机发布，火山引擎助力打造AI应用新体验

OPPO Find X9系列以“画质革命”为核心，全面升级移动影像能力，致力于打造手机摄影新标杆。该系列搭载火山引擎，强化AI功能，支持AI写作、播客创作、多模态问答及AI作图，重点优化旅行场景，简化创作流程。同时，作为业界首款支持机密计算AI推理的消费级手机，通过AICC平台保障用户数据全生命周期安全，提供放心、便捷的智能服务体验。
Soul App开源模型SoulX-Podcast登顶Hugging Face TTS趋势榜,AI语音对话再升级

SoulX-Podcast语音生成模型在开源社区Hugging Face发布次日登顶TTS趋势榜。该模型由Soul AI Lab联合高校团队开发，专为多轮对话场景设计，支持中英川粤等多语言/方言与副语言风格，能生成超60分钟流畅自然、角色切换准确、韵律丰富的语音。它解决了传统语音系统在多轮对话中上下文衔接不自然、缺乏副语言控制能力等痛点，在播客、语音合成等场景表现突出，获开发者广泛关注。Hugging Face CEO也转发相关内容，团队未来将持续优化语音对话、拟人化表达等核心交互能力，深化开源生态建设。

SoulX-Podcast TTS 语音生成模型

今日大家都在搜的词：

热文

3 天
7天

OpenAI 推出新型安全模型gpt-oss-safeguard，助力 AI 领域灵活应对风险

OpenAI推出AI浏览器ChatGPT Atlas 开启个性化上网新体验

荐OpenAI 推出浏览器：“让位吧，Chrome”

OpenAI也来了，巨头为何决战AI浏览器？

“大模型应用”新风口：“无人测试”趋势，CIO/CTO如何应对

AI日报：OpenAI发布浏览器Atlas；通义Qwen3-VL新增2B、32B两个模型尺寸；百川发布循环证据增强大模型

荐AI日报：视觉中国与多家大模型公司达成合作；OpenAI紧急暂停Sora生成已故名人；谷歌推出Gemini地图数据集成工具

人工智能巨头OpenAI拟上市估值或高达1万亿美元

荐Qwen登顶AI赚钱大赛只是开始？“弃GPT投Qwen”已在硅谷蔓延开来

OPPOFind X9 新机发布，火山引擎助力打造AI应用新体验

Soul App开源模型SoulX-Podcast登顶Hugging Face TTS趋势榜,AI语音对话再升级

今日大家都在搜的词：

热文

OPPO ColorOS 16正式版推送：首批适配11款机型

微信升级：支持一次撤回全部消息、删好友能保留聊天记录等功能

AI日报：可复刻音色的MiniMax Speech 2.6发布；TikTok推AI剪辑

vivo OriginOS 6启动公测招募：支持10款机型

苹果客服回应iPhone或自动拨号：设置或其他问题

魅族22月白天青配色发布：2999元起

AI日报：Sora免费额度要缩水；月之暗面发布Kimi Linear架构；C

REDMI官方：REDMI K90超级像素新国屏比2K屏更强

iQOO Neo11开售2小时销量超前代全天

小米随身蓝牙音箱曜石黑配色版本开售：售价299元

iPhone锁屏滑动相机能关闭了苹果iOS 26.1 RC准正式版发布

一加15今晚发布定位全能水桶机

AI日报：豆包视频1.0pro fast发布；谷歌Gemini新功能上线；百度

AI日报：豆包推全自动多人配音系统；Adobe Firefly Image 5重磅

AI日报：Hailuo 2.3发布；豆包AI编程史诗级升级；马斯克推出AI

红米REDMI K90全方位提升雷军：是不是越来越有旗舰气质

鸿蒙智行：全新问界M7上市36天交付破20000台

OPPO ColorOS 16正式版推送：首批适配11款机型

iPhone18发布或推迟苹果明年9月只发Pro系列和Fold折叠屏

余承东曝鸿蒙智行新款享界S9将于11月上市

站长商机