首页 > AI头条  > 正文

“问小白”发布第四代开源大模型 XBai o4

2025-08-04 17:28 · 来源: AIbase基地

开源大模型领域迎来新突破。“问小白”正式发布其第四代开源模型 XBai o4,该模型在复杂推理能力上表现卓越,其 Medium 模式已全面超越 OpenAI o3-mini,并在部分基准测试中优于 Anthropic Claude Opus。

XBai o4引入了创新的“反思型生成范式”,通过结合 Long-CoT 强化学习和过程评分学习,实现了深度推理和高效推理链路筛选,同时显著降低了推理成本。

QQ20250804-172822.png

技术突破:独创“反思型生成范式”

XBai o4的核心创新在于其独有的“反思型生成范式”(reflective generative form)。这一范式将 Long-CoT 强化学习过程评分学习(Process Reward Learning)相结合,使得单个模型能够同时完成两个关键任务:

  1. 深度推理: 像人类一样进行多步骤的复杂思考。

  2. 高质量推理链路筛选: 能够评估和选择最优的推理路径。

更值得关注的是,XBai o4通过共享过程评分模型(PRMs)和策略模型的主干网络,将 过程评分的推理耗时降低了99%。这一优化大幅提升了模型的运行效率,为实际应用提供了坚实基础。

性能卓越:多基准测试领先

XBai o4模型提供了三种模式(low、medium、high),以适应不同复杂度的任务需求。在多项关键基准测试中,其强大性能得到了充分验证:

  • 在 Medium 模式下,XBai o4全面超越了 OpenAI 的 o3-mini 模型

  • 在部分基准测试中,其表现甚至优于 Anthropic 的 Claude Opus

  • 该模型在 AIME24、AIME25、LiveCodeBench v5、C-EVAL 等多个测试中均展现出卓越的推理能力。

“问小白”已在 GitHub 上开源了相关的训练和评估代码,这不仅为 AI 研究社区提供了宝贵的资源,也预示着开源大模型在复杂推理领域的竞争力正在迅速增强。

地址:https://github.com/MetaStone-AI/XBai-o4

  • 相关推荐
  • LG第四代OLED技术落地:LG 显示器新品引领夏日

    LG推出全新Ultra OLED显示器家族,主打第四代OLED技术,覆盖27-45英寸多款机型。新品包括27GX700A(首发第四代OLED面板,1500尼特峰值亮度)、32GX870A(4K240Hz/FHD480Hz双模)、45GX950A(5K2K超宽屏)等,满足电竞、办公、娱乐多场景需求。产品亮点包括双模切换功能、AI智能优化、高刷新率(最高480Hz)及人性化支架设计。LG强调"自由显示"理念,通过可移动、可旋转屏幕提升用户体验。同时启动"W计划"招募超级玩家,提供专属福利。新品已在京东等平台上线,为不同用户打造个性化视觉体验。

  • OpenAI发布2款开源模型:gpt-oss系列 能力接近o3和o4-mini

    OpenAI发布开源模型系列GPT-OSS,包含120B和20B两个版本。120B旗舰模型适配单H100 GPU架构,20B轻量版适合边缘计算。两款模型均开放完整推理链监控接口,支持动态参数调节和任务微调优化,性能接近闭源的GPT-O3和O4-mini。该系列突破性地支持代理功能,包括网页交互和Python代码执行,在标准化测试中表现优异。开源策略为开发者提供高性能替代方案,重新定义了AI模型的应用边界。

  • AI日报:阿里新发布Qwen3-4B模型;小红书发布开源模型dots.vlm1;MiniMax Speech 2.5语音生成模型上线

    AI日报栏目聚焦人工智能领域最新动态:1)阿里发布Qwen3-4B轻量级模型,手机端可运行;2)小红书开源多模态大模型dots.vlm1,在图表推理方面表现突出;3)MiniMax推出语音生成模型Speech2.5,多语种表现提升;4)Midjourney推出HD视频模式,提升专业影像质量;5)Cursor1.4版本增强异步任务处理能力;6)谷歌否认AI搜索影响网站流量,但数据显示用户行为改变;7)MiniCPM-V4.0开源发布,号称"手机上的GPT-4V";8)AMD与高通宣布支持OpenAI的gpt-oss系列模型;9)腾讯开源WeKnora文档智能解析工具;11)疑似GPT-5信息在GitHub泄露;12)FlowSpeech实现书面语转口语的TTS技术突破。

  • 《BOE解忧实验室》第四季重磅回归:以创新科技点亮中国地标

    8月5日,京东方自制科技综艺《BOE解忧实验室》第四季在北京卫视发布。本季节目以"中国地标+科技大事"模式,结合京东方显示技术与北京文化地标,通过LCD、OLED、车载等五大领域展示创新技术应用。节目邀请明星嘉宾实地探访,专家讲解科技原理,呈现科技赋能生活的场景。作为中国首档技术科普综艺,前三季已获多项大奖。新一季将于8月13日起每周三晚在北京卫视和优酷同步播出,通过"科技+人文"的创新形式,让技术更贴近大众生活。

  • AI日报:混元推四款小尺寸开源模型;昆仑万维发布新推理大模型MindLink;谷歌Gemini 2.5 Deep Think发布

    【AI日报】汇总了最新AI领域动态:1)腾讯开源混元系列小尺寸模型,适用于消费级显卡;2)昆仑万维发布推理大模型MindLink,提升回答透明度;3)B站推出AI原声翻译功能,保留UP主音色;4)谷歌Gemini 2.5在数学奥赛夺金,展现强大推理能力;5)OpenAI展示GPT-5网络信息整合特性;6)苹果组建AI团队挑战ChatGPT;7)高德地图推出全球首个AI原生地图应用;8)Adobe推出AI图像合成工具Harmonize;9)NVIDIA发布革命性视频渲染技术;10)谷歌推出Android Studio免费AI编程助手;11)开源结构化信息提取工具LangExtract;12)Figma开发者模式升级提升设计转代码效率。

  • OPPO K13 Turbo Pro发布:售价1999元起 搭载第四代骁龙8s

    今日下午,OPPO正式推出K系列旗舰机型K13Turbo Pro,以1999元官方定价、国补后1699.15元起售的诚意价格引爆市场。这款被冠以"地表最强第四代骁龙8s"的新机,凭借内置主动散热风扇的疾风散热引擎,成为行业首个实现满级防水与风冷技术融合的性能旗舰。 核心散热系统堪称行业革命:隐藏于主摄下方的0.1mm超薄扇叶以每分钟18000转高速运转,配合首创的潜水泵设计与超精密�

  • 荣耀MagicGUI大模型发布并开源!Magic V5首发搭载:跨应用/设备自动化

    该战略是荣耀新任CEO李健在3月的MWC 2025首次揭晓,是荣耀的全新人工智能战略计划,将从智能手机制造商向全球AI终端生态公司全面转型。 李健宣布,未来5年荣耀将投入100亿美元,与全球合作伙手共建AI设备生态。 分为三个实施阶段: 第一阶段是智慧手机,荣耀将与合作伙伴携手突破技术边界,共同创造代理型人工智能时代的新范式; 第二阶段是智慧生态系统,荣耀将打�

  • AI大模型对比完全指南:如何选择最适合你的大模型?

    文章探讨了当前AI大模型市场众多选择带来的选择困难问题。面对GPT-4、Claude、文心一言等各具特色的模型,普通用户和企业难以科学评估和选择。文章提出了一套完整的评估体系,包括基础能力、技术性能、应用场景和商业考量四个维度,并建议采用标准化测试和实际场景验证相结合的方法。同时介绍了2025年主流AI模型的特点:GPT-4o在多模态交互领先,Claude3在编程和逻辑分析突出,Gemini2.5擅长长文本处理,国产DeepSeek则以高性价比见长。最后强调选择AI模型应基于具体需求,而非简单追求性能排名,建议通过专业对比平台和实际测试来验证。

  • AI 大模型选型指南:如何在众多模型中找到最适合你的那一个?

    本文探讨了如何从众多AI大模型中选择最适合自身需求的模型。文章提出应从四个核心维度进行评估:1)核心能力对比,包括通用任务表现和特定领域专长;2)成本与效率,考量API调用成本和响应速度;3)本地化与数据安全,满足合规要求;4)生态与社区支持,关注开发者活跃度和文档完善度。为解决模型对比难题,推荐使用专业平台如AIbase模型广场,可一站式对比主流模型的多维参数和评测数据。通过系统化评估,开发者能更高效地选择契合业务需求的AI模型。

  • 哪个大模型性价比最高?用这个 AI 大模型费用计算器轻松比价

    AI大模型快速发展,但不同厂商的定价规则差异大,导致选择困难。AIbase推出的AI大模型费用计算器(https://model.aibase.com/zh/calculator)能帮助开发者快速比较主流模型的调用成本。该工具覆盖GPT-4、Claude、文心一言等国内外热门模型,支持输入输出分开计费,实时更新官方定价,无需注册即可使用。用户只需输入文本,系统自动拆分token数并精准计算费用,结果清晰直观可排序。建议根据场景需求选择模型:平衡成本与性能可选GPT-4o、DeepSeek-V2;高精度需求选GPT-4 Turbo;中文场景优选国产模型。使用前通过计算器模拟成本,可避免项目超支风险。

今日大家都在搜的词:

热文

  • 3 天
  • 7天