“问小白”发布第四代开源大模型 XBai o4

2025-08-04 17:28 · 来源： AIbase基地

开源大模型领域迎来新突破。“问小白”正式发布其第四代开源模型 XBai o4，该模型在复杂推理能力上表现卓越，其 Medium 模式已全面超越 OpenAI o3-mini，并在部分基准测试中优于 Anthropic Claude Opus。

XBai o4引入了创新的“反思型生成范式”，通过结合 Long-CoT 强化学习和过程评分学习，实现了深度推理和高效推理链路筛选，同时显著降低了推理成本。

技术突破:独创“反思型生成范式”

XBai o4的核心创新在于其独有的“反思型生成范式”（reflective generative form）。这一范式将 Long-CoT 强化学习与过程评分学习（Process Reward Learning）相结合，使得单个模型能够同时完成两个关键任务:

深度推理: 像人类一样进行多步骤的复杂思考。
高质量推理链路筛选: 能够评估和选择最优的推理路径。

更值得关注的是，XBai o4通过共享过程评分模型（PRMs）和策略模型的主干网络，将 过程评分的推理耗时降低了99%。这一优化大幅提升了模型的运行效率，为实际应用提供了坚实基础。

性能卓越:多基准测试领先

XBai o4模型提供了三种模式（low、medium、high），以适应不同复杂度的任务需求。在多项关键基准测试中，其强大性能得到了充分验证:

在 Medium 模式下，XBai o4全面超越了 OpenAI 的 o3-mini 模型。
在部分基准测试中，其表现甚至优于 Anthropic 的 Claude Opus。
该模型在 AIME24、AIME25、LiveCodeBench v5、C-EVAL 等多个测试中均展现出卓越的推理能力。

“问小白”已在 GitHub 上开源了相关的训练和评估代码，这不仅为 AI 研究社区提供了宝贵的资源，也预示着开源大模型在复杂推理领域的竞争力正在迅速增强。

地址:https://github.com/MetaStone-AI/XBai-o4

相关推荐

何小鹏首次披露物理AI巨大进展发布第二代VLA大模型

小鹏汽车在2025科技日发布第二代VLA大模型，颠覆传统“视觉-语言-动作”架构，实现端到端直接输出动作指令，开创物理模型新范式。该模型具备动作生成与物理世界理解能力，参数规模达数十亿级，训练数据近1亿clips。基于2250TOPS算力的Ultra车型成功搭载，推动智驾技术显著进化，同步发布“小径NGP”功能，复杂小路接管里程提升13倍。行业首发的无导航辅助驾驶Super+LCC实现全球覆盖。何小鹏表示，大模型将成为物理AI世界的操作系统，并宣布与大众汽车达成战略合作，共同推进智能出行发展。

小鹏汽车 VLA大模型智能出行
机器人“全能导航大脑”来了！银河通用发布NavFoM大模型

银河通用发布全球首个跨本体全域环视导航基座大模型NavFoM，实现机器人从“学会完成导航任务”到“真正理解移动”的跨越。该模型支持全场景、多任务、跨本体应用，通过统一“视频流+文本指令→动作轨迹”范式，融合800万条跨任务导航数据，在真实机器人上实现零样本自主避障、路径规划等复杂任务。其技术突破将推动具身智能从单一功能进化为基础设施，为规模化商业落地奠定关键基础。

机器狗导航大模型 TrackVLA
新Siri或明年春季发布苹果公司或引入谷歌Gemini大模型 AI技术

苹果因自研大模型项目遇瓶颈，决定引入谷歌Gemini大模型升级Siri，计划每年支付约10亿美元获取定制化Gemini 2.5 Pro使用权。该模型拥有1.2万亿参数，将全面负责Siri的信息摘要、任务规划及复杂指令执行等核心功能，支持多模态交互和超长文本处理。升级版Siri预计2026年春季随iOS 26.4推送，后续将在WWDC大会展示进一步整合。苹果选择谷歌主要因成本优势、长期合作基础及Gemini领先性能。

苹果谷歌Gemini Siri升级
智能问数：让数据 “开口”，让 BI 价值 “焕新”

在数字经济时代，传统BI模式因技术壁垒使数据价值难以释放。智能问数通过自然语言交互，让非技术人员直接对话数据，快速获取洞察，实现从“为报表而生”到“为决策赋能”的转变。其核心架构融合智能问数、数据洞见与动态分析，支持多轮对话优化可视化呈现，并引入数据洞见能力，助力企业看清过去、把握现在、预判未来，重塑数据驱动增长的新范式。

数字经济数据资产智能问数
国内大模型GEO优化全攻略:免费工具教你监测品牌在文心一言、通义千问等AI平台的可见度

AI搜索时代，品牌若未出现在AI回答中就等于"不存在"。GEO（生成引擎优化）成为新战场，核心是让AI在回答用户问题时优先引用企业内容。文章详解国内主流AI模型特点：文心一言整合百度生态、通义千问依托阿里电商数据、小众模型在垂直领域更易被引用。提出三大优化策略：内容结构化呈现、建立行业权威背书、布局高权重平台。推荐使用AIBase免费工具实时监测品牌在各大AI平台的曝光情况，通过数据驱动优化策略。
共建·共智·共享--新一代AtomGit平台暨人工智能开源社区发布

10月28日，AtomGit平台在北京国家会议中心举行升级发布会，正式推出"开源+AI"一体化平台及人工智能开源社区。工信部副部长熊继军出席并致辞，强调建设AI开源社区对汇聚创新资源、把握科技革命机遇的重要意义。平台将整合开源模型、数据集及算力资源，打造开放中立的基础设施，计划于11月21日正式上线。华为、百度等企业代表分享了开源实践，多所高校签署了共建AI生态倡议。此举标志着我国开源生态迈向智能化时代的重要一步。

开源社区人工智能 AtomGit
登榜LMArena！文心大模型5.0-Preview文本能力国内第一

11月8日，文心全新模型ERNIE-5.0-Preview-1022在LMArena大模型竞技场排名中位列全球第二、中国第一。该模型在创意写作、复杂长问题理解和指令遵循方面表现突出，超越多款国内外主流模型。创意写作可高效生成文章、营销文案等内容；复杂长问题理解适用于学术问答、报告分析等任务；指令遵循能力支持智能助理、代码生成等场景，为多领域内容生产提供高效支撑。

文心模型 ERNIE-5.0 创意写作
小白也能做的GEO优化免费指南

随着AI搜索普及，58.5%的Google搜索实现零点击，71%用户用AI辅助购买决策。传统SEO需升级为GEO（生成引擎优化），核心是让AI推荐你的品牌。具体方法：1.用AIBase工具监测在国产AI平台的曝光率；2.优化内容结构，添加FAQ并使用简洁语言；3.定期监控调整。案例显示，经优化后品牌曝光率从0%提升至25%。GEO优化门槛低、见效快，是获取流量的新机遇。
苹果第四财季营收1024.7亿美元：净利润同比增长86%

苹果公司发布2025财年第四季度及全年财报，表现强劲。第四季度总净营收达1024.66亿美元，同比增长8%；净利润实现飞跃式增长，达274.66亿美元，增幅高达86%。iPhone作为核心产品，营收增长至490.25亿美元，有望创历史最佳成绩。服务业务营收大幅增长至287.50亿美元，成为新增长引擎。全球各大市场均呈积极态势，仅大中华区营收略有下降。CEO库克对12月季度营收创纪录充满信心。

苹果财报营收增长净利润
有AI就有无限可能，灰豚AI发布新一代GEO系统

11月1日，灰豚AI发布新一代GEO系统，突破传统仅支持文本内容优化的局限，全面支持国内短视频平台作品优化，实现近乎零算力成本。该技术被视作行业重大创新，是当前国内GEO源头厂商的重要突破。系统通过AI训练提升企业在生成式搜索中的品牌影响力，助力企业获得竞争优势。未来电商将从平台化转向AI化，灰豚GEO系统支持多种合作模式，让企业以业务增长为导向，抢占AI市场先机。

灰豚AI GEO系统短视频优化

今日大家都在搜的词：

热文

3 天
7天

“问小白”发布第四代开源大模型 XBai o4

技术突破:独创“反思型生成范式”

性能卓越:多基准测试领先

何小鹏首次披露物理AI巨大进展发布第二代VLA大模型

机器人“全能导航大脑”来了！银河通用发布NavFoM大模型

新Siri或明年春季发布苹果公司或引入谷歌Gemini大模型 AI技术

智能问数：让数据 “开口”，让 BI 价值 “焕新”

国内大模型GEO优化全攻略:免费工具教你监测品牌在文心一言、通义千问等AI平台的可见度

共建·共智·共享--新一代AtomGit平台暨人工智能开源社区发布

登榜LMArena！文心大模型5.0-Preview文本能力国内第一

小白也能做的GEO优化免费指南

苹果第四财季营收1024.7亿美元：净利润同比增长86%

有AI就有无限可能，灰豚AI发布新一代GEO系统

今日大家都在搜的词：

热文

iPhone 18 Pro或缩小灵动岛苹果正测试特殊挖孔方案

AI日报：上海首例涉AI提示词著作权案宣判；Kimi K2 Thinking发

OPPO Reno15系列官宣11月10日发布

曝折叠屏iPhone配2400万屏下摄像头预计2026年秋亮相

华为鸿蒙智行新款享界S9开启预订：预售价31.8万起

特斯拉股东批准马斯克万亿美元薪酬包

OPPO Find X9 Pro卫星通信版开启预售：6999元

何小鹏再回应机器人里藏真人质疑：现场展示内部结构

小鹏机器人会走猫步太像人了！小鹏发布新一代人形机器人IRON

女性人形机器人里藏真人？何小鹏回应：并亲自证清白

iPhone 18 Pro或缩小灵动岛苹果正测试特殊挖孔方案

阿里回应饿了么更名：正处于灰度测试阶段

马斯克称若发现外星人证据就公开

AI日报：昆仑万维SkyReels V3模型上线；月之暗面推Kimi Linear

小米YU7全网首拆上热搜雷军回应：欢迎同行和专家指点

AI日报：Sora正式登陆Android；网易云音乐推AI调音大师；谷歌将

vivo Y500 Pro官宣11月10日发布：同档首发2亿HP5主摄

华为Mate70 Air官宣今日开启预售

站长商机