首页 > AI头条  > 正文

“问小白”发布第四代开源大模型 XBai o4

2025-08-04 17:28 · 来源: AIbase基地

开源大模型领域迎来新突破。“问小白”正式发布其第四代开源模型 XBai o4,该模型在复杂推理能力上表现卓越,其 Medium 模式已全面超越 OpenAI o3-mini,并在部分基准测试中优于 Anthropic Claude Opus。

XBai o4引入了创新的“反思型生成范式”,通过结合 Long-CoT 强化学习和过程评分学习,实现了深度推理和高效推理链路筛选,同时显著降低了推理成本。

QQ20250804-172822.png

技术突破:独创“反思型生成范式”

XBai o4的核心创新在于其独有的“反思型生成范式”(reflective generative form)。这一范式将 Long-CoT 强化学习过程评分学习(Process Reward Learning)相结合,使得单个模型能够同时完成两个关键任务:

  1. 深度推理: 像人类一样进行多步骤的复杂思考。

  2. 高质量推理链路筛选: 能够评估和选择最优的推理路径。

更值得关注的是,XBai o4通过共享过程评分模型(PRMs)和策略模型的主干网络,将 过程评分的推理耗时降低了99%。这一优化大幅提升了模型的运行效率,为实际应用提供了坚实基础。

性能卓越:多基准测试领先

XBai o4模型提供了三种模式(low、medium、high),以适应不同复杂度的任务需求。在多项关键基准测试中,其强大性能得到了充分验证:

  • 在 Medium 模式下,XBai o4全面超越了 OpenAI 的 o3-mini 模型

  • 在部分基准测试中,其表现甚至优于 Anthropic 的 Claude Opus

  • 该模型在 AIME24、AIME25、LiveCodeBench v5、C-EVAL 等多个测试中均展现出卓越的推理能力。

“问小白”已在 GitHub 上开源了相关的训练和评估代码,这不仅为 AI 研究社区提供了宝贵的资源,也预示着开源大模型在复杂推理领域的竞争力正在迅速增强。

地址:https://github.com/MetaStone-AI/XBai-o4

  • 相关推荐
  • 何小鹏首次披露物理AI巨大进展 发布第二代VLA大模型

    小鹏汽车在2025科技日发布第二代VLA大模型,颠覆传统“视觉-语言-动作”架构,实现端到端直接输出动作指令,开创物理模型新范式。该模型具备动作生成与物理世界理解能力,参数规模达数十亿级,训练数据近1亿clips。基于2250TOPS算力的Ultra车型成功搭载,推动智驾技术显著进化,同步发布“小径NGP”功能,复杂小路接管里程提升13倍。行业首发的无导航辅助驾驶Super+LCC实现全球覆盖。何小鹏表示,大模型将成为物理AI世界的操作系统,并宣布与大众汽车达成战略合作,共同推进智能出行发展。

  • 机器人“全能导航大脑”来了!银河通用发布NavFoM大模型

    银河通用发布全球首个跨本体全域环视导航基座大模型NavFoM,实现机器人从“学会完成导航任务”到“真正理解移动”的跨越。该模型支持全场景、多任务、跨本体应用,通过统一“视频流+文本指令→动作轨迹”范式,融合800万条跨任务导航数据,在真实机器人上实现零样本自主避障、路径规划等复杂任务。其技术突破将推动具身智能从单一功能进化为基础设施,为规模化商业落地奠定关键基础。

  • 新Siri或明年春季发布 苹果公司或引入谷歌Gemini大模型 AI技术

    苹果因自研大模型项目遇瓶颈,决定引入谷歌Gemini大模型升级Siri,计划每年支付约10亿美元获取定制化Gemini 2.5 Pro使用权。该模型拥有1.2万亿参数,将全面负责Siri的信息摘要、任务规划及复杂指令执行等核心功能,支持多模态交互和超长文本处理。升级版Siri预计2026年春季随iOS 26.4推送,后续将在WWDC大会展示进一步整合。苹果选择谷歌主要因成本优势、长期合作基础及Gemini领先性能。

  • 智能问数:让数据 “开口”,让 BI 价值 “焕新”

    在数字经济时代,传统BI模式因技术壁垒使数据价值难以释放。智能问数通过自然语言交互,让非技术人员直接对话数据,快速获取洞察,实现从“为报表而生”到“为决策赋能”的转变。其核心架构融合智能问数、数据洞见与动态分析,支持多轮对话优化可视化呈现,并引入数据洞见能力,助力企业看清过去、把握现在、预判未来,重塑数据驱动增长的新范式。

  • 国内大模型GEO优化全攻略:免费工具教你监测品牌在文心一言、通义千问等AI平台的可见度

    AI搜索时代,品牌若未出现在AI回答中就等于"不存在"。GEO(生成引擎优化)成为新战场,核心是让AI在回答用户问题时优先引用企业内容。文章详解国内主流AI模型特点:文心一言整合百度生态、通义千问依托阿里电商数据、小众模型在垂直领域更易被引用。提出三大优化策略:内容结构化呈现、建立行业权威背书、布局高权重平台。推荐使用AIBase免费工具实时监测品牌在各大AI平台的曝光情况,通过数据驱动优化策略。

  • 共建·共智·共享--新一代AtomGit平台暨人工智能开源社区发布

    10月28日,AtomGit平台在北京国家会议中心举行升级发布会,正式推出"开源+AI"一体化平台及人工智能开源社区。工信部副部长熊继军出席并致辞,强调建设AI开源社区对汇聚创新资源、把握科技革命机遇的重要意义。平台将整合开源模型、数据集及算力资源,打造开放中立的基础设施,计划于11月21日正式上线。华为、百度等企业代表分享了开源实践,多所高校签署了共建AI生态倡议。此举标志着我国开源生态迈向智能化时代的重要一步。

  • 登榜LMArena!文心大模型5.0-Preview文本能力国内第一

    11月8日,文心全新模型ERNIE-5.0-Preview-1022在LMArena大模型竞技场排名中位列全球第二、中国第一。该模型在创意写作、复杂长问题理解和指令遵循方面表现突出,超越多款国内外主流模型。创意写作可高效生成文章、营销文案等内容;复杂长问题理解适用于学术问答、报告分析等任务;指令遵循能力支持智能助理、代码生成等场景,为多领域内容生产提供高效支撑。

  • 小白也能做的GEO优化免费指南

    随着AI搜索普及,58.5%的Google搜索实现零点击,71%用户用AI辅助购买决策。传统SEO需升级为GEO(生成引擎优化),核心是让AI推荐你的品牌。具体方法:1.用AIBase工具监测在国产AI平台的曝光率;2.优化内容结构,添加FAQ并使用简洁语言;3.定期监控调整。案例显示,经优化后品牌曝光率从0%提升至25%。GEO优化门槛低、见效快,是获取流量的新机遇。

  • 苹果第四财季营收1024.7亿美元:净利润同比增长86%

    苹果公司发布2025财年第四季度及全年财报,表现强劲。第四季度总净营收达1024.66亿美元,同比增长8%;净利润实现飞跃式增长,达274.66亿美元,增幅高达86%。iPhone作为核心产品,营收增长至490.25亿美元,有望创历史最佳成绩。服务业务营收大幅增长至287.50亿美元,成为新增长引擎。全球各大市场均呈积极态势,仅大中华区营收略有下降。CEO库克对12月季度营收创纪录充满信心。

  • 有AI就有无限可能,灰豚AI发布新一代GEO系统

    11月1日,灰豚AI发布新一代GEO系统,突破传统仅支持文本内容优化的局限,全面支持国内短视频平台作品优化,实现近乎零算力成本。该技术被视作行业重大创新,是当前国内GEO源头厂商的重要突破。系统通过AI训练提升企业在生成式搜索中的品牌影响力,助力企业获得竞争优势。未来电商将从平台化转向AI化,灰豚GEO系统支持多种合作模式,让企业以业务增长为导向,抢占AI市场先机。

今日大家都在搜的词: