国产六大推理模型激战OpenAI？

2025-04-25 08:49 · 稿源：光子星球公众号

声明:本文来自微信公众号“guangzi0088”（ID:TMTweb），作者:郝鑫，编辑:王潘，，授权站长之家转载发布。

“DeepSeek-R1如同当年苏联抢发的第一颗卫星，成为AI开启新时代的斯普特尼克时刻。”

2025年春节前，DeepSeek比除夕那天的烟花先一步在世界上空绽放。

离年夜饭仅剩几个小时，国内某家云服务器的工程师突然被拉入工作群，接到紧急任务，要求其快速调优芯片，以适配最新的DeepSeek-R1模型。该工程师告诉我们，“从接入到完成，整个过程不到一周”。

大年初二，一家从事Agent To B业务的厂商负责人电话被打爆，客户的要求简单粗暴:第一时间验证模型真实性能，尽快把部署提上日程。

节前大模型，节后只有DeepSeek。DeepSeek-R1就像一道分水岭，重新书写了中国大模型的叙事逻辑。

以2022年11月，OpenAI发布基于GPT-3.5的ChatGPT应用为起点，国内自此走上了追赶OpenAI的道路。2023年，大模型如雨后春笋般冒出头，无大模型不AI，各厂商你追我赶，百模大战初见端倪。

你方唱罢我登场，2024年的主人公变成了“AI六小虎”，AI创业成为新的故事脚本。仅一年的时间，智谱累计完成40亿元人民币融资，月之暗面融资总额超13亿美元。在资本抛出橄榄枝后，他们站到了聚光灯下，一跃成为明星独角兽公司。

新的转折点发生在DeepSeek-R1爆火后，曾有一段时间内行业陷入了“一半火焰，一半海水”的境地，即一边积极拥抱学习R1，一边陷入了深深的自省。

徘徊是短暂的，随着百度、阿里、字节、腾讯、科大讯飞等厂商纷纷发布最新的推理模型，2025年的AI叙事主题呼之欲出:“六大推理模型迎战OpenAI”。

推理模型的当打之年

回看OpenAI的模型发布时间线，在基础模型方向，可以分为GPT系列和o系列，2024年OpenAI所发布的o1是一个里程碑式的转向。

（光子星球制图）

GPT系列是OpenAI最早构建的模型体系，聚焦自然语言处理、对话系统与文本生成，强调语言流畅性与上下文理解能力。o系列是OpenAI于2023年新设立的模型家族，核心聚焦“结构化推理”能力，强调模型的逻辑、分析、工具调用能力，是对GPT系列“语言偏重”路线的补充与扩展。

未来GPT系列或将逐渐退出历史舞台。OpenAI在更新日志中宣布，自2025年4月30日起，GPT4将在ChatGPT中退役，将完全被GPT4o取代。

如果只是OpenAI自身技术选择，o系列和DeepSeek-R1并不会带来如此强大的影响。以底层模型架构举例，有公司选择传统的Transformer架构，也有公司选择自研架构。

o系列崛起有一个大背景，即大模型范式的改变，从传统预训练阶段模型参数的Scaling Law，转移到强化学习推理计算带来新Scaling Law。这一点在OpenAI的o3开发过程中得到了验证，OpenAI观察到大规模强化学习表现出与GPT系列预训练中观察到的趋势相同，计算量越大，性能越好。

简而言之，就是让AI自己规划、学习、反馈和完成任务，这与如今大热的Agent所需具备的能力一致。

有技术人员告诉光子星球，o1以后所发布的“Deep Research”Agent，完全基于模型从头训练，且未公开思维链推理过程。“这意味着底座模型能力直接决定了Agent的落地效果”，想要在大模型第二程变得有竞争力，推理模型几乎成为了必选。

站在公司和技术一号位角度，第一时间跟进o1和DeepSeek-R1是一种判断和眼光，但同时也代表着重投入与高风险。

我们了解到国内的很多公司，名义上有自研大模型，但实则是“套壳”。o系列站在GPT的肩膀上诞生，这导致地基不牢的公司只能望而却步。另一方面，融资和商业化变现的压力，又淘汰了一批公司。

（光子星球制图）

于是，我们发现去年星光暗淡的大厂们，成为了反应最快，跟进最及时的代表。

以DeepSeek-R1（2025年1月20日发布）为时间基准线，当月科大讯飞就发布了深度推理大模型——讯飞星火X1;3月，百度发布文心大模型X1，阿里发布通义千问Qwen-QwQ-32B推理模型，腾讯发布混元T1深度思考模型;4月，字节豆包1.5深度思考模型上线，同时讯飞星火X1迎来升级，发布“快思考、慢思考统一模型”。

上述厂商有一些共同之处，跟上了每一次的模型能力升级进度，在转向推理方向前，其基础模型能力基本都达到了GPT-4的水平。以此作为参照，这可能是迈入大模型第二阶段的基本条件。

六大推理模型混战o3

o3目前是OpenAI最强大的推理模型。网上流传的一张大模型IQ图显示，人类平均IQ为100，o3智商达到了惊人的136。

测试数据显示，o3在多项基准测试中超越了o1的性能，特别在分析图像、图表和图形等视觉任务中表现尤为出色。

在外部专家的评估中，o3在困难的现实任务中比o1犯的重大错误减少20%，在编程、商业、咨询和创意构思等领域都有不错的表现。

需要承认的是，OpenAI存货确实有两把刷子，继o1之后，o3又成为了新的大模型性能攀登高峰。但国内各大模型厂商的跟进速度并不慢，若以DeepSeek-R1为参考标准，百度、阿里、科大讯飞、字节、腾讯后面所发布的推理模型水平相差不大，部分在一些测试指标上甚至有超越。

截至目前，国产六大推理模型各有千秋。

DeepSeek-R1的意义不言而喻，完整的技术报告和开源部署，给予了行业推理大模型训练思路。打开了OpenAI闭源的“黑匣子”，成功复刻出了性能相差无几的o1。R1突出的特点是“花小钱办大事”，高效且追求极致性价比。在非常有限的算力、数据等资源投入的情况下，训练成本却仅为560万美元，远低于美国AI公司的数千万美元乃至数亿美元投入。

一位知情人士告诉我们，DeepSeek-R1和一些国产推理大模型不构成直接竞争对手。在B端业务中，目前阿里开源的千问系列模型占比更重。“全尺寸和全模型，就像一个全家桶，可以供客户选择。32B的模型大小，跑起来成本也不是很高”。

百度在这波中从生态层面接入了DeepSeek，这给了用户更多选择权，开源和免费的策略或将能吸引更多用户。文心大模型X1采用“思维链-行动链”协同训练，在复杂任务中自动拆解为二十多个推理步骤，同时可以调用十几种的工具链，以此来增强Agent的能力。

有参与过与百度合作的人士告诉光子星球，在金融、医疗、政务等一些垂类领域，百度会“牵线搭桥”，把一些相关业务的公司攒到一个局。“百度提供基础模型，我们提供另一方所需的技术，最后直接跟百度核算”。通过这种方式，百度正不断缩小To B大模型市场与科大讯飞之间的差距。

科大讯飞的星火X1，是当前业界唯一基于全国产算力训练的深度推理大模型。

正是基于全栈国产、自主可控的优势，科大讯飞的星火大模型倍受央国企和政府客户的青睐，保持行业端领先。4月21日，星火X1升级提升了通用能力，也同步增强了面向行业的解决方案能力。在重点行业，如教育、医疗、司法等领域的测试中，都获得了超过OpenAI和DeepSeek的分数，这些能力无疑会在今年大模型订单中有所体现。

星火X1一个模型同时支持两种思考模式，提升了模型处理不同复杂度任务的能力，满血版星火X1仅需4张卡（华为910B）即可部署。与华为的深度合作，以及不断迭代的底座大模型能力和强大的行业大模型落地体系，已经成为科大讯飞在一众大厂围剿中突出重围的三大利器。

国内闭源大模型中，豆包模型被评价为“有一定价格竞争力”。一位做AI玩具的厂商告诉我们，他的产品接入了多家大模型，在用户使用过程中，优先使用各家的免费Token额度，“一旦超过后，优先切换豆包，价格能控制在比较低的成本”。

去年，豆包参与主导了价格战，豆包大模型价格降至0.0008元/千Tokens，豆包视觉理解模型定价0.003元/千Tokens，均低于当时行业平均水平。此外，豆包大模型是技术落地AI应用产品值得借鉴的案例，端到端的实时语音技术、多模态、Agent技术都能在第一时间介入豆包应用端，这也是支撑其快速迭代更新的原因之一。

腾讯混元入场较晚。有员工曾向我们表示，混元团队成员大部分以前是搜索推荐广告出身，跟通义、字节或许有一定差距，“赶鸭子上架，好像也没什么明确方向，东一下西一下”，“一群外行人指导内行人”。加之人员的流逝，导致了混元曾一度处于停滞状态。

借着DeepSeek崛起的东风，元宝已经悄然实现了逆袭。至少从数据层面看，已经取得阶段性成果。一位内部人士告诉我们，2025年春节以来的这几个月，腾讯倾注了整个集团资源对元宝进行推广，无论线下活动资源，还是微信导流或者预算投入，对于元宝都是重点倾斜，通过这种大力出奇迹的方式，逆转了此前完全被动的局面。

从目前各公司的市场反馈来看，云端多模调用已经逐渐被认可，各家模型并存，用户按需调取才是未来。在现实情况中，客户最终是否选用一款大模型，模型性能只是一项衡量标准，背后可能还涉及数据、生态等多方面的考量。

大模型将全面国产化?

自DeepSeek-R1开始，国产推理大模型成为了各榜单的常客，AI开源社区的用户以真实的下载量和Star数来支持中国AI的发展。

即便如此，当前大模型仍面临着或多或少的“卡脖子”的问题。

近期，有消息称，英伟达已通过非正式渠道通知其AIC合作伙伴（如七彩虹、影驰、同德等），暂停GeForce RTX5090D的销售和出货。这一举措被认为是英伟达在应对国际环境变化的预防性措施。

尽管英伟达尚未发布正式公告，但业内普遍认为，RTX5090D的供应已进入“暂停状态”，这仅仅才只是开始。

若从源头上被限制，英伟达必将遭遇更加巨额的损失，而美国之外国家的大模型发展将遭遇不确定性，追赶OpenAI的步伐也将受到一定的阻碍。

在此背景下，全国产化技术路径将越来越成为大家的备选项。这其中，科大讯飞做了较为充分的准备。据了解，科大讯飞与合作伙伴联合通过四大核心技术优化，实现MoE模型集群推理性能翻倍提升。

根据最新测试集评测结果，星火X1在通用任务效果评测中全面对标OpenAI o1和DeepSeek R1，在数学、知识问答等方面表现突出，这表明在技术自主可控的道路上，中国AI已具备与国际顶尖模型同台竞技的实力。

去年风光无限的AI六小虎，如今早已各奔东西，境遇迥然。被DeepSeek击碎“AGI理想”“学术天才创业”和“明星AI产品”的月之暗面，回归到低调的技术研发中;将底层技术和产品解绑后的MiniMax，加大了对技术的投入，方向同样为Agent和推理模型;六小虎中的智谱终于盼来了即将IPO的好消息，不过其整体营收、估值以及能否顺利实现IPO，仍充满变数。

去年，Kimi、海螺AI等AI应用的出圈，短暂地迎来了AI公司的高光时刻。但今年，推理模型已经成为了国内各大厂商角逐的重要方向，AI六小虎的方向与大厂高度重合，而决定他们能否生存下去的“口粮”则握在大厂们的手上。

如今，随着六大推理大模型的全面崛起，以及国际环境的不确定性加剧，全栈国产化大模型有望将成为一种新的主流。

从半导体、工业软件与信创再到今天的AI芯片，历史的经验告诉我们，想要摆脱被制约的现状就得实现独立自主，将命运牢牢掌握在自己手中。或许在不久的将来，越来越多的国产大模型将走上全栈国产化对抗OpenAI们的道路。

（举报）

相关推荐

关键词：

荐OpenAI要Open了，奥特曼开源首个推理模型，ChatGPT一小时暴增百万用户

OpenAI终于要OpenAI了!一大早，奥特曼郑重官宣，「未来几个月，将开源一款强大的推理模型」。这是自GPT-2以来，OpenAI首个开源的模型。无疑为OpenAI下一步增添了更多的戏剧性。

OpenAI 开源模型推理模型
为编程而生？OpenAI 发布 GPT -4.1 系列模型

OpenAI 表示，GPT-4.1 是为开发者量身定制的……

openai gpt-4.1 gpt-4.1mini
刚刚，OpenAI发布新文生图模型，免费、逼真到难以分辨

今天凌晨2点，OpenAI进行了技术直播，对GPT-4o和Sora进行了重大更新，提供了全新文生图模型。除了文生图之外，该模型还支持自定义操作、连续发问、风格转换、图像PPT等超实用功能，例如，更改图片的宽高比、图像物体中的角度，用十六进制代码指定精确颜色等。面向企业版、教育版和API即将到来。

OpenAI GPT-4o Sora
新增自主决策推理模型！理想汽车OTA 7.2开启推送

快科技4月3日消息，我们从理想汽车官方获悉，OTA7.2版本车机系统正式开启推送，预计一周内完成，升级耗时约50分钟。本次更新新增自主决策推理模型，该模型基于车载场景数据及通用推理模型数据打造，可根据问题内容自主决策是否深度思考，面对车控指令等简单问题时，能够保障响应速度。智能座舱方面，新增全能儿童锁功能，支持一键锁定副驾老板键、后排座椅物理按�

理想汽车 OTA更新智能座舱
荐微信，OpenAI和Kimi想一起去了：大模型的尽头依然还是社交平台

AI圈最近弥漫着一股微妙的气息。人们似乎不再热议大语言模型的最新突破、以及AI应用的无限可能时，一些代表着未来的AI巨头，却似乎正将目光投向互联网那熟悉得不能再熟悉的角落——社交网络与社区。近期的传闻和动作颇具代表性，在大洋彼岸，手握ChatGPT和Sora等王牌的OpenAI，据称正内部测试类X的社交功能，其CEO Sam Altman甚至在私下征求反馈；而在国内，凭借长文本能力

AI社交网络语言模型 OpenAI动态
荐被吉卜力刷屏的背后：OpenAI模型行为负责人揭秘GPT-4o新生成策略

为什么我们会被吉卜力刷屏?原来是OpenAI故意放宽限制。OpenAI革新的GPT-4o图像功能给大家带来了不少乐趣，各路社交媒体都被「吉卜力」风格的图像、视频刷了屏。如果你有更合理的猜想，欢迎在评论区留言。

吉卜力 OpenAI GPT-4o
荐刚刚，OpenAI发布GPT-image-1模型，更强吉卜力版本来啦

OpenAI发布全新图像生成模型GPT-image-1，通过API向全球开发者开放。该模型支持精细控制图像敏感度、生成效率、背景、输出格式等参数，并集成吉卜力模式。Adobe、Figma等企业已将其应用于产品中。API支持批量生成、蒙版编辑、透明度调整等高级功能，图像生成成本从0.02-0.19美元/张不等。CEO Sam Altman表示该模型与ChatGPT版本差异显著，开发者可通过API实现更多创意场景。新模型在�

OpenAI GPT-image-1 图像生成
荐AI日报：OpenAI新图像生成模型可一句话P图；可灵AI营收超1亿；谷歌上线最强推理大模型Gemini 2.5

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解:https://top.aibase.com/1、OpenAI推出全新图像生成模型，挑战Google一句话P图OpenAI最近推出了其最新的GPT-4o模型，集成了先进的图像生成器，展现出显著的图像渲染能力和多样的输入输出支持。宝马的360度全链AI战略将优化生产流程，为智能汽车制造提供保障，计划在2026年量产新车型，赋能AI智能个人助理，带来自然流畅的用户互动体验。

AI日报 OpenAI 图像生成
谷歌发布新一代推理模型Gemini2.5：单次可处理百万token

谷歌正式推出Gemini2.5系列。作为该系列的首发版本，实验版Gemini2.5Pro在多项基准测试中均达到最先进水平，并以显著优势登顶LMArena排行榜首位。?在不采用多数投票等增加计算成本的测试阶段技术情况下?，该模型已在GPQA与2025年AIME等数学与科学类基准测试中排名榜首。

谷歌 Gemini 2.5
o3模型基准测试分数仅为10%，远低于OpenAI宣传的25%

OpenAI的新AI模型o3在第一方和第三方基准测试中存在差异，引发公众对其透明度和测试实践的质疑。去年12月，o3首次亮相时声称能解答超过25%的FrontierMath问题，但实际正确率仅为2%。内部测试发现，o3能达到超过25%的准确率，但其使用的计算资源比上周OpenAI推出的模型多得多。Epoch AI发布的独立基准测试结果显示，o3的得分约为10%，远低于OpenAI宣称的25%。尽管如此，这并不意味着OpenAI的说法有误，可能是因为OpenAI使用了更强大的内部架构进行评估，并采用了更多计算资源。此外，Epoch指出其测试设置可能与OpenAI不同，并且在评估中使用了更新版本的FrontierMath。

openai ChatGPT o3模型

热文

3 天
7天

国产六大推理模型激战OpenAI？

推理模型的当打之年

六大推理模型混战o3

大模型将全面国产化?

荐OpenAI要Open了，奥特曼开源首个推理模型，ChatGPT一小时暴增百万用户

为编程而生？OpenAI 发布 GPT -4.1 系列模型

刚刚，OpenAI发布新文生图模型，免费、逼真到难以分辨

新增自主决策推理模型！理想汽车OTA 7.2开启推送

荐微信，OpenAI和Kimi想一起去了：大模型的尽头依然还是社交平台

荐被吉卜力刷屏的背后：OpenAI模型行为负责人揭秘GPT-4o新生成策略

荐刚刚，OpenAI发布GPT-image-1模型，更强吉卜力版本来啦

荐AI日报：OpenAI新图像生成模型可一句话P图；可灵AI营收超1亿；谷歌上线最强推理大模型Gemini 2.5

谷歌发布新一代推理模型Gemini2.5：单次可处理百万token

o3模型基准测试分数仅为10%，远低于OpenAI宣传的25%

热文

Anthropic警告：距离无人干涉的 “AI员工” 时代，只剩一年了！

Meta AI眼镜“实时翻译”功能全面开放，不联网也能用！

反垄断案中，谷歌披露 Gemini 月活达3.5亿，日流量为3500万

4chan 之“死”：互联网最狂野的角落逐渐消逝！

英特尔本周宣布裁员超20%计划，陈立武上任后的首次重大重组

马斯克回归消息传出后，特斯拉股价飙升10%

REDMI Turbo 4 Pro外观首次公布配备金属边框

Anthropic警告：距离无人干涉的 “AI员工” 时代，只剩一年了！

“礼貌用语”太费钱？奥特曼：让 OpenAI 损失了数千万美元

Meta AI眼镜“实时翻译”功能全面开放，不联网也能用！

反垄断案中，谷歌披露 Gemini 月活达3.5亿，日流量为3500万

荣耀GT Pro首发骁龙8至尊领先版跑分最高破344万

4chan 之“死”：互联网最狂野的角落逐渐消逝！

英特尔本周宣布裁员超20%计划，陈立武上任后的首次重大重组

“两年后，垃圾邮件问题将被解决”，谁在 2004 年说了这样的话

马斯克回归消息传出后，特斯拉股价飙升10%

站长商机