V3.2逼近Gemini 3，DeepSeek硬气喊话：接下来我要堆算力了

2025-12-02 15:47 · 稿源：硅星人Pro公众号

声明：本文来自于微信公众号硅星人Pro，作者：周一笑，授权站长之家转载发布。

就在上周，OpenAI前首席科学家、现SSI CEO Ilya Sutskever在最新播客访谈中抛出一个重磅观点，过去五年的“age of scaling”正在走到头，预训练数据是有限的，单纯用更多GPU堆更大模型，哪怕再放大100倍，也未必能带来质变。所以我们又回到了以研究为核心的时代，只不过这次有了巨大的算力”，这一表态被视作对Scaling Law撞墙论的强力佐证。

然而仅过了几天，12月1日，DeepSeek用V3.2和V3.2-Speciale的发布，给出了一个不同的答案。

模型发布后，DeepSeek研究员Zhibin Gou在X上发文:

“如果Gemini-3证明了持续扩展预训练的可能性，DeepSeek-V3.2-Speciale则证明了在大规模上下文环境中强化学习的可扩展性。我们花了一年时间将DeepSeek-V3推向极限，得出的经验是:训练后的瓶颈需通过优化方法和数据来解决，而非仅等待更好的基础模型。”

他还补了一句:

“持续扩大模型规模、数据量、上下文和强化学习。别让那些'遭遇瓶颈'的杂音阻挡你前进。”

这是DeepSeek团队少有的发声，而这一幕颇有意味，当行业在讨论Scaling Law是否撞墙时，DeepSeek用实打实的模型喊话，想证明Scaling没死，只是换了战场。

虽然行业普遍认同后训练的重要性，但敢把相当于预训练成本10%以上的算力预算砸在RL上的企业仍属少数。DeepSeek是真正把这条路线工程化、规模化的代表。

这次发布的两个模型正是这条路线的产物，V3.2定位日常主力，对标GPT-5;Speciale定位极限推理，对标Gemini3.0Pro，并拿下四枚国际竞赛金牌。

技术报告Introduction部分有句话值得注意，“过去几个月，开源社区虽然在持续进步，但闭源模型的性能轨迹正在以更陡峭的速度加速。差距不是在收窄，而是在扩大。”同时点出了当前开源模型的三个核心短板:

过度依赖普通注意力机制导致长序列效率低下、后训练算力投入不足、Agent场景下的泛化能力差。但DeepSeek的态度很明确，问题有解，而V3.2就是他们给出的答案。

V3.2:高效主力，把自我进化用在通用效率上

V3.2是9月发布的实验版V3.2-Exp的正式继任者，目标是平衡推理能力与输出成本。

在推理类Benchmark测试中，V3.2达到了GPT-5水平:AIME2025数学竞赛93.1%（GPT-5为94.6%），HMMT2025二月赛92.5%(GPT-5为88.3%)，LiveCodeBench代码评测83.3%(GPT-5为84.5%)。相比Kimi-K2-Thinking，V3.2在保持相近性能的同时，输出Token量大幅降低——严格的Token约束和长度惩罚让它更省、更快、更便宜。

V3.2在架构上的核心改动是引入了DeepSeek Sparse Attention（DSA）。这项技术在9月的V3.2-Exp中首次亮相，用稀疏注意力替代传统的全量注意力，将计算复杂度从O(L²)降到O(Lk)。

V3.2-Exp上线两个月后，DeepSeek通过多个维度确认了DSA的有效性:标准Benchmark与V3.1-Terminus基本持平，ChatbotArena的Elo评分接近，第三方长上下文评测反而高出4分。这意味着DeepSeek在底层架构创新上走对了路，稀疏注意力可以在不损失性能的前提下大幅提升效率。

V3.2还有一个重要突破，这是DeepSeek首个将“思考”与“工具调用”融合的模型。之前的推理模型（包括OpenAI的o系列）在思考模式下无法调用工具，V3.2打破了这个限制，同时支持思考模式和非思考模式的工具调用。

技术报告中篇幅最大的部分是Agent能力的训练方法。DeepSeek构建了一套大规模的Agent任务合成流水线，覆盖1800+环境和85000+复杂指令。

这套流水线的核心设计哲学是“难解答，易验证”。以报告中的旅行规划任务为例:复杂约束组合让搜索空间巨大，但验证方案是否满足约束却很简单。这种特性天然适合强化学习，模型可以通过大量尝试获得明确的对错反馈，不需要人工标注。

效果验证很有说服力，只用合成数据做RL的模型，在Tau2Bench、MCP-Mark等Agent基准上显著提升，而只在真实环境做RL的模型，这些指标几乎没有变化。

值得注意的是，官方特别强调，V3.2并没有针对这些测试集的工具进行特殊训练，但在Agent评测中仍达到开源最高水平。这说明模型的泛化能力是真实的，不是靠刷榜优化出来的。

V3.2-Speciale:极限推理，把自我验证用在高阶逻辑上

Speciale是V3.2的"长思考增强版"。如果说V3.2通过严格的Token约束来优化效率，Speciale则反其道而行——放宽长度限制，鼓励模型进行更深度的推理。

技术报告中的Table3很有意思:同样的任务，Speciale的输出Token量显著高于其他模型。比如在AIME2025上，GPT-5High输出13k tokens，Gemini3.0Pro输出15k，而Speciale输出23k;在Codeforces上差距更大，Speciale输出77k tokens，是Gemini的3.5倍。

虽然Speciale的Token输出量极大，但得益于DeepSeek的定价策略和DSA带来的效率提升，即便算上这些额外的"思考过程"，其最终使用成本依然碾压对手:比GPT-5便宜约25倍（$0.4vs $10），比Gemini3.0Pro便宜约30倍($12)，比Claude Opus4.5便宜约62倍($25)。

Speciale的意义不只是“让模型想更久”，而是验证了一个重要的假设，对推理“过程”的监督，能否从数学证明泛化到更广泛的领域?

上周刚发布的DeepSeekMath-V2提出了“生成器-验证器”双模型架构，生成器负责产出证明，验证器评估证明的严谨性和完整性，验证结果作为reward信号反馈给生成器。这套机制的关键创新在于如何保持“生成-验证差距”，当生成器变强后，验证器也需要同步提升。DeepSeek的解决方案是动态扩展验证计算，用更多计算资源自动标注“难以验证”的证明，持续合成高难度训练数据，实现模型的可持续自我进化。

Speciale整合了Math-V2的数据集和奖励方法，不只追求最终答案正确，更追求推理过程的严谨性和完整性。它将这套原本用于数学定理证明的“过程监督”，成功迁移到了代码生成和通用逻辑任务中。这意味着“自我验证”不是数学领域的特例，而是一种可泛化的能力提升范式。结果也相当不错:

不缺算力的DeepSeek会带来什么?

有网友评论说，每篇DeepSeek论文最重要的部分永远是“结论、局限性与未来工作”部分。这次的技术报告也不例外，他们说:“首先，由于总训练FLOPs较少，DeepSeek-V3.2的世界知识广度仍落后于领先的闭源模型。我们计划在后续版本中，通过扩大预训练算力来弥补这一知识差距。”

报告中承认，由于总训练 FLOPs 较少，V3.2的世界知识广度仍落后于 Gemini3.0Pro。但 DeepSeek 的选择并不是等待一个更大的基础模型，而是先把方法论打磨到极致，用一年时间，通过合成数据、自我验证和大规模 RL，把后训练的上限真正跑出来。

从这次的发布也能看出这条路线的成果:

·V3.2将“自我进化式工程”（高 RL 预算、合成数据闭环）应用在通用效率上;

·Speciale 则把过程奖励与自我验证机制推向高阶逻辑推理。

两者共同指向同一个方向:未来的模型不再依赖人力堆砌，而是依靠自我博弈实现持续演进。

下一步就是扩大预训练算力来弥补知识差距。这也让人联想，一是如果DeepSeek真把算力补上来，会发生什么?二是，这些新的算力资源从哪里来?

回头看过去一年的技术路径，Janus的多模态统一架构、OCR的视觉压缩记忆、NSA的长上下文效率、Math-V2的自我验证……这些创新都是在V3这个基座上迭代出来的。

那么，一个参数更大、训练 FLOPs 更多的 V4，再叠加这些已经验证有效的方法论，会出现怎样的化学反应?

一个合理、甚至是大胆的预期是，当 V4或 R2到来时，我们看到的可能已经不是传统意义上的“更强语言模型”，而是一个能够感知多模态环境、具备更长期记忆、并能在真实交互中持续进化的系统。如今发生在合成环境中的自我博弈，未来可能会延伸到真实环境的在线学习。

而在算力上，在今天英伟达频繁形容其中国市场份额已经归零的背景下，继续scaling需要的算力资源看起来不太能够靠H800们提供，下一代模型会用什么样的更大的算力资源训练，如果这些算力缺口可以被补齐，完全形态的DeepSeek下一代模型会是什么样?这些显然更重要，也更让人产生联想。

（举报）

相关推荐

关键词：

DeepSeek同时发布两个正式版模型：DeepSeek-V3.2系列发布

今日，DeepSeek正式推出V3.2系列模型，包含标准版DeepSeek-V3.2与长思考增强版DeepSeek-V3.2-Speciale。此次更新不仅在推理性能上实现重大突破，更通过创新性技术架构重新定义了开源模型的能力边界。目前，官方网页端、移动应用及API服务已全面升级至V3.2标准版，而Speciale版本则以临时API形式开放供学术研究使用。 DeepSeek-V3.2在平衡推理效率与输出质量方面

DeepSeek-V3.2 开源模型推理性能
游戏库大一统！微星CLAW掌机全面支持Xbox全屏体验，玩家体验再升级

微星科技宣布其CLAW系列掌机全面支持微软Xbox全屏体验，为玩家带来三大升级：统一游戏库整合Xbox Game Pass、Steam、Battle.net、Epic Games等平台游戏，终结多平台切换烦恼；内存优化节省5%以上系统资源，提升游戏流畅度；MSI快速设置深度集成至Xbox Game Bar，实现游戏内实时调优。软硬件结合让掌机体验媲美主机，同时保留Windows平台的开放性与兼容性。

游戏平台 Xbox全屏体验微星CLAW掌机
网易有道词典2025年度词汇发布：DeepSeek当选！

网易有道词典今天发布了2025年度词汇，deepseek以8672940次的年度搜索量成功当选。有道词典表示，今年1月份，DeepSeek发布了深度推理模型R1，在复杂逻辑、数学与代码领域的表现跻身全球顶尖，并宣布全面开源。这也使得2025年deepseek在有道词典的全球搜索量从0跃升至8672940，涨幅创下历史新高。

deepseek 2025年度词汇深度推理模型R1
SHOPLINE全新3.0主题正式发布前沿技术奠定增长基石

面对全球电商竞争加剧，SHOPLINE于11月21日在深圳举办全球生态共生大会，发布全新OS3.0主题。该平台以突破性技术架构和全链路AI能力为核心，通过自研Sline引擎实现性能指数级提升，支持百万级节点流畅渲染。AI赋能覆盖智能客服、建站助手等功能，采纳率超90%，每周为商家带来千万级自然转化。大会汇聚200余位行业精英，探讨AI创新与品牌出海战略，强调技术正重塑电商运营模式，助力企业把握增长机遇，推动行业进入“技术定义增长”新阶段。

电商竞争技术增长品牌出海
BaiduLinux Cloud OS成就AI算力新高度

以“智跃无界，开源致远”为主题的操作系统大会2025在京举办。百度智能云分享了基于国产算力构建的3.2万卡超大规模智算集群实践，其智能化操作系统BaiduLinux Cloud OS在集群稳定运行中发挥关键作用。该系统基于openEuler构建，通过架构创新实现横向与纵向扩展突破，支持十万卡规模高性能集群，并依托全链路优化与智能运维，确保算力高效转化。百度与openEuler深度合作，共同推进国产算力基础设施建设，为行业智能化转型提供可靠技术底座。

操作系统开源欧拉智算集群
一冷就关机？不存在的！IndoorLink低温导游讲解器发布！

冬季旅游面临低温挑战，普通电子设备易失灵。IndoorLink推出低温版无线讲解器，专为极寒环境设计。采用耐低温电池，-20℃仍可稳定工作，续航达常温75%以上。提供领夹式、头戴式、手持式等多形态，配备AI降噪技术，确保讲解清晰。该设备已应用于长白山等冰雪景区，解决了冬季带团讲解的行业痛点，助力旅游业应对严寒气候。

冬季旅游低温电子设备无线讲解器
荐AI日报：xAI推出Grok 4.1；OceanBase发布首款AI数据库seekdb；Kimi K2成功接入Perplexity

本期AI日报聚焦多项技术突破：蚂蚁集团"灵光"AI助手实现30秒生成可编辑应用；xAI推出免费Grok 4.1模型显著提升质量与速度；Poe推出200人群聊功能支持多模型协作；OceanBase发布首款AI数据库seekdb实现混合搜索；国产模型Kimi K2接入Perplexity展现国际竞争力；谷歌DeepMind推出通用智能体SIMA2在3D游戏中任务完成率达62%；ElevenLabs升级为一站式内容生成平台；昆仑万维推出轻量级多模态智能体Skywork R1V4-Lite，用户拍照即可自动完成任务。

AI助手蚂蚁集团灵光App
OpenAI推出ChatGPT购物研究功能

OpenAI于11月25日正式推出ChatGPT购物研究功能，旨在帮助用户快速精准地找到心仪电商产品。该功能通过自然语言理解与信息整合，突破传统推荐算法局限，能主动提问、智能筛选，深入挖掘用户真实意图，精准识别功能参数、使用场景及风格偏好。结合历史对话记忆功能，系统可纳入个人偏好与习惯，提供个性化购买指南，包括热门产品推荐、核心差异对比及优缺点分析，并附带可靠零售链接。未来还将接入即时结账功能，实现从研究、决策到购买的全流程闭环，显著简化购物流程。目前该功能正逐步向移动端与网页端用户开放，覆盖免费版、Plus、Pro等多个层级。

购物研究电商产品决策成本
荐AI日报：北京发布人工智能产业白皮书；字节发布视频编辑模型Vidi2；快手将发布Kling Omni

本期AI日报聚焦多项AI领域进展：北京发布人工智能产业白皮书，预计2025年核心产值超4500亿元；字节跳动推出120亿参数视频模型Vidi2，实现视频编辑自动化；西藏首个千亿参数藏语大模型“阳光清言”问世，助力高原AI发展；快手Kling Omni即将发布，支持导演级精准控制，可生成2分钟带原生音频长视频；Meta推出Matrix框架，革新多智能体合成数据生成；国产家庭机器人F1亮相，具备多项家务能力，计划明年上市；豆包App升级语音功能，支持四种方言对话，提升老年人使用体验；豆包手机助手技术预览版发布，旨在提供更高效交互。

人工智能产业白皮书北京
前DeepSeek研究员罗福莉已加入小米：全力奔赴AGI

11月12日，“95后AI天才少女”罗福莉宣布加入小米MiMo大模型团队。她曾因“雷军千万年薪挖角”话题引发热议，拥有丰富AI研发经历，先后在幻方量化和DeepSeek参与大模型研发。罗福莉表示，将与团队致力于推动AI从语言迈向物理世界，全力构建通用人工智能。她的加入将为小米AI研究注入新活力。

AI天才少女小米大模型罗福莉

今日大家都在搜的词：

热文

3 天
7天

V3.2逼近Gemini 3，DeepSeek硬气喊话：接下来我要堆算力了

V3.2:高效主力，把自我进化用在通用效率上

V3.2-Speciale:极限推理，把自我验证用在高阶逻辑上

不缺算力的DeepSeek会带来什么?

DeepSeek同时发布两个正式版模型：DeepSeek-V3.2系列发布

游戏库大一统！微星CLAW掌机全面支持Xbox全屏体验，玩家体验再升级

网易有道词典2025年度词汇发布：DeepSeek当选！

SHOPLINE全新3.0主题正式发布前沿技术奠定增长基石

BaiduLinux Cloud OS成就AI算力新高度

一冷就关机？不存在的！IndoorLink低温导游讲解器发布！

荐AI日报：xAI推出Grok 4.1；OceanBase发布首款AI数据库seekdb；Kimi K2成功接入Perplexity

OpenAI推出ChatGPT购物研究功能

荐AI日报：北京发布人工智能产业白皮书；字节发布视频编辑模型Vidi2；快手将发布Kling Omni

前DeepSeek研究员罗福莉已加入小米：全力奔赴AGI

今日大家都在搜的词：

热文

华为鸿蒙智行：11月交付新车81864台同比增长89.61%

AI日报：北京发布人工智能产业白皮书；字节发布视频编辑模型Vi

罗永浩官宣年底将开分享大会：发布细红线AI软件

豆包手机助手技术预览版发布：努比亚样机发售搭载

中兴通讯A股涨停此前宣布合作发布豆包手机助手样机

罗永浩谈三星三折叠：太厚相当于四块手机屏叠在一起

罗永浩抽送iPhone17被指抠：最后改抽iPhone 17 Pro Max

小米汽车现车选购即将开启：下单年底前可提车

零跑汽车11月交付70327台同比增长75%

雷军：2025年11月小米汽车交付量持续超过4万台

华为鸿蒙智行：11月交付新车81864台同比增长89.61%

雷军回应小米汽车续航测试：YU7最猛跑了420公里

AI日报：阿里开源Z-Image图像模型；夸克AI眼镜发布；Opera Neo

雷军回应小米汽车轮毂设计：“丢轮保命”最大程度守护乘员舱

字节跳动旗下豆包输入法上线苹果App Store

一加Ace 6T宣布12月3日发布首发第五代骁龙8

AI日报：智谱清影2.0发布；深圳上线全国首个AI智能劳动仲裁系统

华为Mate 80系列今日开售：售价4699元起

华为畅享70X尊享版开售：售价1999元起

香港小米基金会捐赠1000万港元驰援香港大埔火灾救援

站长商机