文心3.5到4.0：版本前进0.5背后推理成本或暴增10倍不止

2023-10-14 22:41 · 稿源：快科技

十月一节后第一天就有消息人士透露，百度正在加紧训练文心大模型4.0，或将在10月17日举行的百度世界大会上发布。

此前5月，文心大模型3.5版本已经发布，不到半年，4.0上线在即，而且放在了百度世界大会这样的重头戏上，外界期待值直接拉满。

据悉，从文心3.5到4.0，版本数字前进0.5”背后，推理成本、模型参数量都会迎来暴增，推理成本综合下来高5倍打底，甚至8倍、10倍都有可能，而模型参数量更是超过万亿，也正是万亿的参数量解释了文心大模型4.0推理成本增高的背后原因。

先解释下什么是推理成本？其实就是用户单次使用耗费的算力成本，这里算力不仅包括硬件投入，也折算了运维成本。正所谓有输入”才有输出”，推理成本即模型思考”并输出”一次所需的成本。

这个推理成本主要受三个因素影响：

1、模型的网络结构和参数规模，大模型神经网络结构越复杂成本越高，参数规模越大，需要的计算量越大，计算成本就越高。

这就好比人大脑中的神经元网络，神经元网络越复杂，需要学习和思考的东西就越多，也就需要更高的成本。

从爆出来的消息看，文心4.0基于飞桨平台在万卡集群训练出来，4.0参数规模将大于市面上所有已经公开发布参数规模的大语言模型，也有可能突破万亿级别。

根据之前行业媒体的测算，如果要在10天内训练1000亿参数规模、1PB训练数据集，大约需要10830个英伟达A100 GPU。

按照每个A100 GPU的成本约为10000美元，那么10830个GPU的总成本约为：10830*$10000=$108300000

为什么说通用大模型是大厂的游戏，原因就在这里，光门槛就超10亿美元。

2、模型的推理部署，如单机还是并行推理、量化、部署方式等。

优化成本”本身也是要付出代价的。这就好比我们用不同的方式来解决问题。如果一个方法需要更多的时间和精力，那么思考”成本就会更高。

如果一个模型在推理时需要大量的计算和存储资源，就像一个大人需要花费更多的时间和精力来解决问题一样，那么推理成本就会很高。

而如果采用一些技术手段，比如将推理任务并行处理或者使用量化技术来减少计算和存储需求，就相当于小孩子用更简单的方式来解决问题，可以节省推理成本。当然，这些技术手段本身也是成本。

3、芯片和集群，包括芯片型号、规模以及集群架构等。

芯片买来就能直接用吗？完全不可能！后面还需要一系列的重成本

这就好比不同的大脑的配置。如果一个芯片或集群的效率更高、速度更快，那么就可以更快地完成推理任务，从而降低推理成本。如果一个芯片或集群的性能不好、速度很慢，这就像一个学习不好的孩子需要花费更多的时间和精力来思考问题一样，推理成本就会很高。

单个芯片可以比喻成一块能发电的砖，如何通过合理配置，最终达到参数规模、推理部署方式以及使用的芯片和集群的性能最大化？这听着都不是一个简单的问题。

随着大语言模型的不断升级迭代，参数量突破万亿、模型能力越来越强、用户使用量激增，推理成本都会成倍增加。

文心大模型4.0增加的更是极致体验

其实自5月发布文心3.5，百度一直通过各种技术优化推理成本，据悉，目前3.5版本推理成本较5月刚发布时，已经下降到原来的几十分之一。

而即将发布的文心大模型4.0版本的推理成本也远低于今年5月的3.5版本，这也是百度积极探索技术手段优化推理性能、降低推理成本的结果。而文心大模型4.0作为单一模型，将是国内首个万卡集群训练的稠密参数大语言模型。

万卡集群背后，如何更好的发挥性能呢？

对于百度来讲，恰好因为过去十年如一日的技术投入，正式因为文心与飞桨的联合优化，才能高效地基于万卡集群训练起这么万亿规模的模型。

10月17日，文心大模型4.0将正式发布，并开启邀请测试。这是迄今为止最强大的文心大模型，它实现了基础模型的全面升级，理解、生成、逻辑和记忆四大能力相辅相成，全面进步。可以说文心大模型的全面升级将为用户带来更极致的产品体验。

通用大模型走向付费是大势所趋

根据海外最新研究《The Economics of Large Language Models》，可以有这样来估计：

每个token（1000 token约等于750个单词）的训练成本通常约为6N，而推理成本约为2N，其中N 是LLM（大语言模型）的参数数量，也就是说推理成本大约相当于训练成本的三分之一。但随着模型上线部署后使用量的增加，推理成本可能远超训练成本。

有媒体估算过，使用云计算服务（以AWS为例）调用ChatGPT的能力，每处理一个输入长度为50字、输出长度为1000字的问题，大约需要消耗0.00014611美元的云计算资源。即用1美元可以向ChatGPT提问约6843个问题。

此外，据华尔街日报早前爆料：微软用户量高达150万的AI编程工具GitHub Copilot，平均每个月在每个用户身上都要倒贴20美元，最高能达80美元。也就是说，微软自做出Copilot以来，光是一个月在它上面亏损就高达3000万美元，一年下来亏损直接过亿。要知道，Copilot也不是能白嫖的，会员每月还得交10美元使用费”

而就拿OpenAI来看，它也早已走上了大模型付费之路。对于C端用户，提供订阅模式的ChatGPT Plus，每月收费20美元（合人民币140元），可访问基于GPT-4的完全不同的服务，速度更快，访问更可靠。就算访问 ChatGPT，也可以优先使用新功能和改进。

而对于企业用户，就在今年8月28日，OpenAI官宣推出专注于为大企业服务的ChatGPT Enterprise”。企业版ChatGPT直接对接GPT-4，提供无限制访问、高级数据分析功能、定制服务等服务，并支持处理更长文本输入的长上下文窗口。

并且企业版在保证企业的数据隐私和安全的背景下，还为企业提供全方位的生成式AI功能。此外，除了目前适合大型企业的版本外，OpenAI还将很快推出适用于小微企业、团队的ChatGPT Business产品，服务于所有规模和类型的组织。

可以看出大模型收费国外已经开始探索不同路径，而确保模型的可持续发展也正需要资金来支持持续的研发、改进和维护。这就需要一定的收费机制来不断优化和迭代模型，提高模型的准确性和效率，结合用户需求和反馈，不断改进和优化模型，提高用户体验。

高昂成本倒逼下，通用大模型走向付费是大势所趋。

（举报）

相关推荐

关键词：

清蓝椰汁：销售额暴增100%，爆款“椰+”系列背后的秘密！

近年来椰子水凭借天然健康特质成为饮品市场新宠，行业增速远超饮料平均水平。清蓝品牌以每年60%增速领跑市场，其“椰+”系列通过创新融合椰子与牛奶、玉米等食材，精准捕捉年轻消费者对口感和便捷性的需求，被喻为“移动的奶茶店”。品牌坚持严苛品质标准，借助NFC技术实现高质平价，同时通过数字化工具勤策优化销售管理，构建了产品创新、渠道支持与团队建设的综合竞争力，在激烈市场中持续增长。

椰子水市场清蓝品牌椰+系列
登榜LMArena！文心大模型5.0-Preview文本能力国内第一

11月8日，文心全新模型ERNIE-5.0-Preview-1022在LMArena大模型竞技场排名中位列全球第二、中国第一。该模型在创意写作、复杂长问题理解和指令遵循方面表现突出，超越多款国内外主流模型。创意写作可高效生成文章、营销文案等内容；复杂长问题理解适用于学术问答、报告分析等任务；指令遵循能力支持智能助理、代码生成等场景，为多领域内容生产提供高效支撑。

文心模型 ERNIE-5.0 创意写作
百度智能云这项开源，让 DeepSeek-V3.2 推理服务吞吐提升 2 倍

10月28日，百度智能云联合SGLang社区开源针对DeepSeek-V3.2优化的多token预测（MTP）技术代码。该技术通过批量生成和集中验证机制，使模型解码吞吐量提升超2倍，突破传统自回归解码的序列化瓶颈。此次开源的MTP方案已完成与DeepSeek-V3.2稀疏注意力架构的深度适配，并经过百度内部业务验证，开发者可"开箱即用"获得稳定可靠的推理加速能力。

百度智能云 DeepSeek-V3.2 MTP技术
即构ZIM2025版本更新：AI互动、功能焕新、赋能开发

即构科技发布ZIM 2.23.0版本，新增群组定向消息、消息编辑功能，并深度适配HarmonyOS与uni-app-x框架。通过“AI+IM”方案，支持低延迟互动与多模态交互，提供一站式内容审核等服务。该版本强化了跨端协同能力，助力开发者快速构建稳定、高效的实时通讯应用，满足社交、直播等多元场景需求。

即构科技 ZIM 2.23.0
荐AI日报：美团LongCat-Flash-Omni发布；Qwen3-Max上线深度思考功能；百度“文心”5.0重磅回归

本期AI日报聚焦多领域技术突破：美团发布全模态交互模型LongCat-Flash-Omni；阿里通义千问Qwen3-Max上线深度思考功能；百度文心5.0升级多模态生成能力；谷歌确认Gemini3年内发布并整合至苹果Siri；OpenAI向多国开放Sora2视频工具；云存储与AI开发工具持续优化，展现行业加速迭代态势。

AI 多模态实时交互
饿了么APP更名为淘宝闪购版本号升级至12.0.2

饿了么App正式升级为淘宝闪购，版本号12.0.2，打通天猫旗舰店与饿了么货盘资源，推出“电商低至30分钟送达”极速服务，覆盖餐饮、3C数码、美妆等全品类商品。升级后与饿了么携手加大补贴力度，提供免单红包、免单奶茶、大额满减外卖券等超级权益，并加入今年天猫双11活动，88VIP用户可获红包惊喜、折上折等福利，提升消费者购物体验与实惠。

饿了么更名淘宝闪购升级电商低价送达
解构光影的艺术：海信100寸电视画质背后的硬核法则

文章回顾显示技术从CRT到液晶、OLED的演进，指出百寸电视时代画质标准已升维为涉及光学、芯片与算法的系统工程。以海信100寸旗舰E7Q为例，其通过黑曜屏技术实现1.8%超低反光率，AI画质芯片实现像素级画面重构，配合4224分区RGB MiniLED背光系统，构建了从输入到输出的全链路画质优化体系。这套融合光学、算力与控光三大核心的技术方案，重新定义了高端电视的系统性标准。

文章搜索核心标签画质评判
小米17 Ultra提供双版本：顶配版独占双卫星通信

小米14 Ultra已备案两个版本，型号分别为2512BPNDAC和2512BSPNA1C，全系支持UWB。高配版搭载双卫星通信技术，支持天通一号卫星通话及北斗短报文，可在无地面网络时保持通信。工业设计采用1.5K直屏与超级像素新国屏，后置5000万超大底主摄及2亿像素潜望长焦，支持长焦微距。搭载骁龙8 Gen3平台，支持无线充电、IP68防水，配备大容量金沙江电池，预计春节前发布。

小米17 Ultra 卫星通话
63岁大爷头顶56斤石磨骑车最远骑50公里已坚持24年 “为锻炼身体”

近日，媒体报道了武汉一位63岁大爷的独特锻炼方式头顶重达56斤的石磨骑车。这位大爷表示，自2000年起，他便开启了顶石磨运动的锻炼之旅，目的纯粹是为了强身健体。笔者通过查阅过往报道发现，大爷的日常锻炼堪称重量级”。他每天都会头顶一块重达五六十斤的石磨，投身于各类运动项目之中，登山、跑步、骑行都不在话下。据了解，大爷早在2000年，他便开启了徒�

武汉大爷顶石磨锻炼负重运动
小米手表S4系列推送澎湃OS 3正式版：eSIM版、运动版等五款在列

10月29日，小米手表S4系列开启澎湃OS 3正式版推送。用户可通过小米运动健康App升级，升级包下载后将自动推送至手表，完成升级并重启。官方提醒确保手表电量在20%以上，升级过程需保持与手机连接，建议将手表放在手机附近并保持App前台运行。此次推送覆盖S4 Sport、S4、S4 eSIM等多款型号。澎湃OS 3于10月15日首批推送，正逐步覆盖更多机型。

小米手表S4 澎湃OS3 系统升级

今日大家都在搜的词：

热文

3 天
7天

文心3.5到4.0：版本前进0.5背后推理成本或暴增10倍不止

清蓝椰汁：销售额暴增100%，爆款“椰+”系列背后的秘密！

登榜LMArena！文心大模型5.0-Preview文本能力国内第一

百度智能云这项开源，让 DeepSeek-V3.2 推理服务吞吐提升 2 倍

即构ZIM2025版本更新：AI互动、功能焕新、赋能开发

荐AI日报：美团LongCat-Flash-Omni发布；Qwen3-Max上线深度思考功能；百度“文心”5.0重磅回归

饿了么APP更名为淘宝闪购版本号升级至12.0.2

解构光影的艺术：海信100寸电视画质背后的硬核法则

小米17 Ultra提供双版本：顶配版独占双卫星通信

63岁大爷头顶56斤石磨骑车最远骑50公里已坚持24年 “为锻炼身体”

小米手表S4系列推送澎湃OS 3正式版：eSIM版、运动版等五款在列

今日大家都在搜的词：

热文

iPhone 18 Pro或缩小灵动岛苹果正测试特殊挖孔方案

OPPO Reno15系列官宣11月10日发布

AI日报：上海首例涉AI提示词著作权案宣判；Kimi K2 Thinking发

特斯拉股东批准马斯克万亿美元薪酬包

曝折叠屏iPhone配2400万屏下摄像头预计2026年秋亮相

华为鸿蒙智行新款享界S9开启预订：预售价31.8万起

OPPO Find X9 Pro卫星通信版开启预售：6999元

何小鹏再回应机器人里藏真人质疑：现场展示内部结构

小鹏机器人会走猫步太像人了！小鹏发布新一代人形机器人IRON

女性人形机器人里藏真人？何小鹏回应：并亲自证清白

iPhone 18 Pro或缩小灵动岛苹果正测试特殊挖孔方案

阿里回应饿了么更名：正处于灰度测试阶段

马斯克称若发现外星人证据就公开

AI日报：昆仑万维SkyReels V3模型上线；月之暗面推Kimi Linear

小米YU7全网首拆上热搜雷军回应：欢迎同行和专家指点

AI日报：Sora正式登陆Android；网易云音乐推AI调音大师；谷歌将

华为Mate70 Air官宣今日开启预售

vivo Y500 Pro官宣11月10日发布：同档首发2亿HP5主摄

站长商机

文心3.5到4.0：版本前进0.5背后 推理成本或暴增10倍不止

今日大家都在搜的词：

热文

站长商机

文心3.5到4.0：版本前进0.5背后推理成本或暴增10倍不止