百川智能发布大模型Baichuan3 称中文评测超越GPT-4

2024-01-29 13:48 · 稿源：站长之家

站长之家(ChinaZ.com) 1月29日消息:百川智能于 1 月 29 日推出了拥有超过千亿参数的大型语言模型Baichuan 3。该模型在多个公认的通用能力评估，如CMMLU、GAOKAO和AGI-Eval等，都展示了卓越的表现，特别是在中文任务上更是超过了GPT- 4 的水平。同时，该模型在数学和代码方面的评估，如MATH、HumanEval和MBPP等，也有着优秀的成绩，证明了Baichuan3 在自然语言处理和代码生成领域的强劲实力。

百川大模型，百川智能

百川智能还表示，其在逻辑推理能力和专业性要求很高的MCMLE、MedExam、CMExam等权威医疗评估上的中文效果也超过了GPT-4，成为中文医疗任务中表现最好的大型模型。Baichuan3 还突破了“迭代式强化学习”技术，进一步增强了语义理解和生成能力，在诗词创作的格式、韵律、表意等方面表现出色，领先于其他大型模型。

为了保证在数千张GPU上高效且稳定地训练超千亿参数模型，百川智能同时优化了模型的训练稳定性和训练框架，并采用了“异步CheckPoint存储”机制，可以在不损失性能的情况下增加存储的频率，减少机器故障对训练任务的影响，使Baichuan3 的稳定训练时间达到一个月以上，故障恢复时间不超过 10 分钟。

训练效率方面，百川智能针对超千亿参数模型的并行训练问题进行了一系列优化，如高度优化的RoPE， SwiGLU计算算子；在数据并行中实现参数通信与计算的重叠，以及在序列并行中实现激活值通信与计算的重叠，从而有效降低了通信时间的比重；在流水并行中引入了将激活值卸载至CPU的技术，解决了流水并行中显存占用不均的问题，减少了流水并行的分段数量并显著降低了空泡率。通过这些技术创新，Baichuan3 的训练框架在性能方面相比业界主流框架提升超过30%。

官方表示，作为参数规模超过千亿的大语言模型，Baichuan3 不仅英文效果达到接近GPT- 4 的水平，还在多项通用中文任务的表现上实现了对GPT- 4 的超越，是百川智能的全新里程碑。Baichuan3 全面的通用能力以及在医疗领域的强大表现，将为百川智能打造“超级应用”，把大模型技术落地到诸多复杂应用场景提供有力支撑。

（举报）

相关推荐

关键词：

AI日报：OpenAI发布浏览器Atlas；通义Qwen3-VL新增2B、32B两个模型尺寸；百川发布循环证据增强大模型

本文汇总AI领域最新动态：OpenAI推出集成ChatGPT的Atlas浏览器，实现多任务自主处理；阿里通义千问新增2B/32B视觉语言模型，手机可流畅运行；谷歌AI Studio升级Vibe Coding功能，简化应用开发流程；百川发布医疗大模型M2Plus，通过循证推理降低误诊率；奇瑞墨甲机器人实现L3级技术突破，计划多行业应用；YouTube推出AI肖像识别工具，打击虚假内容；三星宣布2026年推出AI眼镜，融合AR与语音助手；Claude客户端更新，支持截图分析和语音交互功能。

AI OpenAI ChatGPT
荐谁能成为中国的ChatGPT？夸克抢先交卷

在OpenAI上线自己家AI浏览器ChatGPT Atlas的同一周，微软在海外发布了新的AI助手Mico和更AI化的Edge浏览器，夸克则在国内推出了新的「对话助手」功能。这一系列消息背后，新旧巨头、两个市场产生了两个确定的共识:一个是AI助理与AI浏览器的融合会进一步深化，入口之争就是系统之争;另一个是对话会成为人与AI交互的主要方式，自然语言就是未来的编程语言。在海外市场，OpenA

AI浏览器 ChatGPT Atlas
华为WATCH Ultimate 2非凡探索版明日开启预售

华为正式宣布旗舰智能手表WATCH Ultimate 2非凡探索将于11月7日开启预售。这款“全能表王”支持150米潜水与音频功能，具备海豚声呐通信技术，可在水下30米实现手表间信息传输，60米内一键SOS求救。同时搭载北斗卫星语音消息功能，无网络环境下可通过卫星发送语音信息。硬件上配备1.5英寸OLED屏幕，峰值亮度达3500nit，支持20ATM防水与IP68/9防尘。省电模式下续航达11天，常规使用达4.5天。该手表海外售价799英镑（约7443元人民币），国内价格尚未公布。

华为WATCH Ultimate2 智能手表
双十一智能手表怎么选？这几款三星Galaxy Watch千万别错过

双十一选购智能手表时，三星Galaxy Watch系列提供多样选择：Galaxy Watch8设计轻盈简约，适合日常佩戴；Watch8 Classic采用经典旋转表圈，风格优雅百搭；Watch Ultra则主打坚固耐用，专为户外运动设计。三款均搭载全面健康监测功能，包括睡眠分析、跑步教练指导及身体成分测量，帮助用户提升生活质量。根据个人审美与需求，可轻松挑选心仪款式。

智能手表三星Galaxy Watch
vivo WATCH GT 2已支持开通移动/联通eSIM服务

vivo WATCH GT2智能手表正式支持中国移动与联通的eSIM服务，提供一号双终端和独立终端两种模式，售价699元。配备2.07英寸大屏、2400nits峰值亮度，续航达33天。支持全天心率、血氧、睡眠监测及多种运动模式，搭载自研蓝河操作系统3.0与智能助手，可跨设备连接vivo和iPhone，实现双机通知同步。

vivo WATCH GT2
荐Qwen登顶AI赚钱大赛只是开始？“弃GPT投Qwen”已在硅谷蔓延开来

近期AI炒币大赛Alpha Arena引发关注，六款主流大模型用1万美元本金在币圈实战。戏剧性的是，被寄予厚望的GPT-5和Gemini因高杠杆操作亏损惨重，而中国开源模型表现亮眼——通义千问Qwen以53%回报率逆袭登顶，DeepSeek紧随其后。硅谷巨头Airbnb CEO公开表态依赖Qwen，投资人Chamath也承认将业务转向中国模型。市场用真金白银投票：预测平台押注Qwen胜率高达36%，远超OpenAI的3%。这场竞赛�

AI炒币大赛 Alpha Arena
荐AI日报：可复刻音色的MiniMax Speech 2.6发布；TikTok推AI剪辑新工具“Smart Split”；Cursor 2.0发布

本期AI日报聚焦多项技术突破：MiniMax发布低延迟语音合成系统Speech 2.6，实现实时交互；蚂蚁数科与宁波银行打造的金融AI方案入选国际标准；智源推出具身操作能力的Emu3.5多模态模型；Cursor 2.0通过自研模型实现多智能体协同编程；xAI升级Grok新增视频生成功能；OpenAI推出可定制安全模型；TikTok推出AI剪辑工具Smart Split；微软发布强化学习框架Agent Lightning提升大模型训练效率。

AI日报 MiniMax Speech
今年双11，为什么买百吋电视更推荐RGB-Mini LED？

今年双11，百吋电视因用户消费升级与居住改善需求增长显著。京东数据显示其销量同比增长200%，反映用户不再满足“够用”尺寸，而是追求影院级沉浸体验。百吋电视受追捧源于超高清内容普及与技术门槛降低，但需注意大屏对显示技术要求更高。RGB-Mini LED技术通过红绿蓝三原色独立背光实现精准控光，解决传统电视色彩与亮度矛盾，如海信UX等产品以高色域、分区控光提升画质。选购时需关注画质芯片与屏幕抗反射能力，确保色彩真实与观看舒适。尺寸是基础，画质才是灵魂。

百吋电视消费升级家庭观影
华为Mate 70 Air配置价格公布：可选CPU 售价4199起

华为Mate70 Air于11月6日10:08开启预售，提供麒麟9020B和9020A两款CPU版本，价格从4199元至5199元。机身仅6.6mm厚、208g重，配备7英寸OLED临境大屏，支持120Hz刷新率。影像系统包括后置四摄组合与前置1070万超广角镜头，内置6500mAh电池与66W快充。支持双向北斗卫星消息、Wi-Fi7，预装HarmonyOS 5.1系统。凭借轻薄设计、可选CPU及全面配置，有望引发市场关注。

华为Mate70Air 麒麟9020B 麒麟9020A
Uber与Checkout.com官宣战略合作伙伴关系，为全球企业平台提供高速可靠支付服务

英国数字支付服务商Checkout.com与出行平台Uber达成全球战略合作，将为Uber在全球主要市场的网约车及外卖平台提供收单和网关服务。凭借其全球覆盖能力与本地化专长，Checkout.com将助力Uber每日处理数百万笔交易，并通过AI技术优化支付流程，提升交易成功率与安全性。此次合作将强化Uber的全球支付体验，支持其数字出行领域的持续创新。

全球收单网关服务支付解决方案

今日大家都在搜的词：

热文

3 天
7天

百川智能发布大模型Baichuan3 称中文评测超越GPT-4

AI日报：OpenAI发布浏览器Atlas；通义Qwen3-VL新增2B、32B两个模型尺寸；百川发布循环证据增强大模型

荐谁能成为中国的ChatGPT？夸克抢先交卷

华为WATCH Ultimate 2非凡探索版明日开启预售

双十一智能手表怎么选？这几款三星Galaxy Watch千万别错过

vivo WATCH GT 2已支持开通移动/联通eSIM服务

荐Qwen登顶AI赚钱大赛只是开始？“弃GPT投Qwen”已在硅谷蔓延开来

荐AI日报：可复刻音色的MiniMax Speech 2.6发布；TikTok推AI剪辑新工具“Smart Split”；Cursor 2.0发布

今年双11，为什么买百吋电视更推荐RGB-Mini LED？

华为Mate 70 Air配置价格公布：可选CPU 售价4199起

Uber与Checkout.com官宣战略合作伙伴关系，为全球企业平台提供高速可靠支付服务

今日大家都在搜的词：

热文

女性人形机器人里藏真人？何小鹏回应：并亲自证清白

iPhone 18 Pro或缩小灵动岛苹果正测试特殊挖孔方案

华为Mate70 Air官宣今日开启预售

AI日报：HeyGen发布AI视频翻译引擎；科大讯飞推星火 X1.5；QQ浏

何小鹏回应机器人IRON里是真人质疑：感谢认可

华为路由X3 Pro今日开启预售：售价1299元起

俞敏洪发文确认孙东旭离职：保持着良好的沟通

OPPO Reno15系列官宣11月10日发布

iPhone Air 2或新增1颗镜头：继续沿用6.5英寸高刷中屏

AI日报：上海首例涉AI提示词著作权案宣判；Kimi K2 Thinking发

小鹏机器人会走猫步太像人了！小鹏发布新一代人形机器人IRON

女性人形机器人里藏真人？何小鹏回应：并亲自证清白

鸿蒙HarmonyOS 6与iOS数据互传功能预计12月上线

阿里回应饿了么更名：正处于灰度测试阶段

AI日报：美团LongCat-Flash-Omni发布；Qwen3-Max上线深度思考功

DeepSeek崩了上热搜页面显示“服务器繁忙”

特斯拉Cybercab不配备方向盘和踏板预计2026年二季度下线

马斯克称若发现外星人证据就公开

AI日报：昆仑万维SkyReels V3模型上线；月之暗面推Kimi Linear

OPPO ColorOS 16正式版11月升级机型公布：支持23款机型

站长商机