百川开源最新医疗大模型，中国力量领跑医疗AI赛道

2025-08-13 14:39 · 稿源：光锥智能公众号

声明:本文来自于微信公众号光锥智能，作者:白鸽，授权站长之家转载发布。
专注医疗后，百川智能交出第一份答卷!
8月11日，百川智能发布第二款开源医疗增强推理大模型Baichuan-M2，其以32B的参数量，在OpenAI的Healthbench评测集上，超越其刚刚发布5天的开源模型gpt-oss-120b。
除gpt-oss-120b外，Baichuan-M2还领先GPT-5以外所有开源与闭源前沿模型，以更小尺寸模型实现医疗能力反超，在所有开源模型中登顶世界第一。
同时，在落地应用浪潮下，大模型所追求的，不再只是效果好，还要能低成本落地。
尤其是在医疗健康领域，模型涉及更多敏感隐私信息，医疗健康机构对私有化部署有着强烈的需求，而私有化部署往往意味着高昂的部署成本。
Baichuan-M2的落地门槛则非常低，其支持RTX4090单卡部署，进一步提升了模型在真实医疗场景中的落地可能性与可扩展性。
这短短5天 “攻防战”，不仅改写了全球医疗大模型的实力排名，更重要的一点在于，在中美通用大模型差距持续扩大的背景下，中国团队可以在AI垂直行业大模型赛道中，实现弯道超车。
当前，医疗是大模型最重要、最有潜力的应用领域之一，正在逐渐成为全球共识。不过，作为应用底座的医疗大模型，现阶段行业中并未有特别突出的产品。
即使是OpenAI最新发布的GPT-5，其数学能力满分，代码、写作、知识能力的成绩也都很高，但医疗领域的得分依旧很低。
这也说明，医疗大模型仍有很长的路要走。
而中美垂直行业大模型的能力差距并不大，作为中国头部大模型企业代表，百川智能此次在医疗大模型上，已实现与OpenAI的并驾齐驱。
那么，作为国内最早全力押注医疗AI赛道的大模型创企，百川智能又是如何做到弯道超车的?
力压全球医疗大模型
拆解Baichuan-M2硬实力
长期以来，模型在医学考试（如 USMLE）上的表现被视为衡量其医疗能力的重要指标，但随着相关题库的饱和，这类选择题或短回复的评测已难以全面反映模型的真实临床实用性。
毕竟，医疗AI并不等于“刷题机器”，考试分数再高，也未必意味着在真实医疗场景中好用。
因此，医疗能力的评测需要有系统化的方法，验证模型在推理决策、临床沟通等关键能力上的综合表现。
今年5月，OpenAI发布权威且贴近真实临床场景的HealthBench医疗健康评测集。
该测评集包含了5000个广泛场景覆盖的医患多轮对话，并通过由262个人类医生编写的48562个医疗评价规则来对模型能力进行评估，是全球公认的医疗大模型“能力试金石”。
该数据集主要包含2个版本:
HealthBench:标准版本，包含5000条对话和对应准则。
HealthBench Hard:包含1000个特别具有挑战性的案例。
在HealthBench中，Baichuan-M2得到60.1高分，反超OpenAI最新开源模型gpt-oss120b（得分57.6），还力压Qwen3-235B、Deepseek R1、Kimi K2等当前世界所有开源大模型。
同时，Baichuan M2在医疗对话任务中展现出显著优势，如紧急医疗响应、医疗上下文理解、医患沟通能力、全球健康知识覆盖及医学思维完备性等核心医疗场景性能全面领先。
HealthBench Hard，是一个针对更复杂困难场景的数据集，用于验证模型多维度、全景化解决疑难复杂医学问题的能力。
据悉，此前该测试集发布时，世界上所有顶尖模型得分都没超过32分，许多前沿模型得分甚至为0。
GPT-5发布时，OpenAI也特别强调，其是HealthBench Hard评测全球唯一超过32分的模型。
但现在Baichuan-M2打破了这一纪录，其以34.7分成为全球第二款超过32分的模型，力压世界所有其他顶尖闭源大模型。而Baichuan-M2和GPT-5也是目前全球唯二超过32分的模型。
事实上，尽管HealthBench已收集大量真实医疗场景，但现实情况往往更加复杂多样。
不过，基于其评测，也至少能够证明在多数医疗场景上的问答质量，GPT-5和Baichuan-M2已经超越资深医生，特别是在知识更新速度和全面性上，完全可以给人类医生强大支持。
那么，百川智能的Baichuan-M2医疗大模型，是如何以32B参数，实现以小博大?其核心思路，就是让大模型像医生一样思考、应对真实医患场景。
从技术角度来说，其背后则是百川智能在大型验证系统（Large Verifier System）、端到端强化学习、AI患者模拟器、多类型医疗数据用于深度推理等4个方面的创新探索。
近一年来，大语言模型后训练范式的升级，特别是基于RLVR（Reinforcement Learning with Verifiable Rewards）方法的大规模强化学习训练，带来了大模型效果的显著提升，尤其是在有明确答案的数学、代码、科学等领域。
但是，强化学习在数学、代码、科学等领域之所以能够显著提升模型能力，是因为这些领域的数据是静态的，由简洁的问题和答案构成。
而医疗问题却是复杂问题，没有标准答案，同一个症状可能存在不同病因，同一病因，患者的体格、病史、用药史、药物耐受程度不一样，治疗方案也会不同。
因此，医疗领域的强化学习不仅要验证诊断结果、治疗方案的准确性，还要验证大模型的问诊对话过程是否符合医生思维，是一个动态验证的形式，也就导致传统强化学习规则在医疗领域表现并不好。
针对这一现状，百川智能则以构建Large Verifier System为核心，在通用Verifier之外，结合医疗场景自身特点设计了一套较为全面的医疗Verifier系统。
用通俗的话来理解，如果将大模型比作一位医学实习生，那么这个系统就像是一个要求极高、异常挑剔的医疗专家。它会从医疗正确性、完备性、安全性以及对患者的友好性等多个维度，细致地评估模型的输出，指出其不足并引导模型改正，使其思维方式更贴近专业医生。
但想要让这个系统成为严谨的医疗专家，最大的难点在于，人类医生在听取患者描述病情时，很容易分辨患者描述中的逻辑漏洞、从含混不清的表达中辨别出真实病因。现实中患者几乎无法全面准确表达自己的症状，仅基于静态的病例、指南等医疗数据训练，模型无法掌握人类医生的这一能力。
而为了突破这一瓶颈，百川技术团队升级迭代了今年初首创的“AI患者模拟器”。
今年1月，百川在arXiv上发表AI患者模拟器，用真实数据构造上万个不同年龄性别症状的AI患者，能够模拟千差万别患者的症状和表达，特别是包含错误噪声的表达，最大程度还原真实医疗场景。
7个月后，百川升级患者模拟器并引入模型端到端强化学习，训练的Baichuan-M2在HealthBench等评测上取得更大突破。
这个模拟器的具体作用就是让AI在训练时，不断和这个虚拟病人聊天，而在聊天的过程中，“考官” 会实时根据聊天情况，动态调整打分标准，帮AI练出“随机应变”的能力，即就算病人说的信息乱、不全，也能重新判断病情，以及会看病人说的信息够不够，决定是继续问还是直接给结论。
而为了AI能够更好的学习医学知识，百川智能还采用了多阶段强化学习策略（Multi- Stage RL），将复杂的强化学习任务分解为几个易于管理的、分层的训练阶段。
就像学车要先练直线、再练转弯、最后上马路，AI学当医生也分阶段练，先练“医学常识”，再练“和病人聊天的技巧”，最后练“复杂病例的诊断”，一步步提升，避免一下子学太难而懵圈。
综合来看，用“智能考官”判断AI表现，用“真实病例 + 虚拟病人”模拟实战，分阶段训练让AI既懂医学知识，又能灵活应对真实医患场景，百川智能最终使大模型具备了一个靠谱医生的能力。
但在当前AI大模型落地应用浪潮中，大模型不仅仅要有能力，更重要的还是能落地，尤其是在垂直行业中，很多时候都面临着大模型效果是很好，但部署运营成本太高，终成demo的情况。
医疗大模型落地既要效果好还要成本低
早在2016年的深度学习浪潮中，AI就已经开始在医疗场景落地，但彼时更多是聚焦在语音语义、图像等方面的应用，以及单点功能（病例录入、智能阅片）的落地。
但这一代医疗大模型开启了全新范式，其能力与上一代医疗AI相比已经产生了质的飞跃，医疗大模型不仅仅是医学知识的问答引擎与效率提升的工具，它能够通过Agent的方式全流程融入到诊中、诊前、诊后的各个环节，为AI落地医疗真实场景打开了更广阔的空间。
百川智能医疗大模型的迭代和落地正是这一颠覆性变化的侧写。
在实践应用中，今年2月，以Baichuan-M1为底座的AI儿科医生在国家儿科医学中心多学科会诊中大放异彩，获得会诊专家一致认可。M2则在医疗沟通、诊断合理、检查合理、医疗治疗、医疗安全六个维度相较于M1均显著提升。
这背后最关键的一点在于，Baichuan-M2为了更适配中国医疗场景，也从中国医学指南对齐、医疗政策适配和患者需求洞察等多个维度进行了深度优化。
在中国临床诊疗场景的问题评测中，对比gpt-oss系列模型，Baichuan-M2展现出更明显的可用性优势，其中部分优势就来源自中国医疗场景的适配性，例如针对临床诊疗的案例，M2更贴合中国医疗场景，更遵循中国权威指南推荐。
以某一个真实的肝癌治疗案例中，针对CNLC IIa期（BCLC B期）的肝细胞肝癌患者，M2首选推荐在具备手术条件的情况下进行解剖性肝右叶切除(或根据肿瘤具体位置，可考虑扩大右半肝切除、右三叶切除等)，目标是R0切除。
原因在于，依据国家卫健委发布的《原发性肝癌诊疗指南》（2024版），肝切除术是潜在根治性治疗，可提供最佳的长期生存获益。
同样的案例，gpt-oss-120b建议首选治疗经动脉化疗栓塞术（TACE），理由是符合BCLCB期治疗指南，当前情况下手术切除和移植风险不理想。
临床医学专家认为，类似这样的情况还有很多。
仅就这个案例来说，手术切除或TACE都是可选方案，只是中西方指南不同，不是医学上的高下之分，而是基于本地患者特点、医疗资源与当前医学发展水平权衡之下的最优解。
毕竟，医疗大模型能否将全球医学知识、医学证据转化为符合本地优势特长的临床决策，也是为医生和患者提供切实服务能力的关键。
Baichuan-M2则为此所做的专门优化，让中国临床场景有了专属的顶尖模型。此外，更为重要的一点在于，Baichuan-M2能够让中国万千医疗机构以更低的成本部署使用。
业内皆知，医疗大模型落地面临“两难”，即追求高精度往往意味着高成本，如闭源模型授权费、定制化开发投入，而低成本方案又难以满足临床核心需求，尤其是在复杂场景的推理上。
Baichuan-M2则通过技术优化和开源的方式，降低了医疗机构的部署成本。
百川智能通过多种PTQ量化策略，对Baichuan-M2进行权重4bit量化，量化后模型精度接近无损，可在RTX4090上单卡部署，相比DeepSeek-R1H20双节点部署方式，成本降低了57倍。
同时，其基于Eagle-3训练了Baichuan-M2-Spec版本，单用户场景下token吞吐可获得74.9%的提升。
另外，开源大模型特性是支持二次开发，可根据具体场景轻量化训练，避免“大而全”的冗余成本，模型权重、训练代码全开放，企业/机构无需支付授权费。
百川M2开源医疗大模型为中国医疗AI提供了“低成本突破”的路径，推动医疗AI技术的普惠应用。它通过“高精度推理 + 开源低成本”的组合，证明医疗大模型落地无需在效果与成本间妥协。
直面全球差距
中国医疗AI的突围之道
今年是AI大模型浪潮兴起的第三年，但在全球市场中，中国通用大模型一直处于跟随者地位。
近期在由谷歌Kaggle推出的首届全球AI象棋争霸赛中，一众中国大模型也表现并不佳，首轮比赛中就被淘汰出局。
我们可以看到，在通用大模型上，中美之间始终存在着差距，无论是在能力上，还是在技术创新层面，差距也仍在不断扩大。
但相比较来说，中国更擅长的地方，则在于推动大模型走向落地应用，而这也是我们在AI垂直行业赛道能够弯道超车的关键。
百川智能作为中国大模型创企之一，选择医疗这一“中国有需求、有数据优势” 的领域深耕，用反超OpenAI的成绩证明 “中国可以在垂直赛道做全球第一”。
而通过开源大模型的模式，也可以降低医疗AI技术门槛，让全球研究者、医疗机构可直接复用模型，在细分的医疗领域构建出自己的专属模型，加速医疗AI的落地与创新。
此次发布会后，M2模型将进入全面落地期，百川将与国家儿童医学中心、北京大学第三医院、海淀卫健委等探索AI医疗的深度应用，真正推动AI医疗从 “实验室” 走向 “临床一线”。未来，随着模型的落地，将为基层医疗、疾病诊断等场景带来革新，推动“AI医疗惠及全民”。

（举报）

相关推荐

关键词：

AI大模型对比完全指南:如何选择最适合你的大模型?

文章探讨了当前AI大模型市场众多选择带来的选择困难问题。面对GPT-4、Claude、文心一言等各具特色的模型，普通用户和企业难以科学评估和选择。文章提出了一套完整的评估体系，包括基础能力、技术性能、应用场景和商业考量四个维度，并建议采用标准化测试和实际场景验证相结合的方法。同时介绍了2025年主流AI模型的特点：GPT-4o在多模态交互领先，Claude3在编程和逻辑分析突出，Gemini2.5擅长长文本处理，国产DeepSeek则以高性价比见长。最后强调选择AI模型应基于具体需求，而非简单追求性能排名，建议通过专业对比平台和实际测试来验证。

AI大模型对比模型选择方法论市场分析
AI大模型那么多，该如何科学对比选型?

文章探讨了当前AI大模型选择的困境，指出随着国内外模型数量激增，用户面临选择难题。作者提出应从实际需求出发，考虑模型能力、成本、使用方式、中文支持等核心维度，避免只看参数规模或流行度的误区。特别推荐使用AIbase模型广场等对比工具，可快速比较多个模型的详细参数、调用方式和价格差异。文章以中文写作为例，对比了通义千问、月之暗面、文心一言和GPT-4�

生成式人工智能大模型选型 AI模型对比
哪个大模型性价比最高？用这个 AI 大模型费用计算器轻松比价

AI大模型快速发展，但不同厂商的定价规则差异大，导致选择困难。AIbase推出的AI大模型费用计算器（https://model.aibase.com/zh/calculator）能帮助开发者快速比较主流模型的调用成本。该工具覆盖GPT-4、Claude、文心一言等国内外热门模型，支持输入输出分开计费，实时更新官方定价，无需注册即可使用。用户只需输入文本，系统自动拆分token数并精准计算费用，结果清晰直观可排序。建议根据场景需求选择模型：平衡成本与性能可选GPT-4o、DeepSeek-V2；高精度需求选GPT-4 Turbo；中文场景优选国产模型。使用前通过计算器模拟成本，可避免项目超支风险。

大模型性价比人工智能
从多语破壁到生态共建科大讯飞如何以全栈自主可控大模型赋能中国AI出海？

2025世界人工智能大会(WAIC)上，科大讯飞展区成为焦点，展示20余款AI产品，呈现技术创新与产业赋能成果。其星火语音大模型支持37种主流语言，效果超越OpenAI Whisper v3，并覆盖130+语种和8万专业词汇。讯飞还举办多语言国际研讨会，汇聚20国30位专家，构建亚欧学术交流平台。作为中国AI领军企业，讯飞坚持自主可控技术路线，打造开放共赢生态，已在新加坡等地建立站点，拥有52.4万海外开发者。从大阪世博会到WAIC，讯飞正推动中国AI技术走向全球舞台中央，展现中国智慧。

人工智能科大讯飞全球AI产业
2025年国内AI大模型哪家强？上AI大模型选型对比工具，用数据说话！

文章分析了国内AI大模型市场竞争格局，指出百度、阿里、腾讯、字节等科技巨头与初创公司纷纷布局，呈现繁荣景象。针对用户选型难题，提出需综合考虑参数规模、场景适配、成本效益等关键因素，并介绍了AIbase推出的AI大模型选型对比工具。该工具汇集主流模型最新数据，支持多维度能力对比和场景化筛选，帮助用户快速定位最适合自身需求的模型。最后强调没有"最强"的通用模型，只有最匹配特定场景的解决方案。

国内AI大模型 AI技术竞争大模型选型
荐AI日报：智谱视觉推理模型GLM-4.5V开源；达摩院开源三项具身智能核心技术；360智脑推出Light-IF系列模型

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解:https://top.aibase.com/1、智谱GLM-4.5V开源发布:全球100B级最佳视觉推理模型智谱宣布推出并开源了全球100B级效果最佳的开源视觉推理模型GLM-4.5V，这是该公司在通向通用人工智能（AGI）道路上的又一重要探
调动不同AI大模型费用怎么算?AI模型费用计算神器算清每一分投入!

本文探讨了企业在调用不同AI大模型时的费用计算问题。随着GPT-4、Claude、文心一言等模型广泛应用，各厂商的计费规则差异显著：有的按Token收费，有的按调用次数，还有地区定价差异。相同任务在不同模型上的成本可能相差10倍。文章推荐使用AIbase费用计算器（https://model.aibase.com/zh/calculator），该工具覆盖主流模型，支持自定义参数，能快速对比不同模型的调用成本，帮助企业实现精准预算控制，选择最具性价比的AI服务方案。

AI大模型费用计算隐性成本
AI模型怎么计费?大模型费用计算器助你精准预算，告别复杂参数困扰

随着AI大模型普及应用，企业开发者面临复杂的计费挑战：主流模型采用Token计费，但不同模型Token换算差异大（如1Token=1.8汉字或1汉字），输入输出Token分开计价且输出更贵，隐藏成本包括上下文累积、重复调用等。定价模式多样（按量/包月），模型间价差显著（如DeepSeek V3成本仅为GLM-4Plus的1/3）。专业工具AIbase费用计算器（https://model.aibase.com/zh/calculator）可精准预估成本，覆盖GPT-4、文心一言等主流模型，智能处理Token换算和隐藏成本，提供多模型对比分析。实际案例显示，处理10万次咨询时文心一言成本（800元）显著低于GPT-4（2000+元）。未来趋势包括价格战推动成本下降、计费模式多元化（任务分级/套餐组合），建议企业建立成本监控体系，通过场景化分析和动态模型调整实现性价比最优。AI时代，专业计费工具将成为精准控制成本的关键。

AI模型计费 Token计费机制费用预算工具
荐AI日报：昆仑万维发布SkyReels-A3模型；百度搜索PC端全面上线AI搜索；Grok 4 AI模型永久免费开放

AI日报栏目聚焦人工智能领域最新动态：1)昆仑万维发布SkyReels-A3模型，实现语音驱动数字人生成；2)xAI宣布Grok4模型永久免费开放；3)OpenAI发布GPT-5提示词指南；4)百度PC端上线AI搜索功能；5)微软Windows Co pilot接入GPT-5；6)百川智能开源医疗大模型Baichuan-M2性能超越GPT-oss120b；7)苹果iOS26将集成ChatGPT-5；8)谷歌推出3D视觉编辑框架BlenderFusion；9)轻量级TTS模型Kitten TTS参数仅1500万；10)MiniCPM-V
载誉前行！YOUMAGIC舒立缇研发公司荣膺“年度创新医疗器械最佳企业”

7月30日，YOUMAGIC舒立缇研发公司威脉医疗凭借"医工结合"创新路径和清华基因技术积累，荣获"2025年度创新医疗器械最佳企业"称号。作为国内首个获得NMPA与FDA双认证的单极射频设备，其产品通过清华能量源技术将射频脉宽从200ms升级至100ms，实现更精准温控和更低痛感。公司深化产学研布局，与清华无锡研究院共建能量医学工程研究中心，推动抗衰体验升级，重新定义行业标准，展现中国高端医械企业的全球竞争力。

医疗健康投资创新医疗器械医工结合

今日大家都在搜的词：

热文

3 天
7天

百川开源最新医疗大模型，中国力量领跑医疗AI赛道

AI大模型对比完全指南:如何选择最适合你的大模型?

AI大模型那么多，该如何科学对比选型?

哪个大模型性价比最高？用这个 AI 大模型费用计算器轻松比价

从多语破壁到生态共建科大讯飞如何以全栈自主可控大模型赋能中国AI出海？

2025年国内AI大模型哪家强？上AI大模型选型对比工具，用数据说话！

荐AI日报：智谱视觉推理模型GLM-4.5V开源；达摩院开源三项具身智能核心技术；360智脑推出Light-IF系列模型

调动不同AI大模型费用怎么算?AI模型费用计算神器算清每一分投入!

AI模型怎么计费?大模型费用计算器助你精准预算，告别复杂参数困扰

荐AI日报：昆仑万维发布SkyReels-A3模型；百度搜索PC端全面上线AI搜索；Grok 4 AI模型永久免费开放

载誉前行！YOUMAGIC舒立缇研发公司荣膺“年度创新医疗器械最佳企业”

今日大家都在搜的词：

热文

iPhone17Pro最新外观曝光：苹果调整天线布局

AI日报：智谱视觉推理模型GLM-4.5V开源；达摩院开源三项具身智

REDMI Note 15 Pro系列官宣本月发布

雷军发起小米YU7版本更名投票称小米YU7标准版绝非丐版

全球首款女团机器人10580元拍出接入京东Joy Inside智能体

特斯拉Model 3长续航后轮驱动版上线：售价26.95万起 830公里续

周鸿祎与机器人PK球技：带球突破被机器人抢断

苹果OLED版MacBook Pro或将延至2027年发布

华为MatePad 11.5 S官宣8月15日发布

阿里小号宣布暂缓停服：可继续正常使用

AI日报：昆仑万维发布SkyReels-A3模型；百度搜索PC端全面上线A

iPhone17Pro最新外观曝光：苹果调整天线布局

京东养车50亿补贴更名震骨价号称补贴不「唬」

AI日报：智谱视觉推理模型GLM-4.5V开源；达摩院开源三项具身智

REDMI Note 15 Pro系列官宣本月发布

REDMI Turbo 5已备案：首发天玑8500处理器

雷军发起小米YU7版本更名投票称小米YU7标准版绝非丐版

全球首款女团机器人10580元拍出接入京东Joy Inside智能体

特斯拉Model 3长续航后轮驱动版上线：售价26.95万起 830公里续

苹果OLED版MacBook Pro或将延至2027年发布

站长商机