首页 > 业界 > 关键词  > 正文

百川开源最新医疗大模型,中国力量领跑医疗AI赛道

2025-08-13 14:39 · 稿源: 光锥智能公众号

声明:本文来自于微信公众号 光锥智能,作者:白 鸽,授权站长之家转载发布。

专注医疗后,百川智能交出第一份答卷!

8月11日,百川智能发布第二款开源医疗增强推理大模型Baichuan-M2,其以32B的参数量,在OpenAI的Healthbench评测集上,超越其刚刚发布5天的开源模型gpt-oss-120b。

图片

除gpt-oss-120b外,Baichuan-M2还领先GPT-5以外所有开源与闭源前沿模型,以更小尺寸模型实现医疗能力反超,在所有开源模型中登顶世界第一

同时,在落地应用浪潮下,大模型所追求的,不再只是效果好,还要能低成本落地。

尤其是在医疗健康领域,模型涉及更多敏感隐私信息,医疗健康机构对私有化部署有着强烈的需求,而私有化部署往往意味着高昂的部署成本。

Baichuan-M2的落地门槛则非常低,其支持RTX4090单卡部署,进一步提升了模型在真实医疗场景中的落地可能性与可扩展性。

这短短5天 “攻防战”,不仅改写了全球医疗大模型的实力排名,更重要的一点在于,在中美通用大模型差距持续扩大的背景下,中国团队可以在AI垂直行业大模型赛道中,实现弯道超车。

当前,医疗是大模型最重要、最有潜力的应用领域之一,正在逐渐成为全球共识。不过,作为应用底座的医疗大模型,现阶段行业中并未有特别突出的产品。

即使是OpenAI最新发布的GPT-5,其数学能力满分,代码、写作、知识能力的成绩也都很高,但医疗领域的得分依旧很低。

这也说明,医疗大模型仍有很长的路要走。

而中美垂直行业大模型的能力差距并不大,作为中国头部大模型企业代表,百川智能此次在医疗大模型上,已实现与OpenAI的并驾齐驱。

那么,作为国内最早全力押注医疗AI赛道的大模型创企,百川智能又是如何做到弯道超车的?

力压全球医疗大模型

拆解Baichuan-M2硬实力

长期以来,模型在医学考试(如 USMLE)上的表现被视为衡量其医疗能力的重要指标,但随着相关题库的饱和,这类选择题或短回复的评测已难以全面反映模型的真实临床实用性。

毕竟,医疗AI并不等于“刷题机器”,考试分数再高,也未必意味着在真实医疗场景中好用。

因此,医疗能力的评测需要有系统化的方法,验证模型在推理决策、临床沟通等关键能力上的综合表现。

今年5月,OpenAI发布权威且贴近真实临床场景的HealthBench医疗健康评测集。

该测评集包含了5000个广泛场景覆盖的医患多轮对话,并通过由262个人类医生编写的48562个医疗评价规则来对模型能力进行评估,是全球公认的医疗大模型“能力试金石”。

该数据集主要包含2个版本:

  • HealthBench:标准版本,包含5000条对话和对应准则。

  • HealthBench Hard:包含1000个特别具有挑战性的案例。

在HealthBench中,Baichuan-M2得到60.1高分,反超OpenAI最新开源模型gpt-oss120b(得分57.6),还力压Qwen3-235B、Deepseek R1、Kimi K2等当前世界所有开源大模型。

同时,Baichuan M2在医疗对话任务中展现出显著优势,如紧急医疗响应、医疗上下文理解、医患沟通能力、全球健康知识覆盖及医学思维完备性等核心医疗场景性能全面领先。

HealthBench Hard,是一个针对更复杂困难场景的数据集,用于验证模型多维度、全景化解决疑难复杂医学问题的能力。

据悉,此前该测试集发布时,世界上所有顶尖模型得分都没超过32分,许多前沿模型得分甚至为0。

GPT-5发布时,OpenAI也特别强调,其是HealthBench Hard评测全球唯一超过32分的模型。

但现在Baichuan-M2打破了这一纪录,其以34.7分成为全球第二款超过32分的模型,力压世界所有其他顶尖闭源大模型。而Baichuan-M2和GPT-5也是目前全球唯二超过32分的模型。

事实上,尽管HealthBench已收集大量真实医疗场景,但现实情况往往更加复杂多样。

不过,基于其评测,也至少能够证明在多数医疗场景上的问答质量,GPT-5和Baichuan-M2已经超越资深医生,特别是在知识更新速度和全面性上,完全可以给人类医生强大支持。

那么,百川智能的Baichuan-M2医疗大模型,是如何以32B参数,实现以小博大?其核心思路,就是让大模型像医生一样思考、应对真实医患场景。

从技术角度来说,其背后则是百川智能在大型验证系统(Large Verifier System)、端到端强化学习、AI患者模拟器、多类型医疗数据用于深度推理等4个方面的创新探索。

近一年来,大语言模型后训练范式的升级,特别是基于RLVR(Reinforcement Learning with Verifiable Rewards)方法的大规模强化学习训练,带来了大模型效果的显著提升,尤其是在有明确答案的数学、代码、科学等领域。

但是,强化学习在数学、代码、科学等领域之所以能够显著提升模型能力,是因为这些领域的数据是静态的,由简洁的问题和答案构成。

而医疗问题却是复杂问题,没有标准答案,同一个症状可能存在不同病因,同一病因,患者的体格、病史、用药史、药物耐受程度不一样,治疗方案也会不同。

因此,医疗领域的强化学习不仅要验证诊断结果、治疗方案的准确性,还要验证大模型的问诊对话过程是否符合医生思维,是一个动态验证的形式,也就导致传统强化学习规则在医疗领域表现并不好。

针对这一现状,百川智能则以构建Large Verifier System为核心,在通用Verifier之外,结合医疗场景自身特点设计了一套较为全面的医疗Verifier系统。

用通俗的话来理解,如果将大模型比作一位医学实习生,那么这个系统就像是一个要求极高、异常挑剔的医疗专家。它会从医疗正确性、完备性、安全性以及对患者的友好性等多个维度,细致地评估模型的输出,指出其不足并引导模型改正,使其思维方式更贴近专业医生。

但想要让这个系统成为严谨的医疗专家,最大的难点在于,人类医生在听取患者描述病情时,很容易分辨患者描述中的逻辑漏洞、从含混不清的表达中辨别出真实病因。现实中患者几乎无法全面准确表达自己的症状,仅基于静态的病例、指南等医疗数据训练,模型无法掌握人类医生的这一能力。

而为了突破这一瓶颈,百川技术团队升级迭代了今年初首创的“AI患者模拟器”。

今年1月,百川在arXiv上发表AI患者模拟器,用真实数据构造上万个不同年龄性别症状的AI患者,能够模拟千差万别患者的症状和表达,特别是包含错误噪声的表达,最大程度还原真实医疗场景。

7个月后,百川升级患者模拟器并引入模型端到端强化学习,训练的Baichuan-M2在HealthBench等评测上取得更大突破。

图片

这个模拟器的具体作用就是让AI在训练时,不断和这个虚拟病人聊天,而在聊天的过程中,“考官” 会实时根据聊天情况,动态调整打分标准,帮AI练出“随机应变”的能力,即就算病人说的信息乱、不全,也能重新判断病情,以及会看病人说的信息够不够,决定是继续问还是直接给结论。

而为了AI能够更好的学习医学知识,百川智能还采用了多阶段强化学习策略(Multi- Stage RL),将复杂的强化学习任务分解为几个易于管理的、分层的训练阶段。

就像学车要先练直线、再练转弯、最后上马路,AI学当医生也分阶段练,先练“医学常识”,再练“和病人聊天的技巧”,最后练“复杂病例的诊断”,一步步提升,避免一下子学太难而懵圈。

综合来看,用“智能考官”判断AI表现,用“真实病例 + 虚拟病人”模拟实战,分阶段训练让AI既懂医学知识,又能灵活应对真实医患场景,百川智能最终使大模型具备了一个靠谱医生的能力。

但在当前AI大模型落地应用浪潮中,大模型不仅仅要有能力,更重要的还是能落地,尤其是在垂直行业中,很多时候都面临着大模型效果是很好,但部署运营成本太高,终成demo的情况。

医疗大模型落地既要效果好还要成本低

早在2016年的深度学习浪潮中,AI就已经开始在医疗场景落地,但彼时更多是聚焦在语音语义、图像等方面的应用,以及单点功能(病例录入、智能阅片)的落地。

但这一代医疗大模型开启了全新范式其能力与上一代医疗AI相比已经产生了质的飞跃,医疗大模型不仅仅是医学知识的问答引擎与效率提升的工具,它能够通过Agent的方式全流程融入到诊中、诊前、诊后的各个环节,为AI落地医疗真实场景打开了更广阔的空间

百川智能医疗大模型的迭代和落地正是这一颠覆性变化的侧写。

在实践应用中,今年2月,以Baichuan-M1为底座的AI儿科医生在国家儿科医学中心多学科会诊中大放异彩,获得会诊专家一致认可。M2则在医疗沟通、诊断合理、检查合理、医疗治疗、医疗安全六个维度相较于M1均显著提升。

这背后最关键的一点在于,Baichuan-M2为了更适配中国医疗场景,也从中国医学指南对齐、医疗政策适配和患者需求洞察等多个维度进行了深度优化。

在中国临床诊疗场景的问题评测中,对比gpt-oss系列模型,Baichuan-M2展现出更明显的可用性优势,其中部分优势就来源自中国医疗场景的适配性,例如针对临床诊疗的案例,M2更贴合中国医疗场景,更遵循中国权威指南推荐。

以某一个真实的肝癌治疗案例中,针对CNLC IIa期(BCLC B期)的肝细胞肝癌患者,M2首选推荐在具备手术条件的情况下进行解剖性肝右叶切除(或根据肿瘤具体位置,可考虑扩大右半肝切除、右三叶切除等),目标是R0切除。

图片

原因在于,依据国家卫健委发布的《原发性肝癌诊疗指南》(2024版),肝切除术是潜在根治性治疗,可提供最佳的长期生存获益。

同样的案例,gpt-oss-120b建议首选治疗经动脉化疗栓塞术(TACE),理由是符合BCLCB期治疗指南,当前情况下手术切除和移植风险不理想。

临床医学专家认为,类似这样的情况还有很多。

仅就这个案例来说,手术切除或TACE都是可选方案,只是中西方指南不同,不是医学上的高下之分,而是基于本地患者特点、医疗资源与当前医学发展水平权衡之下的最优解。

毕竟,医疗大模型能否将全球医学知识、医学证据转化为符合本地优势特长的临床决策,也是为医生和患者提供切实服务能力的关键。

Baichuan-M2则为此所做的专门优化,让中国临床场景有了专属的顶尖模型。此外,更为重要的一点在于,Baichuan-M2能够让中国万千医疗机构以更低的成本部署使用。

业内皆知,医疗大模型落地面临“两难”,即追求高精度往往意味着高成本,如闭源模型授权费、定制化开发投入,而低成本方案又难以满足临床核心需求,尤其是在复杂场景的推理上。

Baichuan-M2则通过技术优化和开源的方式,降低了医疗机构的部署成本。

百川智能通过多种PTQ量化策略,对Baichuan-M2进行权重4bit量化,量化后模型精度接近无损,可在RTX4090上单卡部署,相比DeepSeek-R1H20双节点部署方式,成本降低了57倍。

同时,其基于Eagle-3训练了Baichuan-M2-Spec版本,单用户场景下token吞吐可获得74.9%的提升。

另外,开源大模型特性是支持二次开发,可根据具体场景轻量化训练,避免“大而全”的冗余成本,模型权重、训练代码全开放,企业/机构无需支付授权费。

百川M2开源医疗大模型为中国医疗AI提供了“低成本突破”的路径,推动医疗AI技术的普惠应用。它通过“高精度推理 + 开源低成本”的组合,证明医疗大模型落地无需在效果与成本间妥协。

直面全球差距

中国医疗AI的突围之道

今年是AI大模型浪潮兴起的第三年,但在全球市场中,中国通用大模型一直处于跟随者地位。

近期在由谷歌Kaggle推出的首届全球AI象棋争霸赛中,一众中国大模型也表现并不佳,首轮比赛中就被淘汰出局。

我们可以看到,在通用大模型上,中美之间始终存在着差距,无论是在能力上,还是在技术创新层面,差距也仍在不断扩大。

但相比较来说,中国更擅长的地方,则在于推动大模型走向落地应用,而这也是我们在AI垂直行业赛道能够弯道超车的关键。

百川智能作为中国大模型创企之一,选择医疗这一“中国有需求、有数据优势” 的领域深耕,用反超OpenAI的成绩证明 “中国可以在垂直赛道做全球第一”。

而通过开源大模型的模式,也可以降低医疗AI技术门槛,让全球研究者、医疗机构可直接复用模型,在细分的医疗领域构建出自己的专属模型,加速医疗AI的落地与创新。

此次发布会后,M2模型将进入全面落地期,百川将与国家儿童医学中心、北京大学第三医院、海淀卫健委等探索AI医疗的深度应用,真正推动AI医疗从 “实验室” 走向 “临床一线”。未来,随着模型的落地,将为基层医疗、疾病诊断等场景带来革新,推动“AI医疗惠及全民”。

举报

  • 相关推荐
  • AI大模型对比完全指南:如何选择最适合你的大模型?

    文章探讨了当前AI大模型市场众多选择带来的选择困难问题。面对GPT-4、Claude、文心一言等各具特色的模型,普通用户和企业难以科学评估和选择。文章提出了一套完整的评估体系,包括基础能力、技术性能、应用场景和商业考量四个维度,并建议采用标准化测试和实际场景验证相结合的方法。同时介绍了2025年主流AI模型的特点:GPT-4o在多模态交互领先,Claude3在编程和逻辑分析突出,Gemini2.5擅长长文本处理,国产DeepSeek则以高性价比见长。最后强调选择AI模型应基于具体需求,而非简单追求性能排名,建议通过专业对比平台和实际测试来验证。

  • AI大模型那么多,该如何科学对比选型?

    文章探讨了当前AI大模型选择的困境,指出随着国内外模型数量激增,用户面临选择难题。作者提出应从实际需求出发,考虑模型能力、成本、使用方式、中文支持等核心维度,避免只看参数规模或流行度的误区。特别推荐使用AIbase模型广场等对比工具,可快速比较多个模型的详细参数、调用方式和价格差异。文章以中文写作为例,对比了通义千问、月之暗面、文心一言和GPT-4�

  • 哪个大模型性价比最高?用这个 AI 大模型费用计算器轻松比价

    AI大模型快速发展,但不同厂商的定价规则差异大,导致选择困难。AIbase推出的AI大模型费用计算器(https://model.aibase.com/zh/calculator)能帮助开发者快速比较主流模型的调用成本。该工具覆盖GPT-4、Claude、文心一言等国内外热门模型,支持输入输出分开计费,实时更新官方定价,无需注册即可使用。用户只需输入文本,系统自动拆分token数并精准计算费用,结果清晰直观可排序。建议根据场景需求选择模型:平衡成本与性能可选GPT-4o、DeepSeek-V2;高精度需求选GPT-4 Turbo;中文场景优选国产模型。使用前通过计算器模拟成本,可避免项目超支风险。

  • 从多语破壁到生态共建 科大讯飞如何以全栈自主可控大模型赋能中国AI出海?

    2025世界人工智能大会(WAIC)上,科大讯飞展区成为焦点,展示20余款AI产品,呈现技术创新与产业赋能成果。其星火语音大模型支持37种主流语言,效果超越OpenAI Whisper v3,并覆盖130+语种和8万专业词汇。讯飞还举办多语言国际研讨会,汇聚20国30位专家,构建亚欧学术交流平台。作为中国AI领军企业,讯飞坚持自主可控技术路线,打造开放共赢生态,已在新加坡等地建立站点,拥有52.4万海外开发者。从大阪世博会到WAIC,讯飞正推动中国AI技术走向全球舞台中央,展现中国智慧。

  • 2025年国内AI大模型哪家强?上AI大模型选型对比工具,用数据说话!

    文章分析了国内AI大模型市场竞争格局,指出百度、阿里、腾讯、字节等科技巨头与初创公司纷纷布局,呈现繁荣景象。针对用户选型难题,提出需综合考虑参数规模、场景适配、成本效益等关键因素,并介绍了AIbase推出的AI大模型选型对比工具。该工具汇集主流模型最新数据,支持多维度能力对比和场景化筛选,帮助用户快速定位最适合自身需求的模型。最后强调没有"最强"的通用模型,只有最匹配特定场景的解决方案。

  • AI日报:智谱视觉推理模型GLM-4.5V开源;达摩院开源三项具身智能核心技术;360智脑推出Light-IF系列模型

    欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解:https://top.aibase.com/1、智谱GLM-4.5V开源发布:全球100B级最佳视觉推理模型智谱宣布推出并开源了全球100B级效果最佳的开源视觉推理模型GLM-4.5V,这是该公司在通向通用人工智能(AGI)道路上的又一重要探

  • 调动不同AI大模型费用怎么算?AI模型费用计算神器算清每一分投入!

    本文探讨了企业在调用不同AI大模型时的费用计算问题。随着GPT-4、Claude、文心一言等模型广泛应用,各厂商的计费规则差异显著:有的按Token收费,有的按调用次数,还有地区定价差异。相同任务在不同模型上的成本可能相差10倍。文章推荐使用AIbase费用计算器(https://model.aibase.com/zh/calculator),该工具覆盖主流模型,支持自定义参数,能快速对比不同模型的调用成本,帮助企业实现精准预算控制,选择最具性价比的AI服务方案。

  • AI模型怎么计费?大模型费用计算器助你精准预算,告别复杂参数困扰

    随着AI大模型普及应用,企业开发者面临复杂的计费挑战:主流模型采用Token计费,但不同模型Token换算差异大(如1Token=1.8汉字或1汉字),输入输出Token分开计价且输出更贵,隐藏成本包括上下文累积、重复调用等。定价模式多样(按量/包月),模型间价差显著(如DeepSeek V3成本仅为GLM-4Plus的1/3)。专业工具AIbase费用计算器(https://model.aibase.com/zh/calculator)可精准预估成本,覆盖GPT-4、文心一言等主流模型,智能处理Token换算和隐藏成本,提供多模型对比分析。实际案例显示,处理10万次咨询时文心一言成本(800元)显著低于GPT-4(2000+元)。未来趋势包括价格战推动成本下降、计费模式多元化(任务分级/套餐组合),建议企业建立成本监控体系,通过场景化分析和动态模型调整实现性价比最优。AI时代,专业计费工具将成为精准控制成本的关键。

  • AI日报:昆仑万维发布SkyReels-A3模型;百度搜索PC端全面上线AI搜索;Grok 4 AI模型永久免费开放

    AI日报栏目聚焦人工智能领域最新动态:1)昆仑万维发布SkyReels-A3模型,实现语音驱动数字人生成;2)xAI宣布Grok4模型永久免费开放;3)OpenAI发布GPT-5提示词指南;4)百度PC端上线AI搜索功能;5)微软Windows Co pilot接入GPT-5;6)百川智能开源医疗大模型Baichuan-M2性能超越GPT-oss120b;7)苹果iOS26将集成ChatGPT-5;8)谷歌推出3D视觉编辑框架BlenderFusion;9)轻量级TTS模型Kitten TTS参数仅1500万;10)MiniCPM-V

  • 载誉前行!YOUMAGIC舒立缇研发公司荣膺“年度创新医疗器械最佳企业”

    7月30日,YOUMAGIC舒立缇研发公司威脉医疗凭借"医工结合"创新路径和清华基因技术积累,荣获"2025年度创新医疗器械最佳企业"称号。作为国内首个获得NMPA与FDA双认证的单极射频设备,其产品通过清华能量源技术将射频脉宽从200ms升级至100ms,实现更精准温控和更低痛感。公司深化产学研布局,与清华无锡研究院共建能量医学工程研究中心,推动抗衰体验升级,重新定义行业标准,展现中国高端医械企业的全球竞争力。

今日大家都在搜的词: