斯坦福最新评测：DeepSeek R1医疗AI模型超越Google和OpenAI，赢得高分

2025-06-04 10:13 · 来源： AIbase基地

近日，斯坦福大学发布了一项有关临床医疗 AI 模型的全面评测，DeepSeek R1以66% 的胜率和0.75的宏观平均分，在九个前沿大模型中脱颖而出，成为冠军。这一评测的亮点在于，它不仅关注传统医疗执照考试题，更深入到临床医生的日常工作场景，给出了更切实的评估。

评测团队构建了一个名为 MedHELM 的综合评估框架，包含35个基准测试，覆盖22个医疗任务子类别。这个框架的设计经过了29名来自14个医学专科的执业医生验证，确保了其合理性与实用性。最终，评测结果揭示了 DeepSeek R1的优越性能，紧随其后的是 o3-mini 和 Claude3.7Sonnet。

具体而言，DeepSeek R1在各项基准测试中表现稳健，胜率标准差仅为0.10，表明其在不同测试中的稳定性。而 o3-mini 则在临床决策支持类别的基准测试中表现突出，以64% 的胜率和0.77的最高宏观平均分位居第二。其他模型如 Claude3.5和3.7Sonnet 分别以63% 和64% 的胜率紧随其后。

值得一提的是，此次评测还创新性地采用了大语言模型评审团（LLM-jury）方法进行结果评估，结果显示该方法与临床医生的评分高度一致，证明了其有效性。此外，研究团队还进行了成本效益分析，发现推理模型的使用成本相对较高，而非推理模型成本较低，适合不同需求的用户。

此次评测不仅为医疗 AI 的发展提供了宝贵的数据支持，也为未来的临床实践提供了更多的可能性和灵活性。

相关推荐

Google Gemini vs Deepseek：谁更适合你的业务场景？AI大模型选型终极对比指南

企业在选择大模型时面临两难：国际大厂的Gemini技术先进，但国内DeepSeek性价比突出。AIbase平台通过真实场景测试数据指出：1）跨境电商客服场景中，Gemini多语言识别准确率提升12%，但需注意API延迟问题；2）金融研报分析场景下，DeepSeek支持128K长文本且成本仅为Gemini的1/3。决策关键：抛开参数迷雾，聚焦成本、响应速度、语言支持和场景匹配四大维度。AIbase提供可视化对比工具，3分钟生成专属选型报告，让技术决策不再玄学。

大模型选型 Gemini对比DeepSeek LLM评测
免费使用！腾讯地图已接入DeepSeek-V3.1

DeepSeek V3.1于2025年8月21日发布并开源，腾讯地图率先完成接入。新版AI助手“AI叮当”在三大核心能力显著提升：思考效率更高，响应更快；上下文理解更强，支持多轮连贯对话；智能体调用更精准，尤其在中文网页理解和跨领域搜索方面表现突出。依托升级，AI叮当可提供个性化行程规划、周边推荐及景点知识问答等智能出行服务，让导航升级为全程智能生活陪伴。

DeepSeek V3.1 腾讯地图
2025年大模型选型核心指南：Beyond GPT-4，如何理性评估Qwen、DeepSeek等强者？

大模型选择能力已成为AI时代企业核心竞争力。文章提出“能力-成本-场景”三维评估框架，强调需超越单一指标崇拜，基于客观数据和实际需求进行理性选择。通过Qwen2-Plus与DeepSeek-V3的对比分析，展示不同模型在特定场景下的差异化优势。建议企业建立科学选型流程，采用专业工具进行多维度评估，通过三阶段验证策略确保决策既数据驱动又经实践检验。最终目标是选择最适合业务场景的模型，而非盲目追求流行模型。
别再猜了！手把手教你用数据选择AI模型，我的Gemini 2.5 Flash-Lite vs DeepSeek选型心得

开发者分享模型选择心路历程：从盲目试错到数据驱动。曾因追求低价模型导致成本飙升，后通过AIbase平台对比Gemini 2.5 Flash-Lite和DeepSeek-V3，基于价格、上下文长度和代码能力等数据，最终选择更适合代码生成任务的DeepSeek-V3。强调没有“最好”的模型，只有“最适合”的模型，建议开发者善用专业工具进行数据驱动决策，避免隐性成本。
小渔夫20周年荣膺Google双料大奖，共筑品牌出海新生态

2025年8月14日，小渔夫在Google中国总部举办的B2B代理商高层研讨会上，凭借出海营销领域的突出贡献，成为全国唯一同时获得谷歌“百万会员俱乐部战略合作伙伴”与“星火Plus优秀客户成长合作伙伴”双项认证的企业。这标志着谷歌对其技术实力和重塑B2B出海营销模式的战略认可。双方将携手推动B2B客户从效果营销向全方位海外营销转型，打造行业标杆案例，助力更多中国B2B企业在国际舞台绽放光芒。

B2B出海营销 Google认证出海营销
荐AI日报：DeepSeek V3.1正式发布；企业微信5.0推出全新AI能力；快手 Klear-Reasoner 模型成功登顶

AI日报栏目聚焦人工智能领域最新动态。DeepSeek V3.1发布，大幅增强长文档分析和代码理解能力；企业微信5.0集成智能搜索、总结和机器人功能；快手Klear-Reasoner模型数学推理准确率超90%；谷歌Docs新增AI语音朗读功能；Firecrawl完成1450万美元融资并推出V2版本API；Meta上线AI语音翻译功能；微软Excel集成Copilot实现一键数据分析；Claude桌面客户端推动AI编程可视化；苹果Xcode将原生集成Cl

AI DeepSeek V3.1
AI大模型选型决策指南：10分钟数据对比 Gemini 2.5 Flash-Lite 与 DeepSeek R1

本文探讨大模型选型困境与解决方案。2025年全球可调用大模型超300个，但选型面临三大难题：单位混乱、定价波动快、87%团队无法量化模型价值。提出三层漏斗筛选法：1)场景刚需筛选80%选项；2)验证核心性能；3)评估边际效益。以Gemini和DeepSeek为例，前者适合常规FAQ场景年省$16,000，后者适用于金融计算场景可降低15%人工复核。建议建立动态评估体系，将3小时选型会议压缩至18分钟，错误率下降40%。核心观点：选型应从参数争论转向场景验证，通过自动化工具为工程师节省时间，聚焦提示词优化而非参数对比。

文章搜索核心标签模型适配
Gemini 2.5 Flash-Lite与 DeepSeek-V3 深度对比：谁在性价比上更胜一筹？

面对琳琅满目的大模型API，开发团队常陷入选择困境。文章指出，2024年既是机遇也是挑战的时代，闭源模型选择丰富但性能与成本平衡复杂。通过AIbase等数据驱动平台进行客观对比至关重要。以Gemini 2.5 Flash-Lite和DeepSeek-V3为例，前者综合能力强适合多语言场景，后者在代码生成和成本控制上优势明显。建议开发者明确需求，通过实际测试验证模型表现，理性选择最适合的方案。

大模型API 模型选型 AI开发
荐智能体迎来“DeepSeek时刻”，为何主角是纳米AI？

大模型重塑了人工智能的产业格局，但却没有彻底颠覆人类的生产模式。在这背后，并非其技术力量不足，而是当前的应用形态仍停留在“工具赋能”的初级阶段，大模型的潜力被束缚在碎片化场景中，未能转化为重构生产逻辑的核心动能。正如360集团创始人、董事长周鸿祎所言，大模型的能力其实已经相当强大，甚至超越了我们中的许多人。只是其潜力尚未被挖掘。而�

大模型人工智能生产模式
OpenAI的开源模型现已在IBM watsonx.ai上提供

OpenAI发布两款开源AI模型GPT-OSS-120B和GPT-OSS-20B，允许开发者自由下载、运行和定制。其中120B模型已部署在IBM Watsonx.ai平台，采用专家混合架构，支持本地或云端部署，不受商业用途限制。模型具备高透明度，输出完整推理链，在多项基准测试中表现优异。此次发布标志着OpenAI首次加入开源生态，IBM强调其开放战略，为企业提供灵活、安全的AI开发选择。

OpenAI模型 IBM watsonx.ai

今日大家都在搜的词：

热文

3 天
7天

斯坦福最新评测：DeepSeek R1医疗AI模型超越Google和OpenAI，赢得高分

Google Gemini vs Deepseek：谁更适合你的业务场景？AI大模型选型终极对比指南

免费使用！腾讯地图已接入DeepSeek-V3.1

2025年大模型选型核心指南：Beyond GPT-4，如何理性评估Qwen、DeepSeek等强者？

别再猜了！手把手教你用数据选择AI模型，我的Gemini 2.5 Flash-Lite vs DeepSeek选型心得

小渔夫20周年荣膺Google双料大奖，共筑品牌出海新生态

荐AI日报：DeepSeek V3.1正式发布；企业微信5.0推出全新AI能力；快手 Klear-Reasoner 模型成功登顶

AI大模型选型决策指南：10分钟数据对比 Gemini 2.5 Flash-Lite 与 DeepSeek R1

Gemini 2.5 Flash-Lite与 DeepSeek-V3 深度对比：谁在性价比上更胜一筹？

荐智能体迎来“DeepSeek时刻”，为何主角是纳米AI？

OpenAI的开源模型现已在IBM watsonx.ai上提供

今日大家都在搜的词：

热文

2025民营企业500强揭晓：京东第一

华为MatePad Mini官宣9月4日发布

SpaceX第10次试飞成功马斯克：星舰这次没有空中爆炸

小米澎湃OS3发布会官宣首批Beta版招募机型公布

AI日报：字节视频模型Waver 1.0发布；百度AI搜索APP“梯子AI”

今日七夕节微信 520 元大额红包限时上线

iPhone17标准版或上高刷苹果2025秋季发布会定档9月10日

AI日报：字节OmniHuman-1.5发布；PixVerse V5模型上线；腾讯

realme真我15000mAh电池容量手机亮相

华为三折叠屏手机Mate XTs非凡大师上架开启预约

2025民营企业500强揭晓：京东第一

华为MatePad Mini官宣9月4日发布

SpaceX第10次试飞成功马斯克：星舰这次没有空中爆炸

AI日报：钉钉十周年发布8.0版本；微信悄悄上线AI播客；阿里开源

小米澎湃OS3发布会官宣首批Beta版招募机型公布

iPhone17Pro爆料汇总：橙色版本成最大亮点或迎12项升级

20周年版iPhone或成苹果首款曲面机：一体环绕玻璃+曲面机身

AI日报：字节视频模型Waver 1.0发布；百度AI搜索APP“梯子AI”

今日七夕节微信 520 元大额红包限时上线

罗永浩播客节目爆火：24小时播放量超2000万晒成绩单求合作

站长商机