OpenAI 发布 HealthBench：评估大型语言模型在医疗领域表现的新标准

2025-05-13 14:40 · 来源： AIbase基地

近日，OpenAI 发布了一款名为 HealthBench 的开源评估框架，旨在测量大型语言模型（LLMs）在真实医疗场景中的表现和安全性。此框架的开发得到了来自60个国家和26个医学专业的262名医生的支持，旨在弥补现有评估标准的不足，特别是在真实应用、专家验证和诊断覆盖方面。

现有的医疗 AI 评估标准通常依赖于狭窄、结构化的形式，如多项选择考试。虽然这些形式在初步评估中有所帮助，但它们无法充分捕捉真实临床交互的复杂性和细微差别。HealthBench 则转向一种更具代表性的评估模式，包含5000个模型与普通用户或医疗专业人士之间的多轮对话。每个对话以用户提问结束，模型的回答则依据医生编写的特定评估标准进行评分。

HealthBench 的评估框架分为七个关键主题，包括紧急转诊、全球健康、健康数据任务、寻求背景、针对性沟通、回答深度以及在不确定情况下的反应。每个主题代表医疗决策和用户互动中的不同挑战。除了标准评估外，OpenAI 还推出了两个变体:

1. HealthBench Consensus:强调34个经过医生验证的标准，旨在反映模型行为的关键方面，如建议紧急护理或寻求更多背景信息。

2. HealthBench Hard:一个更具挑战性的子集，包含1000个经过挑选的对话，旨在考验当前前沿模型的能力。

OpenAI 对多种模型进行了评估，包括 GPT-3.5Turbo、GPT-4o、GPT-4.1和更新的 o3模型。结果显示出显著的进步:GPT-3.5的得分为16%，GPT-4o 为32%，而 o3达到了60%。尤其是较小、成本效益高的 GPT-4.1nano 模型，其表现超越了 GPT-4o，同时将推理成本降低了25倍。

评估结果还显示，模型在不同主题和评估维度上的表现有所差异。紧急转诊和针对性沟通相对较强，而背景寻求和完整性则面临更大的挑战。OpenAI 还将模型输出与医生的回应进行了比较，发现未辅助的医生通常生成的回应得分较低，但能够在处理模型生成草稿时取得进展，特别是早期版本的模型。

HealthBench 还包括评估模型一致性的机制，以确保结果的可靠性。OpenAI 通过超过60，000个注释示例进行的元评估表明，作为默认评估者的 GPT-4.1在大多数主题中表现不逊于个体医生，显示其作为一致评估者的潜力。

项目:https://github.com/openai/simple-evals

划重点:
- 🩺 OpenAI 推出 HealthBench，专注于大型语言模型在医疗领域的评估，得到了262名医生的参与和验证。
- 🔍 HealthBench 的评估涵盖七个关键主题，采用5000个真实对话，提供更细致的模型行为分析。
- 📊 评估结果显示模型间表现差异明显，GPT-4.1nano 以较低成本表现出色，展现了模型作为临床工具的潜力。

相关推荐

技嘉推出 STEALTH ICE 系列 AMD X870/B850 背插主板

技嘉科技推出Project STEALTH系列，创新采用主板背插设计，将接口移至背面，简化装机布线流程。新一代STEALTH ICE系列包含AMD X870/B850主板与C500全景机箱，主打纯白美学与270度全景视角，兼顾视觉美感与装机便利性。该设计不仅释放机箱内部空间，便于展示水冷和RGB灯效，更与海盗船、分形工艺等10余家厂商合作，推出20余款兼容机箱，拓展用户选择。Project STEALTH通过工艺革新，为追求简约设计或高性能白色主机的用户，提供兼具美观与实用性的DIY解决方案。

技嘉科技 Project STEALTH
为编程而生？OpenAI 发布 GPT -4.1 系列模型

OpenAI 表示，GPT-4.1 是为开发者量身定制的……

openai gpt-4.1 gpt-4.1mini
奥特曼：ChatGPT不是AGI！OpenAI最强开源模型直击DeepSeek

【新智元导读】代码截图泄露，满血版o3、o4-mini锁定下周!更劲爆的是，一款据称是OpenAI的神秘模型一夜爆红，每日处理高达260亿token，是Claude用量4倍。奥特曼在TED放话:将推超强开源模型，直面DeepSeek挑战。持续的创新、丰富的资源和智能AI将会无缝融入日常生活，未来一代人将会觉得当前人们又辛苦又落后。

代码泄露 OpenAI 模型发布
荐国产六大推理模型激战OpenAI？

2025年春节前夕，DeepSeek-R1模型发布，标志着中国AI进入推理模型新时代。文章梳理了国产大模型发展历程：从2022年ChatGPT引发国内追赶OpenAI热潮，到2023年"百模大战"，再到2024年"AI六小虎"格局形成。重点分析了六大国产推理模型（DeepSeek、百度、阿里、科大讯飞、字节、腾讯）的技术特点与市场表现，指出国产模型在性能上已接近GPT-4水平。特别强调科大讯飞星火X1凭借全国产化技术路线获得政企青睐，以及DeepSeek-R1以560万美元超低成本实现高性能的突破。文章还探讨了英伟达芯片断供危机下，国产全栈技术路径的重要性，认为自主可控将成为对抗国际不确定性的关键。最后指出，随着推理模型成为竞争焦点，国产大模型正从技术追随转向自主创新阶段。

AI技术 DeepSeek-R1 云服务器
荐刚刚，OpenAI发布GPT-image-1模型，更强吉卜力版本来啦

OpenAI发布全新图像生成模型GPT-image-1，通过API向全球开发者开放。该模型支持精细控制图像敏感度、生成效率、背景、输出格式等参数，并集成吉卜力模式。Adobe、Figma等企业已将其应用于产品中。API支持批量生成、蒙版编辑、透明度调整等高级功能，图像生成成本从0.02-0.19美元/张不等。CEO Sam Altman表示该模型与ChatGPT版本差异显著，开发者可通过API实现更多创意场景。新模型在�

OpenAI GPT-image-1 图像生成
OpenAI高管计划收购谷歌Chrome：对ChatGPT搜索至关重要

OpenAI高管Nick Turley在谷歌反垄断庭审中透露，若法院裁定谷歌必须出售Chrome浏览器以恢复搜索市场竞争，OpenAI有意收购。庭审揭露OpenAI曾主动寻求与谷歌合作获取搜索技术支持，但遭拒绝。目前ChatGPT仍依赖微软必应搜索技术。Turley承认搜索功能对ChatGPT至关重要，但实现80%查询使用自有搜索技术仍需数年时间。他支持司法部要求谷歌共享搜索数据的提议，认为这将加速ChatGPT技术改进。这场诉讼揭示了AI领域激烈竞争的冰山一角，检方担忧谷歌搜索垄断可能延伸至AI领域。

OpenAI 谷歌反垄断 Chrome浏览器
OpenAI之后，雅虎也盯上了谷歌：我们将收购Chrome！

“如果谷歌出售 Chrome，雅虎已准备好推进收购事宜。” 雅虎搜索负责人如是说道。

雅虎谷歌 Chrome
用户吐槽“ChatGPT太谄媚”，OpenAI 回滚“个性化”更新

OpenAI 想要为 ChatGPT 塑造一个更友好、更具支持性的个性。他们最新发布的更新确实符合这一描述，但有点过界了……

GPT4o GPT4o怎么用 GPT4o官网
荐突发！OpenAI将收购谷歌浏览器Chrome

OpenAI高管在谷歌反垄断案庭审中作证透露，若谷歌败诉将收购其Chrome浏览器。美国司法部要求拆分Chrome以打破谷歌搜索垄断。ChatGPT产品负责人Turley作证称，OpenAI曾试图与谷歌合作使用其搜索技术但遭拒。邮件显示OpenAI去年7月提出合作请求，8月被谷歌以涉及竞争对手为由拒绝。Turley认为，若法院强制谷歌共享搜索数据将加速ChatGPT改进。目前ChatGPT距离实现80%查询使用自有搜索技

OpenAI 谷歌反垄断
荐AI日报：智谱开源32B/9B系列GLM模型并启用Z.ai域名；OpenAI发布GPT-4.1系列模型；阿里魔搭上线MCP广场

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解:https://top.aibase.com/1、智谱AI启用全新域名Z.ai 并开源32B/9B 系列 GLM 模型智谱技术团队近期宣布开源32B和9B系列的GLM模型，并推出全新交互体验平台Z.ai。这些模型遵循MIT许可协议，支持商业用途，提升了

人工智能开源模型 GLM模型

今日大家都在搜的词：

热文

3 天
7天

OpenAI 发布 HealthBench：评估大型语言模型在医疗领域表现的新标准

技嘉推出 STEALTH ICE 系列 AMD X870/B850 背插主板

为编程而生？OpenAI 发布 GPT -4.1 系列模型

奥特曼：ChatGPT不是AGI！OpenAI最强开源模型直击DeepSeek

荐国产六大推理模型激战OpenAI？

荐刚刚，OpenAI发布GPT-image-1模型，更强吉卜力版本来啦

OpenAI高管计划收购谷歌Chrome：对ChatGPT搜索至关重要

OpenAI之后，雅虎也盯上了谷歌：我们将收购Chrome！

用户吐槽“ChatGPT太谄媚”，OpenAI 回滚“个性化”更新

荐突发！OpenAI将收购谷歌浏览器Chrome

荐AI日报：智谱开源32B/9B系列GLM模型并启用Z.ai域名；OpenAI发布GPT-4.1系列模型；阿里魔搭上线MCP广场

今日大家都在搜的词：

热文

AI侵权纠纷愈演愈烈，特朗普罢免美国版权主管

在由人类创造的“AI驱动”的世界里，人类该何去何从？

三星、LG本月开始为iPhone 17批量生产OLED面板

2027 年太晚了？随着竞争加剧，iPhone 已失去光彩

C++创始人：需要改变的不是语言，而是开发者的思维方式！

隐私被抛弃，监控成为主流？Meta为其AI眼镜新增人脸识别功能

AI侵权纠纷愈演愈烈，特朗普罢免美国版权主管

Anthropic推出Claude网络搜索API，押注“后谷歌时代”信息访问

在由人类创造的“AI驱动”的世界里，人类该何去何从？

三星、LG本月开始为iPhone 17批量生产OLED面板

特朗普关税政策颠覆汽车行业，福特率先开启“涨价潮”！

2027 年太晚了？随着竞争加剧，iPhone 已失去光彩

基于安卓16的三星 One UI 8 本月发布首个测试版本

苹果高管称：10 年后，可能 iPhone 将不复存在！

C++创始人：需要改变的不是语言，而是开发者的思维方式！

站长商机