首页 > AI头条  > 正文

OpenAI 发布 HealthBench:评估大型语言模型在医疗领域表现的新标准

2025-05-13 14:40 · 来源: AIbase基地

近日,OpenAI 发布了一款名为 HealthBench 的开源评估框架,旨在测量大型语言模型(LLMs)在真实医疗场景中的表现和安全性。此框架的开发得到了来自60个国家和26个医学专业的262名医生的支持,旨在弥补现有评估标准的不足,特别是在真实应用、专家验证和诊断覆盖方面。

QQ_1747118377933.png

现有的医疗 AI 评估标准通常依赖于狭窄、结构化的形式,如多项选择考试。虽然这些形式在初步评估中有所帮助,但它们无法充分捕捉真实临床交互的复杂性和细微差别。HealthBench 则转向一种更具代表性的评估模式,包含5000个模型与普通用户或医疗专业人士之间的多轮对话。每个对话以用户提问结束,模型的回答则依据医生编写的特定评估标准进行评分。

QQ_1747118245591.png

HealthBench 的评估框架分为七个关键主题,包括紧急转诊、全球健康、健康数据任务、寻求背景、针对性沟通、回答深度以及在不确定情况下的反应。每个主题代表医疗决策和用户互动中的不同挑战。除了标准评估外,OpenAI 还推出了两个变体:

1. HealthBench Consensus:强调34个经过医生验证的标准,旨在反映模型行为的关键方面,如建议紧急护理或寻求更多背景信息。

2. HealthBench Hard:一个更具挑战性的子集,包含1000个经过挑选的对话,旨在考验当前前沿模型的能力。

OpenAI 对多种模型进行了评估,包括 GPT-3.5Turbo、GPT-4o、GPT-4.1和更新的 o3模型。结果显示出显著的进步:GPT-3.5的得分为16%,GPT-4o 为32%,而 o3达到了60%。尤其是较小、成本效益高的 GPT-4.1nano 模型,其表现超越了 GPT-4o,同时将推理成本降低了25倍。

评估结果还显示,模型在不同主题和评估维度上的表现有所差异。紧急转诊和针对性沟通相对较强,而背景寻求和完整性则面临更大的挑战。OpenAI 还将模型输出与医生的回应进行了比较,发现未辅助的医生通常生成的回应得分较低,但能够在处理模型生成草稿时取得进展,特别是早期版本的模型。

HealthBench 还包括评估模型一致性的机制,以确保结果的可靠性。OpenAI 通过超过60,000个注释示例进行的元评估表明,作为默认评估者的 GPT-4.1在大多数主题中表现不逊于个体医生,显示其作为一致评估者的潜力。

项目:https://github.com/openai/simple-evals

划重点:

- 🩺 OpenAI 推出 HealthBench,专注于大型语言模型在医疗领域的评估,得到了262名医生的参与和验证。

- 🔍 HealthBench 的评估涵盖七个关键主题,采用5000个真实对话,提供更细致的模型行为分析。

- 📊 评估结果显示模型间表现差异明显,GPT-4.1nano 以较低成本表现出色,展现了模型作为临床工具的潜力。

  • 相关推荐
  • 技嘉推出 STEALTH ICE 系列 AMD X870/B850 背插主板

    技嘉科技推出Project STEALTH系列,创新采用主板背插设计,将接口移至背面,简化装机布线流程。新一代STEALTH ICE系列包含AMD X870/B850主板与C500全景机箱,主打纯白美学与270度全景视角,兼顾视觉美感与装机便利性。该设计不仅释放机箱内部空间,便于展示水冷和RGB灯效,更与海盗船、分形工艺等10余家厂商合作,推出20余款兼容机箱,拓展用户选择。Project STEALTH通过工艺革新,为追求简约设计或高性能白色主机的用户,提供兼具美观与实用性的DIY解决方案。

  • 为编程而生?OpenAI 发布 GPT -4.1 系列模型

    OpenAI 表示,GPT-4.1 是为开发者量身定制的……

  • 奥特曼:ChatGPT不是AGI!OpenAI最强开源模型直击DeepSeek

    【新智元导读】代码截图泄露,满血版o3、o4-mini锁定下周!更劲爆的是,一款据称是OpenAI的神秘模型一夜爆红,每日处理高达260亿token,是Claude用量4倍。奥特曼在TED放话:将推超强开源模型,直面DeepSeek挑战。持续的创新、丰富的资源和智能AI将会无缝融入日常生活,未来一代人将会觉得当前人们又辛苦又落后。

  • 国产六大推理模型激战OpenAI

    2025年春节前夕,DeepSeek-R1模型发布,标志着中国AI进入推理模型新时代。文章梳理了国产大模型发展历程:从2022年ChatGPT引发国内追赶OpenAI热潮,到2023年"百模大战",再到2024年"AI六小虎"格局形成。重点分析了六大国产推理模型(DeepSeek、百度、阿里、科大讯飞、字节、腾讯)的技术特点与市场表现,指出国产模型在性能上已接近GPT-4水平。特别强调科大讯飞星火X1凭借全国产化技术路线获得政企青睐,以及DeepSeek-R1以560万美元超低成本实现高性能的突破。文章还探讨了英伟达芯片断供危机下,国产全栈技术路径的重要性,认为自主可控将成为对抗国际不确定性的关键。最后指出,随着推理模型成为竞争焦点,国产大模型正从技术追随转向自主创新阶段。

  • 刚刚,OpenAI发布GPT-image-1模型,更强吉卜力版本来啦

    OpenAI发布全新图像生成模型GPT-image-1,通过API向全球开发者开放。该模型支持精细控制图像敏感度、生成效率、背景、输出格式等参数,并集成吉卜力模式。Adobe、Figma等企业已将其应用于产品中。API支持批量生成、蒙版编辑、透明度调整等高级功能,图像生成成本从0.02-0.19美元/张不等。CEO Sam Altman表示该模型与ChatGPT版本差异显著,开发者可通过API实现更多创意场景。新模型在�

  • OpenAI高管计划收购谷歌Chrome:对ChatGPT搜索至关重要

    OpenAI高管Nick Turley在谷歌反垄断庭审中透露,若法院裁定谷歌必须出售Chrome浏览器以恢复搜索市场竞争,OpenAI有意收购。庭审揭露OpenAI曾主动寻求与谷歌合作获取搜索技术支持,但遭拒绝。目前ChatGPT仍依赖微软必应搜索技术。Turley承认搜索功能对ChatGPT至关重要,但实现80%查询使用自有搜索技术仍需数年时间。他支持司法部要求谷歌共享搜索数据的提议,认为这将加速ChatGPT技术改进。这场诉讼揭示了AI领域激烈竞争的冰山一角,检方担忧谷歌搜索垄断可能延伸至AI领域。

  • OpenAI之后,雅虎也盯上了谷歌:我们将收购Chrome!

    “如果谷歌出售 Chrome,雅虎已准备好推进收购事宜。” 雅虎搜索负责人如是说道。

  • 用户吐槽“ChatGPT太谄媚”,OpenAI 回滚“个性化”更新

    OpenAI 想要为 ChatGPT 塑造一个更友好、更具支持性的个性。他们最新发布的更新确实符合这一描述,但有点过界了……

  • 突发!OpenAI将收购谷歌浏览器Chrome

    OpenAI高管在谷歌反垄断案庭审中作证透露,若谷歌败诉将收购其Chrome浏览器。美国司法部要求拆分Chrome以打破谷歌搜索垄断。ChatGPT产品负责人Turley作证称,OpenAI曾试图与谷歌合作使用其搜索技术但遭拒。邮件显示OpenAI去年7月提出合作请求,8月被谷歌以涉及竞争对手为由拒绝。Turley认为,若法院强制谷歌共享搜索数据将加速ChatGPT改进。目前ChatGPT距离实现80%查询使用自有搜索技

  • AI日报:智谱开源32B/9B系列GLM模型并启用Z.ai域名;OpenAI发布GPT-4.1系列模型;阿里魔搭上线MCP广场

    欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解:https://top.aibase.com/1、智谱AI启用全新域名Z.ai 并开源32B/9B 系列 GLM 模型智谱技术团队近期宣布开源32B和9B系列的GLM模型,并推出全新交互体验平台Z.ai。这些模型遵循MIT许可协议,支持商业用途,提升了

今日大家都在搜的词: