首页 > 业界 > 关键词  > HuggingFace最新资讯  > 正文

Hugging Face 发布医疗任务评估基准Open Medical-LLM

2024-04-19 11:17 · 稿源:站长之家

划重点:

⭐️ Hugging Face 发布了一个新的医疗任务评估基准,旨在测试生成式人工智能模型在健康相关任务上的表现。

⭐️ Open Medical-LLM 基准由现有测试集拼接而成,涵盖多个医学领域,如解剖学、药理学、遗传学和临床实践。

⭐️ 一些医学专家对 Open Medical-LLM 提出了警告,强调实际临床实践与医学问题回答之间存在较大差距,强调基准测试结果不能替代真实世界测试。

站长之家(ChinaZ.com)4月19日 消息:近期,Hugging Face 发布了一项名为 Open Medical-LLM 的新基准测试,旨在评估生成式人工智能模型在健康相关任务上的表现。

image.png

该基准由 Hugging Face 与非营利组织 Open Life Science AI 和爱丁堡大学自然语言处理小组的研究人员合作创建。Open Medical-LLM 的目标是标准化评估生成式人工智能模型在一系列医学相关任务上的性能。

image.png

Open Medical-LLM 并非从零开始的基准测试,而是由现有测试集(如 MedQA、PubMedQA、MedMCQA 等)拼接而成,涵盖多个医学领域,如解剖学、药理学、遗传学和临床实践。基准测试包含多项选择和开放性问题,需要医学推理和理解,涵盖了美国和印度的医学执照考试以及大学生物学测试题库的内容。

尽管 Hugging Face 将该基准视为医疗界生成式人工智能模型的 “健全评估”,但一些医学专家在社交媒体上对 Open Medical-LLM 提出了警告,指出实际临床实践与医学问题回答之间存在较大差距。他们强调,基准测试结果不能替代在真实世界条件下的仔细测试。

image.png

对此,Hugging Face 的研究科学家克莱门汀・弗里尔(Clémentine Fourrier)在社交媒体上表示,这些排行榜只能作为探索特定用例的第一近似值,但实际上需要进行更深入的测试阶段,以检查模型在真实条件下的局限性和相关性。她指出,医学模型绝不能单独由患者使用,而应该被训练成为医生的支持工具。

尽管 Open Medical-LLM 等基准测试具有一定的参考意义,但结果排行榜也反映出模型在回答基本健康问题时表现不佳。然而,Open Medical-LLM 和其他任何基准测试都不能替代经过深思熟虑的真实世界测试。例如,谷歌曾试图将用于糖尿病视网膜病变筛查的人工智能工具引入泰国的医疗系统,但尽管理论上准确度很高,该工具在实际测试中却表现不佳,导致患者和护士对其结果的不一致性感到沮丧,与实际临床实践缺乏协调性。

至今,美国食品药品监督管理局已批准的139个与人工智能相关的医疗设备中,没有一个使用生成式人工智能。测试生成式人工智能工具在实验室中的性能如何转化为医院和门诊诊所的实际情况,以及这些结果可能随时间变化的趋势,都是异常困难的。

官方博客:https://huggingface.co/blog/leaderboard-medicalllm

举报

  • 相关推荐
  • 自在动听,森海塞尔 ACCENTUM Open真无线耳机开启聆听新体验

    森海塞尔品牌推出全新ACCENTUM Open真无线耳机,专为年轻用户设计。这款耳机采用半开放式设计,重量仅4.4克,提供奶白和经典黑两种配色。产品主打多场景使用,支持蓝牙5.3和多设备连接,具备28小时续航和快充功能(充电10分钟可播放1.5小时)。特色包括IPX4防水防汗、环境音感知功能,以及通过音频算法提升通话清晰度。三位KOL(张之琪、布鲁斯·米和张张呀)参与体验,展示其在不同生活场景中的适用性。森海塞尔持续关注年轻消费群体需求,将创新科技与个性化设计结合,引领耳机产品新潮流。

  • 30岁华裔将成最年轻白手起家女富豪:是Scale AI联合创始人

    30岁华裔创业者郭露西以12.5亿美元身家成为全球最年轻白手起家女性亿万富豪。她22岁联合创办AI数据标注公司Scale AI,虽两年后退出但仍保留5%股份,随着公司估值从138亿跃升至250亿美元,其持股市值达12.5亿。郭露西随后创立创作者平台Passes,吸引邓恩、奥尼尔等名人入驻,估值1.5亿美元。这位旧金山湾区华裔二代从卡内基梅隆大学辍学创业,其财富轨迹印证了人工智能时代的技术红利。作为全球仅有的六位40岁以下白手起家女性亿万富豪之一,她表示"仍需保持清醒",继续在AI与内容经济交叉领域书写新的财富传奇。

  • 曝iPhone 18 Pro首发屏下Face ID:苹果消灭药丸屏

    从最新爆料来看,iPhone 18 Pro系列将会升级到全新的单挖孔屏,这是目前安卓阵营的主流屏幕形态。区别在于安卓阵营普遍都是以屏幕指纹为主,而iPhone 18 Pro系列仍然是3D人脸识别。

  • 山石网科发布全新Open XDR解决方案:开启安全运营新范式

    山石网科发布全新Open XDR解决方案,以"开放融合、AI赋能、智慧运维"为核心理念,突破传统安全架构局限。该方案通过南北向开放架构实现全领域数据采集与异构设备联动,打破数据孤岛;集成云端/本地AI大模型,降低安全运维门槛,实现日志精准解读和威胁深度分析;创新"案件调查"功能构建完整攻击链路,结合可视化剧本编排实现闭环安全运维。方案支持多源数据接入和无代码插件扩展,构建灵活可扩展的安全生态,助力企业从被动防御转向主动研判,为数字化转型提供智能化安全运营保障。

  • 未来十年,谷歌搜索、iPhone、Facebook终将退场

    如今,人们在 Facebook 上互加好友的次数已经大不如前。10 年后,iPhone 或许可能不复存在。而在 iPhone 上,谷歌搜索引擎使用量也开始下降了……

  • 曝iPhone18Pro升级屏下FaceID 药丸屏时代或终结

    据Counterpoint Research透露,苹果计划2026年在iPhone 18 Pro系列中首次采用屏下Face ID技术,但暂不配备屏下摄像头,将改用单挖孔屏设计。与安卓阵营普遍采用的2D人脸识别不同,苹果坚持使用安全性更高的3D识别技术。此外,苹果将调整产品发布节奏,从一年一更改为一年两更:2026年9月先推出Pro系列,2027年春季再发布标准版和SE机型。这一变革既提升了技术竞争力,也为市场格局带来新变数。

  • 1/8成本比肩Claude 3.7,Mistral Medium 3来了

    欧洲AI公司Mistral发布多模态新模型Mistral Medium 3,主打编程和多模态理解能力,性能达Claude 3.7的90%但成本仅1/8(输入0.4美元/百万token)。该模型在编程和STEM任务表现突出,支持企业级定制部署,已上线多个云平台。同时推出企业聊天机器人服务Le Chat Enterprise,集成第三方工具。尽管因未开源权重引发争议,其高性价比仍获业界关注。公司透露正在开发更大规模模型。

  • OpenAI之后,雅虎也盯上了谷歌:我们将收购Chrome

    “如果谷歌出售 Chrome,雅虎已准备好推进收购事宜。” 雅虎搜索负责人如是说道。

  • 2026年登场!曝折叠屏iPhone回归指纹识别:Face ID没了

    5月15日,折叠屏iPhone工程机曝光。内屏尺寸较此前爆料略小,采用14.1:10比例和屏下摄像头技术;外屏为14.6:10挖孔屏,支持侧边指纹识别。苹果为保持机身轻薄砍掉Face ID,折叠态厚度约9mm,展开仅4.5mm。首次采用全新in-cell触控技术,实现触控面板与显示面板一体化,使屏幕更轻薄。展开后屏幕几乎无折痕或铰链缝隙,显示效果接近普通iPhone。该产品预计2026年下半年发布。

  • OpenAI高管计划收购谷歌Chrome:对ChatGPT搜索至关重要

    OpenAI高管Nick Turley在谷歌反垄断庭审中透露,若法院裁定谷歌必须出售Chrome浏览器以恢复搜索市场竞争,OpenAI有意收购。庭审揭露OpenAI曾主动寻求与谷歌合作获取搜索技术支持,但遭拒绝。目前ChatGPT仍依赖微软必应搜索技术。Turley承认搜索功能对ChatGPT至关重要,但实现80%查询使用自有搜索技术仍需数年时间。他支持司法部要求谷歌共享搜索数据的提议,认为这将加速ChatGPT技术改进。这场诉讼揭示了AI领域激烈竞争的冰山一角,检方担忧谷歌搜索垄断可能延伸至AI领域。

热文

  • 3 天
  • 7天