首页 > 业界 > 关键词  > HuggingFace最新资讯  > 正文

Hugging Face 发布医疗任务评估基准Open Medical-LLM

2024-04-19 11:17 · 稿源:站长之家

划重点:

⭐️ Hugging Face 发布了一个新的医疗任务评估基准,旨在测试生成式人工智能模型在健康相关任务上的表现。

⭐️ Open Medical-LLM 基准由现有测试集拼接而成,涵盖多个医学领域,如解剖学、药理学、遗传学和临床实践。

⭐️ 一些医学专家对 Open Medical-LLM 提出了警告,强调实际临床实践与医学问题回答之间存在较大差距,强调基准测试结果不能替代真实世界测试。

站长之家(ChinaZ.com)4月19日 消息:近期,Hugging Face 发布了一项名为 Open Medical-LLM 的新基准测试,旨在评估生成式人工智能模型在健康相关任务上的表现。

image.png

该基准由 Hugging Face 与非营利组织 Open Life Science AI 和爱丁堡大学自然语言处理小组的研究人员合作创建。Open Medical-LLM 的目标是标准化评估生成式人工智能模型在一系列医学相关任务上的性能。

image.png

Open Medical-LLM 并非从零开始的基准测试,而是由现有测试集(如 MedQA、PubMedQA、MedMCQA 等)拼接而成,涵盖多个医学领域,如解剖学、药理学、遗传学和临床实践。基准测试包含多项选择和开放性问题,需要医学推理和理解,涵盖了美国和印度的医学执照考试以及大学生物学测试题库的内容。

尽管 Hugging Face 将该基准视为医疗界生成式人工智能模型的 “健全评估”,但一些医学专家在社交媒体上对 Open Medical-LLM 提出了警告,指出实际临床实践与医学问题回答之间存在较大差距。他们强调,基准测试结果不能替代在真实世界条件下的仔细测试。

image.png

对此,Hugging Face 的研究科学家克莱门汀・弗里尔(Clémentine Fourrier)在社交媒体上表示,这些排行榜只能作为探索特定用例的第一近似值,但实际上需要进行更深入的测试阶段,以检查模型在真实条件下的局限性和相关性。她指出,医学模型绝不能单独由患者使用,而应该被训练成为医生的支持工具。

尽管 Open Medical-LLM 等基准测试具有一定的参考意义,但结果排行榜也反映出模型在回答基本健康问题时表现不佳。然而,Open Medical-LLM 和其他任何基准测试都不能替代经过深思熟虑的真实世界测试。例如,谷歌曾试图将用于糖尿病视网膜病变筛查的人工智能工具引入泰国的医疗系统,但尽管理论上准确度很高,该工具在实际测试中却表现不佳,导致患者和护士对其结果的不一致性感到沮丧,与实际临床实践缺乏协调性。

至今,美国食品药品监督管理局已批准的139个与人工智能相关的医疗设备中,没有一个使用生成式人工智能。测试生成式人工智能工具在实验室中的性能如何转化为医院和门诊诊所的实际情况,以及这些结果可能随时间变化的趋势,都是异常困难的。

官方博客:https://huggingface.co/blog/leaderboard-medicalllm

举报

  • 相关推荐
  • 史上最强Ace!一加Ace 6行业唯一超高刷+大电池+快充旗舰

    一加Ace 6将于10月27日发布,被官方称为史上最强Ace旗舰。核心配置包括165Hz超高刷屏幕、7800mAh大电池和120W闪充,支持全帧率满帧运行。具备IP66/68/69/69K防尘防水、超声波指纹、金属中框和AG玻璃等特性,兼具实用性与质感。提供快银、闪白、竞黑三款配色,其中快银采用独家银紫渐变工艺,彰显速度感。

  • 新王加冕,神装加持!AGON爱攻见证Legacy问鼎CAC 2025

    10月19日,CAC2025反恐精英亚洲邀请赛落幕,Legacy战队以3:2战胜3DMAX,夺得百万美元冠军。比赛历经五局激战,双方展现顶尖战术与顽强意志。Legacy凭借团队协作首夺国际大赛桂冠,巴西选手latto荣膺MVP。官方合作伙伴AGON爱攻为赛事提供定制显示器CS24A,以610Hz超高刷新率等技术助力选手发挥,并打造沉浸式互动展区,通过粉丝签名会、主题周边等活动连接选手与观众,推动电竞全民化发展。

  • CAC2025专访:AGON爱攻诠释“产品-赛事-生态”闭环,勾勒品牌十年蓝图

    2025年上海反恐精英亚洲邀请赛圆满落幕,AGON爱攻作为赛事指定显示器品牌,不仅以迅猛龙CS24A提供顶级竞技体验,更通过构建完整电竞赛事生态强化行业影响力。品牌连续六年蝉联全球电竞显示器销量冠军,在中国市场增速领先。未来AGON爱攻将聚焦“高分辨率、高刷新率、高画质”技术方向,深化AI、OLED等前沿应用,拓展赛事合作与用户互动,从硬件供应商转型为玩家生态共建者。

  • iPad、Mac新品京东跌破底价 国补可用地区、优惠力度都秒杀隔壁

    10月22日,搭载M5芯片的MacBook Pro和iPad Pro正式开售,起售价分别为12999元和8999元。恰逢双11大促,各大电商平台推出不同优惠:京东MacBook Pro最高优惠4000元,iPad Pro优惠超2000元;天猫提供消费券和88VIP专属折扣,MacBook Pro可享国家补贴。建议消费者对比各平台优惠力度及服务保障,结合性能升级综合决策。

  • 李杰称一加Ace 6太强了:完全能挑战友商Pro Max

    一加Ace 6于10月27日发布,定位旗舰级标准版。搭载165Hz超流畅直屏,支持全帧率游戏体验;配备7800mAh大电池和120W快充,续航强劲;具备超高性能,碾压同档产品。此外,提供IP66/68等防护、超声波指纹等旗舰配置,挑战Pro Max级别。提供快银、闪白、竞黑三色,年度旗舰一加15将同台亮相。

  • 金蝶征信“金融风控大模型” 摘得AFAC2025大奖

    一家社区水果店凭借收款码的36个月交易记录,将银行贷款额度从7万元提升至10万元。这揭示了中国超3亿商户正通过二维码流水数据构建数字信用体系:使用收款码满六个月的商户获贷可能性超60%,三年后跃升至90%。此类高频实时数据正重塑风控逻辑——不看抵押、不看报表,只忠实记录每笔交易背后的经营事实。金蝶征信凭借AI与知识图谱技术,穿透至6层交易链条,构建包含4.45亿交易关系的产业互联网图谱,助力金融机构实现精准信贷匹配。其智能风控系统已推动合作机构放贷额度提升50%,标志着风控模式从“经验驱动”向“数据智能驱动”的转型。

  • 一加Ace 6三款配色正式亮相 全是独家自研工艺

    一加手机将于10月27日举行新品发布会,届时,一加Ace 6、一加15双旗舰将正式发布。 今日,一加手机正式公布一加Ace 6三款配色,分别是快银、闪白、竞黑,均为自研工艺打造。 其中,快银为独家自研银紫幻彩微渐变工艺,配备Ace专属徽标,速度感拉满。 闪白则是独家自研的超低闪AG玻璃工艺,竞黑为独家自研高雾低闪砂工艺。

  • 限时免费送!2台DGX Spark互连缺它不行!超擎数智200G DAC高速铜缆纳秒级互联,算力直达!

    全国首批NVIDIA DGX Spark已率先抵达超擎数智。购买两台及以上DGX Spark可免费获赠价值699元的200G DAC高速铜缆,实现双机200Gbps高速互联,消除性能瓶颈。限时福利需在10月31日前完成全款支付,转发活动内容到朋友圈还可额外获赠连接线。数量仅666根,送完即止。此举旨在通过高速互联方案提升AI训练与推理效率,助力用户抢占算力高地。

  • 一加Ace 6官宣:同档唯一165Hz超高刷手机

    一加宣布即将发布一加Ace 6,该机和一加15同台亮相,明天正式公布具体发布时间。根据官方公布的海报,一加Ace 6采用直角边金属中框,这是一加史上最强悍的Ace。 和一加15一样,一加Ace 6也是165Hz超高刷直屏,这是同档位唯一一款超高刷机型,官方称体验感知非常明显,旦用难回”。 据悉,165Hz相比120Hz每秒多45个画面,显示速度提升27%,在竞技类游戏中,你就能更早发现敌�

  • 新款MacBook Pro破发!京东11.11直降、以旧换新叠国补至高省4000元

    10月22日8点起,搭载M5芯片的MacBook Pro、iPad Pro及iPhone Air在京东11.11现货开售。活动推出多重福利:购买MacBook Pro可领500元优惠券,以旧换新至高补贴1500元,部分地区叠加国补最高减4000元;购买iPad Pro可领300元惊喜券,部分用户叠加教育优惠至高优惠2200元;购买iPhone Air享以旧换新补贴400元起、12期免息。三款新品均支持24期免息,搭载M5芯片性能大幅提升,MacBook Pro配备24小时续航,iPad Pro提供超精视网膜XDR显示屏,iPhone Air厚度仅5.6mm、内置eSIM。即日起打开京东APP搜索“苹果惊喜券”即可参与活动。

今日大家都在搜的词: