首页 > 业界 > 关键词  > HuggingFace最新资讯  > 正文

Hugging Face 发布医疗任务评估基准Open Medical-LLM

2024-04-19 11:17 · 稿源:站长之家

划重点:

⭐️ Hugging Face 发布了一个新的医疗任务评估基准,旨在测试生成式人工智能模型在健康相关任务上的表现。

⭐️ Open Medical-LLM 基准由现有测试集拼接而成,涵盖多个医学领域,如解剖学、药理学、遗传学和临床实践。

⭐️ 一些医学专家对 Open Medical-LLM 提出了警告,强调实际临床实践与医学问题回答之间存在较大差距,强调基准测试结果不能替代真实世界测试。

站长之家(ChinaZ.com)4月19日 消息:近期,Hugging Face 发布了一项名为 Open Medical-LLM 的新基准测试,旨在评估生成式人工智能模型在健康相关任务上的表现。

image.png

该基准由 Hugging Face 与非营利组织 Open Life Science AI 和爱丁堡大学自然语言处理小组的研究人员合作创建。Open Medical-LLM 的目标是标准化评估生成式人工智能模型在一系列医学相关任务上的性能。

image.png

Open Medical-LLM 并非从零开始的基准测试,而是由现有测试集(如 MedQA、PubMedQA、MedMCQA 等)拼接而成,涵盖多个医学领域,如解剖学、药理学、遗传学和临床实践。基准测试包含多项选择和开放性问题,需要医学推理和理解,涵盖了美国和印度的医学执照考试以及大学生物学测试题库的内容。

尽管 Hugging Face 将该基准视为医疗界生成式人工智能模型的 “健全评估”,但一些医学专家在社交媒体上对 Open Medical-LLM 提出了警告,指出实际临床实践与医学问题回答之间存在较大差距。他们强调,基准测试结果不能替代在真实世界条件下的仔细测试。

image.png

对此,Hugging Face 的研究科学家克莱门汀・弗里尔(Clémentine Fourrier)在社交媒体上表示,这些排行榜只能作为探索特定用例的第一近似值,但实际上需要进行更深入的测试阶段,以检查模型在真实条件下的局限性和相关性。她指出,医学模型绝不能单独由患者使用,而应该被训练成为医生的支持工具。

尽管 Open Medical-LLM 等基准测试具有一定的参考意义,但结果排行榜也反映出模型在回答基本健康问题时表现不佳。然而,Open Medical-LLM 和其他任何基准测试都不能替代经过深思熟虑的真实世界测试。例如,谷歌曾试图将用于糖尿病视网膜病变筛查的人工智能工具引入泰国的医疗系统,但尽管理论上准确度很高,该工具在实际测试中却表现不佳,导致患者和护士对其结果的不一致性感到沮丧,与实际临床实践缺乏协调性。

至今,美国食品药品监督管理局已批准的139个与人工智能相关的医疗设备中,没有一个使用生成式人工智能。测试生成式人工智能工具在实验室中的性能如何转化为医院和门诊诊所的实际情况,以及这些结果可能随时间变化的趋势,都是异常困难的。

官方博客:https://huggingface.co/blog/leaderboard-medicalllm

举报

  • 相关推荐
  • AI日报:阿里开源Qwen-Image-Edit;淘宝“AI万能搜”功能灰度测试;小红书发布DynamicFace人脸生成技术

    本期AI日报聚焦多项AI领域创新:1)阿里开源Qwen-Image-Edit图像编辑模型,支持中文渲染与精准文本编辑;2)淘宝测试"AI万能搜"功能,重构电商搜索体验;3)小红书发布DynamicFace人脸生成技术,实现高质量图像视频换脸;4)Gemini API新增URL Context功能,简化网页内容获取流程;5)Nvidia推出小型开放模型Nemotron-Nano-9B-v2,支持智能推理开关;6)马斯克发布Grok Imagine 0.1测试版,进军AI图像生成领域;7)Vercel推出iOS版AI开发工具v0;8)理想汽车发布MindGPT 3.1模型,处理速度提升5倍;9)ToonComposer工具简化动画制作流程;10)ElevenLabs推出视频到音乐生成流程。

  • MAC开始卖面包了?又出了一个没想到的联名

    联名圈的新操作真是越来越“香”了! 最近,美妆界顶流MAC跨界人气烘焙品牌Fascino,开始一起卖面包。消息一出,美妆党和面包党都坐不住了,纷纷表示先冲为敬。 据了解,MAC不仅在上海丰盛里和杭州万象城开设了“限定主题店”,还联合Fascino多家线下门店安排了互动、打卡、满赠等活动,只要路过都想去薅一把“羊毛”,网友戏称:果然一代人有一代人的鸡蛋要领……

  • 解锁空间潜能,罗地格RESPACE,打造智慧城市的交通新枢纽

    荷兰阿姆斯特丹运河区地下自动停车系统启用两周年,成为传统保护与现代创新融合的典范。该系统采用RESPACE混合托盘与机器人技术,在有限空间内最大化停车位,已服务超5.96万辆车。项目巧妙选址于历史悠久的运河下方,既保留文化遗产风貌,又提供便捷可持续的停车方案,实现现代功能需求与历史保护的完美平衡。

  • 苹果官网更新:三款MacBook被列为过时产品

    今天苹果官网过时产品名单中新增了三款Mac电脑,具体如下。 MacBook Air(11英寸,2015款) MacBook Pro(13英寸,2017款,配备4个雷雳3端口) MacBook Pro(15英寸,2017款) 据悉,某款设备自苹果停止分销之日起超过7年,便会被归为过时产品”,苹果零售店及苹果授权服务提供商通常不维修过时产品,但苹果表示,MacBook在停止分销后长达10年内仍可能符合电池更换条件,具体取决于

  • SpaceX第10次试飞成功 马斯克:星舰这次没有空中爆炸

    新一代重型运载火箭“星舰”从得克萨斯州顺利发射升空,开启了其第十次试飞之旅。此次试飞任务备受瞩目,重点目标涵盖飞船部署模拟卫星、在太空中实施发动机重新点火测试等关键环节。 据现场情况,发射约一个小时后,“星舰”的超重型助推器在墨西哥湾精准完成溅落。与此同时,二级飞船更是首次成功模拟释放星链卫星,并在印度洋预定海区顺利溅落,最后以解体

  • Matrixport 旗下 Cactus Custody 与 OnChain 合作,完成招银国际美元货币市场基金化上链

    新加坡Matrixport旗下合规数字资产托管商Cactus Custody与OnChain合作,将招商国际美元货币市场基金以化形式上链运营,成为全球首只港新互认基金上链案例。该合作解决市场缺乏可审计、可托管的现金类资产等痛点,通过链上净值计算、白名单管理等机制,为机构与合格投资者提供透明、合规的链上投资选项。未来双方将持续深化合作,推动RWA标准化发展。

  • AI最新资讯在哪里看?AIbase:高效获取国内外AI新闻头条与行业动态

    文章探讨了AI时代信息过载的困境:有价值的前沿动态、重磅模型发布和行业解读分散各处,筛选成本高、效率低下。AIbase资讯导航站应运而生,通过四大核心功能解决痛点:1)聚合主流信源,过滤低质噪音;2)结构化分类呈现大模型动态、行业应用等六大板块;3)提炼核心要点,拒绝标题党;4)高频更新确保信息鲜度。该平台致力于成为AI领域的"信息雷达",帮助用户节省70%信息搜集时间,将精力聚焦于思考与创造。适用于技术负责人快速掌握行业动态、产品经理调研案例、投资人捕捉趋势等多元场景。

  • 一图了解小米澎湃OS近期升级:苹果Mac也能用小米手机App

    今日,小米澎湃OS发布澎湃OS2近期升级功能一览,包括小米AI眼镜拍照、视频通话支持跨设备调用镜头、苹果Mac跨生态互联、超级小爱记忆、相册编辑界面优化等。 部分升级功能如下: 小米AI眼镜进行微信、QQ等应用视频通话时,支持开启跨设备相机,调用眼镜摄像头、分享第一视角。 小米手表S4 14周年纪念版支持使用遥控拍照功能,用手表预览相机画面。 小米开放式耳机Pr

  • 卖家精灵将亮相9月深圳CCBEC&武汉电博会,以AI+大数据赋能跨境卖家高效突围!

    9月跨境卖家盛会双城联动:17-19日深圳CCBEC展会聚焦全产业链生态,汇聚1500+供应商;19-21日武汉电博会以“链接全球·数创未来”为主题,探讨数字贸易创新。两大展会呈现最新行业成果,举办20+高端论坛,提供选品策略、流量运营等一站式出海解决方案。卖家精灵作为官方合作伙伴,将展示AI选品工具与运营指南,助力卖家赢得全球市场竞争优势。

  • MCP服务新手完全指南:从零开始快速构建你的第一个AI智能体

    一名前端开发者分享从零学习MCP协议的经历。最初对MCP感到困惑,通过搜索发现AIbase MCP服务库,该平台整合了231个服务,极大降低了入门门槛。通过分类浏览、搜索排序和详细文档,快速实现了天气查询智能体demo。推荐新手使用该平台,可节省80%摸索时间,集中精力学习协议和应用构建。

今日大家都在搜的词: