首页 > 业界 > 关键词  > 正文

MLCommons推出新平台评估AI医疗模型

2023-07-18 16:40 · 稿源:站长之家

近年来,医疗行业积极拥抱人工智能,尤其在疫情的推动下。根据 Optum 的一项调查显示,80% 的医疗机构已经制定了人工智能战略,另有15% 计划启动相关项目。为满足需求,包括大型科技公司在内的供应商纷纷推出相关产品。

谷歌最近发布了 Med-PaLM2,这是一个用于回答医学问题和在医学文本中发现洞见的人工智能模型。此外,像 Hippocratic 和 OpenEvidence 等初创公司正在开发模型,为临床医生提供可操作的建议。

然而,随着越来越多针对医学应用的模型上市,了解哪些模型是否能够如广告所述地发挥作用变得越来越具有挑战性。由于医学模型往往是使用来自有限、狭窄的临床环境数据进行训练(例如东海岸的医院),一些模型对特定患者群体,通常是少数族裔群体,显示出偏见,导致在现实世界中产生有害影响。

AI医疗 医生 人工智能

为了建立一个可靠、可信赖的方法来评估和评价医疗模型,工程协会 MLCommons 开发了一个名为 MedPerf 的新型测试平台。MLCommons 表示,MedPerf 可以在 “多样化的真实医疗数据” 上评估人工智能模型,并保护患者隐私。

MedPerf 是由医疗工作组牵头进行的为期两年的合作成果,得到了行业和学术界的反馈,其中包括20多家公司和20多家学术机构的意见。与 MLCommons 的通用人工智能基准套件(如 MLPerf)不同,MedPerf 设计用于医疗模型的操作人员和客户,即医疗机构,而不是供应商。

通过 “联邦评估”,MedPerf 平台上的医院和诊所可以根据需要评估人工智能模型,并在现场进行评估。

MedPerf 支持流行的机器学习库,以及仅通过 API 提供的私有模型和模型,例如 Epic 和 Microsoft 的 Azure OpenAI Services。

今年早些时候,MedPerf 在一个系统测试中举办了由 NIH 资助的 Federated Tumor Segmentation (FeTS) Challenge,这是一个评估胶质母细胞瘤(一种侵袭性脑)术后治疗模型的大规模比较。MedPerf 今年支持了41个不同的模型的测试,这些模型在32个来自六个大洲的医疗机构的系统上运行,既有本地部署也有云端部署。

根据 MLCommons 的说法,所有模型在与训练数据的患者人口学特征不同的医疗机构中表现出了降低的性能,揭示了其中存在的偏见。

MLCommons 认为,MedPerf 目前主要用于评估放射学扫描分析模型,是实现其通过 “开放、中立和科学方法” 加速医疗人工智能的 “基础步骤”。它呼吁人工智能研究人员使用该平台验证自己的模型,并鼓励数据所有者注册其患者数据,以增加 MedPerf 测试的可靠性。

然而,这个平台是否真正解决了医疗人工智能领域中棘手的问题仍然值得商榷。杜克大学研究人员最近编写的一份报告揭示了人工智能营销和将技术应用于医生、护士及其周围复杂的医疗系统和技术系统的日常工作之间的巨大差距。往往情况并不仅仅是模型的问题,而是如何将技术融入到医疗工作中,包括设备的部署、互联网连接强度以及患者对人工智能辅助评估的反应。

医疗从业者对医疗人工智能持有复杂的观点。雅虎金融的一项调查发现,55% 的医护人员认为这项技术还不准备好使用,只有26% 的人认为可以信任。

这并不意味着医学模型偏见不是一个真正的问题,它确实存在并产生后果。例如,Epic 的系统用于识别败血症病例,但发现错过了许多病例,并经常发出误报。同时,对于不是谷歌或微软这样规模的组织来说,获得多样化、及时的医疗数据并非易事。

然而,将人们的健康问题过分依赖像 MedPerf 这样的平台是不明智的。毕竟,基准测试只能告诉我们故事的一部分。安全地部署医疗模型需要供应商及其客户进行持续、彻底的审计,更不用说研究人员了。缺乏此类测试是不负责任的行为。

举报

  • 相关推荐
  • 2025最新全球AI大模型排名,国内外模型动态洗牌(实时更新平台推荐)

    2025年全球AI大模型竞争进入白热化阶段,OpenAI、Google等国际巨头与中国企业激烈交锋。技术迭代远超预期,仅半年内排名就经历多次洗牌。当前全球AI大模型综合排名Top10显示:1)GPT-4.5综合80.4分领跑;2)Claude3.7编程领域领先;3)Gemini2.0多模态标杆;4)国产DeepSeek R1推理速度提升3倍;5)阿里Qwen2.5数学编程单项第一。中国模型通过开源策略、垂直优化和成本革命实现弯道超车,如DeepSeek R1仅耗资600万美元达到GPT-4水平,字节豆包采用稀疏MoE架构成本大幅降低。中文场景深度优化表现突出,如文心一言4.0方言交互准确率92%。开源生态爆发,通义千问全尺寸开源(7B~110B参数)在Hugging Face排名第一。权威评估需结合标准化测试、人类盲测和场景适配性。

  • AI日报:美团No Code平台免费开放;豆包App升级“一句话P图”功能;苹果Xcode 26内置ChatGPT等AI功能

    本文介绍了AI领域多项重要进展:1)美团推出No Code平台和1680个AI应用;2)豆包App升级"一句话P图"功能;3)苹果发布内置ChatGPT的Xcode26开发工具;4)iOS26新增视觉智能功能;5)讯飞星火X1升级版即将发布;6)比亚迪接入阿里通义大模型;7)DeepSeek支持本地工具调用;8)开源框架Rowboat支持快速构建智能助手;9)X平台整合Grok AI优化内容推荐;10)港科大开发进化搜索技术提升小模型图像生成能力;11)硅基流动完成数亿元融资;12)港大与英伟达合作开发新型视觉注意力机制。这些创新展示了AI技术在各领域的快速发展和应用突破。

  • @开发者们:百度文心大模型4.5系列模型开源,国内首发平台GitCode现已开放下载!

    6月30日,百度文心大模型4.5系列正式开源并在国内领先的开源平台GitCode首发上线。该系列包含10款模型,涵盖47B和3B参数的混合专家(MoE)模型及0.3B的稠密参数模型,采用创新的多模态异架构结构实现跨模态知识融合。模型基于飞桨框架开发,训练效率达47% MFU,在文本和多模态基准测试中达到SOTA水平。所有模型按Apache2.0协议开源,配套产业级开发套件支持多种芯片部署。GitCode平台已汇聚620万用户,为AI开发者提供代码托管、协同开发等全流程支持。此次开源将推动中国AI生态创新,加速大模型技术产业化应用。

  • AI日报:通义千问3大模型全球爆火;即梦图片3.0智能参考全量上线;智谱AI企业级超级助手Agent CoCo上线

    【AI日报】今日AI领域重要动态:1.通义千问3大模型全球下载量超1250万,衍生模型13万+;2.即梦图片3.0上线,AI设计进入"零门槛"时代;3.智谱AI发布企业级超级助手Agent CoCo;4.百度推出金融行业大模型"千帆慧金";5.小红书开源首个大模型dots.llm1,含1420亿参数;6.Hugging Face开源LeRobot项目,降低机器人研发门槛;7.ChatGPT语音功能升级,支持更自然对话翻译;8.Google Gemini应用下载量超ChatGPT但活跃度不足;9.轻量级文档解析模型MonkeyOCR表现优异;10.Google Veo3推出高速视频生成模式;11.Google调整AI Studio政策,限制Gemini2.5Pro免费访问。

  • 国内有哪些ai大模型?一文看懂中国核心AI大模型全景

    近两年中国AI大模型发展迅猛,已形成"通用+行业"双轨并进的生态格局。百度文心一言、阿里通义千问等通用大模型在中文理解、多模态生成等方面表现突出;深度求索DeepSeek以1/10参数实现GPT-4级推理能力;月之暗面Kimi以20万汉字上下文窗口领跑长文本处理;智谱AI的GLM-4成为首个支持视频对话的国产千亿模型。医疗、金融等垂直领域涌现出百川智能等专业模型,覆盖超1000家医院。开源生态加速国产芯片适配,15家厂商完成深度优化。行业应用方面,工程文档效率提升60%,24小时拟人化客服等案例凸显价值。未来趋势呈现模型蒸馏、端侧部署和开源生态三大方向,中国AI正从实验室走向产业变革前沿。

  • 微信小店,悄悄推出新功能

    微信电商,瞄准了拼多多。 2025年6月,不少用户发现微信小店悄悄上线“跟朋友一起买”功能(以下简称“一起买”功能),面向九牧王、东方甄选等品牌开放内测。 “一起买”功能类似于拼多多的拼团功能,但仅有金额要求,并没有人数要求。用户发起拼单后,只需邀请好友凑满指定金额即可成团,如果拼团超时未达到目标金额,系统则会自动退款。

  • AI日报:即梦灰测图片3.1模型;ElevenLabs推出AI语音助理11ai;百度发布多智能体协同AI IDE

    本文介绍了AI领域多项最新进展:1)即梦灰测图片3.1模型增强电影感和艺术风格;2)ElevenLabs推出语音助手11ai;3)文心快码发布多模态AI开发工具Comate AI IDE;4)苹果采用"归一化流"技术开发新型AI生图模型;5)Grok将推出整合多类型文件管理功能;6)OmniGen2开源多模态模型重塑AI应用场景;7)ScholAI革新学术研究工具;8)豆包推出可视化AI编程功能;9)饿了么推出骑手AI助手"小饿";10)张雪峰认为AI可替代部分教育工作;11)微软发布3.3亿参数小模型Mu。这些创新展示了AI技术在各领域的快速发展和应用潜力。

  • AI日报:腾讯混元3D 2.1大模型开源;字节跳动AI Lab负责人李航卸任;OpenAI Codex 全新升级

    本文介绍了AI领域最新动态:1)腾讯开源混元3D2.1大模型,提升3D生成质量;2)OpenAI Codex升级,优化代码生成功能;3)字节跳动AI Lab负责人李航卸任;4)微软发布700个AI应用案例;5)微软推出Code Researcher工具,解决58%系统崩溃问题;6)Observer AI实现屏幕操作自动化;7)Genspark发布AI浏览器;8)麻省理工用AI技术3.5小时修复15世纪名画;9)蚂蚁集团推出开源多模态GPT-4o模型Ming-Omni;10)MagicTryOn视频换衣框架;11)字节跳动发布实时互动AI视频生成模型Seaweed APT2;12)ChatGPT搜索功能升级;13)字节跳动与老凤祥合作开发AI智能眼镜。

  • Copy2AI三款AI软件上线,功能强大,免费无限制

    Copy2AI推出三款AI工具:智能剪贴板、智能创作助手和智能聊天助手。智能剪贴板能自动分类记录剪贴内容,支持语义搜索;智能创作助手提供灵感激发、风格转换等功能,助力内容创作;智能聊天助手可定制对话风格和角色。三款工具均完全免费、无功能限制,支持本地部署保障隐私安全,适用于职场人士、内容创作者、学生等多场景,旨在让AI技术真正触手可及,提升工作和

  • 苹果自研AI模型难产:改用第三方大语言模型

    苹果可能会跟OpenAI或Anthropic合作,双方正在谈判讨论一项潜在交易,苹果希望调用OpenAI或Anthropic的第三方大语言模型来为Siri提供技术支持。 据悉,OpenAI或Anthropic正在训练适配苹果私有云计算服务器的模型,苹果也在进行测试,目前苹果发现Anthropic的AI模型最适合Siri,且与Anthropic初步讨论了一些财务条款,消息称Anthropic要求苹果每年支付数十亿美元的费用,且该费用会随时间�