首页 > 业界 > 关键词  > 谷歌最新资讯  > 正文

谷歌团队推出大型多模态生成模型 可处理多模态生物医学数据

2023-08-05 16:08 · 稿源:站长之家

站长之家(ChinaZ.com)8月5日 消息:尽管人工智能AI)系统取得了重大进展,但大多数现有的最先进(SOTA)系统都是单模态单任务系统,这对开发医疗人工智能系统提出了挑战,因为医疗任务本质上是多模态且模式丰富 涵盖文本、成像、基因组学等。

谷歌 (3)

为了弥补这一差距,在一篇新论文《Towards Generalist Biomedical AI》中,来自 Google Research 和 Google DeepMind 的研究团队提出了 Med-PaLM Multimodal (Med-PaLM M),这是一种大型多模态生成模型,可以处理多模态生物医学数据,包括临床数据 语言、成像和基因组学使用一组模型权重,无需任何特定于任务的修改。

该团队将他们的主要贡献总结如下:

MultiMedBench 的管理我们推出了 MultiMedBench,这是一种新的多模式生物医学基准,涵盖医学成像、临床文本和基因组学等多种模式,具有14项不同的任务,用于训练和评估通用生物医学 AI 系统。

Med-PaLM M,通用生物医学人工智能系统的首次演示我们推出 Med-PaLM M,这是一个单一多任务、多模式生物医学人工智能系统,可以执行医学图像分类、医学问答、视觉问答、放射学报告生成和总结、 基因组变异调用,以及更多具有相同模型权重的集合。

Med-PaLM M 中新颖的新兴能力的证据 除了任务绩效的定量评估之外,我们还观察到零样本医学推理、新医学概念和任务的泛化以及跨任务的积极迁移的证据。

Med-PaLM M 输出的人工评估 除了自动化指标之外,我们还对 Med-PaLM M 跨不同模型尺度生成的胸部 X 射线报告进行放射科医生评估。

该团队首先提出了 MultiMedBench,解决缺乏全面的多模态医疗基准的问题,这是一种多模态生物医学基准,涵盖广泛的多模态数据源,用于衡量通用生物医学人工智能处理从视觉问题到各种医疗任务的能力 应答、报告生成、医学图像分类等。

接下来,研究人员利用 MultiMedBench 通过微调 PaLM-E 模型并将其与生物医学领域对齐来开发 Med-PaLM M。 通用生物医学人工智能模型将多模式医疗数据作为输入,同时使用一组模型参数对其进行处理,并且能够执行多项任务。

更具体地说,该团队通过使用指令调整同时使用不同任务的混合来训练模型,添加纯文本的“一次性示例”以使模型与指令保持一致,并微调 PaLM 的预训练变体 E 在 MultiMedBench 任务上获得生成的 Med-PaLM M 模型。

在他们的实证研究中,评估了 Med-PaLM M 在 MultiMedBench 中的所有任务。 Med-PaLM M 在所有任务上都表现接近或超过基线的 SOTA,同时还表现出强大的零样本泛化能力。

据团队所知,Med-PaLM M是通用生物医学人工智能系统的首次尝试,团队相信他们的工作代表了通用生物医学人工智能发展的关键一步。

举报

  • 相关推荐
  • 发布 | 中心发布《“人工智能+软件” 发展洞察》

    第四届软件创新发展大会在武汉举行,国家工信安全中心主任江明涛发布《“人工智能+软件”发展洞察》报告。报告指出,“人工智能+软件”已成为产业升级的战略选择,并呈现四大趋势:软件开发从人工编码向AI编程演进;软件产品从AI增强向原生AI发展;交互模式从指令式转向意图式;商业模式从按功能付费变为按成果付费。面对机遇挑战,软件企业应拥抱开源、加强供应链管理、优化组织架构。中心将持续深耕软件产业政策与技术研究,推动高质量发展。

  • 卓世科技亮相 2026海南(三亚)人工智能科技大会,具身智能通用大脑赋能自贸港产业升级

    5月19日-25日,2026海南(三亚)人工智能科技大会以“睿见未来”为主题举办。卓世科技作为国家级专精特新“小巨人”企业受邀参展,创始人李伟伟发表主题演讲,展示自研“璇玑玉衡”大模型与具身智能通用大脑技术体系,深度对接海南自贸港AI产业生态。大会聚焦物理AI、智能制造、医疗康养等前沿赛道,搭建政产学研资用一体化平台。卓世科技针对行业痛点,提出分层赋能、即插即用的通用大脑解决方案,涵盖AI数字员工、陪伴交互大脑、非人形协同大脑及人形自主作业大脑等,并公布“数据资产、模型能力、场景方案、适配服务、验证认证”五大货架体系,助力海南打造全球人工智能“自贸高地”。

  • ​当AI智能体成为企业员工,谁来管控它们的行为?

    AI智能体在企业中承担员工角色,处理客户续约等任务,但带来了全新安全挑战。Simon Willison提出“致命三角”:私有数据、不可信输入和对外通信的结合,使安全模型根本改变。风险包括指令被操控、敏感数据移动、工具不当使用和组件复杂化。传统权限管控无法回答运行时判断问题。报告显示64%企业已部署AI智能体,但仅17%有运行时管控。安全需在运行时介入,从提示词到工具调用全程拦截,构建完整防御体系。

  • 大爷一口闷矿泉水险丧命:诱发急性心衰 靠人工心脏才保命

    近日,福建福州一名大爷出汗较多、口渴难忍,一口气直接喝完一整瓶500ml矿泉水。 没隔多久他身体就突发强烈不适,先是喘不上气浑身冒冷汗,紧接着甚至咳出了带着泡沫的淡粉色痰液,整个人状态差到吓人。 家人送到医院时,他已经喘息不止、无法言语,病情十分危急。 医生问诊后才知道,这名大爷已有长达十年的慢性心衰病史,本身心脏泵血功能就远低于普通人的正

  • 扎根终端的智能进化:骁龙以融合适配未来AI生态

    当前AI行业正从算力堆叠转向以人为本的无感适配体验。骁龙立足端侧AI核心优势,依托高通5G技术与6G布局,构建本地智能自主运行体系,实现全场景智能流转。其核心是终端原生算力,通过Hexagon NPU架构将模型推理、场景感知与用户学习下沉至本地,支持百亿参数大模型离线运行。5G高速底座打破设备孤岛,实现跨场景协同;6G前瞻布局则强化感知与沉浸式交互。最终,骁龙以人本智能为核心,重塑和谐人机关系。

  • 北大方正人寿智能坐席系统上线,AI驱动客服服务升级

    2026年4月,北大方正人寿基于方灵AI底座建设的智能坐席辅助系统全渠道上线。项目历时七个月,由多部门协同推进,聚焦业务痛点,通过实时语音转写、智能知识检索、情绪监控和敏感词检测等AI能力,提升客服效率与服务质量。系统覆盖全渠道坐席及管理人员,支持日常业务办理、实时辅助、质量监督与知识库管理,标志着公司在客服智能化建设领域取得阶段性成果。未来,公司将继续依托AI底座赋能客户服务能力升级。

  • TCL首批接入微信AI生态,加速家电AI智能化进程

    微信于6月8日发布《关于开发者接入微信AI生态的指引》,TCL实业作为首批参与微信Agent内测的企业,已完成电视、空调等核心品类的接入测试。双方将依托微信AI Agent能力与TCL鸿鹄实验室技术,实现智能终端产品的自然交互体验,推动“AI+家电”融合应用。未来,双方将深化合作,拓展更多品类,构建开放智能的家电AI生态。

  • 京东发布国内首个智能体自主支付协议 破解AI自主付款难题

    京东推出国内首个面向AI智能体的自主支付协议A2P,将AI支付分为L0至L5六个等级,从完全人工确认到AI自主操作。重点聚焦L3和L4:L3允许智能体在单一任务内自主发起支付,系统在用户设定边界内裁决;L4则给予更多授权,在预设范围内可自主完成支付。该协议配备专属身份核验机制,资金隔离处理,每笔支付留下完整记录,形成可追溯的凭证链条,补齐了AI消费的安全短板。

  • 谁在豪赌具身智能?

    具身智能的融资速度,比所有人预期的都更猛、更快。 据「定焦One」从IT桔子获得的数据显示,从2025年7月到2026年6月,国内一级市场(不包含IPO与并购)具身智能领域的融资已达503起,平均每天超过1起,总融资金额超960亿元。 与此同时,单笔金额也越来越高。单笔10亿元及以上的融资在2026年上半年已超过25起,其中它石智航在4月单轮拿下4.55亿美元,刷新中国具身智能融资�

  • AI日报:小米开源AI编程助手MiMo Code;京东MALL首批人形机器人上岗;谷歌发布DiffusionGemma

    AI日报今日要点:小米开源终端AI编程助手MiMo Code,内置免费多模态模型;京东MALL首批人形机器人上岗,优必选助力618智慧零售;苹果Xcode 27原生集成Gemini,提升AI编程效率;谷歌发布实验性开源模型DiffusionGemma,采用文本扩散架构提速推理;微软因数据隐私担忧禁用员工使用Claude Fable 5;谷歌升级NotebookLM,引入Gemini 3.5 Flash与独立云计算机;华纳音乐收购Sureel AI,构建版权防护�

今日大家都在搜的词: