首页 > 业界 > 关键词  > 谷歌最新资讯  > 正文

谷歌团队推出大型多模态生成模型 可处理多模态生物医学数据

2023-08-05 16:08 · 稿源:站长之家

站长之家(ChinaZ.com)8月5日 消息:尽管人工智能AI)系统取得了重大进展,但大多数现有的最先进(SOTA)系统都是单模态单任务系统,这对开发医疗人工智能系统提出了挑战,因为医疗任务本质上是多模态且模式丰富 涵盖文本、成像、基因组学等。

谷歌 (3)

为了弥补这一差距,在一篇新论文《Towards Generalist Biomedical AI》中,来自 Google Research 和 Google DeepMind 的研究团队提出了 Med-PaLM Multimodal (Med-PaLM M),这是一种大型多模态生成模型,可以处理多模态生物医学数据,包括临床数据 语言、成像和基因组学使用一组模型权重,无需任何特定于任务的修改。

该团队将他们的主要贡献总结如下:

MultiMedBench 的管理我们推出了 MultiMedBench,这是一种新的多模式生物医学基准,涵盖医学成像、临床文本和基因组学等多种模式,具有14项不同的任务,用于训练和评估通用生物医学 AI 系统。

Med-PaLM M,通用生物医学人工智能系统的首次演示我们推出 Med-PaLM M,这是一个单一多任务、多模式生物医学人工智能系统,可以执行医学图像分类、医学问答、视觉问答、放射学报告生成和总结、 基因组变异调用,以及更多具有相同模型权重的集合。

Med-PaLM M 中新颖的新兴能力的证据 除了任务绩效的定量评估之外,我们还观察到零样本医学推理、新医学概念和任务的泛化以及跨任务的积极迁移的证据。

Med-PaLM M 输出的人工评估 除了自动化指标之外,我们还对 Med-PaLM M 跨不同模型尺度生成的胸部 X 射线报告进行放射科医生评估。

该团队首先提出了 MultiMedBench,解决缺乏全面的多模态医疗基准的问题,这是一种多模态生物医学基准,涵盖广泛的多模态数据源,用于衡量通用生物医学人工智能处理从视觉问题到各种医疗任务的能力 应答、报告生成、医学图像分类等。

接下来,研究人员利用 MultiMedBench 通过微调 PaLM-E 模型并将其与生物医学领域对齐来开发 Med-PaLM M。 通用生物医学人工智能模型将多模式医疗数据作为输入,同时使用一组模型参数对其进行处理,并且能够执行多项任务。

更具体地说,该团队通过使用指令调整同时使用不同任务的混合来训练模型,添加纯文本的“一次性示例”以使模型与指令保持一致,并微调 PaLM 的预训练变体 E 在 MultiMedBench 任务上获得生成的 Med-PaLM M 模型。

在他们的实证研究中,评估了 Med-PaLM M 在 MultiMedBench 中的所有任务。 Med-PaLM M 在所有任务上都表现接近或超过基线的 SOTA,同时还表现出强大的零样本泛化能力。

据团队所知,Med-PaLM M是通用生物医学人工智能系统的首次尝试,团队相信他们的工作代表了通用生物医学人工智能发展的关键一步。

举报

  • 相关推荐
  • 马毅团队新研究:微调多模态大模型会灾难性遗忘

    随着GPT-4的发布,多模态大模型成为热点。业界常将视觉编码器与语言模型集成构建MLLM。模型设计和训练技巧仍需进一步优化,以平衡不同能力之间的权衡。

  • 多模态大模型MMICL霸榜 支持文本图像视频输入

    北京交通大学等机构联合推出了新多模态大模型MMICL。它支持文本、图像、视频三种模态的混合输入,在多项多模态能力评测中表现抢眼。随着其性能和适用场景的不断优化,MMICL有望成为多模态领域的新宠。

  • 实现输入到输出「模态自由」, NUS华人团队开源NExT-GPT,最接近AGI的大一统多模态大模型来了

    继各类输入端多模态大语言模型之后,新加坡国立大学华人团队近期开源一种支持任意模态输入和任意模态输出的真正「大一统」多模态大模型,火爆AI社区。ChatGPT的诞生,引爆了2023年的基于大语言模型的AI浪潮,此后各类开源大语言模型陆续问世,包括Flan-T5、Vicuna、LLaMA、Alpaca等。后续研究可以进一步提升模态切换指令微调学习策略以及数据集。

  • 苹果AI/ML团队开发多模态大模型Ferret 成功突破谷歌人机验证码难题

    苹果AI/ML团队与哥伦比亚大学合作研发的多模态大模型“雪貂”已经成功突破了谷歌人机验证码的难题,能够轻松识别图像中的交通信号灯并准确圈出其位置,其性能直逼GPT-4V。Ferret的关键在于改进了大模型在“看说答”任务中的精确度,这得益于其出色的图文关联能力。通过这一研究,Ferret为解决图像理解和多模态任务提供了新的方向,有望在人机交互、智能搜索等领域取得

  • 新加坡华人团队开源全能「大一统」多模态大模型NExT-GPT

    继各类单一模态输入的多模态语言模型后,新加坡国立大学的华人团队最近开源了全能多模态模型NExT-GPT。该模型支持任意模态的输入和输出,可以实现文本、图像、语音和视频之间的自由转换,是第一个实现从任一模态到任一模态转换的通用多模态系统。后续工作可以考虑扩展更多模态,使用更大规模的语言模型基座,以及改进多模态生成策略等。

  • 多模态大模型KOSMOS-2.5 擅长处理文本密集图像

    随着视觉与语言的深度融合,文本图像理解成为多模态领域的新方向。文章介绍了一个突破性的多模态模型KOSMOS-2.5,它在处理文本密集图像上展现强大能力。目标是进一步提升对文本图像的解释生成能力,将KOSMOS-2.5应用于更多实际场景,如文档处理、信息抽取等,从使语言模型真正具备「读图识文」的能力。

  • 具身智能、多模态大模型……盘点杭州亚运会上的五大“最黑”科技

    “与历届亚运会相比,杭州亚运会很可能是最智能的一届。”是亚奥理事会代理总干事维诺德在接受媒体访问时的评价。期待这些黑科技产品逐渐渗透到普通用户的生活中,为我们的生活带来更多便利、效率和可持续性。

  • 生数科技发布自研多模态通用大模型 同时推出PixWeaver、VoxCraft等工具

    9月20日,生数科技发布了自主研发的多模态通用大模型,并同时推出了两款应用产品:视觉创意设计平台PixWeaver和3D资产创建工具VoxCraft。生数科技的多模态通用大模型采用底层融合的思路,将Transformer架构引入扩散模型,实现文本、图像、3D、视频等多模态知识的融合。生数科技的大模型还面向游戏制作、影视制作、广告营销等多个行业提供服务能力,支持各类创意内容的生成。

  • OpenAI或将推出多模态模型GPT-Vision和Gobi,与谷歌Gemini竞争

    谷歌即将发布Gemini,这是一种多模态语言模型,可能会挑战OpenAI的GPT-4的领导地位。但据报道OpenAI正在准备做出适当的回应,该公司计划通过引入名为“GPT-Vision”的图像理解功能来应对Gemini的竞争。Gobi的训练还没有开始,有机会成为GPT-5。

  • ChatGPT推出语音和图像多模态功能 预计未来两周内上线

    OpenAI宣布将在ChatGPT中推出新的语音和图像功能。这些功能可以通过语音对话或展示图片的方式与ChatGPT进行交互。语音功能将在iOS和Android平台上使用图像功能将在所有平台上提供。

热文

  • 3 天
  • 7天