首页 > 业界 > 关键词  > 华为昇腾AI开发者峰会最新资讯  > 正文

中科院正打造“紫东太初”2.0全模态大模型 实现图像、文本、语音三模态相互生成

2023-05-08 15:05 · 稿源:站长之家

在今天的华为昇腾AI开发者峰会上,中国科学院自动化研究所“紫东太初”大模型研究中心常务副主任、武汉人工智能研究院院长王金桥博士介绍了“紫东太初”2.0全模态大模型。

该模型由自动化所和武汉人工智能研究院联合打造,基于华为全栈国产化软硬件平台昇腾AI和开源AI框架昇思MindSpore。

QQ截图20230508150246.jpg

2021年7月,自动化所发布了全球首个千亿参数多模态大模型“紫东太初”,实现了图像、文本、语音三模态数据间的“统一表示”与“相互生成”。

而新版的“紫东太初”2.0全模态大模型可以实现不同模态的统一表征和学习,包括文本、图片、语音、视频、3D点云和传感信号,同时优化了语音、视频和文本的融合认知以及常识计算等功能,进一步突破了感知、认知和决策的交互屏障。

此外,“紫东太初”大模型还开放了基于昇腾和昇思的3.8B图像-文本-语音多模态模型,并推出了紫东太初大模型服务平台。该模型已在多个行业场景领域显示出落地潜力,包括手语教学、法律咨询、交通出行、广电、医疗机器人和医学影像判读等。

举报

  • 相关推荐
  • 模态大模型MMICL霸榜 支持文本图像视频输入

    北京交通大学等机构联合推出了新多模态大模型MMICL。它支持文本、图像、视频三种模态的混合输入,在多项多模态能力评测中表现抢眼。随着其性能和适用场景的不断优化,MMICL有望成为多模态领域的新宠。

  • 模态大模型KOSMOS-2.5 擅长处理文本密集图像

    随着视觉与语言的深度融合,文本图像理解成为多模态领域的新方向。文章介绍了一个突破性的多模态模型KOSMOS-2.5,它在处理文本密集图像上展现强大能力。目标是进一步提升对文本图像的解释生成能力,将KOSMOS-2.5应用于更多实际场景,如文档处理、信息抽取等,从使语言模型真正具备「读图识文」的能力。

  • Kandinsky1:3.3亿参数强大模型文本生成逼真图像

    计算机视觉和生成建模领域取得了显著进展,推动了文本到图像生成的不断发展。各种生成架构,包括基于扩散的模型,在提高生成图像的质量和多样性方面发挥了关键作用。研究人员强调了解决内容问题的需求,建议采取实时监管或强大的分类器来减轻不良输出。

  • 马毅团队新研究:微调多模态大模型会灾难性遗忘

    随着GPT-4的发布,多模态大模型成为热点。业界常将视觉编码器与语言模型集成构建MLLM。模型设计和训练技巧仍需进一步优化,以平衡不同能力之间的权衡。

  • 实现输入到输出「模态自由」, NUS华人团队开源NExT-GPT,最接近AGI的大一统多模态大模型来了

    继各类输入端多模态大语言模型之后,新加坡国立大学华人团队近期开源一种支持任意模态输入和任意模态输出的真正「大一统」多模态大模型,火爆AI社区。ChatGPT的诞生,引爆了2023年的基于大语言模型的AI浪潮,此后各类开源大语言模型陆续问世,包括Flan-T5、Vicuna、LLaMA、Alpaca等。后续研究可以进一步提升模态切换指令微调学习策略以及数据集。

  • ChatGPT推出语音图像模态功能 预计未来两周内上线

    OpenAI宣布将在ChatGPT中推出新的语音和图像功能。这些功能可以通过语音对话或展示图片的方式与ChatGPT进行交互。语音功能将在iOS和Android平台上使用图像功能将在所有平台上提供。

  • 新加坡华人团队开源能「大一统」多模态大模型NExT-GPT

    继各类单一模态输入的多模态语言模型后,新加坡国立大学的华人团队最近开源了全能多模态模型NExT-GPT。该模型支持任意模态的输入和输出,可以实现文本、图像、语音和视频之间的自由转换,是第一个实现从任一模态到任一模态转换的通用多模态系统。后续工作可以考虑扩展更多模态,使用更大规模的语言模型基座,以及改进多模态生成策略等。

  • 具身智能、多模态大模型……盘点杭州亚运会上的五大“最黑”科技

    “与历届亚运会相比,杭州亚运会很可能是最智能的一届。”是亚奥理事会代理总干事维诺德在接受媒体访问时的评价。期待这些黑科技产品逐渐渗透到普通用户的生活中,为我们的生活带来更多便利、效率和可持续性。

  • 生数科技发布自研多模态通用大模型 同时推出PixWeaver、VoxCraft等工具

    9月20日,生数科技发布了自主研发的多模态通用大模型,并同时推出了两款应用产品:视觉创意设计平台PixWeaver和3D资产创建工具VoxCraft。生数科技的多模态通用大模型采用底层融合的思路,将Transformer架构引入扩散模型,实现文本、图像、3D、视频等多模态知识的融合。生数科技的大模型还面向游戏制作、影视制作、广告营销等多个行业提供服务能力,支持各类创意内容的生成。

  • 苹果AI/ML团队开发多模态大模型Ferret 成功突破谷歌人机验证码难题

    苹果AI/ML团队与哥伦比亚大学合作研发的多模态大模型“雪貂”已经成功突破了谷歌人机验证码的难题,能够轻松识别图像中的交通信号灯并准确圈出其位置,其性能直逼GPT-4V。Ferret的关键在于改进了大模型在“看说答”任务中的精确度,这得益于其出色的图文关联能力。通过这一研究,Ferret为解决图像理解和多模态任务提供了新的方向,有望在人机交互、智能搜索等领域取得

今日大家都在搜的词: