中科院正打造“紫东太初”2.0全模态大模型实现图像、文本、语音三模态相互生成

2023-05-08 15:05 · 稿源：站长之家

在今天的华为昇腾AI开发者峰会上，中国科学院自动化研究所“紫东太初”大模型研究中心常务副主任、武汉人工智能研究院院长王金桥博士介绍了“紫东太初”2.0全模态大模型。

该模型由自动化所和武汉人工智能研究院联合打造，基于华为全栈国产化软硬件平台昇腾AI和开源AI框架昇思MindSpore。

QQ截图20230508150246.jpg

2021年7月，自动化所发布了全球首个千亿参数多模态大模型“紫东太初”，实现了图像、文本、语音三模态数据间的“统一表示”与“相互生成”。

而新版的“紫东太初”2.0全模态大模型可以实现不同模态的统一表征和学习，包括文本、图片、语音、视频、3D点云和传感信号，同时优化了语音、视频和文本的融合认知以及常识计算等功能，进一步突破了感知、认知和决策的交互屏障。

此外，“紫东太初”大模型还开放了基于昇腾和昇思的3.8B图像-文本-语音多模态模型，并推出了紫东太初大模型服务平台。该模型已在多个行业场景领域显示出落地潜力，包括手语教学、法律咨询、交通出行、广电、医疗机器人和医学影像判读等。

（举报）

相关推荐

关键词：

荐多模态大模型MMICL霸榜支持文本图像视频输入

北京交通大学等机构联合推出了新多模态大模型MMICL。它支持文本、图像、视频三种模态的混合输入，在多项多模态能力评测中表现抢眼。随着其性能和适用场景的不断优化，MMICL有望成为多模态领域的新宠。

大模型
多模态大模型KOSMOS-2.5 擅长处理文本密集图像

随着视觉与语言的深度融合，文本图像理解成为多模态领域的新方向。文章介绍了一个突破性的多模态模型KOSMOS-2.5，它在处理文本密集图像上展现强大能力。目标是进一步提升对文本图像的解释生成能力，将KOSMOS-2.5应用于更多实际场景，如文档处理、信息抽取等，从使语言模型真正具备「读图识文」的能力。

多模态
Kandinsky1：3.3亿参数强大模型，文本生成逼真图像

计算机视觉和生成建模领域取得了显著进展，推动了文本到图像生成的不断发展。各种生成架构，包括基于扩散的模型，在提高生成图像的质量和多样性方面发挥了关键作用。研究人员强调了解决内容问题的需求，建议采取实时监管或强大的分类器来减轻不良输出。

Kandinsky1 大模型
马毅团队新研究：微调多模态大模型会灾难性遗忘

随着GPT-4的发布，多模态大模型成为热点。业界常将视觉编码器与语言模型集成构建MLLM。模型设计和训练技巧仍需进一步优化，以平衡不同能力之间的权衡。

多模态
实现输入到输出「模态自由」, NUS华人团队开源NExT-GPT，最接近AGI的大一统多模态大模型来了

继各类输入端多模态大语言模型之后，新加坡国立大学华人团队近期开源一种支持任意模态输入和任意模态输出的真正「大一统」多模态大模型，火爆AI社区。ChatGPT的诞生，引爆了2023年的基于大语言模型的AI浪潮，此后各类开源大语言模型陆续问世，包括Flan-T5、Vicuna、LLaMA、Alpaca等。后续研究可以进一步提升模态切换指令微调学习策略以及数据集。

AGI 大模型
ChatGPT推出语音和图像多模态功能预计未来两周内上线

OpenAI宣布将在ChatGPT中推出新的语音和图像功能。这些功能可以通过语音对话或展示图片的方式与ChatGPT进行交互。语音功能将在iOS和Android平台上使用图像功能将在所有平台上提供。
荐新加坡华人团队开源全能「大一统」多模态大模型NExT-GPT

继各类单一模态输入的多模态语言模型后，新加坡国立大学的华人团队最近开源了全能多模态模型NExT-GPT。该模型支持任意模态的输入和输出，可以实现文本、图像、语音和视频之间的自由转换，是第一个实现从任一模态到任一模态转换的通用多模态系统。后续工作可以考虑扩展更多模态，使用更大规模的语言模型基座，以及改进多模态生成策略等。

大模型
具身智能、多模态大模型……盘点杭州亚运会上的五大“最黑”科技

“与历届亚运会相比，杭州亚运会很可能是最智能的一届。”是亚奥理事会代理总干事维诺德在接受媒体访问时的评价。期待这些黑科技产品逐渐渗透到普通用户的生活中，为我们的生活带来更多便利、效率和可持续性。
生数科技发布自研多模态通用大模型同时推出PixWeaver、VoxCraft等工具

9月20日，生数科技发布了自主研发的多模态通用大模型，并同时推出了两款应用产品:视觉创意设计平台PixWeaver和3D资产创建工具VoxCraft。生数科技的多模态通用大模型采用底层融合的思路，将Transformer架构引入扩散模型，实现文本、图像、3D、视频等多模态知识的融合。生数科技的大模型还面向游戏制作、影视制作、广告营销等多个行业提供服务能力，支持各类创意内容的生成。
苹果AI/ML团队开发多模态大模型Ferret 成功突破谷歌人机验证码难题

苹果AI/ML团队与哥伦比亚大学合作研发的多模态大模型“雪貂”已经成功突破了谷歌人机验证码的难题，能够轻松识别图像中的交通信号灯并准确圈出其位置，其性能直逼GPT-4V。Ferret的关键在于改进了大模型在“看说答”任务中的精确度，这得益于其出色的图文关联能力。通过这一研究，Ferret为解决图像理解和多模态任务提供了新的方向，有望在人机交互、智能搜索等领域取得

大模型 AI头条

今日大家都在搜的词：

热文

3 天
7天

中科院正打造“紫东太初”2.0全模态大模型实现图像、文本、语音三模态相互生成

荐多模态大模型MMICL霸榜支持文本图像视频输入

多模态大模型KOSMOS-2.5 擅长处理文本密集图像

Kandinsky1：3.3亿参数强大模型，文本生成逼真图像

马毅团队新研究：微调多模态大模型会灾难性遗忘

实现输入到输出「模态自由」, NUS华人团队开源NExT-GPT，最接近AGI的大一统多模态大模型来了

ChatGPT推出语音和图像多模态功能预计未来两周内上线

荐新加坡华人团队开源全能「大一统」多模态大模型NExT-GPT

具身智能、多模态大模型……盘点杭州亚运会上的五大“最黑”科技

生数科技发布自研多模态通用大模型同时推出PixWeaver、VoxCraft等工具

苹果AI/ML团队开发多模态大模型Ferret 成功突破谷歌人机验证码难题

今日大家都在搜的词：

热文

微信新功能上线：长按图片“搜一搜” 检索购物转表一键达

AI日报：京东物流推出超脑大模型2.0；DeepSeek V3.1终结版发布

理想i6正式上市：首销直减1万限时售价23.98万元

李想感谢雷军夸理想： “67Y”一起加电

雷军大方推荐友商产品：不买YU7 可以考虑Model Y和理想i6

鸿蒙智行：尊界S800上市4个月大定超1.5万台

小米17系列开售5分钟破25年国产手机首销纪录

小米17/Pro/Pro Max今日首销：4499元起

5299元！小米17标准版新增16GB+1TB版本：10月5日发售

微信新功能上线：长按图片“搜一搜” 检索购物转表一键达

华为WATCH GT 6/Pro系列手表发布售价1488元起

AI日报：接入MJ！夸克发布造点AI；Wan2.5-Preview发布；可灵推

AI日报：阿里推多模态模型Qwen3-Omni；谷歌推出AP2协议；百度推

小米SU7 Ultra原型车1:43合金车模发布：售价149元

AI日报：生数科技推出Vidu Q2；火山引擎推出炉米Lumi；通义千问

499元！小米手环10耀影金特别版发布

雷军自曝压力巨大：造车造芯把家底全押上了

雷军称没什么好犹豫的：50岁正是闯的年纪

小米非常非常缺人上热搜雷军谈小米成功秘诀

站长商机

中科院正打造“紫东太初”2.0全模态大模型 实现图像、文本、语音三模态相互生成

今日大家都在搜的词：

热文

站长商机

中科院正打造“紫东太初”2.0全模态大模型实现图像、文本、语音三模态相互生成