CoDi-2:改变交织多模态指令处理和多模态输出生成领域

2023-12-07 11:57 · 稿源：站长之家

**划重点:**
1. 🚀 **CoDi-2介绍**:来自加州大学伯克利、Microsoft Azure AI、Zoom和UNC-Chapel Hill的研究人员共同开发的CoDi-2多模态大语言模型，致力于解决生成和理解复杂多模态指令的问题，在主题驱动的图像生成、视觉转换和音频编辑任务方面取得了显著突破。
2. 💡 **模型特性**:CoDi-2在主题驱动的图像生成和音频编辑等任务上超越了其前身CoDi，并采用了包括音频和视觉输入的编码器和解码器的模型架构。其训练过程中融合了来自扩散模型的像素损失以及令牌损失，展现了在风格适应和主题驱动生成等任务中显著的零样本和少样本能力。
3. 🎯 **多模态生成的挑战**:CoDi-2通过利用语言模型（LLM）在编码和生成过程中将模态与语言对齐，成功应对多模态生成中的零样本精细控制、模态交织指令跟随和多轮多模态对话等挑战，展现出卓越的性能和泛化能力。

站长之家（ChinaZ.com）12月7日消息:研究人员合作开发的CoDi-2多模态大语言模型标志着在处理复杂多模态指令生成和理解方面的重大突破。该模型集成了加州大学伯克利、Microsoft Azure AI、Zoom和UNC-Chapel Hill的研究力量，致力于解决主题驱动的图像生成、视觉转换和音频编辑等领域的难题。

CoDi-2不仅扩展了其前身CoDi的功能，而且在主题驱动的图像生成和音频编辑等任务中表现卓越。其模型架构包括专门用于音频和视觉输入的编码器和解码器。在训练过程中，采用了来自扩散模型的像素损失和令牌损失。CoDi-2在风格适应和主题驱动生成等任务中展现出了显著的零样本和少样本能力。

CoDi-2着重解决了多模态生成中的挑战，强调零样本精细控制、模态交织指令跟随和多轮多模态对话。通过将LLM作为其核心，CoDi-2在编码和生成过程中将各种模态与语言相对应，使其能够理解复杂指令并生成连贯的多模态输出。

模型架构中集成了音频和视觉输入的编码器和解码器，经过对多样生成数据集的训练，CoDi-2在训练阶段利用了来自扩散模型的像素损失和令牌损失。其在零样本能力方面表现出色，不仅在主题驱动的图像生成、视觉转换和音频编辑方面超越了先前的模型，还在新的未见任务中展现了竞争性的性能和泛化能力。

CoDi-2在多模态生成中展示出了广泛的零样本能力，在上下文学习、推理和任意模态生成的多轮互动对话中表现卓越。评估结果显示了其在零样本性能和对新任务的强大泛化能力。在音频处理任务中，CoDi-2的表现卓越，通过在所有指标中获得最低分数，实现了在音轨中添加、删除和替换元素方面的卓越性能。这凸显了在上下文年龄、概念学习、编辑和精细控制方面推动高保真多模态生成的重要性。

CoDi-2是一种先进的AI系统，在包括遵循复杂指令、上下文学习、推理、聊天和不同输入输出模式的各种任务中表现出色。其适应不同风格、基于不同主题的内容生成以及在音频处理方面的熟练操作，使其成为多模态基础建模领域的重大突破。CoDi-2代表了对创建一个全面处理多任务系统的深入探索，即使是尚未经过训练的任务也能轻松处理。

CoDi-2未来的方向计划通过优化上下文学习、拓展对话能力和支持额外的模态来增强其多模态生成能力。它旨在通过使用扩散模型等技术来提高图像和音频的保真度。未来的研究还可能涉及评估和比较CoDi-2与其他模型，以了解其优势和局限性。

项目网址:https://codi-2.github.io/

https://github.com/microsoft/i-Code/tree/main/CoDi-2

链接网址:https://arxiv.org/abs/2311.18775

（举报）

相关推荐

关键词：

CoDi-2

荐多模态和Agent成为大厂AI的新赛点

这是《窄播Weekly》的第52期，本期我们关注的商业动态是:当大厂的AI竞争策略开始倾斜向应用场景，多模态能力和代理执行成为两个焦点。大模型落地C端场景的核心，就是让大模型的能力越来越接近人。沿着这个主旋律，可以划分出两个进化方向:一个是持续降低用户与大模型进行有效沟通的难度;另一个则是让大模型具备执行更复杂任务的能力。前者的实现，需要给到大模型多

AI竞争策略多模态能力大模型应用
荐多模态和Agent成为大厂AI的新赛点

本期《窄播Weekly》聚焦AI大厂竞争策略向应用场景倾斜的趋势，重点分析了多模态能力和代理执行两大发展方向。文章指出，大模型落地的核心在于让人机交互更自然，具体表现为：1）通过多模态技术降低用户使用门槛，如阿里夸克新推出的"拍照问夸克"功能；2）通过代理执行提升复杂任务处理能力，如字节、百度等推出的通用Agent产品。国内外厂商路径差异明显：国�

AI应用场景多模态能力代理执行
可灵AI发布全新2.0模型：上线多模态视频编辑功能

快科技4月16日消息，据报道，可灵AI在北京举行灵感成真”2.0模型发布会，正式发布可灵2.0视频生成模型及可图2.0图像生成模型。据介绍，可灵2.0模型在动态质量、语义响应、画面美学等维度保持领先；可图2.0模型在指令遵循、电影质感及艺术风格表现等方面显著提升。3月27日，全球AI基准测试机构Artificial Analysis发布了最新的全球视频生成大模型榜单，快手可灵1.6pro（高品质模

可灵AI 视频生成模型图像生成模型
荐UniToken：多模态AI的“全能选手”，一次编码搞定图文理解与图像生成

复旦大学与美团研究者提出UniToken框架，首次在统一模型中实现图文理解与生成任务的"双优表现"。该方案融合连续和离散视觉编码，有效解决了传统多模态建模中的"任务干扰"和"表示割裂"问题。通过三阶段训练策略（视觉语义对齐、多任务联合训练、指令强化微调），UniToken在多个基准测试中性能超越专用模型。其创新性体现在：1）统一的双边视觉编码

UniToken 多模态建模视觉编码
紫东太初多模态RAG全新发布：端到端问答准确率提升33%

在产业智能化进程中，如何高效融合企业专有知识资产，构建领域专属认知引擎，是企业迈向智能决策与高效运营的关键。然而，传统检索增强生成(RAG)技术受限于语言单模态处理能力，仅能实现文本知识库与文本查询之间的浅层理解，难以满足复杂业务场景的需求，在实际应用中暴露出两大缺陷:信息表征缺失:忽略知识库中多模态富文档的视觉语义信息，如版面结构、图表关�

产业智能化企业知识资产多模态检索
业界唯一！百度网盘上线多模态AI笔记效率提升10倍

快科技5月2日消息，过往，用户在通过视频学习并记录笔记时，总免不了要不停切换平台软件，暂停、截屏、记录、插图、批注、切换返回视频过程繁琐而低效。为了应对这种情况，百度网盘和百度文库联合研发上线了AI笔记”，支持全自动学习、半自动学习、辅助学习三种模式。如今只要在网盘里面任意打开一个学习视频，在右侧就能看到AI笔记”功能，用户可以自主输入内容，也可以让其直接生成图文并茂、结构清晰的笔记。而且每个重要知识点旁会有时间戳，点击时间戳即可跳转到视频中对应位置，实现视频和笔记内容的顺滑关联。此外AI笔记”还可以帮

百度网盘 AI笔记视频学习
开源即支持！基于昇腾MindSpeed MM玩转InternVL3多模态理解最新模型

多模态理解领域当前已成了各家AI大模型公司“军备竞赛”的关键点之一，国内外知名AI大模型公司都争相通过发布最先进的多模态大语言模型展现其在多模态理解领域的前沿能力。近期，上海AI实验室推出了其最新的多模态大语言模型InternVL3 系列，相比上一代InternVL2. 5 模型，该模型展现出卓越的多模态感知和推理能力，同时进一步扩展了其工具使用、GUI代理、工业图像分析等

多模态理解 AI大模型 InternVL3
荐AI日报：国内首个多模态AI程序员上岗；字节启动Top Seed计划招募AI人才；DeepSeek R1T Chimera上线OpenRouter

【AI日报】今日AI领域重要动态：1.百度发布文心快码3.5及多模态AI程序员"文心快码Comate Zulu"，提升开发效率；2.字节跳动启动"Top Seed"计划，招募30名AI博士人才；3.DeepSeek开源R1T Chimera模型上线OpenRouter平台；4.阿里AI工程师余亮获"全国劳动模范"称号；5.开源图像编辑工具Step1X-Edit登陆Hugging Face，性能媲美GPT-4o；6.谷歌被曝每月向三星支付巨额资金预装Gemini应用

人工智能 AI编程工具多模态交互
C++创始人：需要改变的不是语言，而是开发者的思维方式！

“即使利用AI编写代码，但解决问题仍然是人类的工作”， C++创始人强调了开发者在AI时代的存在意义……

AI编程 AI工具 C++
爷爷赠未出生孙子百万遭儿子起诉法院：驳回合法有效

近日，安徽发生一起因遗产分配引发的家庭纠纷案件，引发社会关注。老强（化名）因突发疾病住院治疗，在生命垂危之际，决定将自己积攒的100万元存款赠予即将诞生的两个孙子。据悉，老强的大儿媳当时已怀有双胞胎，因对隔代后辈的深厚情感，老强对这两个尚未谋面的孙子满怀喜爱与期许。老强离世后不久，大儿媳顺利诞下两名健康婴儿。然而，这一安排却激起了老强�

遗产分配家庭纠纷法律案件

热文

3 天
7天

1

AI侵权纠纷愈演愈烈，特朗普罢免美国版权主管

CoDi-2:改变交织多模态指令处理和多模态输出生成领域

荐多模态和Agent成为大厂AI的新赛点

荐多模态和Agent成为大厂AI的新赛点

可灵AI发布全新2.0模型：上线多模态视频编辑功能

荐UniToken：多模态AI的“全能选手”，一次编码搞定图文理解与图像生成

紫东太初多模态RAG全新发布：端到端问答准确率提升33%

业界唯一！百度网盘上线多模态AI笔记效率提升10倍

开源即支持！基于昇腾MindSpeed MM玩转InternVL3多模态理解最新模型

荐AI日报：国内首个多模态AI程序员上岗；字节启动Top Seed计划招募AI人才；DeepSeek R1T Chimera上线OpenRouter

C++创始人：需要改变的不是语言，而是开发者的思维方式！

爷爷赠未出生孙子百万遭儿子起诉法院：驳回合法有效

热文

AI侵权纠纷愈演愈烈，特朗普罢免美国版权主管

特朗普准备撤回“AI芯片出口管制”……各国单独谈判

隐私被抛弃，监控成为主流？Meta为其AI眼镜新增人脸识别功能

Anthropic推出Claude网络搜索API，押注“后谷歌时代”信息访问

苹果高管称：10 年后，可能 iPhone 将不复存在！

2025 年，SpaceX 发射了多少枚火箭？

谷歌在Pixel 9 Pro广告中，嘲讽iPhone 17：抄袭、老旧！

特朗普关税政策颠覆汽车行业，福特率先开启“涨价潮”！

不顾特朗普的阻挠，Uber继续全球扩张…携手土耳其及中国企

今年第二次，亚马逊的 Zoox 召回 270 辆无人驾驶出租车

基于安卓16的三星 One UI 8 本月发布首个测试版本

站长商机