开源多模态生成模型MM-Interleaved 支持任意穿插的图文输入和输出

2024-02-01 14:34 · 稿源：站长之家

要点:
1、多模态生成大模型的新突破;
2、独创特征同步器，刷新多项任务 SOTA;
3、可应用于多种图文生成及图像生成任务。

站长之家（ChinaZ.com）2月1日消息:近期，一项开源项目MM-Interleaved引起了学者的广泛关注，该模型在多模态生成大模型方面取得了新的突破。项目引入了独创的特征同步器，刷新多项任务SOTA，拓展了多种图文生成及图像生成任务的应用领域，为多模态大模型的发展提供了新的活力。

MM-Interleaved模型的独特之处在于采用了全新的多模态特征同步器，支持任意穿插的图文输入和输出，可轻松编写引人入胜的旅游日志和童话故事，支持精准理解机器人操作，生成独特风格的精美图片，甚至教用户做菜，玩游戏等，成为随时听候指挥的个人助理。

项目地址:https://github.com/OpenGVLab/MM-Interleaved

模型还具备根据输入的分割图和对应的文本描述生成图像的能力，并确保生成的图像与分割图在空间布局上保持一致，展现出卓越的创造力。

这一项目所体现的独特贡献在于展示了强大的多模态处理能力，且在各个具体下游任务上的表现优异。其框架支持多尺度的图像特征作为输入，并没有对图像和文本的中间特征添加任何额外约束，而是直接采用预测下一个文本token或下一张图像的自监督训练目标，实现单阶段的统一预训练范式，展现了其在应对多样化任务时的强大通用性。

项目的成功标志着多模态大模型的发展朝着实现全面端到端的统一建模和训练迈出了关键一步。该项目不仅在预训练阶段表现出色，而且在具体任务微调后依然能够保持领先地位，为多模态大模型的广泛应用提供了可靠的支持。

项目的问世不仅体现了其预训练阶段所展现的卓越性能，更在于微调后在各个具体下游任务上的全面表现，展现了MM-Interleaved框架成为一个无限创意的智能合作者，帮助用户轻松打造引人入胜的图文作品。

（举报）

相关推荐

关键词：

多模态

荣耀年度旗舰上新，火山引擎助力“YOYO助理”多模态智慧再升级

10月15日，荣耀发布搭载全新MagicOS 10系统的Magic8系列手机、MagicPad3 Pro平板及荣耀手表5 Pro等旗舰新品。智能语音助手“YOYO助理”升级多模态交互能力，支持图文、语音、视频输入及多样化内容输出，结合火山引擎的豆包大模型技术，提供联网问答、智能识图、创意修图、出行规划等场景服务，实现“有问必答、答则精准”的智慧体验，成为用户贴身的“万能管家”。

荣耀Magic8系列 MagicOS10 YOYO助理
既能读懂情绪，还能多模态交互！INDEMIND用空间智能重新定义陪伴机器人

TCL与INDEMIND合作推出的陪伴机器人“Ai Me”通过空间智能技术实现突破，从传统2D感知升级为3D语义感知，赋予机器人动态语义建图、实时环境适应及多模态交互能力。该平台借助立体视觉与多传感器融合，让机器人精准构建三维地图，识别家居属性，实现主动避障与个性化服务。同时，结合低算力混合模型与情感交互功能，机器人可感知用户情绪、提供安全防护，并支持宠物看护等场景拓展，从“工具”升级为有温度的“家庭伙伴”，真正满足复杂家庭需求。

3D感知多模态交互陪伴机器人
百度升级文心助手AIGC创作能力：支持8种模态一键调用多工具

百度搜索近日宣布对文心助手进行全面升级，显著增强其AIGC多模态创作与智能任务解决能力。目前，该平台已支持AI图片、视频、音乐、播客等8种内容形态的生成，并支持用户一键调用多种工具，应对生活、健康、教育、工作等多场景需求。数据显示，百度搜索用户通过文心助手日均生成的AIGC内容量已突破千万。与此同时，百度还发布了行业首个开放式实时互动数字人智�

百度搜索文心助手 AIGC
语音、手势、触控、人脸等，思必驰多模态交互开启智能经济时代

人类的交互通道有眼耳鼻舌口等器官，他们充当着外在世界信号的“接收器”，将范围内的信号接收并传递给“大脑”。在机器世界里，从过去鼠标键盘转变成当下的触控、语音、手势、视觉等，多模态人机交互技术正在彼此融合。目前智能语音具备兼顾老人、儿童以及地方方言的能力，语音与视觉，触屏，LCD反馈显示结合的交互体验，令交互门槛的不断降低。国内专业的对话式AI企业思必驰，结合全链路语音交互技术及自研计算机视觉技术推出多?

思必驰智能经济
支付安全再升级，瑞银信押注多模态技术

支付业务作为所有金融服务的基础入口，安全性始终是其最关键的考量因素。从最基础的密码验证，到数字密钥、指纹识别、面部识别等支付验证技术，每一次支付安全背后都是越来越严峻的风险形势。在支付领域深耕十余年的瑞银信，对支付安全技术有着长期的探索积累，并在近期将目光投向了多模态技术。模态是指任何一种信息的来源，例如指纹、人脸、声纹、步态、虹膜、语音等都可以被称之为一种模态。而所谓多模态识别技术，则是指综合运

支付安全
多模态生物识别成趋势，指静脉识别优势显著！

随着生物识别技术不断发展，在日常人们更容易感受到生物识别技术带来的便利，例如AI人脸识别破案、指纹手机解锁、刷指静脉过闸等，生物识别越来越频繁地出现在大众的视野。在当下众多生物识别方式中，指纹识别是我们最常见的识别方式之一，成本也相对较低，但是关于指纹识别存在的安全隐患频频出现在新闻之中。对于国内的技术工作者甚至是创新型企业，无疑是一种对更高安全识别技术挑战。近年人脸识别、虹膜识别、指静脉识别技术有

指静脉识别
Turing OS 机器人操作系统大升级，多模态交互再增强

今年7月的图灵机器人创新大会上，图灵机器人团队正式对外发布了Turing OS 1.5。图灵机器人曾在2015年发布首款人工智能级的机器人操作系统——Turing OS，是智能机器人专属的操作系统。半年后，伴随着升级版本的到来，团队一次连发几十款机器人应用，并全面加强Turing OS系统，开放图灵机器人平台新服务。经过紧张的调试与准备，10月13日，Turing OS 1.5测试版正式上线。据了解，除了之前会上特别介绍过的机器人应用、视觉能力及主?

机器人
亚略特助力非洲首个多模态生物识别国家身份证中心落成

2019 年 11 月 8 日，安哥拉司法和人权部国家身份与犯罪综合管理平台项目（以下简称“国家身份证中心”）举行落成仪式，这标志着非洲首个多模态生物识别国家身份证体系正式上线。安哥拉总统洛伦索出席剪彩仪式并对该项目给予高度评价，表示该中心将有效提高安哥拉公共服务水平，为经济社会良好稳定发展发挥重要作用。安哥拉国家身份证中心于 2018 年 6 月开始筹建，是安哥拉最高级别的身份证管理机构，具备数据处理、身份证制作等?

生物识别
眼神科技CTO：多模态统一身份认证的必要性

国内知名人工智能及前沿科技领域新媒体量子位发起「量子位·视点」CEO/CTO系列分享活动，眼神科技CTO江武明受邀参加，并进行了主题为《多模态统一身份认证——数字化的入口和枢纽》直播分享，引发数千人观看...电子证照的顺利实施，离不开对电子化证照的管理和鉴权，眼神科技的核心技术解决方案——多模态统一身份认证平台可以做为电子证照推行过程中的一个中枢平台，为随时随地的数据获取和验证提供初始的身份确认及安全保障......

眼神科技
从指纹识别模块到多模态生物识别终端，亚略特“识人”技术的进阶

指纹识别是大众最熟悉的生物识别方式之一，被广泛用于身份认证服务。指纹识别技术具有识别速度快、采集方便和成本较低等优点，目前在生物识别行业仍发挥着重要作用。为各行各业提供“识别人、管理人、服务人”的安全便捷数字身份认证服务，深扎场景，亚略特为用户提供可落地、能解决实际痛点的产品和方案，真正做到赋能行业、赋能生活。

生物识别技术身份认证服务身份认证服务

今日大家都在搜的词：

热文

3 天
7天

开源多模态生成模型MM-Interleaved 支持任意穿插的图文输入和输出

荣耀年度旗舰上新，火山引擎助力“YOYO助理”多模态智慧再升级

既能读懂情绪，还能多模态交互！INDEMIND用空间智能重新定义陪伴机器人

百度升级文心助手AIGC创作能力：支持8种模态一键调用多工具

语音、手势、触控、人脸等，思必驰多模态交互开启智能经济时代

支付安全再升级，瑞银信押注多模态技术

多模态生物识别成趋势，指静脉识别优势显著！

Turing OS 机器人操作系统大升级，多模态交互再增强

亚略特助力非洲首个多模态生物识别国家身份证中心落成

眼神科技CTO：多模态统一身份认证的必要性

从指纹识别模块到多模态生物识别终端，亚略特“识人”技术的进阶

今日大家都在搜的词：

热文

五大升级！红米REDMI K90标准版采用6.59英寸黄金中尺寸

AI日报：阿里夸克“C计划”曝光；Veo3.1将增加视频“精确编辑”

华为FreeClip 2耳夹耳机正式开售：售价1299元搭载NPU AI处理器

iOS 26液态玻璃效果能关了苹果iOS 26.1 Beta 4新增液态玻璃开

AI日报：视觉中国与多家大模型公司达成合作；OpenAI紧急暂停So

天猫双11今晚8点开卖品类券每人可领万元

余承东官宣华为路由X3 Pro 采用“日照金山”设计

火车免费坐？12306今起又上新功能：积分可兑换车票

REDMI K90 Pro Max本周四发布卢伟冰：给4K档一点小小的震撼

REDMI K90 Pro Max搭载小米17同款光影猎人950超大底主摄

五大升级！红米REDMI K90标准版采用6.59英寸黄金中尺寸

AI日报：阿里夸克“C计划”曝光；Veo3.1将增加视频“精确编辑”

华为FreeClip 2耳夹耳机正式开售：售价1299元搭载NPU AI处理器

AI日报：谷歌Gemini 3.0 Pro小范围推送；爱诗科技完成1亿元B+轮

王腾首次回应下一步计划：称在考虑些创业项目

iOS 26液态玻璃效果能关了苹果iOS 26.1 Beta 4新增液态玻璃开

REDMI K90 Pro Max外观公布：后置BOSE认证扬声器

红米REDMI K90 Pro Max丹宁色亮相采用第三代科纳皮设计

AI日报：视觉中国与多家大模型公司达成合作；OpenAI紧急暂停So

天猫双11今晚8点开卖品类券每人可领万元

站长商机