多模态模型新突破：李飞飞团队统一动作与语言，不仅超懂指令，还能读懂隐含情绪

2024-12-18 17:52 · 来源： AIbase基地

李飞飞团队推出了一种新的多模态模型，该模型能够理解和生成人类的动作，并通过结合语言模型，实现了对口头和非口头语言的统一处理。这一突破性的研究，使得机器不仅可以理解人类的指令，还能读懂动作中蕴含的情绪，从而更自然地进行人机交互。

该模型的核心在于其多模态语言模型框架，能够接收音频、动作和文本等多种形式的输入，并输出所需的模态数据。结合生成式预训练策略，该模型在多个任务上展现出卓越的性能。例如，在协同语音手势生成方面，该模型不仅超越了现有技术水平，还显著减少了训练所需的数据量。此外，该模型还解锁了新的应用场景，如可编辑的手势生成以及通过动作预测情绪.

人类交流本质上是多模态的，包括言语和非言语线索，如语音、面部表情和身体姿势。此模型能够理解这些多模态行为，对于创建在游戏、电影和虚拟现实等应用中自然交流的虚拟角色至关重要。然而，现有的动作生成模型通常仅限于特定的输入模态（语音、文本或动作数据），无法充分利用可用数据的多样性。

该模型利用语言模型统一口头和非口头语言，主要有三个原因:

语言模型自然地连接不同的模态。

语音具有高度语义性，而建模诸如对笑话的反应等任务需要强大的语义推理能力。

语言模型通过广泛的预训练获得了强大的语义理解能力。

为了实现这一目标，研究团队首先将身体划分为不同的部分（面部、手部、上半身、下半身），并单独对每个部分进行动作标记。结合文本和语音的标记器，任何模态的输入都可以表示为一系列的标记，供语言模型使用。该模型采用了两阶段训练流程:首先进行预训练，以实现各种模态与组合身体动作的对齐，以及音频和文本的对齐。之后，将下游任务转化为指令，并在这些指令上训练模型，使其能够遵循各种任务指令。

该模型在 BEATv2协同语音手势生成基准测试中表现出色，远超现有模型。预训练策略的效果也得到了验证，尤其是在数据稀缺的情况下，表现出强大的泛化能力。通过在语音-动作和文本-动作任务上进行后训练，模型不仅可以遵循音频和文本提示，还可以实现从动作数据中预测情绪等新功能。

在技术细节上，该模型采用模态特定的标记器处理各种输入模态。具体来说，该模型训练了一个组合身体运动 VQ-VAE，将面部、手部、上半身和下半身的动作转化为离散的标记。这些模态特定的词汇（音频和文本）被合并到一个统一的多模态词汇表中。在训练过程中，不同模态的混合标记被用作输入，并通过编码器-解码器语言模型生成输出。

该模型还利用多模态词汇表，将不同的模态数据转换为统一的格式进行处理。在预训练阶段，模型通过执行模态间的转换任务，来学习不同模态之间的对应关系。例如，模型可以学习将上身动作转换为下身动作，或者将音频转换为文本。此外，模型还会通过随机屏蔽某些动作帧来学习动作的时间演变。

在后训练阶段，模型使用配对数据进行微调，以执行协同语音手势生成或文本到动作生成等下游任务。为了使模型能够遵循自然的人类指令，研究人员构建了一个多任务指令遵循模板，将音频到动作、文本到动作和情绪到动作等任务转化为指令。该模型还具备编辑手势的能力，可以根据文本和音频提示生成协同的全身体动作。

最后，该模型还解锁了从动作预测情绪的新能力。这对于心理健康或精神病学等领域具有重要意义。与其他模型相比，该模型能够更准确地预测动作中表达的情绪，显示出强大的身体语言理解能力。

该研究表明，统一人类动作的口头和非口头语言对于实际应用至关重要，而语言模型为此提供了一个强大的框架。

论文地址：https://arxiv.org/pdf/2412.10523v1

相关推荐

主流AI多模态大模型有哪些？超全的多模态大模型指南分享

2024年多模态大模型成为AI领域最具前景的技术方向之一。文章全面分析了主流多模态大模型的特点、应用场景和发展趋势。多模态大模型能同时处理文本、图像、音频、视频等多种数据，实现更智能的人机交互。重点介绍了GPT-4V、Claude3.5、Gemini、通义千问等代表性模型，对比了它们在视觉理解、编程能力、中文处理等方面的优势。应用场景涵盖智能客服、内容创作、教育医疗等领域。未来发展趋势包括模型规模扩大、支持更多模态、实时交互能力提升等。选择模型需考虑应用需求、语言支持、性能成本等因素。

多模态大模型 AI技术发展 GPT-4V
AI重构社交生态 Soul以多模态技术赋能社交

社交平台Soul正通过AI技术重塑社交生态：1）2016年推出智能推荐系统"灵犀引擎"，2020年启动AIGC算法研发，2023年推出自研大模型Soul+X，开发AI虚拟人、智能聊天等应用；2）升级多模态大模型，支持文字对话、语音通话、多语言理解等功能，提供拟人化情感陪伴；3）围绕Z世代需求，促成超10万对情侣步入婚姻，并联合开展心理健康公益活动；4）以"技术+人文"双轮驱动，致力于打造更智能舒适的社交环境，重新定义人机关系。

AI社交 Soul平台多模态大模型
荐AI日报：腾讯混元推3D生成大模型Hunyuan3D-PolyGen；钉钉AI表格重磅来袭；阿里推多模态大语言模型HumanOmniV2

本文介绍了AI领域多项重要进展：1)腾讯推出首个美术3D生成大模型Hunyuan3D-PolyGen，显著提升建模效率；2)阿里发布多模态大模型HumanOmniV2，准确率达69.33%；3)钉钉AI表格实现1小时处理千项任务；4)百度PaddleOCR3.1版本在多语种识别和文档翻译方面升级；5)微软推出Deep Research智能体，自动化研究流程；6)香港理工与OPPO联合开源视频超清框架DLoRAL；7)谷歌开源MCP工具箱简化AI与数据库集成；8)Win11将推出AI动态壁纸功能。这些创新展示了AI在3D生成、多模态理解、办公效率、视觉处理等领域的突破性进展。
天地一体化创新突破！中科曙光与中科星图共建太空算网

中科曙光与中科星图在"2025空天信息大会"达成合作，聚焦太空计算领域，计划创新"天地一体化"服务模式。双方将联合研发高性能、低功耗的专用核心部件，推动"芯片-整机-算网-数据-应用-生态"全链路技术创新，共建开放普惠的太空算网，构建"用户端-星上边缘-天基云-地基云"协同智能计算架构，实现算力互联调度与数据实时处理，并接入国家级算力服务平台，助力航天产业生态繁荣。此次合作响应国家培育商业航天等新兴产业需求，是落实科技自立自强的实践探索。
荐「6月30日AI日报」百度开源文心大模型4.5系列；通义千问发布多模态生成模型Qwen VLo

AI日报精选：1)百度开源文心大模型4.5系列，含10款新模型，性能优异；2)通义千问发布多模态模型Qwen-VL，支持图文交互；3)阿里开源3亿参数多模态模型Ovis-U1；4)华为开源盘古7B稠密和72B混合专家模型；5)美图MOKI推出AI创意广告功能，一键生成专业视频；6)谷歌Gemini 2.5 Pro API重新免费开放；7)豆瓣上线"深入研究"AI功能；8)小米"AI百宝箱"结束内测；9)北京智研院开源多模态系统OmniGen2；10)知乎升级"直答"知识库功能。

AI日报文心大模型开源模型
实景直播秀新突破：11台FX3和FX6摄影机联合打造电影感时装直播秀

文章讲述了新锐品牌Blacknini通过一场电影感大型直播秀传递品牌理念的案例。直播采用索尼FX6和FX3摄影机搭配原厂镜头，通过11个机位完成户外秀场和室内晚宴的拍摄。重点介绍了索尼设备在多机位协同、色彩匹配、散热稳定性等方面的优势，以及原厂镜头对焦精准、跟焦稳定的特点。文章还分享了现场调色方案和三种信号传输方式（光纤、微波图传和5G）的灵活组合，展现了�
燕荚专业健康顾问团队：人均超 20000 小时服务，为您排忧解难

文章强调健康是现代生活的基石，介绍健康管理品牌"燕萍"提供全方位健康服务。该品牌拥有专业顾问团队，针对不同年龄段和健康需求提供个性化方案，包括孕期护理、慢性病管理等。通过严格的产品筛选流程和全国仓储布局，确保高品质健康产品的供应。同时配备资深健康顾问团队，提供一对一咨询和科学指导，帮助用户建立健康生活方式。文章倡导选择燕萍作为健康生活伙伴，共同追求健康美好生活。
国内首个！高德地图正式上线多语言地图：新增14种语言

日前，高德地图正式上线多语言地图，在原有的中英文基础上，新增多达14种语言。这14种语言包括西班牙语、葡萄牙语、法语、德语、泰语、日语、韩语、土耳其语、意大利语、俄语、阿拉伯语、马来语、印尼语、越南语。此次多语言版的推出，使更多非英语国家的用户也能享受高德地图提供的优质出行服务。高德地图多语言版实现了产品界面与地理信息的多语种适配，�
妈妈被娃突然抱起重重摔倒在地网友提醒动作危险

7月15日，湖南发生了一起令人意外的事件。画面中，一个小男孩突然从身后紧紧抱起妈妈，这一突如其来的举动让妈妈瞬间重心不稳，身体猛烈地撞上了旁边的筐子，随后重重摔倒在地。这一幕被拍摄下来并在网络上传播，引发了网友们的广泛关注和热议。许多网友纷纷表示，这突如其来的“爱的暴击”实在是太突然了，让人既感到心疼又觉得好笑。不过，在欢笑之余，也
以茶载道，走向国际：小罐茶让世界读懂中国智慧

小罐茶作为中国茶文化国际传播的代表，通过博鳌亚洲论坛、全球外交官之夜等高端平台持续亮相，创新融合传统茶艺与现代表达。报告显示中国茶叶出口量持续增长但品牌影响力待提升。小罐茶以"品质+文化+创新"模式打造全球品牌IP，通过AI互动、茶咖融合等创新形式，让世界从一杯茶中读懂中国智慧。其国际布局不仅推动中国茶从"走出去"迈向"走进去"，更成为连接中外文明对话的桥梁，展现新时代中国文化自信。

今日大家都在搜的词：

热文

3 天
7天

多模态模型新突破：李飞飞团队统一动作与语言，不仅超懂指令，还能读懂隐含情绪

主流AI多模态大模型有哪些？超全的多模态大模型指南分享

AI重构社交生态 Soul以多模态技术赋能社交

荐AI日报：腾讯混元推3D生成大模型Hunyuan3D-PolyGen；钉钉AI表格重磅来袭；阿里推多模态大语言模型HumanOmniV2

天地一体化创新突破！中科曙光与中科星图共建太空算网

荐「6月30日AI日报」百度开源文心大模型4.5系列；通义千问发布多模态生成模型Qwen VLo

实景直播秀新突破：11台FX3和FX6摄影机联合打造电影感时装直播秀

燕荚专业健康顾问团队：人均超 20000 小时服务，为您排忧解难

国内首个！高德地图正式上线多语言地图：新增14种语言

妈妈被娃突然抱起重重摔倒在地网友提醒动作危险

以茶载道，走向国际：小罐茶让世界读懂中国智慧

今日大家都在搜的词：

热文

理想小米同一个地方开发布会：理想i8发布会定于首都国际会议中

A日报：Kimi开放平台上线Kimi Playground；OpenAI重磅发布Chat

华为鸿蒙智行：尊界S800上市50天大定破8000台

华为MatePad Pro 12.2开启预约预计7月24日正式发布

小米深圳大厦开园：卢伟冰现场喝小米粥

小米骨传导耳机2发布：699元 7月21日开售

AI日报：美图发布影像AI Agent RoboNeo；1.8bit量化Kimi K2模型

理想小米同一个地方开发布会：理想i8发布会定于首都国际会议中

A日报：Kimi开放平台上线Kimi Playground；OpenAI重磅发布Chat

黄仁勋称想买一辆小米汽车英伟达在多方面与小米开展合作

华为鸿蒙智行：尊界S800上市50天大定破8000台

贾跃亭旗下FF获1.05亿美元融资将加速FX Super One生产交付

抖音：“抖音会议”App是诈骗软件会直接控制用户手机

华为MatePad Pro 12.2开启预约预计7月24日正式发布

理想i8开启预定：7月29日上市预售价35-40万元

小米深圳大厦开园：卢伟冰现场喝小米粥

站长商机