首页 > AI头条  > 正文

多模态模型新突破:李飞飞团队统一动作与语言,不仅超懂指令,还能读懂隐含情绪

2024-12-18 17:52 · 来源: AIbase基地

李飞飞团队推出了一种新的多模态模型,该模型能够理解和生成人类的动作,并通过结合语言模型,实现了对口头和非口头语言的统一处理。 这一突破性的研究,使得机器不仅可以理解人类的指令,还能读懂动作中蕴含的情绪,从而更自然地进行人机交互。

该模型的核心在于其多模态语言模型框架,能够接收音频、动作和文本等多种形式的输入,并输出所需的模态数据。 结合生成式预训练策略,该模型在多个任务上展现出卓越的性能。 例如,在协同语音手势生成方面,该模型不仅超越了现有技术水平,还显著减少了训练所需的数据量。 此外,该模型还解锁了新的应用场景,如可编辑的手势生成以及通过动作预测情绪.

image.png

人类交流本质上是多模态的,包括言语和非言语线索,如语音、面部表情和身体姿势。 此模型能够理解这些多模态行为,对于创建在游戏、电影和虚拟现实等应用中自然交流的虚拟角色至关重要。 然而,现有的动作生成模型通常仅限于特定的输入模态(语音、文本或动作数据),无法充分利用可用数据的多样性。

该模型利用语言模型统一口头和非口头语言,主要有三个原因:

语言模型自然地连接不同的模态。

语音具有高度语义性,而建模诸如对笑话的反应等任务需要强大的语义推理能力。

语言模型通过广泛的预训练获得了强大的语义理解能力。

为了实现这一目标,研究团队首先将身体划分为不同的部分(面部、手部、上半身、下半身),并单独对每个部分进行动作标记。 结合文本和语音的标记器,任何模态的输入都可以表示为一系列的标记,供语言模型使用。 该模型采用了两阶段训练流程:首先进行预训练,以实现各种模态与组合身体动作的对齐,以及音频和文本的对齐。 之后,将下游任务转化为指令,并在这些指令上训练模型,使其能够遵循各种任务指令。

image.png

该模型在 BEATv2协同语音手势生成基准测试中表现出色,远超现有模型。 预训练策略的效果也得到了验证,尤其是在数据稀缺的情况下,表现出强大的泛化能力。 通过在语音-动作和文本-动作任务上进行后训练,模型不仅可以遵循音频和文本提示,还可以实现从动作数据中预测情绪等新功能。

在技术细节上,该模型采用模态特定的标记器处理各种输入模态。 具体来说,该模型训练了一个组合身体运动 VQ-VAE,将面部、手部、上半身和下半身的动作转化为离散的标记。 这些模态特定的词汇(音频和文本)被合并到一个统一的多模态词汇表中。 在训练过程中,不同模态的混合标记被用作输入,并通过编码器-解码器语言模型生成输出。

该模型还利用多模态词汇表,将不同的模态数据转换为统一的格式进行处理。 在预训练阶段,模型通过执行模态间的转换任务,来学习不同模态之间的对应关系。 例如,模型可以学习将上身动作转换为下身动作,或者将音频转换为文本。 此外,模型还会通过随机屏蔽某些动作帧来学习动作的时间演变。

在后训练阶段,模型使用配对数据进行微调,以执行协同语音手势生成或文本到动作生成等下游任务。 为了使模型能够遵循自然的人类指令,研究人员构建了一个多任务指令遵循模板,将音频到动作、文本到动作和情绪到动作等任务转化为指令。 该模型还具备编辑手势的能力,可以根据文本和音频提示生成协同的全身体动作。

最后,该模型还解锁了从动作预测情绪的新能力。 这对于心理健康或精神病学等领域具有重要意义。 与其他模型相比,该模型能够更准确地预测动作中表达的情绪,显示出强大的身体语言理解能力。

该研究表明,统一人类动作的口头和非口头语言对于实际应用至关重要,而语言模型为此提供了一个强大的框架。

论文地址:https://arxiv.org/pdf/2412.10523v1

  • 相关推荐
  • 主流AI多模态大模型有哪些?超全的多模态大模型指南分享

    2024年多模态大模型成为AI领域最具前景的技术方向之一。文章全面分析了主流多模态大模型的特点、应用场景和发展趋势。多模态大模型能同时处理文本、图像、音频、视频等多种数据,实现更智能的人机交互。重点介绍了GPT-4V、Claude3.5、Gemini、通义千问等代表性模型,对比了它们在视觉理解、编程能力、中文处理等方面的优势。应用场景涵盖智能客服、内容创作、教育医疗等领域。未来发展趋势包括模型规模扩大、支持更多模态、实时交互能力提升等。选择模型需考虑应用需求、语言支持、性能成本等因素。

  • AI重构社交生态 Soul以多模态技术赋能社交

    社交平台Soul正通过AI技术重塑社交生态:1)2016年推出智能推荐系统"灵犀引擎",2020年启动AIGC算法研发,2023年推出自研大模型Soul+X,开发AI虚拟人、智能聊天等应用;2)升级多模态大模型,支持文字对话、语音通话、多语言理解等功能,提供拟人化情感陪伴;3)围绕Z世代需求,促成超10万对情侣步入婚姻,并联合开展心理健康公益活动;4)以"技术+人文"双轮驱动,致力于打造更智能舒适的社交环境,重新定义人机关系。

  • AI日报:腾讯混元推3D生成大模型Hunyuan3D-PolyGen;钉钉AI表格重磅来袭;阿里推多模态大语言模型HumanOmniV2

    本文介绍了AI领域多项重要进展:1)腾讯推出首个美术3D生成大模型Hunyuan3D-PolyGen,显著提升建模效率;2)阿里发布多模态大模型HumanOmniV2,准确率达69.33%;3)钉钉AI表格实现1小时处理千项任务;4)百度PaddleOCR3.1版本在多语种识别和文档翻译方面升级;5)微软推出Deep Research智能体,自动化研究流程;6)香港理工与OPPO联合开源视频超清框架DLoRAL;7)谷歌开源MCP工具箱简化AI与数据库集成;8)Win11将推出AI动态壁纸功能。这些创新展示了AI在3D生成、多模态理解、办公效率、视觉处理等领域的突破性进展。

  • 天地一体化创新突破!中科曙光与中科星图共建太空算网

    中科曙光与中科星图在"2025空天信息大会"达成合作,聚焦太空计算领域,计划创新"天地一体化"服务模式。双方将联合研发高性能、低功耗的专用核心部件,推动"芯片-整机-算网-数据-应用-生态"全链路技术创新,共建开放普惠的太空算网,构建"用户端-星上边缘-天基云-地基云"协同智能计算架构,实现算力互联调度与数据实时处理,并接入国家级算力服务平台,助力航天产业生态繁荣。此次合作响应国家培育商业航天等新兴产业需求,是落实科技自立自强的实践探索。

  • 「6月30日AI日报」百度开源文心大模型4.5系列;通义千问发布多模态生成模型Qwen VLo

    AI日报精选:1)百度开源文心大模型4.5系列,含10款新模型,性能优异;2)通义千问发布多模态模型Qwen-VL,支持图文交互;3)阿里开源3亿参数多模态模型Ovis-U1;4)华为开源盘古7B稠密和72B混合专家模型;5)美图MOKI推出AI创意广告功能,一键生成专业视频;6)谷歌Gemini 2.5 Pro API重新免费开放;7)豆瓣上线"深入研究"AI功能;8)小米"AI百宝箱"结束内测;9)北京智研院开源多模态系统OmniGen2;10)知乎升级"直答"知识库功能。

  • 实景直播秀新突破:11台FX3和FX6摄影机联合打造电影感时装直播秀

    文章讲述了新锐品牌Blacknini通过一场电影感大型直播秀传递品牌理念的案例。直播采用索尼FX6和FX3摄影机搭配原厂镜头,通过11个机位完成户外秀场和室内晚宴的拍摄。重点介绍了索尼设备在多机位协同、色彩匹配、散热稳定性等方面的优势,以及原厂镜头对焦精准、跟焦稳定的特点。文章还分享了现场调色方案和三种信号传输方式(光纤、微波图传和5G)的灵活组合,展现了�

  • 燕荚专业健康顾问团队:人均超 20000 小时服务,为您排忧解难

    文章强调健康是现代生活的基石,介绍健康管理品牌"燕萍"提供全方位健康服务。该品牌拥有专业顾问团队,针对不同年龄段和健康需求提供个性化方案,包括孕期护理、慢性病管理等。通过严格的产品筛选流程和全国仓储布局,确保高品质健康产品的供应。同时配备资深健康顾问团队,提供一对一咨询和科学指导,帮助用户建立健康生活方式。文章倡导选择燕萍作为健康生活伙伴,共同追求健康美好生活。

  • 国内首个!高德地图正式上线多语言地图:新增14种语言

    日前,高德地图正式上线多语言地图,在原有的中英文基础上,新增多达14种语言。 这14种语言包括西班牙语、葡萄牙语、法语、德语、泰语、日语、韩语、土耳其语、意大利语、俄语、阿拉伯语、马来语、印尼语、越南语。 此次多语言版的推出,使更多非英语国家的用户也能享受高德地图提供的优质出行服务。 高德地图多语言版实现了产品界面与地理信息的多语种适配,�

  • 妈妈被娃突然抱起重重摔倒在地 网友提醒动作危险

    ​7月15日,湖南发生了一起令人意外的事件。画面中,一个小男孩突然从身后紧紧抱起妈妈,这一突如其来的举动让妈妈瞬间重心不稳,身体猛烈地撞上了旁边的筐子,随后重重摔倒在地。 这一幕被拍摄下来并在网络上传播,引发了网友们的广泛关注和热议。许多网友纷纷表示,这突如其来的“爱的暴击”实在是太突然了,让人既感到心疼又觉得好笑。不过,在欢笑之余,也

  • 以茶载道,走向国际:小罐茶让世界读懂中国智慧

    小罐茶作为中国茶文化国际传播的代表,通过博鳌亚洲论坛、全球外交官之夜等高端平台持续亮相,创新融合传统茶艺与现代表达。报告显示中国茶叶出口量持续增长但品牌影响力待提升。小罐茶以"品质+文化+创新"模式打造全球品牌IP,通过AI互动、茶咖融合等创新形式,让世界从一杯茶中读懂中国智慧。其国际布局不仅推动中国茶从"走出去"迈向"走进去",更成为连接中外文明对话的桥梁,展现新时代中国文化自信。

今日大家都在搜的词: