首页 > 业界 > 关键词  > Media2Face最新资讯  > 正文

Media2Face:支持语音等多模态引导生成3D面部动态表情

2024-02-01 15:01 · 稿源:站长之家

划重点:

1. 🧠 引入广义神经参数化面部资产(GNPFA),通过高度概括的表达潜在空间解耦表情和身份。

2. 🌈 创造 M2F-D 数据集,包含大量共语3D面部动画,具备情感和风格标签。

3. 🚀 提出 Media2Face,基于GNPFA潜在空间的扩散模型,接受来自音频、文本和图像的多模态引导,拓展了3D面部动画的表现力和风格适应性。

站长之家(ChinaZ.com) 2月1日 消息:从语音合成3D 面部动态画面已经引起了相当多的关注。由于缺乏高质量的4D 面部数据和注释丰富的多模态标签,以前的方法常常受到现实性有限和缺乏灵活调节的困扰。在这项名为 "Media2Face" 的研究中,来自上海科技大学、Deemos Technology、香港大学等研究人员们致力于解决从语音生成3D面部动画的挑战。

image.png

据介绍,Media2Face可以根据声音来生成与语音同步的、表现力丰富的3D面部动画。同时允许用户对生成的面部动画进行更细致的个性化调整,如愤怒、快乐等。Media2Face还能理解多种类型的输入信息(音频、文本、图像),并将这些信息作为生成面部动画的指引。

image.png

研究团队通过三个关键步骤来应对这一挑战:

首先,引入了广义神经参数化面部资产(GNPFA),这是一个高效的变分自编码器,将面部几何和图像映射到高度概括的表达潜在空间,实现表情和身份的解耦。

然后,利用GNPFA从大量视频中提取高质量的表情和准确的头部姿势,形成了M2F-D数据集,这是一个大型、多样化且扫描级别的共语3D面部动画数据集,具有充分注释的情感和风格标签。

最后,提出了Media2Face,这是一个基于GNPFA潜在空间的扩散模型,用于共语面部动画生成,接受来自音频、文本和图像的丰富多模态引导。

image.png

在模型的训练过程中,研究团队通过训练几何变分自编码器(geometry VAE)学习了表情和头部姿势的潜在空间,实现了对表情与身份的解耦。两个视觉编码器被训练以从RGB图像中提取表情潜在编码和头部姿势。模型以音频特征和CLIP潜在编码作为条件,去噪表情潜在编码序列和头部运动编码。

条件被随机掩码并与嘈杂的头部运动编码进行交叉关注。在推断阶段,通过DDIM采样头部运动编码,将表情潜在编码馈送到GNPFA解码器,提取表情几何,结合模型模板生成受头部姿势参数增强的面部动画。

在实验中,研究团队展示了他们的模型不仅在面部动画合成方面达到了高保真度,而且在3D面部动画的表现力和风格适应性方面取得了显著的拓展。他们通过脚本文本描述生成生动的对话场景,通过图像提示合成风格化的面部动画,甚至在法语、英语和日语中进行情感歌唱。通过表情编码器提取关键帧表情潜在编码,通过CLIP提供每帧风格提示,通过扩散插值技术调整控制强度和范围,进一步生成个性化且细致入微的面部网格,适应不同性别、年龄和族裔的各种身份特征。

Media2Face在共语面部动画领域取得了令人瞩目的成果,为面部动画合成的逼真度和表现力开辟了新的可能性。

产品项目入口:https://sites.google.com/view/media2face

论文地址:arxiv.org/abs/2401.15687

举报

  • 相关推荐
  • AI日报:腾讯混元推3D生成大模型Hunyuan3D-PolyGen;钉钉AI表格重磅来袭;阿里推多模态大语言模型HumanOmniV2

    本文介绍了AI领域多项重要进展:1)腾讯推出首个美术3D生成大模型Hunyuan3D-PolyGen,显著提升建模效率;2)阿里发布多模态大模型HumanOmniV2,准确率达69.33%;3)钉钉AI表格实现1小时处理千项任务;4)百度PaddleOCR3.1版本在多语种识别和文档翻译方面升级;5)微软推出Deep Research智能体,自动化研究流程;6)香港理工与OPPO联合开源视频超清框架DLoRAL;7)谷歌开源MCP工具箱简化AI与数据库集成;8)Win11将推出AI动态壁纸功能。这些创新展示了AI在3D生成、多模态理解、办公效率、视觉处理等领域的突破性进展。

  • 主流AI多模态大模型有哪些?超全的多模态大模型指南分享

    2024年多模态大模型成为AI领域最具前景的技术方向之一。文章全面分析了主流多模态大模型的特点、应用场景和发展趋势。多模态大模型能同时处理文本、图像、音频、视频等多种数据,实现更智能的人机交互。重点介绍了GPT-4V、Claude3.5、Gemini、通义千问等代表性模型,对比了它们在视觉理解、编程能力、中文处理等方面的优势。应用场景涵盖智能客服、内容创作、教育医疗等领域。未来发展趋势包括模型规模扩大、支持更多模态、实时交互能力提升等。选择模型需考虑应用需求、语言支持、性能成本等因素。

  • AI重构社交生态 Soul以多模态技术赋能社交

    社交平台Soul正通过AI技术重塑社交生态:1)2016年推出智能推荐系统"灵犀引擎",2020年启动AIGC算法研发,2023年推出自研大模型Soul+X,开发AI虚拟人、智能聊天等应用;2)升级多模态大模型,支持文字对话、语音通话、多语言理解等功能,提供拟人化情感陪伴;3)围绕Z世代需求,促成超10万对情侣步入婚姻,并联合开展心理健康公益活动;4)以"技术+人文"双轮驱动,致力于打造更智能舒适的社交环境,重新定义人机关系。

  • 高德地图上线AR打卡功能:实现3D立体打卡 生成专属打卡视频

    阿里巴巴旗下高德地图正式上线创新AR打卡功能,通过深度整合AI技术与地图服务,为用户带来虚实融合的沉浸式打卡体验,无缝连接现实世界。 该功能依托前沿AI空间融合技术,突破传统二维地图限制,首创3D立体打卡。用户打开最新版高德地图App,点击右上角 ”号即可轻松开启AR之旅。 支持图片、视频、趣味AR道具及虚拟形象等多种打卡形式,完成打卡后系统将自动生成并

  • 微信朋友圈评论区能发表情包和图片:缓存可清理 不会太占用存储空间

    上个月,微信开始灰度测试朋友圈评论区带图功能,支持用户用表情包和图片进行评论。 有网友表示,微信现在评论可以带图了,我想知道评论区的图片会不会缓存下来占用我的手机空间。 对此,微信员工客村小蒋表示,在讨论微信占空间时,有两种需要区分的数据:可再生数据和非可再生数据。

  • 苹果iOS26 FaceTime可检测裸露行为 违规将紧急暂停通话

    近日,苹果在最新推送的iOS26测试版系统中,对FaceTime功能进行了重要安全升级,新增实时内容检测机制以保障视频通话安全。据测试用户反馈,当系统通过AI算法识别到通话画面中出现裸露行为时,将立即暂停音视频传输,同时冻结通话画面并弹出警告窗口,要求用户终止不当行为。 该技术源于苹果此前推出的通信安全功能,此前主要应用于未成年人保护场景。例如,系统会

  • 巨石强森给女儿当美妆模特 表情亮了:毫无明星架子

    ​近日,国际知名影星、前WWE(世界摔角娱乐)冠军巨石强森再次成为公众关注的焦点,不过这次并非因为他在银幕上的英勇表现,而是因为他以一种别出心裁的方式展现了对女儿的深深爱意——为女儿当起了“化妆模特”。 据相关报道,巨石强森在社交媒体上分享了一组自己作为女儿“化妆实验品”的照片,画面中他满脸笑意,任由女儿在自己的脸上涂抹各种色彩,从夸张

  • 「6月30日AI日报」百度开源文心大模型4.5系列;通义千问发布多模态生成模型Qwen VLo

    AI日报精选:1)百度开源文心大模型4.5系列,含10款新模型,性能优异;2)通义千问发布多模态模型Qwen-VL,支持图文交互;3)阿里开源3亿参数多模态模型Ovis-U1;4)华为开源盘古7B稠密和72B混合专家模型;5)美图MOKI推出AI创意广告功能,一键生成专业视频;6)谷歌Gemini 2.5 Pro API重新免费开放;7)豆瓣上线"深入研究"AI功能;8)小米"AI百宝箱"结束内测;9)北京智研院开源多模态系统OmniGen2;10)知乎升级"直答"知识库功能。

  • LiblibAI 重磅发布「星流 Agent」:中文语义 + 图片视频3D全能生成,中国最强设计 Agent

    LiblibAI推出Lovart中文版"星流Agent",这是一款专为中国市场深度优化的AI设计工具。该产品在保留Lovart全球版"生成-编辑-排版-交付"全链路能力基础上,针对中文语义、国风审美和本土使用场景进行了全面重构。星流Agent支持从创意构思到设计交付的全流程自动化,可处理平面设计、视频生成和3D建模等跨模态创作,内置符合中国文化的视觉风格库。该产品的推出标�

  • 表情包自由!腾讯搜狗输入法联合腾讯混元 推出AI表情合成

    不用再为微信、QQ回消息而烦恼,目前毫秒级AI生成表情包已经实现。 近日,搜狗输入法版推出AI合成表情”和候选表情”两大功能,用AI技术提升用户社交沟通体验。 其中,AI合成表情”基于腾讯混元大模型技术,用户输入文字描述或表情描述,便可毫秒级生成个性化表情包。 候选表情”则是用户在输入常用文字时,候选区自动推荐高匹配度表情包,一键即可发送,告别手�