首页 > 业界 > 关键词  > Media2Face最新资讯  > 正文

Media2Face:支持语音等多模态引导生成3D面部动态表情

2024-02-01 15:01 · 稿源:站长之家

划重点:

1. 🧠 引入广义神经参数化面部资产(GNPFA),通过高度概括的表达潜在空间解耦表情和身份。

2. 🌈 创造 M2F-D 数据集,包含大量共语3D面部动画,具备情感和风格标签。

3. 🚀 提出 Media2Face,基于GNPFA潜在空间的扩散模型,接受来自音频、文本和图像的多模态引导,拓展了3D面部动画的表现力和风格适应性。

站长之家(ChinaZ.com) 2月1日 消息:从语音合成3D 面部动态画面已经引起了相当多的关注。由于缺乏高质量的4D 面部数据和注释丰富的多模态标签,以前的方法常常受到现实性有限和缺乏灵活调节的困扰。在这项名为 "Media2Face" 的研究中,来自上海科技大学、Deemos Technology、香港大学等研究人员们致力于解决从语音生成3D面部动画的挑战。

image.png

据介绍,Media2Face可以根据声音来生成与语音同步的、表现力丰富的3D面部动画。同时允许用户对生成的面部动画进行更细致的个性化调整,如愤怒、快乐等。Media2Face还能理解多种类型的输入信息(音频、文本、图像),并将这些信息作为生成面部动画的指引。

image.png

研究团队通过三个关键步骤来应对这一挑战:

首先,引入了广义神经参数化面部资产(GNPFA),这是一个高效的变分自编码器,将面部几何和图像映射到高度概括的表达潜在空间,实现表情和身份的解耦。

然后,利用GNPFA从大量视频中提取高质量的表情和准确的头部姿势,形成了M2F-D数据集,这是一个大型、多样化且扫描级别的共语3D面部动画数据集,具有充分注释的情感和风格标签。

最后,提出了Media2Face,这是一个基于GNPFA潜在空间的扩散模型,用于共语面部动画生成,接受来自音频、文本和图像的丰富多模态引导。

image.png

在模型的训练过程中,研究团队通过训练几何变分自编码器(geometry VAE)学习了表情和头部姿势的潜在空间,实现了对表情与身份的解耦。两个视觉编码器被训练以从RGB图像中提取表情潜在编码和头部姿势。模型以音频特征和CLIP潜在编码作为条件,去噪表情潜在编码序列和头部运动编码。

条件被随机掩码并与嘈杂的头部运动编码进行交叉关注。在推断阶段,通过DDIM采样头部运动编码,将表情潜在编码馈送到GNPFA解码器,提取表情几何,结合模型模板生成受头部姿势参数增强的面部动画。

在实验中,研究团队展示了他们的模型不仅在面部动画合成方面达到了高保真度,而且在3D面部动画的表现力和风格适应性方面取得了显著的拓展。他们通过脚本文本描述生成生动的对话场景,通过图像提示合成风格化的面部动画,甚至在法语、英语和日语中进行情感歌唱。通过表情编码器提取关键帧表情潜在编码,通过CLIP提供每帧风格提示,通过扩散插值技术调整控制强度和范围,进一步生成个性化且细致入微的面部网格,适应不同性别、年龄和族裔的各种身份特征。

Media2Face在共语面部动画领域取得了令人瞩目的成果,为面部动画合成的逼真度和表现力开辟了新的可能性。

产品项目入口:https://sites.google.com/view/media2face

论文地址:arxiv.org/abs/2401.15687

举报

  • 相关推荐
  • 大家在看
  • Narakeet:创建逼真的文本转语音和旁白视频

    Narakeet是一个在线工具,允许用户轻松创建逼真的文本转语音和旁白视频。它提供了多种语言和声音选择,支持多种文件格式上传,并允许用户自定义音量、速度和输出格式。Narakeet的定价模式为一次性支付,无需订阅,适合商业用户和需要大量音频文件的用户。

  • ChatGPT-PLUS:AI 助手全套开源解决方案 开箱即用

    ChatGPT-PLUS 是基于 AI 大语言模型 API 实现的 AI 助手全套开源解决方案,集成了多个大语言模型平台,支持绘画功能,支付功能等。可用于聊天交互、AI 绘画等多种场景。

  • FTK:教师定制AI教育平台

    FTK是一个允许教育工作者在5分钟内训练自己的AI平台,旨在辅助教师与学生之间的直接教育工作。该平台强调学生-教师关系的重要性,并提供定制化的AI响应,以适应学生的阅读水平和兴趣。FTK由微软提供安全支持,确保用户数据的私密性和安全性。FTK的长期愿景是取代传统教科书,通过AI和开源方法,使教育内容的创建和分享更加动态和个性化。

  • GoatStack:个性化AI策划新闻

    个性化AI策划新闻。设置AI代理,获取并发送您自己选择的每日/每周更新的最新主题。

  • Inline Help:AI智能知识库,提供实时在线帮助

    Inline Help是一款使用AI技术的在线帮助平台,能够在客户提问之前就提供解答。它通过建立知识库和使用自然语言处理来预测和回答客户问题,从而提供更快速和准确的客户支持。该平台还提供问题解决方案的搜索功能、用户反馈收集和分析等功能。Inline Help通过提供高效的客户支持,帮助企业提升用户体验,提高问题解决效率。

  • Txt Your Ex:分手后的短信疗愈

    Txt Your Ex是一个提供情感支持的网站,帮助用户摆脱给前任发短信的冲动。通过与网站的聊天,用户可以得到鼓励和安慰,从而释放情感,避免陷入过去的关系中。网站保证用户隐私,提供一个安全的空间让用户分享心事。

  • Llama 3:开源语言模型,与GPT-4匹敌

    Meta的下一代开源语言模型Llama 3计划于7月发布,旨在与OpenAI的GPT-4相媲美。Llama 3将更加响应用户,对于复杂话题提供上下文而不是阻止问题。Meta计划专门有人负责模型的语气和安全训练,以使响应更加细致。Llama 3的参数数量可能超过1400亿,是Llama 2的两倍。目前尚未决定Llama 3是否将是一个纯语言模型还是多模态模型,即是否也能处理或生成图像。

  • Butter Reader:将博客文本转化为引人入胜的音频

    ButterReader是一款创新的音频插件,将博客文本转化为引人入胜的音频内容,使学习和信息消费更加顺畅。通过定制播放器,您可以轻松地将文字内容转化为精彩的音频体验。产品具有设计灵活性、声音选择、控制设置等功能,适用于各种使用场景。ButterReader可以让用户在移动设备上无缝播放音频内容,让用户在多任务处理中也能欣赏内容。

  • ChatFlow:AI聊天机器人构建器

    ChatFlow是一个AI聊天机器人构建器,利用您的网站内容作为知识库,为用户提供实时智能回应。ChatFlow使用OpenAI技术,构建知识库并通过自动化爬虫保持最新和准确的回答。您可以自定义ChatFlow以匹配品牌和颜色,并跟踪用户互动和满意度。ChatFlow的简单集成和经济实惠的定价使您能够立即提供即时客户支持。

  • Copilot.money:智能财务管理应用

    Copilot 是一款帮助用户跟踪支出、预算、投资和净资产的金融管理应用。它提供个性化的支出分类引擎,支持跨设备使用,并且注重用户隐私和数据安全。Copilot 通过机器学习不断优化用户体验,提供实时的财务概览,帮助用户更好地管理个人财务。定价方面,Copilot 提供免费试用期,之后按年订阅收费。

  • Rigobot GPT:创建自己的GPT机器人,训练它并为组织生成文本

    Rigobot GPT是一个能够创建自己的GPT机器人的工具。通过使用自己的数据进行训练,可以生成适用于组织的文本内容。该产品具有以下特点:1. 能够在任何浏览的网站上获取AI的帮助,完成各种任务,如翻译、摘要、博客文章等。2. 能够阅读任何网站或文档,利用知识帮助用户更好地工作,回答相关问题。3. 可以创建自己的AI,并设置个性、语气等规则。4. 可以与团队共享AI,并共同改进。5. 可以在任何主题上启动训练活动,AI会向团队提问以提升能力。

  • GPT Prompts For YouTube:ChatGPT for YouTube,为YouTube提供定制的提示

    ChatGPT for YouTube让YouTube的ChatGPT使用更加简单。您可以为每个新视频设置自定义提示。看了一个烹饪视频想要一个食谱?在回顾2009年的纪录片时感到困惑?GPT Prompts For YouTube应有尽有。欢迎使用这个插件,我们正在积极开发中,请在GitHub上留下您的反馈。如果遇到任何问题,请与我联系。

  • Chat GPT Logger:GPT Chat Logger 是一个能够将 Chat GPT 中的对话保存为本地文本文件的浏览器扩展

    GPT Chat Logger 是一个浏览器扩展,能够将 Chat GPT 中的活动对话保存为本地文本文件。用户只需点击活动对话,点击存储图标,然后将文件保存到计算机上。

  • Hide Sidebar Chat GPT:隐藏聊天GPT侧边栏

    这是一个Chrome插件,用于在Chat GPT网站上隐藏或显示侧边栏。通过隐藏侧边栏,用户可以更好地利用屏幕空间,并专注于聊天内容。插件还添加了隐藏和显示侧边栏的按钮,以及支持开发者的捐赠按钮。

  • GPT File Buddy:读取文件内容并复制到剪贴板

    GPT文件助手是一个强大的Chrome插件,可以读取文件内容并将其复制到剪贴板。它可以轻松读取用户选择的文件内容,避免了使用额外软件的繁琐过程。同时,它还具备剪贴板管理功能,可以方便地管理复制的数据。所有的复制操作都在您的计算机本地执行,确保数据的安全性。GPT文件助手简洁易用的界面使任何人都能够轻松操作。

  • My Expert GPT:获取你自己的虚拟专家团队,由你的ChatGPT账户提供支持

    通过与ChatGPT进行互动的聊天对话,获得专家级的答案和见解。安装插件,即可拥有为你工作的虚拟专家团队。节省时间和金钱,解决问题。

  • Chat GPT Font Changer:Chat GPT字体更换

    这个插件允许您更改Chat GPT中使用的默认字体,以及代码块中使用的字体。您可以选择您喜欢的任何已安装在您的机器上的字体。适用于桌面机器。

  • Show GPT Chats:展示GPT聊天记录

    Show GPT Chats是一个插件,用于在探索GPT时展示GPT的聊天记录和更多信息。该插件提供了GPT的聊天记录和其他相关信息,让用户更好地了解和探索GPT。

  • Anywhere GPT:好的ChatGPT回答的秘密是好的提示,而好的提示往往会很长

    Anywhere GPT是一个插件,它允许您保存提示并在任何地方快速应用它们。使用Anywhere GPT,您可以保存那些提示,并随时在需要时使用它们。它适用于Chrome浏览器,可以提高ChatGPT的使用效率。

  • Open in GPT:自定义ChatGPT的预设提示,在ChatGPT中打开选定的文本。

    这个插件可以让你通过右键点击快速在ChatGPT中打开选定的文本,并自定义预设提示,以提供上下文信息。这确保了ChatGPT的行为符合你的期望,并使你能够让ChatGPT帮助你解决重复的任务。自动化自动化🚀 一些使用案例: • 以特定方式回答问题,例如只能回答A、B、C或D • 为任务提供一般上下文,如总结一个段落 • 解决代码错误 • 获得语言帮助 • 翻译文本 • 以特定方式生成内容 • 任何你发现自己总是手动复制到ChatGPT中的事情 使用方法: 点击插件图标配置自定义提示 选择文本,右键点击,然后选择“在ChatGPT中打开选定的文本” 或者按下ALT+S 如果你在使用其他程序,请使用ALT+C从剪贴板中填充提示,而不是选择文本

今日大家都在搜的词: