首页 > 业界 > 关键词  > Media2Face最新资讯  > 正文

Media2Face:支持语音等多模态引导生成3D面部动态表情

2024-02-01 15:01 · 稿源:站长之家

划重点:

1. 🧠 引入广义神经参数化面部资产(GNPFA),通过高度概括的表达潜在空间解耦表情和身份。

2. 🌈 创造 M2F-D 数据集,包含大量共语3D面部动画,具备情感和风格标签。

3. 🚀 提出 Media2Face,基于GNPFA潜在空间的扩散模型,接受来自音频、文本和图像的多模态引导,拓展了3D面部动画的表现力和风格适应性。

站长之家(ChinaZ.com) 2月1日 消息:从语音合成3D 面部动态画面已经引起了相当多的关注。由于缺乏高质量的4D 面部数据和注释丰富的多模态标签,以前的方法常常受到现实性有限和缺乏灵活调节的困扰。在这项名为 "Media2Face" 的研究中,来自上海科技大学、Deemos Technology、香港大学等研究人员们致力于解决从语音生成3D面部动画的挑战。

image.png

据介绍,Media2Face可以根据声音来生成与语音同步的、表现力丰富的3D面部动画。同时允许用户对生成的面部动画进行更细致的个性化调整,如愤怒、快乐等。Media2Face还能理解多种类型的输入信息(音频、文本、图像),并将这些信息作为生成面部动画的指引。

image.png

研究团队通过三个关键步骤来应对这一挑战:

首先,引入了广义神经参数化面部资产(GNPFA),这是一个高效的变分自编码器,将面部几何和图像映射到高度概括的表达潜在空间,实现表情和身份的解耦。

然后,利用GNPFA从大量视频中提取高质量的表情和准确的头部姿势,形成了M2F-D数据集,这是一个大型、多样化且扫描级别的共语3D面部动画数据集,具有充分注释的情感和风格标签。

最后,提出了Media2Face,这是一个基于GNPFA潜在空间的扩散模型,用于共语面部动画生成,接受来自音频、文本和图像的丰富多模态引导。

image.png

在模型的训练过程中,研究团队通过训练几何变分自编码器(geometry VAE)学习了表情和头部姿势的潜在空间,实现了对表情与身份的解耦。两个视觉编码器被训练以从RGB图像中提取表情潜在编码和头部姿势。模型以音频特征和CLIP潜在编码作为条件,去噪表情潜在编码序列和头部运动编码。

条件被随机掩码并与嘈杂的头部运动编码进行交叉关注。在推断阶段,通过DDIM采样头部运动编码,将表情潜在编码馈送到GNPFA解码器,提取表情几何,结合模型模板生成受头部姿势参数增强的面部动画。

在实验中,研究团队展示了他们的模型不仅在面部动画合成方面达到了高保真度,而且在3D面部动画的表现力和风格适应性方面取得了显著的拓展。他们通过脚本文本描述生成生动的对话场景,通过图像提示合成风格化的面部动画,甚至在法语、英语和日语中进行情感歌唱。通过表情编码器提取关键帧表情潜在编码,通过CLIP提供每帧风格提示,通过扩散插值技术调整控制强度和范围,进一步生成个性化且细致入微的面部网格,适应不同性别、年龄和族裔的各种身份特征。

Media2Face在共语面部动画领域取得了令人瞩目的成果,为面部动画合成的逼真度和表现力开辟了新的可能性。

产品项目入口:https://sites.google.com/view/media2face

论文地址:arxiv.org/abs/2401.15687

举报

  • 相关推荐
  • 予之文化X火山引擎:AI MediaKit+Seedance 2.0,探索品牌与电商内容工业化新路径

    当前AIGC视频生成技术正从“技术探索”迈向“规模化应用”的关键阶段。以Seedance2.0为代表的新一代视频生成模型在创意、语义理解和画面一致性等方面表现出色,并在2026年央视春晚展示了8K/50FPS超清视频的生成能力。然而,商业化落地仍面临原生分辨率不足、帧率受限、生成成本高昂等瓶颈。火山引擎推出的AI+MediaKit画质增强产品,与Seedance2.0形成“最佳拍档”,通过“低分辨率生成+智能筛选+画质增强”的分层策略,在控制成本的同时提升输出画质,助力用户完成从“可用”到“好用”的品质跃升。该方案已在电商、品牌营销等场景得到验证,为AIGC视频的规模化、高质量生产提供了可靠路径。

  • 阿里ATH推出AI开发工具秒悟Meoo

    4月15日,阿里ATH事业群推出首款AI开发工具“Meoo”(秒悟)。该工具集成千问、Kimi、GLM、MiniMax四大国内顶尖模型,用户仅需用自然语言描述想法,即可快速生成包含前后端完整代码的网站或H5页面,并支持在阿里云一键部署上线。Meoo内置数据库、存储等核心产品,无需繁琐配置,极大提升开发效率。其创新的蜂群Agent模式支持多任务并行处理,简单应用生成时间低至1分钟。即

  • 腾讯混元3D世界模型2.0发布 一句话生成3D资产

    今日,腾讯正式发布并开源混元3D世界模型2.0(HY-World 2.0)。 官方表示,该模型一句话就能生成3D资产,并直接导入到游戏制作或具身仿真引擎,实现真正的可玩、可用。 具体来说,用户完全不需要懂任何复杂的3D软件,只要像平时说话一样输入一句文字描述,或者直接上传一张图片,模型就能精准解析复杂的语义。 随后,它会一键生成混合了3D高斯泼溅(3DGS)与Mesh表征的�

  • 更多数据,更AI:源诺医疗亮相上海CMEF,以科技硬核实力定义AI决策时代

    第93届中国国际医疗器械博览会(CMEF)于4月12日在上海闭幕。源诺医疗(ANOVATOR)以其极简视觉设计和“硬核”医疗技术成为展会焦点,展示了人体成分分析从“工具时代”向“决策时代”的跨越。其智能决策系统将多维数据转化为结构化医学指标与疾病风险模型,提供可落地的干预建议,辅助医生制定方案。设备与DEXA相关性达97%~98%,拥有二类医疗器械注册证,已在多科室及体检、慢病管理等场景实现应用。企业立足全球医疗数据网络,以硬核技术为品牌护城河,致力于让每一组人体成分数据成为守护生命质量的科学决策依据。

  • 谷歌Chrome浏览器功能更新:AI Skills支持保存复用提示词

    谷歌为Chrome桌面版浏览器推出全新AI Skills功能。该功能基于 Gemini AI打造,能支持用户保存并跨网页重复调用常用 AI 提示词,减少重复输入操作,进一步提升浏览器使用效率。 该功能是谷歌将Gemini AI深度整合进Chrome生态的重要升级。用户可直接从Gemini聊天记录中将常用提示词保存为专属技能,保存后的技能支持实时编辑。 调用方式十分简便,用户在Chrome的Gemini交互界面中输�

  • AI日报:Claude Opus 4. 7发布;阿里开源 Qwen3.6-35B-A3B;Perplexity推出Mac端AI助手

    本期AI日报聚焦多领域技术进展:Anthropic发布Claude Opus 4.7,强调模型可靠性与任务执行稳定性;阿里开源MoE模型Qwen3.6-35B-A3B,以300亿激活参数实现高效编程能力;OpenAI升级Codex,增强Mac桌面操控与多智能体并行;Opera推出“浏览器连接器”,集成多款AI助手;英伟达Lyra2.0实现单图生成90米3D环境;谷歌Gemini接入个人相册推动图像生成个性化;Perplexity发布Mac端AI助手,支持系统级操作;iOS 27 Beta曝光多项Apple Intelligence功能,涵盖营养标签解析与智能照片管理。

  • 一加Ace 6至尊版来了 李杰:史诗级大升级 Ace家族的顶配王者

    一加中国区总裁李杰表示,一加Ace 6与Ace 6T自上市以来,凭借出色的市场表现和用户口碑,已成为游戏玩家群体的首选。作为该家族的压轴之作,一加Ace 6至尊版即将登场,它不仅是系列的顶配王者,更在性能上实现了跨越式的升级。 这款新机被定位为有史以来产品力最强的Ace系列。它搭载了行业领先的天玑9500旗舰芯片,并配有一块支持165Hz超高刷新率的东方屏,再结合同档�

  • AI日报:阿里推开放世界模型Happy Oyster;Claude Opus 4.7即将发布;腾讯开源混元3D 世界模型2.0

    本期AI日报聚焦多领域进展:阿里巴巴推出开放世界模型Happy Oyster,支持实时交互;腾讯开源混元3D世界模型2.0,可一键生成可编辑3D资产;谷歌发布Gemini-TTS模型,支持近70种语言,语音更自然;蚂蚁灵波科技开源LingBot-Map,实现单摄像头实时三维重建。同时关注Anthropic即将发布Claude Opus 4.7及AI设计工具,以及湖南广电AI转型成果。安全方面,报告揭示MCP协议漏洞或致超20万台AI服务器面临风险,而OpenAI更新Agents SDK,引入沙箱功能以提升智能代理安全性。

  • 科大国创智銮CMEF首秀收官,“智驾助行”受关注

    第93届CMEF展会进入尾声,首次参展的科大国创智能出行品牌智銮,不仅成功展示了其首款量产车型智銮S5智能助行机器人,更向外界描绘了品牌未来的发展蓝图。智銮以稳健而积极的姿态,驶入发展的快车道。其采取“国内深耕+海外拓展”的双轮驱动模式:一方面聚焦国内重点一线及新一线城市,打造集展示、体验、交付、服务于一体的渠道网络;另一方面同步启动海外市场布局,通过线上业务推进品牌的全球化战略。智銮S5凭借其创新的产品设计受到多家行业及权威媒体争相报道,其产品团队表示,初心是打造一款有品质、有温度的产品,真正帮助到出行不便的老年人、残障人士。未来,智銮将持续推动产品的迭代升级,深化其在人工智能、大数据等领域的技术积累,重塑智能出行体验。

  • AI日报:Chrome为Gemini上线“技能库”;小红书开源训练引擎Relax;Midjourney V8.1发布

    本文汇总了AI领域的最新动态:Chrome为Gemini新增“技能库”功能,简化提示词复用;小红书开源大模型训练引擎Relax,提升多模态训练效率;Midjourney V8.1发布,优化渲染速度与成本;阿里千问AI眼镜全球首店开业,加速硬件生态布局;美团推出AI家庭健康管理产品;李飞飞公司发布集成Three.js的3D渲染器Spark2.0;Claude Code推出自动化流程功能Routines;天猫发布新规规范AI软件及商品发布。

今日大家都在搜的词: