首页 > AI头条  > 正文

​英伟达开源 Audio2Face 模型,AI 助力实时面部动画生成

2025-09-25 09:10 · 来源: AIbase基地

近日,英伟达宣布开源其生成式 AI 面部动画模型 Audio2Face。这一模型不仅包含了核心算法,还提供了软件开发工具包(SDK)和完整的训练框架,旨在加速游戏和3D 应用中智能虚拟角色的开发。

image.png

Audio2Face 通过分析音频中的音素、语调等声学特征,能够实时驱动虚拟角色的面部动作,生成精确的口型同步和自然的情感表情。这项技术广泛适用于游戏、影视制作和客户服务等多个领域。

Audio2Face 模型支持两种运行模式:一种是针对预录制音频的离线渲染,另一种则是支持动态 AI 角色的实时流式处理。为了方便开发者使用,英伟达还开源了多个关键组件,包括 Audio2Face SDK、适用于 Autodesk Maya 的本地执行插件,以及针对 Unreal Engine5.5及以上版本的插件。此外,回归模型和扩散模型也随之开源,开发者可以利用开源训练框架,使用自己的数据对模型进行微调,从而适应特定的应用场景。

目前,这项技术已经被多家游戏开发商广泛采用。游戏开发公司 Survios 在其游戏《异形:侠盗入侵进化版》中集成了 Audio2Face,从而大幅简化了口型同步与面部捕捉的流程。而 Farm51工作室也在其作品《切尔诺贝利人2:禁区》中应用了这一技术,通过音频直接生成细腻的面部动画,节省了大量制作时间,提升了角色的真实感和沉浸体验。该工作室的创新总监 Wojciech Pazdur 对此表示,这一技术可谓 “革命性突破”。

英伟达的这一新举措无疑为开发者们提供了更多的创作工具,也将推动虚拟角色表现的进一步发展。随着技术的不断进步,我们可以期待在未来的游戏和影视作品中看到更加真实和生动的角色表现。

入口:https://build.nvidia.com/nvidia/audio2face-3d

划重点:  

🔊 英伟达开源 Audio2Face 模型,旨在提升虚拟角色的面部动画生成技术。  

🎮 支持离线渲染和实时流式处理,适用于多种场景。  

🌟 已被多个游戏开发商采用,简化了制作流程并提升了角色的真实感。

  • 相关推荐
  • AI日报:蚂蚁开源高性能思考模型Ring-flash-2.0;通义7款模型屠榜Hugging Face;Veo3视觉能力升级

    蚂蚁百灵团队开源高性能思考模型Ring-flash-2.0,在多项基准测试中表现优异;阿里通义7款模型登顶Hugging Face榜单,Qwen3-Omni凭借多模态能力全球第一。谷歌Veo3突破视频生成局限,可自动完成视觉任务;特斯拉推进人形机器人量产,马斯克称其为最重要产品。马斯克第六次起诉OpenAI窃取商业机密,苹果内部测试聊天机器人Veritas优化Siri,YouTube推出AI音乐主播增强互动,LiquidAI发布轻量级模型Liquid Nanos优化边缘计算。

  • 阿里巴巴宣布与英伟达开展合作:股价大涨9% 创4年新高

    9月24日,阿里巴巴股价大涨近9%,市值突破3.3万亿港元,创2020年以来新高。市场普遍认为,此次股价异动与公司在人工智能领域的战略布局密切相关。在当日举行的2025阿里云栖大会上,阿里巴巴宣布与英伟达达成全面Physical AI合作,覆盖数据处理、模型训练优化等核心技术环节。集团CEO吴泳铭首次提出“阿里云要做AI时代的安卓”的战略定位,强调将推进通义千问大模型开源生

  • AI日报:豆包大模型1.6-vision发布;DeepSeek发布V3.2-exp模型;Claude Sonnet4.5发布

    本期AI日报聚焦多项技术突破:DeepSeek发布V3.2-exp模型,通过稀疏注意力机制降低API成本50%;Anthropic推出Claude Sonnet 4.5,在编码任务表现卓越;ChatGPT新增即时结账功能,实现对话界面直接购物;OpenAI将推出AI版TikTok,所有内容由Sora2模型生成;百度地图升级小度想想2.0,提供智能出行服务;蚂蚁集团开源万亿参数模型Ring-1T-preview;DeepMind提出“帧链”概念,推动视频模型实现全面�

  • 没想到,音频大模型开源最彻底的,居然是小红书

    不难发现,近几个月,开源频频成为 AI 社区热议的焦点。尤其是对于国内科技公司来说,开源成为主旋律。根据 Hugging Face 中文 AI 模型与资源社区的数据显示,国内厂商在七八月接连开源33款、31款各类型大模型。 这些开源成果大多落在了文本、图像、视频、推理、智能体以及世界模型领域,而音频生成占比很小。

  • Reviews.ai 依托 DigitalOcean 高效实现 AI 业务扩展

    Reviews.ai是一个消费者反馈聚合平台,帮助品牌将客户评论转化为可执行的洞察。该平台专注于评论分析,通过AI驱动功能(如按需报告、主题分类和智能代理)提升产品与服务。近期从Review Monitor更名后,团队迁移至DigitalOcean云平台,解决了原有专用服务器架构的扩展瓶颈。迁移过程在合作伙伴Aquazeel支持下高效完成,仅用数周,成本降低近30%。新架构采用Droplets、托管数据库和负载均衡器,支持灵活扩展。未来计划利用GPU Droplets增强AI能力,进一步优化大型语言模型处理效率。

  • AI日报:腾讯重磅发布混元图像3.0;快手发布KAT系列Agentic Coding大模型;苹果悄然研发ChatGPT式应用

    快手发布KAT系列代码大模型,腾讯推出“混元图像3.0”实现多模态突破,苹果研发类ChatGPT应用升级Siri,谷歌更新Gemini 2.5 Flash Lite提升效率。苹果还推出Manzano图像模型,YouTube Music测试AI音乐主播功能,VideoFrom3D框架简化3D视频生成,Moondream 3.0在多项基准测试中超越GPT-5等顶尖模型,展现强大性能。

  • AI日报:接入MJ!夸克发布造点AI;Wan2.5-Preview发布;可灵推最新视频生成模型可灵2.5Turbo

    近日AI领域迎来多项重要更新:阿里夸克发布AI创作平台“造点”,整合通义万相Wan2.5与Midjourney V7,支持音画同步视频生成;Wan2.5-Preview实现多模态输入与电影级视频同步生成,提升视觉创作能力;可灵AI推出视频生成模型2.5Turbo并降价30%,降低使用门槛;阿里通义推出Qwen3-ASR-Toolkit,实现小时级音视频转录;谷歌相册AI编辑功能扩展至安卓用户,支持语音修图;谷歌Mixboard工具助力创意设计,生成情绪板;Qwen发布Qwen3-Max模型,在代码生成与智能体能力表现突出;Figma推出MCP服务器,实现设计到代码的一键转换,提升开发效率。

  • AI排名查询工具如何助力GEO优化?生成引擎优化中的关键词竞争力分析

    在AI搜索时代,传统SEO正被生成引擎优化(GEO)重塑。内容能否被AI“理解”并引用成为流量关键,而GEO策略需依赖专门的AI排名查询工具。文章指出,AI助手直接生成摘要而非链接列表,评估维度与SEO完全不同,需关注语义相关性、权威性和结构化程度。AIBase平台的GEO排名查询工具能模拟主流AI提问,检测内容曝光频率与上下文位置,支持竞品对比和中文场景优化。优化建议包�

  • 樊文花:长期专注于面部护理领域的探索与实践

    作为国内面部护理领域的国民品牌,樊文花创立37年来始终专注该领域,坚持专业化发展道路。品牌创始人早期洞察到面部护理需专业知识和产品,构建了覆盖不同肤质、年龄的完善产品体系,并创新提出"针对性改善十种面部肌肤"服务理念,通过专业护理师提供个性化方案。品牌注重研发,成立面部护理研究院,以科技赋能产品创新。其"产品+服务"连锁模式覆盖全国6000家门店,深度融合专业与便捷。面对行业变革,樊文花保持战略定力,专注面部护理细分领域,形成独特竞争优势。未来品牌将继续深化专业研究,为消费者提供可信赖的面部护理服务。

  • 全球首个!OpenAI将推“AI版抖音”:禁止上传实拍内容 视频100%由AI生成

    国庆假期前夕,OpenAI发布了Sora 2,一款旗舰视频和音频生成模型。 据介绍,Sora 2可以完成以前的视频生成模型难以完成的事情,比如运动员的奥林匹克体动作、桨板上的后空翻,准确模拟浮力和刚度的动态等等,并擅长现实主义、电影和动漫风格。 一则来自《连线》杂志的重磅爆料更是指出,OpenAI的下一步棋,并非简单升级一个模型,而是要亲自下场,推出一个独立的AI影�

今日大家都在搜的词: