DIRFA：只需音频和照片即可创建逼真的说话脸部动画

2023-11-17 09:36 · 稿源：站长之家

划重点:
👉 研究人员开发了一个计算机程序，只需音频和一张照片即可创建反映说话者面部表情和头部动作的逼真视频。
👉 这个名为 DIverse yet Realistic Facial Animations（DIRFA）的人工智能程序能够根据音频和照片生成3D 视频，显示人物与所说的音频同步的逼真而一致的面部动画。
👉 DIRFA 可应用于各个领域，包括医疗保健，它能够改进用户体验，使虚拟助手和聊天机器人更加复杂和逼真，同时对于有言语或面部残疾的个人来说，它也能帮助他们通过表情丰富的化身或数字形象来传达他们的思想和情感，增强他们的沟通能力。

站长之家（ChinaZ.com）11月17日消息:新加坡南洋理工大学（NTU Singapore）的一支研究团队开发了一个计算机程序，只需音频和一张照片，即可创建反映说话者面部表情和头部动作的逼真视频。

这个名为 DIverse yet Realistic Facial Animations（DIRFA）的人工智能程序能够根据音频和照片生成3D 视频，显示人物与所说的音频同步的逼真而一致的面部动画。该程序改进了现有方法，解决了姿势变化和情感控制等问题。

为了实现这一目标，研究团队训练 DIRFA 使用了来自一个名为 The VoxCeleb2Dataset 的开源数据库的超过6000人的100多万个音频视频片段，以预测语音中的线索并将其与面部表情和头部动作联系起来。

研究人员表示，DIRFA 可能在各个行业和领域中产生新的应用，包括医疗保健。它可以使虚拟助手和聊天机器人更加复杂和逼真，从而改善用户体验。此外，它还可以作为一种强大的工具，帮助言语或面部受损的人通过表情丰富的化身或数字形象来传达他们的思想和情感，提高他们的沟通能力。

该研究的的研究人员表示:“我们的研究影响可能是深远的，因为它通过结合人工智能和机器学习等技术，彻底改变了多媒体通信的领域。我们的程序在之前的研究基础上进行了改进，只使用音频记录和静态图像，就能生成具有准确的嘴唇动作、生动的面部表情和自然的头部姿势的视频。”

研究人员还介绍称:“语音表现出多种变化。在不同的语境下，个体对相同的词语发音可能会有不同的方式，包括持续时间、幅度、音调等方面的变化。此外，除了语言内容，语音还传达了有关说话者情感状态和性别、年龄、种族甚至个性特征等身份因素的丰富信息。我们的方法在音频表示学习和人工智能机器学习方面进行了开创性的努力。” 研究结果于8月份发表在《Pattern Recognition》科学期刊上。

研究人员表示，通过音频驱动逼真的面部表情呈现是一个复杂的挑战。对于给定的音频信号，可能有许多可能的面部表情是合理的，而在处理随时间变化的一系列音频信号时，这些可能性可能会增加。

由于音频通常与嘴唇动作有很强的联系，但与面部表情和头部位置的联系较弱，研究团队的目标是创建能够展示精确的嘴唇同步、丰富的面部表情和与提供的音频相对应的自然头部动作的说话脸部。

为了解决这个问题，研究团队首先设计了他们的人工智能模型 DIRFA，来捕捉音频信号和面部动画之间复杂的关系。他们使用来自一个公开可用的数据库的超过6000人的100多万个音频和视频片段对模型进行了训练。

研究人员介绍:“具体而言，DIRFA 模型根据输入的音频来建模面部动画（如挑起眉毛或皱鼻子）的可能性。这种建模使得该程序能够将音频输入转换为多样而逼真的面部动画序列，从而指导说话脸部的生成。”

研究人员还补充说:“广泛的实验表明，DIRFA 能够生成具有准确的嘴唇动作、生动的面部表情和自然的头部姿势的说话脸部。然而，我们正在努力改进程序的界面，使得用户能够对某些输出进行控制。例如，DIRFA 目前不允许用户调整某种表情，比如将皱眉改为微笑。”

除了向 DIRFA 的界面添加更多选项和改进外，NTU 的研究人员还将使用更广泛的数据集来微调其面部表情，包括更多种类的面部表情和声音音频片段。

论文地址:

https://www.ntu.edu.sg/docs/default-source/corporate-ntu/hub-news/realistic-talking-faces-created-from-only-an-audio-clip-and-a-person-s-photo-using-ntu-singapore-computer-program.pdf?sfvrsn=41d32b2a_1

（举报）

相关推荐
大家在看

关键词：

【腾讯云】11.11云上盛惠！云服务器首年1.8折起，买1年送3个月！

11.11云上盛惠！海量产品 · 轻松上云！云服务器首年1.8折起，买1年送3个月！超值优惠，性能稳定，让您的云端之旅更加畅享。快来腾讯云选购吧！

Docker容器镜像
去看看

Docker容器镜像 60元/15天

爆款产品组合购
去看看

爆款产品组合购低至1元

腾讯云x NVIDIA加速计划
去看看

腾讯云x NVIDIA加速计划最高获赠10万元扶持基金

2核2G云服务器
去看看

2核2G云服务器 112元/1年

查看更多相关信息>>

腾讯云 12-20

广告
EMO同款？微软发布对口型软件VASA-1 图片加语音即可生成逼真说话视频

由微软亚洲研究院开发的VASA-1项目，是一项前沿的人工智能技术，它能够将单一静态图像和一段语音音频转换为逼真的对话面部动画。这项技术不仅能够实现音频与唇部动作的精确同步能够捕捉并再现丰富的面部表情和自然的头部动作，极大地增强了生成视频的真实感和生动性。所有在演示中使用的肖像图像，除了蒙娜丽莎外，都是由StyleGAN2或DALL-E-3生成的虚拟、不存在的身份

VASA-1 AI头条
阿里AI模型EMO免费上线通义APP 一张照片即可开口唱歌说话

阿里云宣布，EMO模型成功在通义APP中上线，并且完全开放给所有用户免费使用。在通义千问APP内，用户只需简单三步操作:选择模版、上传照片、生成视频，即可轻松实现照片中人物演戏唱歌的神奇效果。通义APP还不断推出实用功能，如超长文档解析、AI编码助手、AI会议助手等，为用户提供全方位的超级AI助手服务。

阿里云 EMO模型通义APP
GRM：只需少量图片，就能在0.1秒内创建3D模型

一款名为GRM的大型高斯重建模型引起了广泛关注。GRM是一种用于3D重建和生成的技术，通过有效整合多视角信息，它能够在极短的时间内重建出精确的3D模型。随着技术的不断发展，我们有理由相信，GRM将为3D建模技术的应用带来更多可能性。

GRM 3D模型 AI头条
文心一言APP上线定制专属声音功能只需2秒即可

文心一言APP上线新功能，让用户能够在短短两秒内打造出专属的定制声音。想要体验这一神奇功能，只需打开文心一言APP，然后选择创建智能体。还可以点击对话框上的通话按钮，与你自己构建的数字分身实时对话，音色和音调都与你本人完全一致。

智能体声音定制语音助手
HaLo-NeRF：学习几何导向语义以探索无约束照片集

HaLo-NeRF是一款创新的系统，它结合了场景的神经表示和描述场景语义区域的文本，以实现对大型地标场景的深入理解和探索。该系统利用最新的视觉和语言模型，特别针对地标场景的语义理解进行了优化，将场景的视觉信息与描述性文本紧密相连。应用前景:HaLo-NeRF系统在数字化探索大型旅游景点方面具有巨大潜力，它为互联网图像集合的探索提供了一种新的语义理解方法。

HaLo-NeRF
Freditor官网体验入口 NeRF场景编辑工具使用地址

Freditor是一种基于频域分解的NeRF编辑方法。它可以实现高保真的NeRF场景编辑，并且可迁移到其他场景。想要了解更多关于Freditor的信息，欢迎访问官方网站。

Freditor
Humanify：专为Blender设计的插件，一键生成高度逼真的人类模型

Humanify是一个创新的Blender着色器插件，它通过简化的操作流程，使得在Blender中一键生成高度逼真的人类模型成为可能。无论是3D建模的新手还是经验丰富的艺术家，都能够利用Humanify轻松实现人物模型的真实感渲染。Humanify插件代表了3D建模和渲染技术的一大进步，它通过简化技术流程，让艺术家们能够更加专注于他们的艺术创作，同时保证了作品的质量。

Humanify AI头条
荐suno劲敌！AI音乐生成工具Udio正式发布输入文字即可生成音乐

一款名为Udio的AI音乐生成工具正式对外发布，引起了广泛关注。这款工具的亮点在于用户可以通过简单的文字描述，轻松创作出带有歌词的音乐作品，极大地降低了音乐创作的门槛。随着AI技术的不断进步，我们有理由相信，Udio将在未来的数字音乐产业中扮演重要角色。

Udio AI头条
HairFastGAN官网体验入口 AI换脸换发型图像处理工具使用地址

HairFastGAN是一种用于高分辨率、接近实时性能和出色重建的发型转移方法。该方法包括在StyleGAN的FS潜在空间中运行的新架构、增强的修复方法以及用于更好的对齐、颜色转移和后处理的改进编码器。想了解更多详情并体验HairFastGAN的强大功能，请访问HairFastGAN官网。

HairFastGAN
StableDrag：简易点击编辑器可以轻松调整蒙娜丽莎脸部表情

南京大学和腾讯的研究人员开发了一种名为StableDrag的新型基于AI的图像编辑方法，允许元素轻松移动到新位置，并保持正确的透视，根据他们的论文。该方法基于近期AI图像编辑的进展，如FreeDrag、DragDiffusion和Drag-GAN，并在基准测试中取得了显著更好的结果。苹果正在采用不同的操纵方法，MGIE使用文本提示添加、删除或更改对象无需选择特定区域。

AI图像生成器图像修补基于点的编辑

Chat UI:开源代码库，为HuggingChat应用提供动力

chat-ui是一个开源的聊天界面，使用开源模型如OpenAssistant或Llama。它是一个SvelteKit应用程序，为hf.co/chat上的HuggingChat应用提供支持。该产品允许用户通过自定义配置来运行和部署自己的Chat UI实例，支持多种语言模型和功能，如Web搜索、自定义模型等。

开源聊天应用 SvelteKit

360AI浏览器APP:360AI 浏览器，AI 赋能，秒懂一切。

360AI 浏览器利用人工智能技术，提供智能搜索、PDF、视频、网页总结等功能，旨在帮助用户高效获取知识，提升阅读体验。

智能搜索 PDF 阅读视频播放

FAQ Generator:免费AI生成FAQ，无需注册即可创建网站FAQ模板。

AI FAQ Generator是一款利用先进AI技术，通过分析常见问题自动生成FAQ列表的工具。它能够快速高效地生成FAQ，节省时间和资源，同时提供准确的答案，帮助提高客户满意度，并改善SEO效果。

AI技术自动化 FAQ创建

BrickCenter:一个创意无限的乐高设计平台，让你的想象力变为现实。

BrickCenter是一个在线平台，允许用户免费创建自己的乐高套装和迷你人物。它提供了一个将创意转化为详细乐高设计的工具，无论是复杂的场景还是个性化的迷你人物，用户都可以在这个平台上实现自己的设计梦想。该平台以其用户友好的界面和强大的定制功能而受到乐高爱好者的欢迎。

创意设计乐高

100 UI/UX Tips:在一个小时内学习如何制作令人印象深刻的应用程序界面。

《100 UI/UX Tips》提供了设计界面所需的所有提示，让用户感到满意。强调产品的主要优点、背景信息、价格和定位。

设计用户界面用户体验

whatwide.ai:提高生产力的AI助手，简单易用

whatwide.ai是一个提高生产力的AI助手，使用人工智能技术来节省时间并提高工作效率。它提供了50多种AI模型，包括文本生成、网站帮助、社交媒体分析、编程辅助等多种功能。whatwide.ai的优点在于高质量的内容生成、快速且安全的操作，以及多种AI类型供用户选择。

生产力文本生成网站帮助

Stream of Consciousness:一个展示想象中艺术家思绪的日常表演，通过创作和分享图像来表达创造力。

Stream of Consciousness是一个记录并分享艺术家思维的项目，通过创作和分享图像来展示创造力。它提供了一个深入艺术家思维的窗口，让人们了解艺术创作的过程和灵感的来源。

艺术创作思绪

Neurelo:是一种用于PostgreSQL、MongoDB和MySQL的云数据API平台，通过自动生成REST和GraphQL数据API、AI辅助的自定义查询API、查询可观察性等功能，简化和加速现代云应用程序开发。

Neurelo是一个专为云数据库而设计的平台，通过使用云API和人工智能技术，提供自动生成API、自定义查询API、查询可观察性和Schema as Code等功能，以提高开发人员的生产力。Neurelo能够简化数据库编程相关的复杂性，并具备可伸缩性、安全性和查询优化能力。

数据库云应用程序 API

EdrawMax:智能且风格多样的图表解决方案，简化您的想法可视化过程。

EdrawMax是一款功能强大的图表设计软件，它提供一站式的图表解决方案，适用于流程图、思维导图、组织结构图、甘特图、平面图和ER图等210多种图表类型。它具有简洁的用户界面，类似于MS Office的干净、整齐的界面，直观且易于导航的工具集，以及无缝的拖放功能。此外，EdrawMax还提供了23000多个用户制作的模板，850个精心制作的内置模板，以及26000多个免费符号，覆盖所有图表类型。它还具备AI功能，可以生成和分析22种类型的图表，包括文本到绘图和图片到绘图以及AI聊天。EdrawMax支持跨平台集成，可以在云端保存文件并通过链接共享，支持通过社交媒体或电子邮件发送作品，并能以13种格式导出图表，包括VSDX、PPTX和SVG等。此外，EdrawMax遵循GDPR标准，使用最高级别的256位SSL加密，确保用户隐私和数据安全。

DIRFA：​只需音频和照片即可创建逼真的说话脸部动画

今日大家都在搜的词：

热文

站长商机

DIRFA：只需音频和照片即可创建逼真的说话脸部动画