首页 > 业界 > 关键词  > DIRFA最新资讯  > 正文

DIRFA:​只需音频和照片即可创建逼真的说话脸部动画

2023-11-17 09:36 · 稿源:站长之家

划重点:

👉 研究人员开发了一个计算机程序,只需音频和一张照片即可创建反映说话者面部表情和头部动作的逼真视频。

👉 这个名为 DIverse yet Realistic Facial Animations(DIRFA)的人工智能程序能够根据音频和照片生成3D 视频,显示人物与所说的音频同步的逼真而一致的面部动画。

👉 DIRFA 可应用于各个领域,包括医疗保健,它能够改进用户体验,使虚拟助手和聊天机器人更加复杂和逼真,同时对于有言语或面部残疾的个人来说,它也能帮助他们通过表情丰富的化身或数字形象来传达他们的思想和情感,增强他们的沟通能力。

站长之家(ChinaZ.com)11月17日 消息:新加坡南洋理工大学(NTU Singapore)的一支研究团队开发了一个计算机程序,只需音频和一张照片,即可创建反映说话者面部表情和头部动作的逼真视频。

这个名为 DIverse yet Realistic Facial Animations(DIRFA)的人工智能程序能够根据音频和照片生成3D 视频,显示人物与所说的音频同步的逼真而一致的面部动画。该程序改进了现有方法,解决了姿势变化和情感控制等问题。

image.png

为了实现这一目标,研究团队训练 DIRFA 使用了来自一个名为 The VoxCeleb2Dataset 的开源数据库的超过6000人的100多万个音频视频片段,以预测语音中的线索并将其与面部表情和头部动作联系起来。

研究人员表示,DIRFA 可能在各个行业和领域中产生新的应用,包括医疗保健。它可以使虚拟助手和聊天机器人更加复杂和逼真,从而改善用户体验。此外,它还可以作为一种强大的工具,帮助言语或面部受损的人通过表情丰富的化身或数字形象来传达他们的思想和情感,提高他们的沟通能力。

该研究的的研究人员表示:“我们的研究影响可能是深远的,因为它通过结合人工智能和机器学习等技术,彻底改变了多媒体通信的领域。我们的程序在之前的研究基础上进行了改进,只使用音频记录和静态图像,就能生成具有准确的嘴唇动作、生动的面部表情和自然的头部姿势的视频。”

研究人员还介绍称:“语音表现出多种变化。在不同的语境下,个体对相同的词语发音可能会有不同的方式,包括持续时间、幅度、音调等方面的变化。此外,除了语言内容,语音还传达了有关说话者情感状态和性别、年龄、种族甚至个性特征等身份因素的丰富信息。我们的方法在音频表示学习和人工智能机器学习方面进行了开创性的努力。” 研究结果于8月份发表在《Pattern Recognition》科学期刊上。

研究人员表示,通过音频驱动逼真的面部表情呈现是一个复杂的挑战。对于给定的音频信号,可能有许多可能的面部表情是合理的,而在处理随时间变化的一系列音频信号时,这些可能性可能会增加。

由于音频通常与嘴唇动作有很强的联系,但与面部表情和头部位置的联系较弱,研究团队的目标是创建能够展示精确的嘴唇同步、丰富的面部表情和与提供的音频相对应的自然头部动作的说话脸部。

为了解决这个问题,研究团队首先设计了他们的人工智能模型 DIRFA,来捕捉音频信号和面部动画之间复杂的关系。他们使用来自一个公开可用的数据库的超过6000人的100多万个音频和视频片段对模型进行了训练。

研究人员介绍:“具体而言,DIRFA 模型根据输入的音频来建模面部动画(如挑起眉毛或皱鼻子)的可能性。这种建模使得该程序能够将音频输入转换为多样而逼真的面部动画序列,从而指导说话脸部的生成。”

研究人员还补充说:“广泛的实验表明,DIRFA 能够生成具有准确的嘴唇动作、生动的面部表情和自然的头部姿势的说话脸部。然而,我们正在努力改进程序的界面,使得用户能够对某些输出进行控制。例如,DIRFA 目前不允许用户调整某种表情,比如将皱眉改为微笑。”

除了向 DIRFA 的界面添加更多选项和改进外,NTU 的研究人员还将使用更广泛的数据集来微调其面部表情,包括更多种类的面部表情和声音音频片段。

论文地址:

https://www.ntu.edu.sg/docs/default-source/corporate-ntu/hub-news/realistic-talking-faces-created-from-only-an-audio-clip-and-a-person-s-photo-using-ntu-singapore-computer-program.pdf?sfvrsn=41d32b2a_1

举报

  • 相关推荐
  • 动画行业的AI应用,走到了哪一步

    AI在动画领域的应用正在受到越来越广泛的关注。 今年四月,日本电视台上线了有「首部AI动画」之名的番剧《双子姐妹》。紧随其后,讲谈社、东映动画等公司在月底宣布投资初创AI公司Preferred50亿日元,以支持动漫内容创作的技术开发。 包括迪士尼、皮克斯、育碧在内,越来越多国际头部公司都正在将AI深度融入创作流程。皮克斯联合创始人Edwin Catmull更是直言,「AI改变动

  • 迅雷率先发布下载 MCP 一句话即可完成下载

    迅雷推出通用下载MCP服务,通过"一句话创建下载任务"的交互模式,用户可用语音或文字指令远程操控多类设备下载内容。该服务开放下载、任务管理等功能,支持纳米AI、Cursor等多个AI应用配置,操作简单只需创建专属MCP链接即可使用。MCP作为标准化交互协议,为AI模型提供统一接口连接各类工具和数据源,大幅提升数字内容获取效率。用户配置后可通过简单指令完成搜索和下载,还能选择将文件下载至NAS或电脑。迅雷表示将持续加大AI技术投入,推动数字内容下载行业的智能化升级。

  • 王思聪的110万元电视坏了上热搜 更换其中一块模组即可

    ​近日,王思聪位于日本家中的一台价值110万元的三星电视出现故障。此前,电丸科技凭借对MicroLED显示技术的深入研究,促成了王思聪购入这台110寸的高端电视。此次电视出现坏点问题后,电丸科技迅速响应,携手三星工程师一同奔赴日本,为王思聪提供售后服务。 据了解,这台MicroLED电视构造独特,由192块模组拼接而成,即哪块模组出现故障,直接进行替换即可。抵达现�

  • 摄入3毫克即可致命!大爷浅尝两口自制草乌药酒被送进ICU

    听信偏方,有时候真的会害死人。 据义务市中心医院发布”,75岁的夏爷爷(化名)向来身体不错,喜欢小酌几口,家中也有不少自制的桑葚酒、杨梅酒等。 一周前,他浅尝了几口平时还不舍得喝的草乌药酒,第二天就出现晕厥、抽筋、呕吐等情况,家人发现后立即拨打120,连夜送到了中心医院急诊科。 送医后,其血压极低、神志不清,伴四肢抽搐、大小便失禁、恶心呕吐

  • 无特效药 1毫克即可致命!一盘凉拌菜让女子全身“换血”

    夏季炎热,吃一盘凉菜成为了很多人就餐时的必选,但危险也往往藏身其中。 近日,浙江68岁的王女士(化名)吃了前一天剩下的凉拌白木耳,结果中毒被送往医院。 医生检查后发现,她的肝功能指标超过正常值的数十倍,虽然进行了护肝、纠酸、补液等治疗,病情仍持续恶化,陷入昏迷并出现肝衰竭。 结合其进食的食物,医生断定其为米酵菌酸”中毒,立即对其进行血浆

  • 如何用内网穿透实现Windows远程桌面异地访问?只需简单3步!

    文章介绍了远程访问公司电脑的解决方案。传统Windows远程桌面存在配置复杂、网络穿透困难等问题,而花生壳内网穿透工具能简化这一过程。具体操作分三步:1)在公司电脑安装花生壳客户端并登录;2)在管理平台添加内网映射,填写主机IP和端口;3)生成远程访问地址后,在外网电脑通过mstsc命令连接。该方法无需复杂配置,能实现跨网络远程办公,支持文件编辑等操作,有效提升工作效率,满足不同场景下的远程办公需求。

  • 外卖员被五步蛇咬伤带照片去医院 最终转危为安

    6月21日晚,重庆巫溪县宁厂镇宝山村20多岁的外卖员王林回老家看望爷爷时,不幸被五步蛇咬伤右手,伤口血流不止,嘴唇也出血。 随后王林被紧急送往巫溪县人民医院,医生根据咬人毒蛇照片判断为五步蛇咬伤。因王林对血清皮试过敏,医生采用脱敏疗法,于6月22日凌晨0点过为其输液注射第一支稀释后的五步蛇血清。

  • 牵手App真的能脱单吗?年轻人线上交友的真相

    文章探讨了Z世代恋爱方式的变化,线上交友成为新趋势。分析年轻人依赖线上交友的原因:社交圈固化、效率优先和低压力沟通。重点介绍了牵手App的独特优势:实名+身份认证双重审核机制、防骚扰功能、基于兴趣爱好的精准匹配,以及红娘服务提高成功率。通过一个6个月从匹配到结婚的成功案例,说明红娘服务在破冰和话题引导上的价值。最后给出高效使用建议:完善资料、善用红娘服务、保持开放心态,并强调主动性是脱单关键。

  • 表单大师AI 创建表单上线!一句话生成表单,好用到超乎想象!

    表单大师推出全新AI表单创建功能,用户只需用自然语言描述需求,系统即可自动生成专业表单。该功能覆盖问卷调查、活动报名、课程预约等各类场景,省去传统拖拽设计流程。AI能智能优化字段排版,并匹配行业场景添加表头等元素。用户反馈显示,原本需要2小时制作的活动报名表,现在10分钟即可完成,且字段更全面。产品支持在线编辑和发布,适用于企业及个人用户,大幅提升表单制作效率。

  • 农忙运输靠得住,皮卡汽车选大通星际皮卡真的太适合了!

    文章介绍上汽大通星际皮卡在农忙季节的实用性。该车搭载2.0T双涡轮增压柴油发动机,最大功率160kW,峰值扭矩500N·m,动力强劲,能轻松应对化肥运输、农机牵引等重活。四驱系统和智能越野模式使其在松软泥地行驶自如,最大载重2吨,拖拽能力达2.5吨。底盘采用全渐变式板簧和高强度钢结构,稳定性好,10年防腐蚀标准确保耐用性。车内NVH降噪处理到位,座椅支持150°放平,配备蓝牙、导航等智能功能,提升驾驶舒适性。目前限时售价8.98万元起,是农忙时节高效可靠的运输工具选择。