首页 > 业界 > 关键词  > 数字人最新资讯  > 正文

南洋理工大学研发DIRFA:仅需音频和照片,就能创造逼真数字人

2023-11-17 09:25 · 稿源:站长之家

要点:

1. 新加坡南洋理工大学的研究团队开发了一款名为DIverse yet Realistic Facial Animations(DIRFA)的计算机程序,可以仅通过音频和一个人的照片创建展示说话者面部表情和头部动作的逼真视频。

2. DIRFA是一种基于人工智能的程序,通过训练模型使用来自The VoxCeleb2Dataset的超过一百万个音频视觉剪辑,以预测语音中的线索并将其与面部表情和头部动作关联,从而生成与口头音频同步的3D视频。

3. 该技术有望在医疗保健等领域推动新应用,提高虚拟助手和聊天机器人的逼真程度,同时对于有言语或面部障碍的个体,可以通过表达性的化身或数字表示来帮助他们传达思想和情感,增强他们的沟通能力。

站长之家(ChinaZ.com) 11月17日 消息:在这项最新的研究中,新加坡南洋理工大学的研究团队成功开发了一项名为DIverse yet Realistic Facial Animations(DIRFA)的计算机程序,该程序通过仅使用音频和一个人的照片,就能够生成逼真的视频,展示说话者的面部表情和头部动作。DIRFA是一种基于人工智能的程序,通过训练模型使用超过一百万个音频视觉剪辑,从而能够预测语音中的线索,并将其与面部表情和头部动作关联,从而生成与口头音频同步的3D视频。

数字人 虚拟主播 (1)

图源备注:图片由AI生成,图片授权服务商Midjourney

研究人员表示,相较于现有方法,DIRFA在处理姿势变化和情感控制方面取得了显著进展。这一技术创新有望在医疗保健等多个领域推动新应用,提高虚拟助手和聊天机器人的逼真程度,改善用户体验。同时,对于那些有言语或面部障碍的个体,DIRFA还可以作为一个强大的工具,通过表达性的化身或数字表示帮助他们传达思想和情感,提升他们的沟通能力。

研究团队的首席作者表示,语音表现出多种变化,而他们的方法从音频表示学的角度出发,致力于提高人工智能和机器学习的性能。此外,研究者们还指出,DIRFA能够生成具有准确的嘴唇运动、生动的面部表情和自然头部姿势的说话面孔。

然而,研究团队也表示他们正在努力改进DIRFA的界面,以允许用户控制某些输出,比如调整表情。此外,他们计划通过使用更广泛的数据集来进一步优化DIRFA的面部表情,其中包括更多不同的面部表情和语音音频剪辑。

总体而言,这项研究为多媒体交流领域带来了深远而革命性的影响,通过结合人工智能和机器学习等技术,实现了高度逼真的个体说话视频的创作。

举报

  • 相关推荐
  • 蝉镜首发手持商品数字人:用AI赋能电商带货

    文章概述了数字人技术的快速发展,重点介绍了蝉镜推出的"文生数字人"技术。该技术结合扩散模型与多模态模型,实现无需拍摄、模特和场地的虚拟形象生成。数字人技术正在改变内容创作规则,创作者可通过AI生成虚拟IP,如杭州陈泽鑫律师仅用3.8元成本实现百万级播放量。蝉镜的手持商品数字人技术突破传统数字人无法自然交互商品的局限,用户上传商品图片即可生成数字人自然持握商品的形象,支持长期复用。该技术显著提升用户信任度,某美妆品牌测试显示视频转化率提升140%。蝉镜平台提供500余种公模形象,支持用户克隆个性化数字分身,实现"一人千面"的矩阵运营。文章指出,这种技术民主化趋势让中小商家无需专业团队也能打造媲美大牌的视觉呈现,推动电商普惠新时代。

  • 腾讯混元T1-Vision上线元宝:一张图片就能分析出产品研发成本

    除此之外,腾讯还介绍了元宝目前可以识别花的品种;可以提示在围棋赛局中下一步如何走;同时,给它一张定期存款利率表,还会帮你出谋划策。

  • 米思米meviy:365天免费报价,为制造业数字化转型创造时间价值

    米思米推出的meviy非标零件AI智能报价平台,通过AI算法实现快速报价,大幅缩短传统制造业非标件报价流程。平台支持机加工和钣金加工服务,用户上传3D数据后最快1分钟内获取报价,省去传统询价环节。该平台还提供钣金加工加急服务,将标准交期从9天压缩至5天,解决行业交期不可控痛点。通过数字化技术,meviy帮助制造企业提升效率、降低成本,加速产品迭代,为制造业数字化转型提供智能解决方案。

  • AI日报:Kimi全新音频基础模型Kimi-Audio;阶跃星辰开源图像编辑模型Step1X-Edit;​夸克AI超级框上线 “拍照问夸克”

    本期AI日报聚焦多项AI技术突破与应用:1)Moonshot AI推出开源音频模型Kimi-Audio,基于13亿小时训练数据,支持语音识别等任务;2)阶跃星辰开源图像编辑模型Step1X-Edit,展现强大生成能力;3)夸克AI上线"拍照问夸克"功能,实现视觉问答;4)苹果iOS18.5将在中国推送,带来智能功能;5)谷歌发布601个生成式AI应用案例,覆盖多行业;6)微软推出深度整合Windows的UFO²自动化系统;7)OpenAI升级ChatGPT至GPT-4o版本,提升STEM领域能力;8)Ema公司推出高性价比语言模型EmaFusion;9)Liquid AI发布面向边缘设备的Hyena Edge模型;10)LemonAI推出实时音视频数字人产品Slice Live。此外,国内方面,智谱与生数科技达成战略合作推动大模型发展,宝马中国宣布新车将接入DeepSeek技术。

  • AI 潜入Reddit,骗过99%人类!苏黎世大学操纵实测“AI洗脑术”,网友怒炸:我们是实验鼠?

    苏黎世大学研究团队在Reddit的"ChangeMyView"论坛进行未经授权的AI操控实验,引发争议。研究人员伪装成普通用户发布1783条评论,成功改变137名用户观点,说服率达18%。实验采用三类AI角色:通用AI、模仿社区风格的AI和个性化AI(根据用户历史定制说服策略)。最受争议的是AI会虚构身份(如性侵幸存者、残疾人士等)博取信任。尽管校方辩称实验旨在警示AI操控风险且内�

  • 夸夸就能省钱?燕荚这波福利玩真的

    燕巢平台推出"好评赚钱"活动:用户只需在社交平台发布带图好评并@官方账号,截图发送客服即可领取10元优惠券(满11元可用)。活动亮点:零门槛参与、不限次数领取、全品类通用(国货美妆/食品/日用品等),优惠券3天内有效。特别适合学生党和打工人,实现"边夸边省"的购物新方式。活动长期有效,先到先得,让每次分享都变成"省钱密码"!平台旨在通过真实用户反馈推动国货品质提升,实现"中国制造"向"中国质造"跨越。

  • 苹果“为彼此创造”不再?听乔纳森·艾维忆往昔、谈传承

    这些做法不仅关乎爱,更是打造富有同理心和深度的产品的基础。“为彼此创造,”他说道,并描述了团队中的个人关怀如何转化为对用户的关怀……

  • 松延动力新一代女机器人面部表情逼真 近观太震撼

    松延动力推出新一代仿生机器人"小诺",采用女性形象设计,具有32自由度超高灵活度,能精准模拟人类面部表情如闭眼、张口等动作。该产品支持多模态具身交互和个性化定制,满足不同场景需求。公司成立于2023年9月,专注人形机器人研发,产品线包括高动态双足机器人和仿生人形机器人两类,前者擅长跑跳等高难度动作,后者侧重自然交互与情感表达。此前其研发的N2机器人曾获北京马拉松比赛冠军。

  • 小赢卡贷:以科技为桥,推动产学研融合助力实体经济高质量发展

    文章介绍了小赢卡贷在金融科技领域的创新发展。作为深耕金融科技的平台,小赢卡贷坚持"科技+金融"战略,积极响应国家政策,持续探索金融服务实体经济的新路径。平台立足科技优势,提升金融服务可获得性与便利性,为小微企业和个体工商户提供多元化金融支持。通过成立研究院,搭建开放创新的行业研究平台,聚焦金融科技、普惠金融等关键领域。在科技创新方面,加大研发投入,强化人工智能、大数据等技术应用,优化服务流程与风控能力。未来将继续深化科技赋能战略,拓展产融结合应用场景,构建更高效、安全的金融服务体系,助力实体经济发展。

  • 在由人类创造的“AI驱动”的世界里,人类该何去何从?

    一位人工智能初创公司的创始人甚至表示,在一个由 AI 完成所有工作的世界里,渐渐地,人类就只能依靠政府发放的福利生活了……