首页 > AI头条  > 正文

音频驱动生成面部视频技术JoyVASA 支持小动物角色

2024-11-25 09:37 · 来源: AIbase基地

近日,研究人员提出了一种名为 JoyVASA 的新技术,旨在提升音频驱动的图像动画效果。随着深度学习和扩散模型的不断发展,音频驱动的人像动画在视频质量和嘴形同步精度方面取得了显著进展。然而,现有模型的复杂性增加了训练和推理的效率问题,同时也限制了视频的时长和帧间连续性。

JoyVASA 采用了两阶段的设计,第一阶段引入了一种解耦的面部表征框架,将动态面部表情与静态的三维面部表征分开。

这种分离使得系统能够将任何静态的三维面部模型与动态动作序列相结合,从而生成更长的动画视频。在第二阶段,研究团队训练了一种扩散变换器,能够直接从音频线索中生成动作序列,这一过程与角色身份无关。最后,基于第一阶段训练的生成器将三维面部表征和生成的动作序列作为输入,渲染出高质量的动画效果。

image.png

值得注意的是,JoyVASA 不仅限于人像动画,还能够无缝地动画化动物面部。这一模型在一个混合数据集上进行训练,结合了私有的中文数据和公共的英文数据,展现出良好的多语言支持能力。实验结果证明了这一方法的有效性,未来的研究将重点提升实时性能和细化表情控制,进一步扩展这一框架在图像动画中的应用。

JoyVASA 的出现标志着音频驱动动画技术的一次重要突破,推动了在动画领域的新可能性。

项目入口:https://jdh-algo.github.io/JoyVASA/

划重点:

🎨 JoyVASA 技术通过解耦面部表情与三维模型,实现更长的动画视频生成。  

🔊 该技术能够根据音频线索生成动作序列,具有人物与动物动画的双重能力。  

🌐 JoyVASA 在中英文数据集上训练,具备多语言支持,为全球用户提供服务。

  • 相关推荐
  • 马斯克母亲发帖支持儿子:演示Grok视频生成功能

    近日,马斯克母亲梅耶-马斯克发帖演示支持马斯克的Grok视频生成功能。 她表示,这次我把手指放在了最近在X上发布的这张照片上,提示是用Grok制作视频”,现在自己的狗摇着尾巴了,自己玩得很开心。 她还特别提示,这个视频由@grok Imagine制作。

  • 从数据穿透到模型迭代,攀智资本:重新定义技术驱动投资

    攀智资本(香港)有限公司以技术驱动投资为核心,在全球金融市场调整与中国金融业蓬勃发展的背景下,通过AI与量化交易深度融合,构建高效数据分析、量化模型、智能风控和自动化交易系统。公司精准锚定中国市场机遇,布局多元资产,挖掘政策红利与技术创新带来的投资机会。未来将拓展ESG投资与全球化业务,持续完善量化基础设施,推动行业技术转型,展现技术驱动投资的新范式。

  • 动物园狮子因不爱洗澡走红:酷似乞丐

    贵州某动物园的一只狮子走红网络,不少游客在短视频平台上分享了它的视频,其形象邋遢”,毛发干枯张扬,酷似乞丐”。 园方工作人员表示,这是一头非洲狮,其身体状况良好,但平时不太配合冲洗身体。 资料显示,非洲狮是非洲现存最大的猫科动物,也是非洲顶级的猫科食肉动物,其体格强壮,体形大小居第二位,仅次于虎。

  • 从像素竞赛到光影革命,4K与杜比视界扮演何种角色?

    文章回顾了电视技术从标清、高清到超高清的像素竞赛发展史。当前4K分辨率已成为高端电视标配,画质进化方向转向对“光”的控制。文章探讨了4K与杜比视界在技术演进中的不同角色:4K解决像素密度问题,杜比视界通过动态HDR技术提升光影质量。以海信E8Q+Pro为例,分析旗舰电视如何通过信芯AI画质芯片和U+ MiniLED背光系统实现软硬件协同,引领这场“光影革命”,为用户带来次世代的视觉体验。

  • 从经验驱动转向智能驱动,AI为企业数智化转型注入新动能

    传统企业决策依赖管理者经验与直觉,存在主观性、信息不全面、数据处理滞后等问题,常导致决策偏差。人工智能技术通过大数据分析与智能算法,推动决策从“经验驱动”转向“数据驱动”,提升精准度与效率。启信慧眼等工具整合多维度数据,构建智能决策系统,助力企业规避风险、捕捉机遇,实现科学高效的数字化转型。

  • 动物园回应豹猫饭碗旁爬满虫子:不是蟑螂 是杜比亚昆虫

    湖北武汉有网友发布视频称,在zoolungzoolung动物主题公园(东湖店)内,一只豹猫的饭碗周围爬满疑似蟑螂的昆虫,质疑存在虐待动物的情况。 园方对此作出回应,称这些昆虫实为园内蜥蜴的饲料杜比亚昆虫,因其外形与蟑螂相似易引发误解。 豹猫的食物带有甜味,吸引了这些昆虫爬至食盆周边。园方表示每个月都会采购这种虫子,之前有游客反映过,目前已经清理干净了�

  • Joyoai(九友爱)发布家庭知识精灵 N9 聚焦 AI 知识陪伴 开启家庭服务场景战略升级

    2025年8月22日,深圳科技品牌Joyoai(九友爱)宣布战略升级,推出首款家庭AI产品“家庭知识精灵N9”。该产品以“知识陪伴+时间管理”为核心,聚焦亲子学习与银发健康两大场景。通过硬件与知识服务系统深度融合,实现从线下社交互动到家庭全场景服务的精准延伸。产品采用萌趣设计,支持语音与触控交互,预计年底推出节日定制版。品牌以“小而专”策略构建差异化竞争壁垒,专注解决家庭刚需痛点。

  • 长视频自己的音乐节:从一个人刷片,到七万人狂欢

    当夕阳余晖洒下,毛不易的歌词「一杯敬月光、一杯敬过往」在巨型竖屏出现,所有台下的合唱观众,感受到了一种强烈的共鸣。 同一刻、在一起,体验同一种情绪,成了用户与腾讯视频之间的「独家记忆」。 这是国内长视频平台首次把音乐节与内容紧密结合,通过一场线下活动,腾讯视频想要回应一个期待:为私密的、个人的线上观影行为,制造一种「共同在场感」。 无�

  • 不得了!狗狗从野外叼回一只小萌猫 竟是国家二级保护动物豹猫

    近日,在云南江城,一名群众家中的狗狗在野外活动时,意外叼回一只小萌猫”,原来竟是国家二级保护动物豹猫的幼崽,民警接到报警变身临时奶爸”悉心照顾。 公开资料显示,豹猫,别名山猫、山狸、野狸、狸猫、石虎、钱猫、抓鸡虎;为猫科豹猫属的一种小型猫科动物,体型与家猫类似。 它广泛分布于东亚、南亚、东南亚,以及巽他群岛和菲律宾等地,在我国除青藏�

  • 三星推出Galaxy Buds3 FE耳机新品:带来更加智能、时尚的音频新体验

    三星电子于2025年8月18日发布新款智能耳机Galaxy Buds3 FE,主打亲民价格与高端性能。新品延续标志性刀锋设计,配备升级版主动降噪(ANC)和Galaxy AI功能,支持跨设备无缝切换和语音交互。通过增强型扬声器实现三频均衡音效,超宽频通话技术确保清晰沟通。耳机采用哑光双色半透明设计,支持与三星生态设备联动,提供智能翻译等AI功能。将于9月5日上市,提供银雾灰、暗羽黑两种配色,进一步扩展三星Galaxy生态体验。

今日大家都在搜的词:

热文

  • 3 天
  • 7天