首页 > 业界 > 关键词  > VASA-1最新资讯  > 正文

EMO同款?微软发布对口型软件VASA-1 图片加语音即可生成逼真说话视频

2024-04-18 09:38 · 稿源:站长之家

站长之家(ChinaZ.com)4月18日 消息:由微软亚洲研究院开发的VASA-1项目,是一项前沿的人工智能技术,它能够将单一静态图像和一段语音音频转换为逼真的对话面部动画。这项技术不仅能够实现音频与唇部动作的精确同步,还能够捕捉并再现丰富的面部表情和自然的头部动作,极大地增强了生成视频的真实感和生动性。

QQ截图20240418093835.png

主要功能与特点:

逼真的面部动画: VASA-1可以根据一段语音音频和单一静态图像生成逼真的对话面部视频,包括精确的唇部运动同步和复杂的面部表情及头部动作。

高度自然的头部动作: VASA-1能够生成包括点头和转头在内的自然头部运动,这些都是人类交流中常见的非语言行为。

实时视频生成: 利用NVIDIA RTX4090GPU,VASA-1能够实现高性能的视频生成。它支持在离线模式下以45fps生成512×512分辨率的视频,以及在线流模式下的40fps生成速度,前置延迟仅为170毫秒,适合实时应用。

泛化能力: 模型展现出强大的适应能力,即使面对与训练数据不同的音频或图像,如不同的语言或非常规的艺术照片,也能够有效工作。

支持多种语言: VASA-1不仅支持中文,还能处理多种语言的语音输入,甚至能够生成唱歌的动画。

解耦能力: 模型能够独立处理和控制人脸的不同动态特征,如嘴唇运动、表情、眼睛注视方向等,提供了高度的解耦和可控性。

生成的可控性: 通过引入条件信号,如眼睛注视方向、头部距离和情绪偏移,VASA-1增强了视频生成的可控性,允许更精细的调整和个性化的动画输出。

技术原理:

VASA-1项目利用了一系列先进的计算机视觉和机器学习技术,包括面部潜在空间构建、数据集处理、3D辅助表征、整体面部动态和头部动作生成、音频条件化的生成控制、以及实时生成支持等。这些技术的应用使得VASA-1能够生成与音频高度同步的、具有丰富表情和动作的逼真面部动画。

案例与资源:

微软亚洲研究院提供了VASA-1的项目演示和相关论文,以供有兴趣的研究人员和开发者进一步探索和学习。所有在演示中使用的肖像图像,除了蒙娜丽莎外,都是由StyleGAN2或DALL-E-3生成的虚拟、不存在的身份图像。

项目地址:https://top.aibase.com/tool/vasa-1

论文地址:https://arxiv.org/abs/2404.10667

举报

  • 相关推荐
  • AI最新资讯在哪里看?AIbase:高效获取国内外AI新闻头条与行业动态

    文章探讨了AI时代信息过载的困境:有价值的前沿动态、重磅模型发布和行业解读分散各处,筛选成本高、效率低下。AIbase资讯导航站应运而生,通过四大核心功能解决痛点:1)聚合主流信源,过滤低质噪音;2)结构化分类呈现大模型动态、行业应用等六大板块;3)提炼核心要点,拒绝标题党;4)高频更新确保信息鲜度。该平台致力于成为AI领域的"信息雷达",帮助用户节省70%信息搜集时间,将精力聚焦于思考与创造。适用于技术负责人快速掌握行业动态、产品经理调研案例、投资人捕捉趋势等多元场景。

  • 时空壶X1:以技术硬实力领航AI同传领域

    时空壶X1同声传译器凭借AI技术革新翻译行业,支持40种语言93种口音识别,翻译准确率达95%。其自主研发的Babel OS系统整合语音识别、翻译与合成功能,通过端云协同技术确保复杂环境下的稳定服务。产品已应用于国际会议、商务谈判等场景,支持20人5种语言实时交互,并创新推出"演讲翻译"模式,单设备即可服务50名观众。在深圳文博会等国际活动中表现优异,噪声环境下仍保持92%识别率。X1推动行业从传统人工翻译向轻量化、智能化转型,降低企业使用门槛,成为跨国交流的核心工具。

  • 迟到1小时=旷工半天 员工多次迟到早退被开除:法院判了

    上海某公司规定,员工每次迟到或早退1小时视为旷工半天;迟到或早退3小时视为旷工一天;连续旷工3日或全月累计旷工6日,公司有权解除劳动合同。 2020年9月期间,吴某出现多次迟到、早退及擅自离岗行为,随后公司送达《劳动合同解除通知书》,吴静诉至法院,要求恢复劳动关系。 法院经过审理后认为,旷工的本质是劳动者未经批准全天未出勤,而公司制度将较短时间�

  • 全球Top 1的手游,被忽视了太久

    成为业界和玩家热议的中心,收获聚光灯般的待遇,对于多数游戏都是必需品。但有个例外: 《王者荣耀》。 倒不是说它成绩或者热度不高,只是它稳居榜首已经成为了游戏行业里的一种常识:哪一天榜首产品换了,那才叫新闻。 《王者荣耀》登顶这事到底有多「普通」呢?据AppMagic,《王者荣耀》是今年上半年唯一一款营收破十亿美元的手游;过去三年,它还实现了全球手游�

  • 被自己蠢哭了!男子打胰岛素1个月才发现针套没摘

    日常生活中大家可能都有犯蠢的时候,有时候甚至自己都不敢再去回忆,近日有男子将自己的遭遇分享到网上后引起热议。 据悉,吉林延吉一男子患糖尿病,需要定期注射打胰岛素,然而他愣生生注射1月后意外发现针套都没摘,所有的药都白白浪费,得知真相后,他自己瞬间气笑。 男子还表示,注射第一周去复查,医生说血糖还是高,后自己加大剂量,然而药全呲肚子上了

  • 带猫环游世界的@不撸猫HaiTang 如何吸引1亿点赞?

    当打工人还在幻想诗和远方,@不撸猫HaiTang 已经带着他的两只狸花猫开始环游世界了! 视频里,这只名为海棠的狸花猫,在菲律宾的划艇上悠闲地打量着海洋;另一段视频中,它又出现在日本北海道的雪景里,好奇地从主人的背包里探出小脑袋。

  • 曝小米16黑边仅1mm:小米史上最窄

    博主i冰宇宙爆料,小米16面板黑边是1mm,小米16 Pro面板黑边是1.1mm,如果算上BM区和缝隙,上述数据还要再加上0.2mm。 对比小米15的1.38mm数据,小米16再度刷新纪录,这是小米史上边框最窄的数字系列旗舰。

  • 普渡机器人发布3D感知AI扫地机器人PUDU MT1 Max,重塑智能清洁新高度

    普渡机器人于2025年8月20日发布3D感知AI扫地机器人PUDU MT1Max。该产品在MT1基础上大幅升级,搭载3D雷达与多传感器融合系统,显著增强复杂场景感知与避障能力。通过AI技术实现自适应清洁、垃圾识别、巡检清洁等功能,支持10万平方米以上大场景作业。具备自动振尘过滤和智能避雨机制,提升安全性与运维效率,重塑智能清洁行业新标准。

  • B站要变成AI站

    互联网平台都在跟AI结合,B站没有成为例外。从新一季度财报来看,B站的AI味儿也越来越浓了。 8月21日,B站公布第二季度业绩,总营收达73.4亿元人民币,同比增长20%。其中,游戏业务收入为16.1亿元,同比增长60%,广告业务收入为24.5亿元,同比增长20%。由此推动B站毛利率从去年同期的29.9%提升至36.5%,调整后净利润达到5.6亿元,创下历史最好成绩。 从整体来看,B站生态集聚

  • 最新AI资讯哪里看?AI技术人员如何从论文到产业应用全覆盖?

    文章指出,ArXiv、ACL和NeurIPS等论文库是AI开发者获取前沿技术的重要来源,但仅依赖论文库已不足以构建完整竞争力。作者强调需要超越论文本身,关注技术落地、产业应用及生态动态。推荐利用AIbase等技术资讯平台作为补充,提供筛选整合、趋势解读和产业视角,帮助开发者高效把握技术动态,避免闭门造车,构建复合型信息摄入体系。

今日大家都在搜的词: