首页 > 业界 > 关键词  > VASA-1最新资讯  > 正文

EMO同款?微软发布对口型软件VASA-1 图片加语音即可生成逼真说话视频

2024-04-18 09:38 · 稿源:站长之家

站长之家(ChinaZ.com)4月18日 消息:由微软亚洲研究院开发的VASA-1项目,是一项前沿的人工智能技术,它能够将单一静态图像和一段语音音频转换为逼真的对话面部动画。这项技术不仅能够实现音频与唇部动作的精确同步,还能够捕捉并再现丰富的面部表情和自然的头部动作,极大地增强了生成视频的真实感和生动性。

QQ截图20240418093835.png

主要功能与特点:

逼真的面部动画: VASA-1可以根据一段语音音频和单一静态图像生成逼真的对话面部视频,包括精确的唇部运动同步和复杂的面部表情及头部动作。

高度自然的头部动作: VASA-1能够生成包括点头和转头在内的自然头部运动,这些都是人类交流中常见的非语言行为。

实时视频生成: 利用NVIDIA RTX4090GPU,VASA-1能够实现高性能的视频生成。它支持在离线模式下以45fps生成512×512分辨率的视频,以及在线流模式下的40fps生成速度,前置延迟仅为170毫秒,适合实时应用。

泛化能力: 模型展现出强大的适应能力,即使面对与训练数据不同的音频或图像,如不同的语言或非常规的艺术照片,也能够有效工作。

支持多种语言: VASA-1不仅支持中文,还能处理多种语言的语音输入,甚至能够生成唱歌的动画。

解耦能力: 模型能够独立处理和控制人脸的不同动态特征,如嘴唇运动、表情、眼睛注视方向等,提供了高度的解耦和可控性。

生成的可控性: 通过引入条件信号,如眼睛注视方向、头部距离和情绪偏移,VASA-1增强了视频生成的可控性,允许更精细的调整和个性化的动画输出。

技术原理:

VASA-1项目利用了一系列先进的计算机视觉和机器学习技术,包括面部潜在空间构建、数据集处理、3D辅助表征、整体面部动态和头部动作生成、音频条件化的生成控制、以及实时生成支持等。这些技术的应用使得VASA-1能够生成与音频高度同步的、具有丰富表情和动作的逼真面部动画。

案例与资源:

微软亚洲研究院提供了VASA-1的项目演示和相关论文,以供有兴趣的研究人员和开发者进一步探索和学习。所有在演示中使用的肖像图像,除了蒙娜丽莎外,都是由StyleGAN2或DALL-E-3生成的虚拟、不存在的身份图像。

项目地址:https://top.aibase.com/tool/vasa-1

论文地址:https://arxiv.org/abs/2404.10667

举报

  • 相关推荐
  • 解放双手,智享轻盈:斗战者G1半框AI眼镜携新风来袭

    9月10日,斗士首款AI智能眼镜G1正式发售,售价1899元,赠送镜盒充电仓。主打37克轻量化设计,支持语音交互、AI识图翻译、第一人称视角拍摄等功能。搭载高通骁龙AR1平台,配备1200万像素摄像头,支持IP54防尘防水。深度集成联想天禧智能体,实现跨设备协同。首发福利包括免费配镜、限时赠礼等,旨在推动AI眼镜从极客玩具迈向日常工具。

  • 智控好空气 1晚多睡1小时:海信新风空调上新X5新品

    海信空调推出新风空调X5系列新品,搭载行业首创CO₂传感器,可实时监测室内二氧化碳浓度,联动新风系统主动调节空气质量。X5柜机实现270m³/h超大新风量,配备TVOC传感器,空气较差时自动开启新风净化。搭载DeepSeek语音智控,支持多意图识别和方言交互。采用双翼分区控风技术,避免直吹,实现全屋均匀送风。内置全新变频S架构,节能省电。新品已在京东开启预售,9月19日正式发售。

  • 破解 AI “安全与性能” 难题!DeepSeek-R1-Safe 基础大模型在华为全联接大会2025正式发布

    9月18日,华为全联接大会2025在上海开幕。会上,华为与浙江大学联合发布国内首个基于昇腾千卡算力平台的DeepSeek-R1-Safe基础大模型。该模型在安全防护能力上表现突出,对有害言论、敏感内容等14个维度的防御成功率近100%,同时通用能力测试性能损耗控制在1%以内。双方表示将继续深化合作,推动AI安全技术与产业生态协同发展,为我国人工智能高质量发展提供支撑。

  • AI投资,走到哪了?

    AI赛道,从不缺少追梦人。 多年来,创业者的名单持续刷新。从“AI四小龙”时代的汤晓鸥、印奇、朱珑、周曦,到大模型爆发后的王慧文、李开复、王小川、杨植麟、闫俊杰、唐杰,再到眼下炙手可热的90后王兴兴、彭志辉、肖弘、郭文景.....众多或熟悉或陌生的名字,纷纷涌入这场AI的浪潮。 推动这股浪潮加速前进的,还有另一股力量——资本。红杉、高瓴、英诺天使、毅

  • 租客长租15年不到1年就被劝退:总租金 16 万元 已一次性付清

    近日,杭州滨江区发生的一起租房纠纷事件引发社会广泛关注。据多方报道,租客夏女士于 2024 年 12 月通过中介与房东签订了一份为期 15 年的租赁合同,总租金 16 万元且一次性付清,月均租金仅 888 元,远低于市场价。然而,入住不到一年,夏女士便因转租问题遭遇房东断水断电,并被贴出《腾退通知》,要求其立即搬离。 据悉,夏女士因家中老人生病需回老家照顾,遂将�

  • AI与科幻的跨界共振:从科幻星云奖刘慈欣YOYO对话看荣耀自进化AI前景

    科幻与现实交融,AI技术正重塑科幻创作生态。荣耀在第十六届华语科幻星云奖深度参与,其AI智能体YOYO与科幻作家展开对话,探讨科技与文学的关系。AI不仅落地科幻构想,更催生新灵感。产业数据显示,科幻与科技融合已形成可观经济规模,如京西科幻之城年收入超150亿元。荣耀提出“自进化AI”概念,通过MagicGUI大模型实现多模态交互,展现终端智能化趋势。科技与科幻的双向奔赴,正从工具理性走向生命隐喻,构建全新生态。

  • 国内首家AI回答监测判断系统“玄鸟AI监测1.0版本”正式发布

    9月21日,“玄鸟AI监测系统”正式上线,这是国内首个专注于用户端AI交互数据采集与分析的企业级解决方案。该系统通过“数据采集-智能分析-闭环反馈”三层架构,能有效识别行业“AI幻觉”监控难题,实现跨平台实时数据抓取与智能分析。系统依托自然语言处理与机器学习技术,建立双重验证机制,精准识别AI生成内容中的事实偏差,并通过自动化报告生成功能帮助企业快速定位风险。该系统的上线标志着国内在AI内容监测领域实现关键技术突破,为构建可信AI生态提供重要支撑。

  • 联想大学生“青春有AI”超能校园行助力高校学子拥抱AI新时代

    在人工智能技术迅猛发展的今天,联想推出“青春有AI”教育计划,助力大学生掌握AI应用能力。该计划通过购买、服务与成长三大权益体系,降低学生获取AI设备与技能的门槛,并提供实践平台与职业发展机会。9月22日,联想与复旦合作举办校园活动,结合产品体验、专家分享及互动环节,推动学用结合,强化AI技术在实际学习与创新中的应用。活动还展示了多款AI终端设备,如拯救者笔记本、Y700平板等,构建完整的多端协同生态,让学生沉浸式体验智能科技如何提升效率、激发灵感。联想将持续赋能青年成长,为行业人才培养提供坚实支撑。

  • 阿里妈妈发布万相台AI无界:新流量新节奏之下的双11,AI是经营唯一解

    电商生态持续演化。 闪购业务的爆发,为淘宝带来了大量新增用户和更高的下单频次;超级88购物节激活了更加轻量、日常的“小促”形式,消费者从一年一度的“囤货式购买”,转变为高频次的“循环式购买”;“红猫计划”则支持用户从小红书笔记直达淘宝货品链接,显著缩短转化链路。 这一系列变化揭示了:淘系在走向全域大消费平台的路上,新的流量场景正在涌现,新�

  • 用拖鞋搅奶茶员工上岗不到1小时 老板回应员工将拖鞋放奶茶中搅动

    ​ 9 月 18 日,一段记录广东深圳某奶茶店员工违规操作的视频在网络上迅速传播,引发公众对食品卫生安全的强烈关注。 视频拍摄者(后证实为涉事员工)直接脱下自己的拖鞋,放入装珍珠的小料盆中蘸了两下,随后用手在小料盆中涮洗,紧接着徒手捞起珍珠,逐一挤入奶茶杯中。更令人作呕的是,该员工在准备再次捞取小料时,还在不干净的台面上抹了抹手,继续用脏手�

今日大家都在搜的词: