首页 > 业界 > 关键词  > VASA-1最新资讯  > 正文

EMO同款?微软发布对口型软件VASA-1 图片加语音即可生成逼真说话视频

2024-04-18 09:38 · 稿源:站长之家

站长之家(ChinaZ.com)4月18日 消息:由微软亚洲研究院开发的VASA-1项目,是一项前沿的人工智能技术,它能够将单一静态图像和一段语音音频转换为逼真的对话面部动画。这项技术不仅能够实现音频与唇部动作的精确同步,还能够捕捉并再现丰富的面部表情和自然的头部动作,极大地增强了生成视频的真实感和生动性。

QQ截图20240418093835.png

主要功能与特点:

逼真的面部动画: VASA-1可以根据一段语音音频和单一静态图像生成逼真的对话面部视频,包括精确的唇部运动同步和复杂的面部表情及头部动作。

高度自然的头部动作: VASA-1能够生成包括点头和转头在内的自然头部运动,这些都是人类交流中常见的非语言行为。

实时视频生成: 利用NVIDIA RTX4090GPU,VASA-1能够实现高性能的视频生成。它支持在离线模式下以45fps生成512×512分辨率的视频,以及在线流模式下的40fps生成速度,前置延迟仅为170毫秒,适合实时应用。

泛化能力: 模型展现出强大的适应能力,即使面对与训练数据不同的音频或图像,如不同的语言或非常规的艺术照片,也能够有效工作。

支持多种语言: VASA-1不仅支持中文,还能处理多种语言的语音输入,甚至能够生成唱歌的动画。

解耦能力: 模型能够独立处理和控制人脸的不同动态特征,如嘴唇运动、表情、眼睛注视方向等,提供了高度的解耦和可控性。

生成的可控性: 通过引入条件信号,如眼睛注视方向、头部距离和情绪偏移,VASA-1增强了视频生成的可控性,允许更精细的调整和个性化的动画输出。

技术原理:

VASA-1项目利用了一系列先进的计算机视觉和机器学习技术,包括面部潜在空间构建、数据集处理、3D辅助表征、整体面部动态和头部动作生成、音频条件化的生成控制、以及实时生成支持等。这些技术的应用使得VASA-1能够生成与音频高度同步的、具有丰富表情和动作的逼真面部动画。

案例与资源:

微软亚洲研究院提供了VASA-1的项目演示和相关论文,以供有兴趣的研究人员和开发者进一步探索和学习。所有在演示中使用的肖像图像,除了蒙娜丽莎外,都是由StyleGAN2或DALL-E-3生成的虚拟、不存在的身份图像。

项目地址:https://top.aibase.com/tool/vasa-1

论文地址:https://arxiv.org/abs/2404.10667

举报

  • 相关推荐
  • AI仿真人不如AI仿超市

    我真没空管你们这些水果蔬菜、厨房用品、酒水饮料的事了。 谁也没想到,在经历了邪恶猫狗的叙事浪潮后,AI短片的新风口是火车上的小推车——啤酒饮料矿泉水,花生瓜子八宝粥,前面的乘客把腿收一收!

  • AI赋能企业见实效|知名AI培训机构红烁AI圆满完成京能信息AI技能应用培训项目

    红烬AI为北京京能信息技术公司成功交付为期3天2晚的“AI技能应用实战培训”,面向业务及技术骨干。培训以需求为导向,定制递进式课程,从零基础到独立产出可用工作成果,学员能力实现跨越。客户高度评价,认为培训不仅提升AI实操技能,更带来工作思维与协作模式的根本转变。这是红烬AI深耕企业AI赋能、服务央国企数智化转型的重要实践。

  • TCL首批接入微信AI生态,加速家电AI智能化进程

    微信于6月8日发布《关于开发者接入微信AI生态的指引》,TCL实业作为首批参与微信Agent内测的企业,已完成电视、空调等核心品类的接入测试。双方将依托微信AI Agent能力与TCL鸿鹄实验室技术,实现智能终端产品的自然交互体验,推动“AI+家电”融合应用。未来,双方将深化合作,拓展更多品类,构建开放智能的家电AI生态。

  • 企业如何出现在豆包等AI搜索里?厦门享联科技AI搜索优化推荐

    当用户向DeepSeek、豆包或通义千问提问时,你的品牌是否会被AI“推荐”?在生成式AI逐渐成为信息入口的今天,这个问题直接关系到企业的数字可见度。近日,享联科技旗下平台AIBase正式推出“GEO排名监控”工具(https://app.aibase.com/zh/geo),帮助企业系统化追踪在主流AI模型回答中的品牌曝光情况。

  • 在生产力这件事上,腾讯AI正越跑越快

    ​关于汤道生和姚顺雨的对谈,或许还有更值得琢磨的地方。 过去两三年,外界讨论AI,更多是在讨论模型会不会说话、会不会推理、参数有多大、榜单排第几。但现在,大家关心的问题变得越来越具体了。 Kimi Work把AI推向桌面工作流,OpenAI Codex在把Coding Agent做成开发者的任务控制台,Meta Business Agent要帮商家处理客户咨询、线索筛选和销售转化,Google和微软也在把AI agents放�

  • AI日报:美图秀秀入局微信AI生态:千问发布全周期高考志愿填报Agent;美团 AI 浏览器Tabbit 1.0 正式上线

    【AI日报】今日AI领域热点:1. 微信开放AI生态,美图秀秀、京东、美团、滴滴等首批接入;2. 阿里千问发布国内首个全周期高考志愿填报Agent;3. 美团推出AI浏览器Tabbit 1.0,主打智能体任务执行;4. iPhone国行升级iOS 27后推出AI壁纸扩图功能;5. 讯飞星火医疗大模型V3.5正式亮相;6. Anthropic发布第五代Claude系列模型Fable5和Mythos5;7. 谷歌发布Gemini 3.5实时语音翻译模型;8. 谷歌将向所有用户免费开放AI模式“交互式图表”功能。

  • ​当AI开始“工作”,安全才是ROI真正前提

    中国日均Token调用量超140万亿,两年增长千倍,AI正从聊天时代进入执行时代。Codex周活用户突破500万,40%为非开发者。然而,企业AI投资回报率存疑:每1美元Token支出中,0.44美元用于修复Bug,0.27美元用于重写代码,隐性损耗近80%。安全成本被忽视,如提示词注入、数据泄露等风险。Check Point提出统一安全架构,强调运行时介入,覆盖发现、保护、治理和保障,将安全纳入AI基础而非事后补救。

  • 千部难有一部破亿,AI短剧停止“狂飙”?

    ​AI短剧正在经历一次行业大洗牌。 去年11月,红果豪掷60的分成系数,扶持仿真人短剧。今年2月,Seedance2.0上线,无数团队涌向这片蓝海,期待复制真人短剧的造富神话。 4月,抖音集团短剧版权中心发布通知,AI仿真人剧分成系数从60砍至40,动画漫剧系数从50降至40。多名行业人士表示,红果还部分取消了AI短剧的保底政策。

  • 一张表看懂:AI for security vs Security for AI

    企业布局AI安全需同时推进“AI赋能安全”与“安全保护AI”两大方向,而非二选一。前者通过智能系统主动防御,后者确保AI模型本身不被攻击。正确策略是先给AI上保险(锁好门),再让AI当保安(守好院)。青藤云安全提出五步闭环方案:盘点AI资产、加密数据与管道、接入SOC、纳入云安全态势管理、持续监控模型漂移。作为AI原生安全领军者,其产品体系覆盖全栈领域,已服务超千家客户。

  • AI叙事拐点,中国AI公司要押上更多筹码

    这是《窄播Weekly》的第90期,本期我们关注的商业动态是:中国AI公司在继续扩大资本投入。 5月13日下午,腾讯召开股东大会。被问及AI业务进展时,马化腾说了这样一番话:「一年前我们以为上了船,后来发现那个船漏水了,现在感觉站上去了,还坐不下去,还是希望船速能快一点。」 同一天,腾讯和阿里巴巴发布最新季度财报,AI业务进展成为两家财报电话会的核心议题。 �

今日大家都在搜的词: