首页 > 业界 > 关键词  > VASA-1最新资讯  > 正文

EMO同款?微软发布对口型软件VASA-1 图片加语音即可生成逼真说话视频

2024-04-18 09:38 · 稿源:站长之家

站长之家(ChinaZ.com)4月18日 消息:由微软亚洲研究院开发的VASA-1项目,是一项前沿的人工智能技术,它能够将单一静态图像和一段语音音频转换为逼真的对话面部动画。这项技术不仅能够实现音频与唇部动作的精确同步,还能够捕捉并再现丰富的面部表情和自然的头部动作,极大地增强了生成视频的真实感和生动性。

QQ截图20240418093835.png

主要功能与特点:

逼真的面部动画: VASA-1可以根据一段语音音频和单一静态图像生成逼真的对话面部视频,包括精确的唇部运动同步和复杂的面部表情及头部动作。

高度自然的头部动作: VASA-1能够生成包括点头和转头在内的自然头部运动,这些都是人类交流中常见的非语言行为。

实时视频生成: 利用NVIDIA RTX4090GPU,VASA-1能够实现高性能的视频生成。它支持在离线模式下以45fps生成512×512分辨率的视频,以及在线流模式下的40fps生成速度,前置延迟仅为170毫秒,适合实时应用。

泛化能力: 模型展现出强大的适应能力,即使面对与训练数据不同的音频或图像,如不同的语言或非常规的艺术照片,也能够有效工作。

支持多种语言: VASA-1不仅支持中文,还能处理多种语言的语音输入,甚至能够生成唱歌的动画。

解耦能力: 模型能够独立处理和控制人脸的不同动态特征,如嘴唇运动、表情、眼睛注视方向等,提供了高度的解耦和可控性。

生成的可控性: 通过引入条件信号,如眼睛注视方向、头部距离和情绪偏移,VASA-1增强了视频生成的可控性,允许更精细的调整和个性化的动画输出。

技术原理:

VASA-1项目利用了一系列先进的计算机视觉和机器学习技术,包括面部潜在空间构建、数据集处理、3D辅助表征、整体面部动态和头部动作生成、音频条件化的生成控制、以及实时生成支持等。这些技术的应用使得VASA-1能够生成与音频高度同步的、具有丰富表情和动作的逼真面部动画。

案例与资源:

微软亚洲研究院提供了VASA-1的项目演示和相关论文,以供有兴趣的研究人员和开发者进一步探索和学习。所有在演示中使用的肖像图像,除了蒙娜丽莎外,都是由StyleGAN2或DALL-E-3生成的虚拟、不存在的身份图像。

项目地址:https://top.aibase.com/tool/vasa-1

论文地址:https://arxiv.org/abs/2404.10667

举报

  • 相关推荐
  • 2025年AI搜索可见性监控实战:从0到1建立GEO品牌追踪体系

    文章揭示AI搜索时代品牌面临的"隐形危机":某SaaS公司虽在Google排名第一,但在ChatGPT等AI引擎中却未被提及,反被竞品频繁推荐。随着超40%年轻用户将AI搜索作为主要信息渠道,传统SEO已无法保障品牌可见度。文章提出GEO品牌监控体系,强调需从用户视角构建查询地图,通过自动化工具追踪品牌在AI答案中的提及率、情感倾向等新指标,并制定六大实战策略,包括构建AI�

  • 立冬京东请客!京东11.11暖暖惊喜日整点抢1分钱饺子,珍贵滋补好物1元起拍

    11月7日立冬,京东11.11“暖暖惊喜日”同步开启,推出百亿补贴低至5折、千万份保暖好物1分钱抢购及1元起拍滋补珍品等福利。活动覆盖防寒服饰、取暖电器、滋补食材等多品类,用户可通过京东APP参与“请客”抢购或拍卖专场,享受全方位冬季消费优惠,打造温暖省心的购物体验。

  • 这个赛道爆了!有商家双11开卖1分钟,订单超去年全周期

    2025年天猫双11进行中,作为年度最重要的消费节点,如今的双11不再是一场简单的大促,而是一场融合了刚需、悦己、文旅、社交属性与品牌建设的“大消费”盛会。 随着时间线的前移,潮水的方向慢慢清晰:最敏锐的感知,往往来自行业一线,他们立于供需交汇的前沿,最先把握细分赛道的静水流深,最能解读趋势浪潮的底层密码。 为此,《天下网商》特别推出“双11行业�

  • “国补”确认恢复继续!国补政策1月1日最新消息:新一轮国补11继续申领中,国补领取方法操作教程来了

    今年双十一"国补"堪称消费福利"王炸"——690亿元收官额度叠加平台百亿优惠,家电最高立减2000元、数码直降500元,热门机型直接半价。但抢券难度直线飙升,规则变为"省域额度+品类熔断"机制,需提前备好身份证、旧机SN码等材料。重点把握三个黄金时段:10月31日京东开门红、11月9日巅峰期、12月1日扫尾期。建议最晚12月10日前完成下单,避免错失补贴。

  • 硬核装备致敬电竞精神:三星显示器T1签名臻品拍卖,启幕竞技盛宴

    三星显示器与传奇电竞战队T1达成深度合作,推出多款玄龙骑士系列新品。其中,G60SF电竞显示器专为竞技打造,具备500Hz高刷、0.03ms响应及裸眼3D技术,助力玩家畅享顶级游戏体验。双十一期间,T1选手签名版显示器开启拍卖,含Faker亲笔签名臻品。三星以技术创新持续引领行业,满足从职业竞技到日常娱乐的全场景需求,诚邀全球玩家共赴竞技与科技的盛宴。

  • iPhone Air 2或新增1颗镜头:继续沿用6.5英寸高刷中屏

    知名博主透露,尽管初代iPhone Air市场表现不佳,苹果仍继续推进该产品线迭代。新款iPhone 18 Air将延续6.5英寸高刷屏、3D人脸识别与横向跑道设计,并重点升级影像系统——新增4800万像素主摄搭配超广角镜头组合。对比初代单摄配置提升显著。分析师郭明錤指出,现有Pro与标准版已满足高阶用户需求,导致Air系列定位尴尬。此前该机型首周销量仅5万台,供应链已下调产能。从mini、Plus到Air,苹果多次尝试细分市场均未达预期。

  • 2分钱换1万! 京东百万现金悬赏家电家居低价线索

    10月30日,京东家电家居采销直播间推出“比价”活动,吸引超600万观众,登顶平台热度榜首。直播中,京东采销负责人现场比价,并联合美的、芝华仕等品牌负责人共同承诺低价,设立百万悬赏鼓励用户提供低价线索,核实后奖励1万元。部分商品低至5折,多款家电价格显著低于其他平台。该直播通过透明比价机制和品牌共建保障基金,展现京东捍卫用户低价权益的决心,推动行业回归理性竞争。

  • 1:16、160G,以太彩光的新标杆

    本文探讨了以太彩光技术作为园区网全光化的解决方案。随着数字化和AI发展,园区网面临带宽、时延和覆盖密度等挑战。传统以太网和PON方案存在架构复杂或带宽共享问题。以太彩光结合以太网协议与波分复用技术,通过单纤实现点到多点直连架构,提供专属波长和独享带宽。锐捷网络的4.0方案创新实现1:16高收敛比和单端口160G带宽,大幅简化网络结构,降低布线成本和运维复杂度,为未来业务增长奠定基础。

  • AI日报:HeyGen发布AI视频翻译引擎;科大讯飞推星火 X1.5;QQ浏览器推出AI+小窗

    本期AI日报聚焦多项技术突破:HeyGen推出精准唇形同步的视频翻译引擎;科大讯飞发布星火X1.5大模型,提升多语言处理能力;QQ浏览器新增AI助手浮窗;科大讯飞推出软硬一体方案,实现高噪声环境精准识别;谷歌Gemini 3 Pro预览版支持百万级上下文窗口;Comfy Cloud让Stable Diffusion实现零门槛创作;谷歌Gemini新增深度研究功能,可整合邮件生成智能报告;上海AgiBot机器人10分钟完成复杂制造任务,重塑生产效率。

  • 有AI就有无限可能,灰豚AI发布新一代GEO系统

    11月1日,灰豚AI发布新一代GEO系统,突破传统仅支持文本内容优化的局限,全面支持国内短视频平台作品优化,实现近乎零算力成本。该技术被视作行业重大创新,是当前国内GEO源头厂商的重要突破。系统通过AI训练提升企业在生成式搜索中的品牌影响力,助力企业获得竞争优势。未来电商将从平台化转向AI化,灰豚GEO系统支持多种合作模式,让企业以业务增长为导向,抢占AI市场先机。

今日大家都在搜的词: