首页 > 业界 > 关键词  > VASA-1最新资讯  > 正文

EMO同款?微软发布对口型软件VASA-1 图片加语音即可生成逼真说话视频

2024-04-18 09:38 · 稿源:站长之家

站长之家(ChinaZ.com)4月18日 消息:由微软亚洲研究院开发的VASA-1项目,是一项前沿的人工智能技术,它能够将单一静态图像和一段语音音频转换为逼真的对话面部动画。这项技术不仅能够实现音频与唇部动作的精确同步,还能够捕捉并再现丰富的面部表情和自然的头部动作,极大地增强了生成视频的真实感和生动性。

QQ截图20240418093835.png

主要功能与特点:

逼真的面部动画: VASA-1可以根据一段语音音频和单一静态图像生成逼真的对话面部视频,包括精确的唇部运动同步和复杂的面部表情及头部动作。

高度自然的头部动作: VASA-1能够生成包括点头和转头在内的自然头部运动,这些都是人类交流中常见的非语言行为。

实时视频生成: 利用NVIDIA RTX4090GPU,VASA-1能够实现高性能的视频生成。它支持在离线模式下以45fps生成512×512分辨率的视频,以及在线流模式下的40fps生成速度,前置延迟仅为170毫秒,适合实时应用。

泛化能力: 模型展现出强大的适应能力,即使面对与训练数据不同的音频或图像,如不同的语言或非常规的艺术照片,也能够有效工作。

支持多种语言: VASA-1不仅支持中文,还能处理多种语言的语音输入,甚至能够生成唱歌的动画。

解耦能力: 模型能够独立处理和控制人脸的不同动态特征,如嘴唇运动、表情、眼睛注视方向等,提供了高度的解耦和可控性。

生成的可控性: 通过引入条件信号,如眼睛注视方向、头部距离和情绪偏移,VASA-1增强了视频生成的可控性,允许更精细的调整和个性化的动画输出。

技术原理:

VASA-1项目利用了一系列先进的计算机视觉和机器学习技术,包括面部潜在空间构建、数据集处理、3D辅助表征、整体面部动态和头部动作生成、音频条件化的生成控制、以及实时生成支持等。这些技术的应用使得VASA-1能够生成与音频高度同步的、具有丰富表情和动作的逼真面部动画。

案例与资源:

微软亚洲研究院提供了VASA-1的项目演示和相关论文,以供有兴趣的研究人员和开发者进一步探索和学习。所有在演示中使用的肖像图像,除了蒙娜丽莎外,都是由StyleGAN2或DALL-E-3生成的虚拟、不存在的身份图像。

项目地址:https://top.aibase.com/tool/vasa-1

论文地址:https://arxiv.org/abs/2404.10667

举报

  • 相关推荐
  • 豆包大模型1.6发布:全球第一梯队!可生成1080p高品质视频

    字节跳动旗下豆包大模型正式升级为1.6版,在推理、数学、指令遵循、Agent等方面的能力均有较大提升,同时豆包视频生成模型Seedance 1.0 pro、豆包语音播客模型也正式发布。 豆包大模型1.6包括三部分,分别是豆包1.6、豆包1.6-thinking、豆包1.6-flash。 其中,豆包1.6支持on/off/auto三种思考模式,豆包1.6-thinking强化了思考能力,支持多模态,在多个权威测评集上达到了全球第一梯队�

  • AI日报:即梦灰测图片3.1模型;ElevenLabs推出AI语音助理11ai;百度发布多智能体协同AI IDE

    本文介绍了AI领域多项最新进展:1)即梦灰测图片3.1模型增强电影感和艺术风格;2)ElevenLabs推出语音助手11ai;3)文心快码发布多模态AI开发工具Comate AI IDE;4)苹果采用"归一化流"技术开发新型AI生图模型;5)Grok将推出整合多类型文件管理功能;6)OmniGen2开源多模态模型重塑AI应用场景;7)ScholAI革新学术研究工具;8)豆包推出可视化AI编程功能;9)饿了么推出骑手AI助手"小饿";10)张雪峰认为AI可替代部分教育工作;11)微软发布3.3亿参数小模型Mu。这些创新展示了AI技术在各领域的快速发展和应用潜力。

  • 即梦图片3.0又重磅更新,这可能是对普通人最有用的一次。

    MD,这次连设计师的参考图也一键干碎了。。。 我测了整整一夜,现在是凌晨4点21,我还在写这篇文章。 我人真的傻了,我真的不愿意用一些什么很夸张的词语,但是即梦的绘图,每一次,带给我的震撼,都会觉得,我这么多年的设计师生涯,在AI的进化速度面前,不值一提。 什么样的言语,都无法比拟直接看图来的直接,直接给你们看效果。 这是一张,很好看的北京的�

  • AI日报:Midjourney重磅推出视频生成模型V1;OpenAI将在今年夏季发布GPT-5;谷歌推Search Live语音搜索功能

    本期AI日报聚焦多项AI领域重要进展:1) Midjourney推出首款视频生成模型V1,支持21秒视频生成;2) OpenAI CEO确认GPT-5将于今夏发布;3) Google上线语音对话搜索功能Search Live;4) OpenAI开源客户服务代理框架;5) MiniMax发布智能代理Agent;6) 恶意工具WormGPT出现新变种;7) OpenAI推出企业版ChatGPT折扣;8) DeepSite V2支持3D网页动画生成;9) AI工具可秒变PPT;10) 比亚迪与字节跳动合作开发动力电池技术;11) 马斯克否认xAI巨额亏损传闻。

  • 朋友圈评论可以发表情包和图片了 客服回应:小范围内测

    近日,微信对朋友圈评论功能进行了重要更新,支持用户在评论中发表情包和图片,这一创新举措迅速引发了用户的广泛关注和讨论。据腾讯客服官方确认,微信更新至8.0. 60 版本后,朋友圈评论区将新增表情包和图片回复功能,为用户带来更加丰富的互动体验。

  • 苹果用户再也不敢乱用emoji了 系统差异或致误解

    ​近日,苹果用户在使用emoji表情时变得更为谨慎,这一变化源于不同设备系统间emoji显示的差异可能引发的误解。 有网友发现,尽管大多数emoji表情在苹果和安卓等设备上可以通用,但一些不太常用的表情在跨系统发送时会出现显示差异。例如,某些在苹果设备上看起来可爱的emoji,在安卓设备上可能会呈现为完全不同的样子,甚至可能导致信息接收者产生误解。 针对这一�

  • 鸡蛋标称可生食:连客服都不建议生吃

    微博话题可生食鸡蛋连客服都不建议生吃”冲上热搜榜,引发热议。 据媒体报道,虽然鸡蛋标称可生食”,但品牌方对此持谨慎态度,目前市面上的可生食鸡蛋卖点主要是无菌”,这里的菌更多的是强调无沙门氏菌”。有品牌客服表示,您生食也可以,但是不建议。 不少网友会问,严格标准下生产出来的鸡蛋就真的能做到无菌”吗?业内人士指出,即使产品生产过程中能保�

  • 苹果用户再也不敢乱用emoji了 客服回应:iOS和安卓有差异性

    今日,词条#苹果用户再也不敢乱用emoji了#登上微博热搜,引发网友广泛热议。 事情源于有网友发帖,称发现苹果部分表情在安卓机型上显示存在区别,提醒大家谨慎使用一些特殊的专属emoji。这一情况迅速引起众多网友关注,大家纷纷分享自己在使用emoji时因系统差异而遇到的尴尬经历。

  • 苹果回应用户再也不敢乱用emoji了:iOS和安卓系统有差异性

    今日,词条#苹果用户再也不敢乱用emoji了#登上微博热搜,引起网友热议。 事情起因是有网友发帖,称苹果部分表情在安卓机型上显示有区别,所以谨慎使用一些特殊的专属emoji。

  • 迅雷率先发布下载 MCP 一句话即可完成下载

    迅雷推出通用下载MCP服务,通过"一句话创建下载任务"的交互模式,用户可用语音或文字指令远程操控多类设备下载内容。该服务开放下载、任务管理等功能,支持纳米AI、Cursor等多个AI应用配置,操作简单只需创建专属MCP链接即可使用。MCP作为标准化交互协议,为AI模型提供统一接口连接各类工具和数据源,大幅提升数字内容获取效率。用户配置后可通过简单指令完成搜索和下载,还能选择将文件下载至NAS或电脑。迅雷表示将持续加大AI技术投入,推动数字内容下载行业的智能化升级。