首页 > 业界 > 关键词  > VLOGGER最新资讯  > 正文

谷歌推多模态视频模型VLOGGER,自动生成丰富动作视频

2024-04-02 08:45 · 稿源:站长之家

划重点:

⭐️ 谷歌推出多模态视频模型 VLOGGER,能够自动生成带语音、丰富动作的人物视频。

⭐️ VLOGGER 采用全新多阶段扩散模型架构,结合文本生成图像模型和时空控制,提升视频生成逼真效果。

⭐️ VLOGGER 在多个数据集上进行综合测试,表现出色,并不需要重新训练模型即可生成完整目标图像。

站长之家(ChinaZ.com) 4月2日 消息:谷歌的研究人员最近推出了一款名为 VLOGGER 的多模态扩散模型,能够自动生成带语音、丰富动作的人物视频。用户只需向 VLOGGER 输入图像和语音,就可以获得逼真的视频效果。

VLOGGER 的创新之处在于采用了全新的多阶段扩散模型架构,结合了文本生成图像模型和时空控制,从而提升了视频生成的逼真效果和丰富动作。研究人员在多个数据集上对 VLOGGER 进行了综合测试,结果显示 VLOGGER 在视频质量、物体还原性和时序一致性等方面表现出色,同时还能生成丰富的上半身和手势动作。

image.png

要制作逼真的人物动画视频通常需要大量的人工调整和修补,以确保动作流畅自然。而 VLOGGER 的创新之处在于,其无需针对每个新人物重新训练模型,也不依赖于人脸检测框选区域,直接生成完整目标图像。此外,VLOGGER 还考虑到了现实中复杂的交流场景,如可见躯干、不同身份等因素,这对正确合成有效交流的人物动作至关重要。

在技术实现方面,VLOGGER 首先通过 Transformer 神经网络处理音频波形输入,生成一系列3D 面部表情和身体姿势参数,用于控制虚拟人物在视频中的动作。其次,在空间和时间上进行条件控制,生成高质量、任意长度的视频。VLOGGER 还引入了一种 "时序外推" 的技术,允许模型迭代生成任意长度的视频片段,同时保持时序一致性。为了提高生成效果,VLOGGER 还采用了级联扩散方法,对基础分辨率的视频进行超分辨重建,生成高质量的影像。

VLOGGER 的推出为虚拟数字人的制作提供了更便捷、高效的解决方案,同时也在多模态视频生成领域取得了重要的技术突破。

产品入口:https://top.aibase.com/tool/vlogger

技术报告:https://enriccorona.github.io/vlogger/paper.pdf

举报

  • 相关推荐
  • 华为首次官宣非凡大师品牌Logo!非凡大师家族徽标正式亮相

    今日下午,华为Mate XTs非凡大师及全场景新品发布会召开,将推出其新一代三折叠屏旗舰手机。 发布会初始,华为常务董事、终端BG董事长余承东宣布,华为推出全新的非凡大师系列徽标。 据余承东介绍,华为以极致的产品致敬这个时代的非凡大师,代表极致美学、极致工艺、极致创新”的集大成者。

  • 智界全新LOGO正式发布!尹同跃:奇瑞集团所有资源向智界倾斜

    华为今日下午举办智界及问界秋季新品发布会。 会上,奇瑞集团董事长尹同跃介绍,智界是我们毫无保留的第一战略优先级品牌。 8月初,我和余承东总在深圳正式签订了智界品牌2.0战略协议,智界汽车由华为全面主导,从此进入纯血鸿蒙时代,智界汽车在全新战略下成立新能源公司,并完全独立运营。 奇瑞集团所有资源向智界倾斜,所有的产品线品牌,都要为智界让道,�

  • 新款智界R7搭载16.1英寸3K中控屏:带华为logo

    今天下午,新款智界R7正式亮相,这是智界全新升级后的产品。 据介绍,奇瑞和华为在月初签订了智界品牌2.0战略协议,智界汽车由华为全面主导,从此进入纯血鸿蒙时代,智界汽车在全新战略下成立新能源公司,并完全独立运营。 奇瑞集团所有资源向智界倾斜,所有的产品线品牌,都要为智界让道。 新款智界R7上也全方位使用了华为新技术,比如中控屏升级为16.1英寸超大

  • 自研遇阻!苹果考虑用谷歌Gemini升级Siri

    苹果正与谷歌就使用Gemini AI引擎为新一代Siri提供技术支持进行初步谈判,这一动向表明苹果可能进一步将人工智能能力外包,成为其AI战略的关键一步。 据知情人士透露,这家iPhone制造商近期已与Alphabet旗下谷歌接触,商讨合作构建一款定制化AI模型,以用于明年预计推出的新版本Siri。 谷歌目前已开始训练一款可在苹果服务器上运行的模型。苹果在生成式人工智能领域起步�

  • AI日报:字节视频模型Waver 1.0发布;百度AI搜索APP“梯子AI”发布;谷歌推全新Gemini 2.5 Flash图像编辑模型

    本文汇总了AI领域最新动态:谷歌推出Gemini 2.5 Flash图像编辑模型,字节发布Waver 1.0视频生成工具;百度“梯子AI”提供无广告搜索;文心快码新增终端编码功能;腾讯游戏VISVISE工具集提升动画制作效率;自动驾驶配送机器人RM5进军外卖行业;DeepSeek V3.1出现字符Bug已修复;谷歌翻译升级实时同传和AI陪练;全球首现AI勒索软件PromptLock威胁网络安全;Anthropic推出Chrome浏览器AI助手Claude。

  • GEO排名优化:AI如何重新定义搜索引擎的可见性规则?

    文章探讨AI搜索时代下,传统SEO向GEO(生成引擎优化)的转变。核心指出GEO通过多维数据融合与AI理解,构建企业可信数字实体,实现智能推荐。技术决策者需关注从关键词匹配转向实体价值理解的底层逻辑革命,提前布局以抓住AI对话流量入口。

  • 企业品牌在AI时代的生存之道:深度解析GEO优化的商业价值

    随着传统搜索引擎流量红利见顶,AI生成引擎正成为新的流量洼地。全球超3亿用户使用ChatGPT等AI工具获取信息,企业面临战略转折点。用户行为变革:不再满足搜索结果,而是期望直接、准确的答案。AI依赖语义理解,企业需建立权威性和语义关联,通过高质量内容在AI平台留下印象。GEO优化成为关键,需系统性策略和多平台协同。专业服务商可提供定制方案,助企业抢占AI时代先机。

  • 为什么手机迷恋上灵动岛 ColorOS陈希解释原因

    微博话题为什么手机迷恋上岛”引发热议,在苹果推出灵动岛之后,机圈纷纷上岛”。 ColorOS设计总监陈希表示,在对抗信息过载的信息海洋里,通知的优先级需要被再次分层,通过设计让重要的信息更加重要,灵动岛初心虽出自遮丑,但也具备了高实用性,是一个不错的设计实践,经过几年的发展,灵动岛的生态也越来越完善。 事实也证明大部分用户已经接纳并喜欢这个全

  • AI日报:腾讯开源3D世界模型HunyuanWorld-Voyager;即梦AI系列模型开放API;通义推智能体开发框架AgentScope 1.0

    本文介绍了AI日报栏目,聚焦人工智能领域最新动态。主要内容包括:腾讯开源具备3D重建能力的HunyuanWorld-Voyager模型、通义实验室推出的多智能体开发框架AgentScope 1.0、即梦AI开放图像与视频生成API、腾讯翻译模型Hunyuan-MT-7B在WMT2025斩获佳绩、苹果推出图像生成技术STARFlow和视觉语言模型FastVLM、新模型CoMPaSS-FLUX.1提升空间理解能力、Cherry Studio免费提供Qwen38B模型、谷歌Gemini API新增网页内容解析功能,以及腾讯优图开源智能体框架Youtu-Agent。这些进展展现了AI技术在多个领域的创新与应用。

  • AI日报:AI内容新规正式生效;美团推出开源大模型LongCat;阶跃发布语音大模型Step-Audio 2 mini

    AI日报栏目每日更新AI领域热点内容,聚焦开发者需求。本期重点包括:阶跃星辰发布端到端语音大模型Step-Audio2 mini,在多项基准测试中表现优异;9月1日起AI生成内容需强制标识;美团推出开源大模型LongCat;上海AI实验室发布多模态大模型InternVL3.5;腾讯ARC团队推出音频生成模型AudioStory;OpenAI发布实时语音模型GPT-realtime;Meta与UCSD合作推出DeepConf技术;xAI代码库遭窃事件;阿里巴巴Qwen团队发布GUI自动化框架;微软推出Copilot Labs实验中心;小红书自动化工具xiaohongshu-mcp上线。

今日大家都在搜的词: