首页 > 业界 > 关键词  > VLOGGER最新资讯  > 正文

谷歌推多模态视频模型VLOGGER,自动生成丰富动作视频

2024-04-02 08:45 · 稿源:站长之家

划重点:

⭐️ 谷歌推出多模态视频模型 VLOGGER,能够自动生成带语音、丰富动作的人物视频。

⭐️ VLOGGER 采用全新多阶段扩散模型架构,结合文本生成图像模型和时空控制,提升视频生成逼真效果。

⭐️ VLOGGER 在多个数据集上进行综合测试,表现出色,并不需要重新训练模型即可生成完整目标图像。

站长之家(ChinaZ.com) 4月2日 消息:谷歌的研究人员最近推出了一款名为 VLOGGER 的多模态扩散模型,能够自动生成带语音、丰富动作的人物视频。用户只需向 VLOGGER 输入图像和语音,就可以获得逼真的视频效果。

VLOGGER 的创新之处在于采用了全新的多阶段扩散模型架构,结合了文本生成图像模型和时空控制,从而提升了视频生成的逼真效果和丰富动作。研究人员在多个数据集上对 VLOGGER 进行了综合测试,结果显示 VLOGGER 在视频质量、物体还原性和时序一致性等方面表现出色,同时还能生成丰富的上半身和手势动作。

image.png

要制作逼真的人物动画视频通常需要大量的人工调整和修补,以确保动作流畅自然。而 VLOGGER 的创新之处在于,其无需针对每个新人物重新训练模型,也不依赖于人脸检测框选区域,直接生成完整目标图像。此外,VLOGGER 还考虑到了现实中复杂的交流场景,如可见躯干、不同身份等因素,这对正确合成有效交流的人物动作至关重要。

在技术实现方面,VLOGGER 首先通过 Transformer 神经网络处理音频波形输入,生成一系列3D 面部表情和身体姿势参数,用于控制虚拟人物在视频中的动作。其次,在空间和时间上进行条件控制,生成高质量、任意长度的视频。VLOGGER 还引入了一种 "时序外推" 的技术,允许模型迭代生成任意长度的视频片段,同时保持时序一致性。为了提高生成效果,VLOGGER 还采用了级联扩散方法,对基础分辨率的视频进行超分辨重建,生成高质量的影像。

VLOGGER 的推出为虚拟数字人的制作提供了更便捷、高效的解决方案,同时也在多模态视频生成领域取得了重要的技术突破。

产品入口:https://top.aibase.com/tool/vlogger

技术报告:https://enriccorona.github.io/vlogger/paper.pdf

举报

  • 相关推荐
  • “留学博主”两周涨粉155万,另类vlog成流量密码?

    ​当留学赛道还充斥着“落地窗咖啡”“米其林研学”等精致叙事的当下,一位留学博主凭借记录留学期间“狼狈而又真实的生活,”迅速爆火出圈,一跃成为新的爆款。 这位博主就是“白日梦想家”。 第三方数据平台显示,他在抖音两周涨粉155万、单个视频获赞超200万。前几天,他还在视频号、快手等平台开设了同名账号。

  • 双十一 Vlog 相机新手小白选购秘籍:佳能 PowerShotV1 开启创作轻松路

    佳能PowerShot V1专为Vlog新手设计,定位“新手神器”。它配备1.4英寸CMOS传感器与DIGIC X处理器,支持5.7K超采样4K视频,画质清晰细腻。相机操作简单,配备直觉式拨杆和智能场景识别系统,可自动优化参数,新手也能一键拍出高质量画面。其一体化超广角变焦镜头覆盖常用焦段,自带光学防抖,并针对对焦模糊、画面抖动问题提供解决方案。双十一优惠套餐包含补光灯、三脚架等配件,满足新手全程拍摄需求,是入门Vlog创作的理想选择。

  • 佳能R50V直播相机:一键直播+竖拍美颜,定义Vlog创作新标准

    佳能R50V专为视频创作者和直播用户设计,是一款轻量级多功能相机。机身仅重323克,配备竖拍优化设计与一键直播按钮,支持6K超采4K视频录制和10-bit 4:2:2色深。具备智能对焦系统、美颜模式及14种创意滤镜,提供USB/HDMI/无线三种直播连接方案。搭载优秀散热系统,支持长时间拍摄,满足Vlog、直播及专业短片创作需求,是内容创作者的理想工具。

  • 双十一Vlog相机怎么选?佳能PowerShot V1专为新手设计,操作简单可“闭眼入”

    佳能PowerShot V1专为Vlog新手设计,解决手机拍摄画质失真、操作复杂等痛点。搭载一体化超广角变焦镜头,无需更换镜头即可满足多场景拍摄;内置14种色彩滤镜和15种创意滤镜,支持智能直出,免除后期调色烦恼。配备模式切换拨杆,可快速在照片与视频模式间转换。实测在旅行、美妆、美食等六大场景中表现专业,画质远超手机。价格低于6000元,提供完整配件套装,实现“开箱即用”,帮助新手轻松开启高质量视频创作。

  • 什么是AI生成式引擎优化GEO?GEO与传统SEO的核心区别

    ​GEO(生成式引擎优化)是AI时代的流量新密码。随着生成式AI全面渗透信息获取场景,传统搜索引擎优化(SEO)正在被GEO所补充甚至部分取代。截至2025年,中国AI搜索用户规模已超6.5亿,文心一言、豆包等平台日均处理查询超过20亿次,用户已经从“翻页搜索”转向“对话获取答案”。 与传统SEO关注网页排名不同,GEO的核心目标是让品牌内容被AI优先引用和推荐。研究表明,72%�

  • 未来AI内容竞争的本质是GEO竞争

    AI搜索崛起正改变流量格局:Google搜索零点击率升至58.5%,AI Overview导致传统结果点击率下降34.5%。未来竞争核心从SEO转向GEO(生成引擎优化),需关注三大战场:品牌在AI回答中的曝光率、推荐排名位置(首位点击率达40%)、细分场景覆盖。优化策略包括持续更新内容、增强权威背书、结构化呈现。数据显示AI推荐转化率是传统搜索的4.4倍,预计2030年AI搜索将占总量62.2%。建议立

  • GEO的原理是什么?在AI搜索时代让品牌成为“答案”本身

    在AI搜索时代,用户提问的方式已从输入关键词变成了自然语言对话,而搜索引擎的回应也不再是传统的“10个蓝色链接”,而是直接生成的对话式答案。 这种变革正重塑着品牌与用户的连接方式——当AI直接给出答案时,品牌是否能被引用、如何被描述,决定了它在数字世界中的可见度。 这就是为什么GEO(生成式引擎优化)正在成为企业数字战略的核心。与传统SEO追求网页�

  • AI搜索新战场:如何用GEO品牌监控抢占AI搜索排名高地?

    随着生成式AI崛起,传统SEO正转向GEO(生成引擎优化)。AIBase推出品牌监控服务,覆盖主流AI模型,通过三步流程帮助品牌追踪在AI回答中的提及率、语义画像及竞品动态,生成可视化报告。该工具能助企业掌握AI认知逻辑,优化内容策略,抢占生成式流量红利。

  • AI品牌监控工具实战:如何用GEO优化提升AI搜索排名

    随着ChatGPT等AI搜索工具成为用户获取信息的新入口,传统SEO已无法满足品牌曝光需求。生成引擎优化(GEO)成为数字营销新战场,需通过专业工具系统提升品牌在AI搜索中的排名表现。超过40%用户使用AI对话工具替代传统搜索,若品牌未出现在AI回答中将失去流量。GEO面临三大挑战:结果不透明、多平台差异、动态变化。优化需关注曝光次数、可见度、排名位置及竞品对比四大�

  • AI日报:豆包视频1.0pro fast发布;谷歌Gemini新功能上线;百度推上体体育大模型 2.0

    本期AI日报聚焦多项技术突破:火山引擎发布豆包视频生成模型1.0pro+fast,速度提升3倍且价格下降72%;百度与上海体育大学推出“上体体育大模型2.0”,拓展AI在运动员训练等场景应用;谷歌Gemini新增一键生成PPT功能;美团发布LongCat-Video模型,支持5分钟连贯视频生成;xAI推出虚拟女友Mika引发热议;MiniMax开源高性能M2编码模型;OpenAI上线企业知识管理功能;另报道20岁辍学生开发的AI笔记工具Turbo AI半年用户破500万,展现年轻创业者的技术影响力。

今日大家都在搜的词: