首页 > 业界 > 关键词  > Vlogger最新资讯  > 正文

谷歌发布 “Vlogger” 视频模型框架:单张图片生成 10 秒视频

2024-03-20 14:43 · 稿源:站长之家

划重点:

⭐️ 谷歌发布新视频框架 “Vlogger”,可以通过单张图片和录音生成本人演讲视频。

⭐️ Vlogger 模型基于扩散模型,包含音频到人体动作和文本到图像模型。

⭐️ Vlogger 具备多样性和自然性,可应用于视频编辑和翻译等领域。

站长之家(ChinaZ.com)3月20日 消息:谷歌最近发布了一项名为 “Vlogger” 的新视频框架,可以通过仅一张图片和录音即可生成一个本人演讲视频。

这一框架基于扩散模型,包含音频到人体动作和文本到图像模型两部分。其中,音频波形被用来生成人物的身体控制动作,包括眼神、表情、手势等,使生成的视频看起来自然且生动。该模型训练在一个包含80万个人物视频的大型数据集上完成。

image.png

Vlogger 的突出之处在于其多样性和完整性。与其他方法相比,Vlogger 不需要对每个人进行训练,也不依赖于面部检测和裁剪,生成的视频包括面部、唇部和肢体动作等。此外,Vlogger 还具有视频编辑和翻译等应用,能够让人物闭嘴、闭眼,甚至进行视频翻译。

虽然谷歌尚未发布具体模型,但通过展示效果和论文,可以看到 Vlogger 在视频生成领域的潜力和优势。然而,一些网友对其生成视频的画质、口型对不上等问题提出了质疑和吐槽。尽管如此,Vlogger 的发布仍引起了业界的广泛关注和讨论。

image.png

谷歌发布的 Vlogger 模型为视频生成领域带来了新的可能性,具备多样性和自然性,为视频编辑和翻译等应用提供了新的解决方案。随着技术的不断进步和完善,相信 Vlogger 将在未来有更广泛的应用和发展。

产品入口:https://top.aibase.com/tool/vlogger

举报

  • 相关推荐
  • 马斯克母亲发帖支持儿子:演示Grok视频生成功能

    近日,马斯克母亲梅耶-马斯克发帖演示支持马斯克的Grok视频生成功能。 她表示,这次我把手指放在了最近在X上发布的这张照片上,提示是用Grok制作视频”,现在自己的狗摇着尾巴了,自己玩得很开心。 她还特别提示,这个视频由@grok Imagine制作。

  • 昇腾算力赋能视频生成革命 浙江大学团队攻克长时一致性难题

    浙江大学朱凌霄团队基于昇腾AI平台,研发出首个无需训练的长序列视觉指令生成框架LIGER,解决了视频生成领域长期存在的时序一致性难题。该技术通过历史提示和视觉记忆机制保持内容连贯性,并采用基于DDIM反演的记忆校准技术提升准确性。团队还提出引导式渐进蒸馏方法,在保持视频质量基础上实现8倍加速。研究成果入选ICLR2025,构建了包含569个任务的评估数据集。未来将深化多模态生成技术研究,构建自主创新的技术生态体系。

  • AI最新资讯在哪里看?AIbase:高效获取国内外AI新闻头条与行业动态

    文章探讨了AI时代信息过载的困境:有价值的前沿动态、重磅模型发布和行业解读分散各处,筛选成本高、效率低下。AIbase资讯导航站应运而生,通过四大核心功能解决痛点:1)聚合主流信源,过滤低质噪音;2)结构化分类呈现大模型动态、行业应用等六大板块;3)提炼核心要点,拒绝标题党;4)高频更新确保信息鲜度。该平台致力于成为AI领域的"信息雷达",帮助用户节省70%信息搜集时间,将精力聚焦于思考与创造。适用于技术负责人快速掌握行业动态、产品经理调研案例、投资人捕捉趋势等多元场景。

  • 10后小孩靠做饭Vlog涨粉百万,戳中了哪些流量密码?

    ​见惯了打工人的生活日常,你见过小学生的放学做饭日常吗? 近期,一批10后“小孩哥”“小孩姐”凭借做饭Vlog在网络上刷屏,他们娴熟的厨艺与稚嫩的外表形成强烈反差:10后小女孩站在灶台前动作娴熟地颠勺翻炒,上二年级的小男孩在菜市场熟练地和摊主讨价还价,回家后做出三菜一汤…… 这种反差感极强的场景,正通过短视频平台持续发酵,单个视频甚至收获超500万的

  • “治愈系”日本留学生@树莓。衮 如何靠摆烂vlog让400万粉丝追更?

    在叠满美颜滤镜和“人均天花板”的抖音精选,一个画风格外清奇的账号杀出重围。 镜头前的女孩素面朝天,打着哈欠伸懒腰,甚至毫不介意露出微胖的小肚腩。 她自嘲“留学的留是留级的留”,在vlog中记录赶电车迟到时的气急败坏、听不懂课的一脸懵、甚至被黑心中介坑骗的委屈。

  • 全新小鹏P7正式亮相:跑车级黄金车身比例 纯平发光LOGO

    全新小鹏P7今晚正式亮相,官方称其拥有同级最好的比例姿态。 全新小鹏P7拥有极致的姿态表现,其宽高比达1.40,长高比为3.57,轮高比是0.52,这样的跑车级黄金车身比例,使其在视觉效果上甚至超越了保时捷Panamera(帕梅)。 1407mm的超低车高,营造出强烈的贴地飞行既视感。而142mm高通过性离地间隙,在保证车辆行驶稳定性的同时,还能从容应对一些复杂路况。 在宽体进化

  • AI日报:B站测试AI视频工具花生AI;腾讯发布多模态模型Large-Vision;昆仑万维开源Skywork UniPic 2.0

    【AI日报】主要内容: 1. B站测试"花生AI"视频工具,3分钟可成片,同时推进自研大模型和多语言翻译功能 2. 昆仑万维开源多模态模型Skywork UniPic 2.0,实现高效统一的多模态生成能力 3. 马斯克指责苹果偏袒OpenAI,苹果回应称平台设计公平公正 4. 腾讯混元发布52B参数多模态理解模型Large-Vision,支持任意分辨率输入 5. DeepSeek官方否认8月发布R2模型的传闻 6. OpenAI推出超值ChatGPT Go套餐,仅399卢比降低使用门槛 7. AI新贵Perplexity豪掷345亿美元收购谷歌Chrome 8. Anthropic的Claude Sonnet 4模型支持100万token上下文 9. ChatGPT重大更新:恢复GPT-4o默认模式,为GPT-5引入多模式选择,优化交互体验

  • 专家盛赞GEO双引擎系统:生成式引擎优化以旋律诠释自身

    GEO双引擎系统主题曲《GEO双引擎系统之歌》开创了技术主题音乐创作先河,通过独特艺术形式诠释生成式引擎优化技术内核。该作品由汤祎飞创立的GEO系统创新生成,融合科技与艺术边界,获科技界、产业界和学术界广泛关注。多位顶级专家盛赞其开创性价值,认为该曲有效突破技术传播壁垒,为产业生态提供了兼具深度与温度的认知桥梁。歌曲以"双引擎驱动未来"为�

  • Agentic AI落地加速:迈富时企业级智能体中台2.0,让 AI Agent成为企业 “数字员工”

    Gartner将代理型AI列为2025年十大战略趋势之首,预测到2028年15%的日常工作决策将由自主智能代理完成。迈富时发布的AI-Agentforce2.0企业级智能体中台,通过"技术赋能+场景落地"双轮驱动,构建了从模型能力到业务价值的闭环。该平台具有三大核心优势:1)"模型-应用-开发平台"三位一体架构;2)ChatBox+工作流双开发模式,支持快速部署;3)企业级安全保障,满足金融等敏感行业需求。已在保险、零售、供应链等领域实现规模化应用,最高提升37%销售转化率。该方案让企业能低成本打造专属数字员工团队,真正释放代理型AI的战略价值。

  • AI日报:可灵2.1推出全新首尾帧功能;昆仑万维上线AI音乐模型Mureka V7.5;腾讯云推出AI开发工具CloudBase AI CLI

    本文介绍了AI领域最新动态:1)快手可灵2.1推出首尾帧功能,提升视频生成效果;2)昆仑万维发布Mureka V7.5音乐模型,优化人声表现;3)腾讯云推出AI开发工具CloudBase AI CLI,可减少80%编码量;4)海外新品MuleRun通过虚拟机和AI Agent带来创新游戏体验;5)Meta开源DINOv3视觉模型,无需标注即可实现卓越性能;6)宇树科技人形机器人H1获1500米赛跑金牌;7)谷歌Gemini新增记忆功能和隐私聊天模式;8)香港大学开源OpenCUA框架,打造个性化电脑助手;9)OpenAI考虑在ChatGPT引入广告;10)谷歌发布超小型开源模型Gemma 3 270M,支持手机端运行。

今日大家都在搜的词: