首页 > 业界 > 关键词  > Vlogger最新资讯  > 正文

谷歌发布 “Vlogger” 视频模型框架:单张图片生成 10 秒视频

2024-03-20 14:43 · 稿源:站长之家

划重点:

⭐️ 谷歌发布新视频框架 “Vlogger”,可以通过单张图片和录音生成本人演讲视频。

⭐️ Vlogger 模型基于扩散模型,包含音频到人体动作和文本到图像模型。

⭐️ Vlogger 具备多样性和自然性,可应用于视频编辑和翻译等领域。

站长之家(ChinaZ.com)3月20日 消息:谷歌最近发布了一项名为 “Vlogger” 的新视频框架,可以通过仅一张图片和录音即可生成一个本人演讲视频。

这一框架基于扩散模型,包含音频到人体动作和文本到图像模型两部分。其中,音频波形被用来生成人物的身体控制动作,包括眼神、表情、手势等,使生成的视频看起来自然且生动。该模型训练在一个包含80万个人物视频的大型数据集上完成。

image.png

Vlogger 的突出之处在于其多样性和完整性。与其他方法相比,Vlogger 不需要对每个人进行训练,也不依赖于面部检测和裁剪,生成的视频包括面部、唇部和肢体动作等。此外,Vlogger 还具有视频编辑和翻译等应用,能够让人物闭嘴、闭眼,甚至进行视频翻译。

虽然谷歌尚未发布具体模型,但通过展示效果和论文,可以看到 Vlogger 在视频生成领域的潜力和优势。然而,一些网友对其生成视频的画质、口型对不上等问题提出了质疑和吐槽。尽管如此,Vlogger 的发布仍引起了业界的广泛关注和讨论。

image.png

谷歌发布的 Vlogger 模型为视频生成领域带来了新的可能性,具备多样性和自然性,为视频编辑和翻译等应用提供了新的解决方案。随着技术的不断进步和完善,相信 Vlogger 将在未来有更广泛的应用和发展。

产品入口:https://top.aibase.com/tool/vlogger

举报

  • 相关推荐
  • AI日报:接入MJ!夸克发布造点AI;Wan2.5-Preview发布;可灵推最新视频生成模型可灵2.5Turbo

    近日AI领域迎来多项重要更新:阿里夸克发布AI创作平台“造点”,整合通义万相Wan2.5与Midjourney V7,支持音画同步视频生成;Wan2.5-Preview实现多模态输入与电影级视频同步生成,提升视觉创作能力;可灵AI推出视频生成模型2.5Turbo并降价30%,降低使用门槛;阿里通义推出Qwen3-ASR-Toolkit,实现小时级音视频转录;谷歌相册AI编辑功能扩展至安卓用户,支持语音修图;谷歌Mixboard工具助力创意设计,生成情绪板;Qwen发布Qwen3-Max模型,在代码生成与智能体能力表现突出;Figma推出MCP服务器,实现设计到代码的一键转换,提升开发效率。

  • 专业级、电影感还是随手拍?佳能、富士、大疆三款热门Vlog视频机怎么选?

    文章介绍了三款适合Vlog拍摄的热门设备:佳能R50V、富士X-S20和大疆Pocket 3。佳能R50V以轻巧机身(约323克)和6K超采4K视频为核心优势,支持全像素双核自动对焦、专业视频格式及竖屏直播优化,适合日常记录到专业创作。富士X-S20搭载2610万像素APS-C传感器,提供胶片模拟色彩和6.2K视频录制,兼顾画质与便携性。大疆Pocket 3主打稳定拍摄,配备1英寸传感器和三轴云台,支持4K/120fps视频,适合旅行快速出片。三款设备各具特色,满足不同Vlog创作者的需求。

  • AI排名查询工具如何助力GEO优化?生成引擎优化中的关键词竞争力分析

    在AI搜索时代,传统SEO正被生成引擎优化(GEO)重塑。内容能否被AI“理解”并引用成为流量关键,而GEO策略需依赖专门的AI排名查询工具。文章指出,AI助手直接生成摘要而非链接列表,评估维度与SEO完全不同,需关注语义相关性、权威性和结构化程度。AIBase平台的GEO排名查询工具能模拟主流AI提问,检测内容曝光频率与上下文位置,支持竞品对比和中文场景优化。优化建议包�

  • AI排名监控工具实战指南:如何用GEO排名查询提升品牌AI搜索可见度

    随着ChatGPT等AI搜索引擎普及,传统SEO正经历深刻变革。文章指出,超60%用户开始使用AI搜索,而AI直接给出答案而非展示链接,导致品牌面临可见度危机。为此提出GEO(生成引擎优化)概念,强调需通过专业工具监测AI排名,并推荐AIBase平台的多平台覆盖、真实场景模拟和竞品分析功能。最后给出四步优化流程:建立监测基准、分析排名差异、针对性内容优化、持续迭代,帮助品牌在AI时代建立竞争优势。

  • 免费生成10秒高清视频!通义App接入通义万相2.5

    在2025云栖大会上,阿里发布通义万相Wan2.5 Preview系列模型,覆盖文生视频、图生视频、文生图和图像编辑四大功能。其视频生成模型首次实现音画同步,可生成匹配画面的人声、音效和BGM,时长从5秒提升至10秒,支持24帧/秒的1080P高清输出,降低影视级创作门槛。模型指令遵循能力增强,支持运镜等复杂连续变化控制。用户通过通义App输入指令即可自动生成10秒高清视频,每日免费使用15次,支持导出无水印视频。同时,图像生成能力全面升级,可生成中英文字符和图表,支持图像编辑功能,一句话即可完成P图。

  • Reviews.ai 依托 DigitalOcean 高效实现 AI 业务扩展

    Reviews.ai是一个消费者反馈聚合平台,帮助品牌将客户评论转化为可执行的洞察。该平台专注于评论分析,通过AI驱动功能(如按需报告、主题分类和智能代理)提升产品与服务。近期从Review Monitor更名后,团队迁移至DigitalOcean云平台,解决了原有专用服务器架构的扩展瓶颈。迁移过程在合作伙伴Aquazeel支持下高效完成,仅用数周,成本降低近30%。新架构采用Droplets、托管数据库和负载均衡器,支持灵活扩展。未来计划利用GPU Droplets增强AI能力,进一步优化大型语言模型处理效率。

  • GEO排名查询工具推荐:搞定GEO搜索优化,让品牌AI可见度更清晰

    随着AI平台成为用户获取信息的重要入口,品牌在AI推荐中的曝光度直接影响用户触达。文章提出GEO(生成引擎优化)概念,强调其相比传统SEO更关注AI平台的推荐权重。AIBase推出的GEO排名查询工具可帮助品牌方检测在主流AI平台(如豆包、DeepSeek等)的曝光情况,通过选择平台、输入测试问题及品牌关键词,快速获取推荐率、曝光次数等关键指标。该工具适用于品牌营销、SEO优化及研究机构,为提升AI场景品牌可见度提供数据支持。

  • GEO排名查询工具推荐:霸屏AI大模型答案的核心方法,做好AI大模型排名优化

    随着AI大模型成为用户获取信息的主要入口,AIBase推出GEO排名查询工具,帮助品牌监测在豆包、DeepSeek、文心一言等主流AI平台中的曝光情况。该工具支持多平台检测、关键词追踪、可视化数据展示,可精准分析品牌是否被推荐、出现频次及具体场景,为制定AI大模型排名优化策略提供数据支撑。在GEO时代,抢占AI回答推荐位意味着获得全新流量入口。

  • GEO排名查询工具完全指南:AI搜索时代的排名优化实战

    随着ChatGPT等AI搜索引擎崛起,传统SEO正经历革命性变革。GEO应运而生,成为内容创作者必备新技能。AI搜索直接生成答案而非链接列表,这意味着:内容需被AI引用才能获得曝光;排名机制重构,更看重内容权威性和相关性;需同时优化多个AI平台表现。专业GEO工具能批量监控多平台表现,追踪内容在AI中的引用情况,通过历史数据分析排名趋势,帮助制定有效优化策略。

  • 性能超越GPT-4o及Qwen2.5-VL,百度超轻量小模型PP-OCRv5 Blog持续登顶Hugging Face热度第一

    百度发布超轻量级文字识别模型PP-OCRv5,仅0.07B参数却实现媲美700亿参数大模型的OCR精度。在多项测试中超越GPT-4o等通用视觉大模型,尤其在文本定位和边界框精度上表现优异。该模型支持5种文字类型识别,适用于教育、医疗、法律等多行业数字化需求,累计下载量超900万,是GitHub上唯一Star数超5万的中国OCR项目。

今日大家都在搜的词: