首页 > 业界 > 关键词  > VideoPoet最新资讯  > 正文

谷歌推大语言模型VideoPoet:文本图片皆可生成视频和音频

2023-12-20 10:13 · 稿源:站长之家

划重点:

1. 💻 Google Research团队推出VideoPoet,一款大型语言模型,旨在解决视频生成领域的挑战。

2. 🌈 VideoPoet支持多种视频生成任务,包括文本到视频、图像到视频、视频风格化、修复和修复以及视频到音频。

3. 🚀 与传统扩散模型不同,VideoPoet将多个视频生成功能融合在一个语言模型中,提供更高的集成度和学习能力。

站长之家(ChinaZ.com)12月20日 消息:Google Research最近发布了一款名为VideoPoet的大型语言模型(LLM),旨在解决当前视频生成领域的挑战。该领域近年来涌现出许多视频生成模型,但在生成连贯的大运动时仍存在瓶颈。现有领先模型要么生成较小的运动,要么在生成较大运动时出现明显的伪影。

VideoPoet的创新之处在于将语言模型应用于视频生成,支持多种任务,包括文本到视频、图像到视频、视频风格化、修复和修复以及视频到音频。与当前主流的扩散模型不同,VideoPoet将这些视频生成功能融合在一个大型语言模型中,而不是依赖于分别针对每个任务进行训练的组件。

image.png

该模型通过多个分词器(MAGVIT V2用于视频和图像,SoundStream用于音频)进行训练,以学习跨视频、图像、音频和文本模态的知识。通过将模型生成的令牌转换为可视化表示,VideoPoet能够输出动画、风格化视频,甚至生成音频。模型支持文本输入,以指导文本到视频、图像到视频等任务的生成。

为了展示VideoPoet的多功能性,研究人员提供了一些生成示例。

image.png

文字生成视频

模型能够根据文本提示生成可变长度的视频,也可以将输入图像转化为动画视频。此外,模型还具备视频风格化的能力,通过输入光流和深度信息,以及一些额外的文本提示,生成独特风格的视频。最令人印象深刻的是,VideoPoet还可以生成音频,实现了从单一模型生成视频和音频的目标。

image.png

图像生成视频

image.png

视频风格化

image.png

可生成音频

研究人员指出,VideoPoet的训练方式使其具有生成较长视频的潜力,通过在上一个视频的最后1秒的基础上预测下一个1秒,可以实现视频的不断延伸。此外,模型还支持对已生成视频进行交互式编辑,用户可以改变物体的运动,实现不同的动作,从而具有高度的编辑控制。

评价结果

研究人员使用各种基准来评估 VideoPoet 在文本到视频生成方面的表现,以将结果与其他方法进行比较。为了确保中立的评估,我们在各种不同的提示下运行了所有模型,没有挑选示例,并要求人们对他们的偏好进行评分。下图以绿色突出显示了 VideoPoet 被选为以下问题的首选选项的时间百分比。

image.png

文本保真度

基于上述情况,平均而言,人们选择 VideoPoet 中24-35% 的示例作为比竞争模型更好的跟随提示,而竞争模型的这一比例为8-11%。评分者还更喜欢 VideoPoet 中41-54% 的示例,因为它们的动作更有趣,而其他模型的这一比例为11-21%。

VideoPoet作为大型语言模型,通过集成多种视频生成任务,为零镜头视频生成提供了新的可能性,为艺术创作、影视制作等领域带来了潜在的创新机遇。

官方博客:https://blog.research.google/2023/12/videopoet-large-language-model-for-zero.html

项目网址体验:https://top.aibase.com/tool/videopoet

举报

  • 相关推荐
  • “无限量”供应Claude,就是AI IDE们的百亿补贴

    Anthropic于2025年7月28日宣布,将从8月28日起对Claude Code工具新增每周调用限额——因为少数重度用户全天候高频使用,一次使用成本甚至高达数万美元,远远超过普通订阅预期。 同样在上个月,Cursor曾因其“I’ll keep it unlimited”的Pro收费模式悄然变更为计算tokens限制,导致大量用户抱怨“实际上并非无限”,纷纷在社群中吐槽,迫使公司CEO出面道歉、甚至给出退款补偿。 这两�

  • 跨越四大洲的美丽探索:Vida Glow 十年创新,定义口服美容新范式

    Vida Glow是源自澳大利亚的口服美容品牌,2014年由Anna Lahey创立,以天然水解海洋胶原蛋白粉为核心产品。品牌通过法国专利水解技术提升吸收率,产品覆盖全球高端百货及医美机构,平均每4秒售出一罐,被誉为全球胶原蛋白领先品牌。目前产品线已扩展至日常护理、高级修护和女性健康系列,致力于以科技推动口服美容行业发展。

  • DeepSeek:已对AI生成合成内容添加标识 用户不得恶意删除

    今天下午,DeepSeek发布了《关于AI生成合成内容标识的公告》。 公告中称,Deepseek始终高度重视AI的安全问题,已在平台内对AI生成合成内容添加标识,并明确提醒用户相关内容由AI生成。 此举为贯彻落实《人工智能生成合成内容标识办法》(2025年9月1日起施行)及《网络安全技术 人工智能生成合成内容标识方法》等国家标准的相关要求,防止AI生成内容可能引发的公众混淆、�

  • OPPO最强天玑旗舰!OPPO Find X9/X9 Pro全系配色曝光

    OPPO Find X9标准版提供12GB 256GB、12GB 512GB、16GB 256GB、16GB 512GB和16GB 1TB五种选择,有霜白/雾黑/追光红/绒光钛四种配色可选,重量约为203g。 OPPO Find X9 Pro提供12GB 256GB、12GB 512GB、16GB 256GB、16GB 512GB、16GB 1TB和16GB 1TB卫星通信版六种选择,提供霜白/追光红/绒砂钛三种配色,重量约为224g。

  • Matrixport 受邀出席 Bitcoin Asia 2025,共议机构投资新趋势

    Bitcoin Asia 2025峰会将于8月28-29日在香港举行,由BTC Media主办。预计吸引超1.5万名与会者,涵盖主题演讲、圆桌讨论及展览等活动,突显香港在全球数字资产领域的战略地位。会议将探讨亚太市场潜力、机构化进程及多元化投资机会,并邀请200余位全球重量级嘉宾参与。Matrixport作为亚洲领先加密金融服务平台,将持续推动资产数字化及Web3基础设施落地,助力行业创新与发展。

  • 苹果首款折叠iPhone细节曝光:支持eSIM、Touch ID回归

    日前,知名科技记者马克古尔曼(Mark Gurman)曝光苹果首款折叠iPhone更多细节。 古尔曼透露,苹果折叠iPhone将配备四颗镜头,分别是外屏前摄、内屏前摄,以及两颗后摄。 另外,新款iPad Air、iPad mini和入门级iPad机型均配备了Touch ID电源键,这一功能可能会延续到折叠iPhone上,而非目前iPhone所使用的面部识别(Face ID)技术。

  • AI日报:AI内容新规正式生效;美团推出开源大模型LongCat;阶跃发布语音大模型Step-Audio 2 mini

    AI日报栏目每日更新AI领域热点内容,聚焦开发者需求。本期重点包括:阶跃星辰发布端到端语音大模型Step-Audio2 mini,在多项基准测试中表现优异;9月1日起AI生成内容需强制标识;美团推出开源大模型LongCat;上海AI实验室发布多模态大模型InternVL3.5;腾讯ARC团队推出音频生成模型AudioStory;OpenAI发布实时语音模型GPT-realtime;Meta与UCSD合作推出DeepConf技术;xAI代码库遭窃事件;阿里巴巴Qwen团队发布GUI自动化框架;微软推出Copilot Labs实验中心;小红书自动化工具xiaohongshu-mcp上线。

  • Matrixport与复星财富控股达成战略合作,加速全球金融数字化进程

    2025年8月28日,香港 —— 全球领先的一站式加密金融服务平台Matrixport今日宣布,与全球一站式Web5(Web2+ Web3)财富管理平台复星财富国际控股有限公司(以下简称“复星财富控股”)签署合作备忘录,正式达成战略合作。双方将围绕数字资产托管、场外交易、RWA、资产化及资管产品等核心业务展开深入合作。本次合作凸显了Web3基础设施与应用在传统金融中扮演的重要角色�

  • 推荐2025年必种草的AI一键ppt转视频创作工具

    文章介绍了三款AI工具(课件帮、Visionstory、Fliki),可将静态PPT快速转换为动态视频微课。这些工具操作简便,支持自动生成口播稿、多语言配音、智能字幕及动画效果,适用于教育、企业培训等多种场景,无需专业技能即可上手,大幅提升视频制作效率。

  • 知名互联网meme原型狗 柴犬PON去世 表情包你用过吗

    日前,网络热门表情包不可以色色”的原型柴犬Pon”被其主人在Instagram上宣布离世,享年17岁。 其主人在ins上用Pon的口吻表示:大家好!非常感谢你们给我的爱,明天11点我将穿过彩虹桥,虽然有点难过,但我的心里充满了幸福,我会带着大家笑容的记忆,踏上全新的旅程你们的邻里偶像PON。” 据了解,PON是一只出生于2008年1月6日的日本埼玉北部柴犬。

今日大家都在搜的词: