谷歌推大语言模型VideoPoet：文本图片皆可生成视频和音频

2023-12-20 10:13 · 稿源：站长之家

划重点:
1. 💻 Google Research团队推出VideoPoet，一款大型语言模型，旨在解决视频生成领域的挑战。
2. 🌈 VideoPoet支持多种视频生成任务，包括文本到视频、图像到视频、视频风格化、修复和修复以及视频到音频。
3. 🚀 与传统扩散模型不同，VideoPoet将多个视频生成功能融合在一个语言模型中，提供更高的集成度和学习能力。

站长之家（ChinaZ.com）12月20日消息:Google Research最近发布了一款名为VideoPoet的大型语言模型（LLM），旨在解决当前视频生成领域的挑战。该领域近年来涌现出许多视频生成模型，但在生成连贯的大运动时仍存在瓶颈。现有领先模型要么生成较小的运动，要么在生成较大运动时出现明显的伪影。

VideoPoet的创新之处在于将语言模型应用于视频生成，支持多种任务，包括文本到视频、图像到视频、视频风格化、修复和修复以及视频到音频。与当前主流的扩散模型不同，VideoPoet将这些视频生成功能融合在一个大型语言模型中，而不是依赖于分别针对每个任务进行训练的组件。

该模型通过多个分词器（MAGVIT V2用于视频和图像，SoundStream用于音频）进行训练，以学习跨视频、图像、音频和文本模态的知识。通过将模型生成的令牌转换为可视化表示，VideoPoet能够输出动画、风格化视频，甚至生成音频。模型支持文本输入，以指导文本到视频、图像到视频等任务的生成。

为了展示VideoPoet的多功能性，研究人员提供了一些生成示例。

文字生成视频

模型能够根据文本提示生成可变长度的视频，也可以将输入图像转化为动画视频。此外，模型还具备视频风格化的能力，通过输入光流和深度信息，以及一些额外的文本提示，生成独特风格的视频。最令人印象深刻的是，VideoPoet还可以生成音频，实现了从单一模型生成视频和音频的目标。

图像生成视频

视频风格化

可生成音频

研究人员指出，VideoPoet的训练方式使其具有生成较长视频的潜力，通过在上一个视频的最后1秒的基础上预测下一个1秒，可以实现视频的不断延伸。此外，模型还支持对已生成视频进行交互式编辑，用户可以改变物体的运动，实现不同的动作，从而具有高度的编辑控制。

评价结果

研究人员使用各种基准来评估 VideoPoet 在文本到视频生成方面的表现，以将结果与其他方法进行比较。为了确保中立的评估，我们在各种不同的提示下运行了所有模型，没有挑选示例，并要求人们对他们的偏好进行评分。下图以绿色突出显示了 VideoPoet 被选为以下问题的首选选项的时间百分比。

文本保真度

基于上述情况，平均而言，人们选择 VideoPoet 中24-35% 的示例作为比竞争模型更好的跟随提示，而竞争模型的这一比例为8-11%。评分者还更喜欢 VideoPoet 中41-54% 的示例，因为它们的动作更有趣，而其他模型的这一比例为11-21%。

VideoPoet作为大型语言模型，通过集成多种视频生成任务，为零镜头视频生成提供了新的可能性，为艺术创作、影视制作等领域带来了潜在的创新机遇。

官方博客:https://blog.research.google/2023/12/videopoet-large-language-model-for-zero.html

项目网址体验:https://top.aibase.com/tool/videopoet

（举报）

相关推荐

关键词：

Soul App开源模型SoulX-Podcast登顶Hugging Face TTS趋势榜,AI语音对话再升级

SoulX-Podcast语音生成模型在开源社区Hugging Face发布次日登顶TTS趋势榜。该模型由Soul AI Lab联合高校团队开发，专为多轮对话场景设计，支持中英川粤等多语言/方言与副语言风格，能生成超60分钟流畅自然、角色切换准确、韵律丰富的语音。它解决了传统语音系统在多轮对话中上下文衔接不自然、缺乏副语言控制能力等痛点，在播客、语音合成等场景表现突出，获开发者广泛关注。Hugging Face CEO也转发相关内容，团队未来将持续优化语音对话、拟人化表达等核心交互能力，深化开源生态建设。

SoulX-Podcast TTS 语音生成模型
以算力为基，优刻得与IDEA共建低空经济新格局

10月24日，粤港澳大湾区数字经济研究院低空经济院长李世鹏一行访问优刻得上海总部，与董事长季昕华、副总裁韩畅交流。双方围绕低空经济发展趋势、技术攻关及生态共建等达成多项合作意向，将共同推动低空经济产业创新与落地。此前中共二十届四中全会提出加快低空经济等新兴产业发展。双方团队将在技术产品创新、生态共建与全球化布局等领域深化合作，整合云计算与产业资源优势，促进低空经济全链条发展，把握战略机遇，引领产业健康、智能、可持续发展新阶段。

低空经济数字经济战略性新兴产业
超擎速度！全国首批NVIDIA DGX Spark率先抵达超擎数智，现货在仓，交付启动

10月19日，全国首批NVIDIA DGX Spark桌面级AI超算率先抵达超擎数智并开始交付。这款"全球最小AI超算"在发布72小时内落地中国市场，为企业和科研机构提供强劲算力。产品预装完整AI软件栈，实现开箱即用，配备详细快速指南和专业支持团队，助力开发者无缝对接顶尖计算能力，加速AI本地化开发创新。

NVIDIA DGX Spark
Vidda 火星基地亮剑：C5 领衔四件套，改写影音产品性能规则

Vidda在AWE展会发布多款创新产品：C5无界Master投影仪搭载SST架构DMD芯片、双激光器和122mm影院级镜头，实现6800CVIA高亮度和精准色彩；发现X2026电视采用"墨晶屏"技术，解决强光反光问题；同时推出V11开放式耳机与G11智能眼镜，以轻量化设计提升佩戴体验。整场发布会通过实机拆解和极限测试，展现品牌"技术平权"理念，强调用户体验优先于参数竞争。
OPPOFind X9 新机发布，火山引擎助力打造AI应用新体验

OPPO Find X9系列以“画质革命”为核心，全面升级移动影像能力，致力于打造手机摄影新标杆。该系列搭载火山引擎，强化AI功能，支持AI写作、播客创作、多模态问答及AI作图，重点优化旅行场景，简化创作流程。同时，作为业界首款支持机密计算AI推理的消费级手机，通过AICC平台保障用户数据全生命周期安全，提供放心、便捷的智能服务体验。
Soul App开源播客语音合成模型SoulX-Podcast,支持流畅自然多轮语音对话

Soul App近日开源其播客语音合成模型SoulX-Podcast，专为多人多轮对话场景设计。该模型支持中、英、川、粤等多语言及方言，可生成超60分钟流畅自然、角色切换准确、韵律丰富的语音对话。除播客场景外，在通用语音合成及克隆任务中表现优异，能灵活调节节奏与副语言元素（如笑声），提升语音真实感与表现力。此次开源旨在携手开发者探索AI语音在内容创作与社交生态中的更多可能。

语音合成模型 SoulX-Podcast 多轮对话
荐AI日报：豆包推全自动多人配音系统；Adobe Firefly Image 5重磅升级；Soul语音模型SoulX-Podcast发布

本期AI日报聚焦多项技术突破：豆包推出全自动有声剧系统，实现98%角色识别准确率；Adobe Firefly Image 5支持400万像素原生输出及AI音轨生成；Soul发布90分钟无中断播客生成模型；360推出全球首款L2-L4全栈智能平台；IBM发布可在普通设备运行的Granite 4.0 Nano模型。市场方面，移动端AI用户突破7亿，豆包领跑原生应用；PayPal与OpenAI合作使ChatGPT集成支付功能；谷歌推出AI营销工具Pomelli，可基于URL自动生成营销内容。

AI有声剧豆包语音多角色语音合成
荐AI日报：可复刻音色的MiniMax Speech 2.6发布；TikTok推AI剪辑新工具“Smart Split”；Cursor 2.0发布

本期AI日报聚焦多项技术突破：MiniMax发布低延迟语音合成系统Speech 2.6，实现实时交互；蚂蚁数科与宁波银行打造的金融AI方案入选国际标准；智源推出具身操作能力的Emu3.5多模态模型；Cursor 2.0通过自研模型实现多智能体协同编程；xAI升级Grok新增视频生成功能；OpenAI推出可定制安全模型；TikTok推出AI剪辑工具Smart Split；微软发布强化学习框架Agent Lightning提升大模型训练效率。

AI日报 MiniMax Speech
AI日报：阿里夸克“C计划”曝光；Veo3.1将增加视频“精确编辑”功能；Anthropic推出Claude Code网页版

今日AI领域动态：阿里夸克启动"C计划"布局对话式AI应用，剑指字节"豆包"；Anthropic推出Claude Code网页版，支持浏览器直接编码；谷歌Veo新增视频"精确编辑"功能，提升创作效率；Fish Audio升级S1语音克隆模型，10秒即可复刻真人声音；AWS美东故障影响ChatGPT等多项服务；DeepSeek-OCR推出"视觉记忆压缩"机制破解AI记忆瓶颈；Adobe推出AI Foundry服务，支持企业定制品牌AI模型；Anthropic发布Claude for Life Sciences，加速生命科学研究。

AI 对话式AI 阿里巴巴
OPPO ColorOS 16正式版推送：首批适配11款机型

ColorOS 16正式版于10月30日启动推送，首批覆盖11款OPPO和一加热门机型。该系统引入极光引擎、潮汐引擎与繁星编译器三大流畅技术，实现感官、性能与底层的全方位提升。极光引擎打造业内首个“无缝隙架构”，确保全场景丝滑交互；潮汐引擎首发芯片级动态追帧技术，系统重载流畅度提升37%，功耗降低13%；繁星编译器首创安卓跨级融合编译技术，大幅提升低算力芯片性能。此次升级将增强品牌市场竞争力，为用户带来更出色的使用体验。

ColorOS16 OPPO Find

今日大家都在搜的词：

热文

3 天
7天

谷歌推大语言模型VideoPoet：文本图片皆可生成视频和音频

Soul App开源模型SoulX-Podcast登顶Hugging Face TTS趋势榜,AI语音对话再升级

以算力为基，优刻得与IDEA共建低空经济新格局

超擎速度！全国首批NVIDIA DGX Spark率先抵达超擎数智，现货在仓，交付启动

Vidda 火星基地亮剑：C5 领衔四件套，改写影音产品性能规则

OPPOFind X9 新机发布，火山引擎助力打造AI应用新体验

Soul App开源播客语音合成模型SoulX-Podcast,支持流畅自然多轮语音对话

荐AI日报：豆包推全自动多人配音系统；Adobe Firefly Image 5重磅升级；Soul语音模型SoulX-Podcast发布

荐AI日报：可复刻音色的MiniMax Speech 2.6发布；TikTok推AI剪辑新工具“Smart Split”；Cursor 2.0发布

AI日报：阿里夸克“C计划”曝光；Veo3.1将增加视频“精确编辑”功能；Anthropic推出Claude Code网页版

OPPO ColorOS 16正式版推送：首批适配11款机型

今日大家都在搜的词：

热文

OPPO ColorOS 16正式版推送：首批适配11款机型

微信升级：支持一次撤回全部消息、删好友能保留聊天记录等功能

AI日报：可复刻音色的MiniMax Speech 2.6发布；TikTok推AI剪辑

vivo OriginOS 6启动公测招募：支持10款机型

苹果客服回应iPhone或自动拨号：设置或其他问题

AI日报：Sora免费额度要缩水；月之暗面发布Kimi Linear架构；C

魅族22月白天青配色发布：2999元起

REDMI官方：REDMI K90超级像素新国屏比2K屏更强

iQOO Neo11开售2小时销量超前代全天

小米随身蓝牙音箱曜石黑配色版本开售：售价299元

iPhone锁屏滑动相机能关闭了苹果iOS 26.1 RC准正式版发布

一加15今晚发布定位全能水桶机

AI日报：豆包视频1.0pro fast发布；谷歌Gemini新功能上线；百度

AI日报：豆包推全自动多人配音系统；Adobe Firefly Image 5重磅

AI日报：Hailuo 2.3发布；豆包AI编程史诗级升级；马斯克推出AI

红米REDMI K90全方位提升雷军：是不是越来越有旗舰气质

鸿蒙智行：全新问界M7上市36天交付破20000台

OPPO ColorOS 16正式版推送：首批适配11款机型

iPhone18发布或推迟苹果明年9月只发Pro系列和Fold折叠屏

余承东曝鸿蒙智行新款享界S9将于11月上市

站长商机