李飞飞携斯坦福联袂谷歌推出比肩Pika的视频生成模型W.A.L.T

2023-12-12 13:57 · 稿源：站长之家

要点:
谷歌与李飞飞的斯坦福团队合作推出了基于Transformer的视频生成模型W.A.L.T，在图像和视频生成领域取得了媲美Gen-2的逼真效果。
W.A.L.T采用因果编码器和基于窗口注意的变压器架构，将图像和视频压缩到共享潜在空间，实现联合训练和生成，为自然语言提示生成逼真且时间一致的视频。
通过两个关键决策，W.A.L.T成功解决了视频生成建模难题，采用潜在视频扩散模型，利用Transformer处理潜在空间，实现了在多个基准测试上的SOTA性能。

站长之家（ChinaZ.com）12月12日消息:近日，谷歌与李飞飞的斯坦福团队携手推出了基于Transformer的视频生成模型W.A.L.T，标志着2023年成为AI视频元年。该模型利用因果编码器和窗口注意的变压器架构，成功将图像和视频压缩到一个共享的潜在空间，实现了联合训练和生成。这一创新性的模型不仅在已建立的视频和图像生成基准测试上取得了SOTA，还展示了在文本到视频生成任务中的卓越性能。

论文地址:https://walt-video-diffusion.github.io/assets/W.A.L.T.pdf

W.A.L.T的两个关键决策使其在视频生成建模中脱颖而出。首先，因果编码器用于在统一的潜在空间内联合压缩图像和视频，实现了跨模态的训练和生成。其次，基于窗口注意的变压器架构提高了记忆和训练效率，使得模型能够生成逼真且时间一致的视频，响应自然语言提示如"一只泰迪熊在时代广场上优雅的滑冰"。

该模型的突破性在于解决了视频生成建模的难题。传统方法主要采用U-Net架构，而W.A.L.T则采用潜在视频扩散模型，通过在低维潜在空间中运行自动编码器，降低了计算需求。这一设计选择不仅优化了网络复杂性，还让Transformer在视频生成领域表现出卓越的质量和参数效率。

W.A.L.T的出现标志着视频生成进入一个新的时代，突破了传统模型的限制，为AI视频技术带来了更为广阔的发展空间。李飞飞与谷歌的合作成果彰显了Transformer在不同领域的广泛适用性，为模型设计创新和改进带来了新的契机。在视频生成建模方面，W.A.L.T以其卓越性能和创新性设计成为当前研究的焦点，为学术界和工业界提供了有力的参考和启示。

（举报）

相关推荐
大家在看

关键词：

【腾讯云】11.11云上盛惠！云服务器首年1.8折起，买1年送3个月！

11.11云上盛惠！海量产品 · 轻松上云！云服务器首年1.8折起，买1年送3个月！超值优惠，性能稳定，让您的云端之旅更加畅享。快来腾讯云选购吧！

Docker容器镜像
去看看

Docker容器镜像 60元/15天

爆款产品组合购
去看看

爆款产品组合购低至1元

腾讯云x NVIDIA加速计划
去看看

腾讯云x NVIDIA加速计划最高获赠10万元扶持基金

2核2G云服务器
去看看

2核2G云服务器 112元/1年

查看更多相关信息>>

腾讯云 12-20

广告
荐李飞飞主讲，斯坦福2024 CS231n开课，依旧座无虚席

「这是自Karpathy和我2015年启动这门课程以来的第9个年头，这是人工智能和计算机视觉令人难以置信的十年!」知名AI科学家李飞飞的计算机视觉「神课」CS231n，又一次开课了。总共600多位学生报名，第一堂课的现场座无虚席:从2015年到如今，CS231n已经走到九个年头，也成为了一代计算机视觉专业学生心中的「必修课」:虽然课程代码不变，但可以猜到，2024年的课程相比2021年版本的课程有不少新增内容，这还要归因于视觉生成技术三年来的巨大飞跃。值得注意的是，在CS25课程中，除了基于自然语言处理的演讲内容之外，也覆盖了视觉Transformer的相关内容。

CS231n AI 李飞飞
AI视频生成工具ID-Animator：可保持角色一致生成视频动画

生成具有指定身份的高保真人类视频引起了广泛关注。现有技术在训练效率和身份保持之间往往难以取得平衡，要么需要繁琐的逐案微调，要么在视频生成过程中通常会丢失身份细节。当提供多个控制图像时，生成的视频序列紧密遵循多个图像提供的序列。

ID-Animator AI头条
Krea AI将推视频生成功能界面更加简洁美观了

KreaAI即将推出的视频生成功能，无疑将为设计领域带来新的革命。这个功能的推出，将使得用户能够轻松地生成高质量的视频内容，无论是用于广告、电影、游戏概念设计是用于社交媒体分享，都将变得非常方便。KreaAI推出实时增强功能，可以让用户在绘制图像时，实时看到图像的细节和分辨率的提升，这对于需要精细作画的设计工作来说，无疑是一大福音。

Krea AI头条
Open-Sora-Plan v1.0.0模型发布显著提升视频生成质量和文本控制能力

Open-Sora-Planv1.0.0模型正式发布，这一最新版本的AI模型在视频生成质量和文本控制能力方面取得了显著的提升。该模型能够生成10秒、24FPS的1024×1024高清视频，同时还支持生成高分辨率图像，为用户提供更加丰富和精细的视觉体验。在国内市场上，用户可以借助华为昇腾910b芯片的强大计算能力，更加高效地运行Open-Sora-Planv1.0.0模型，进一步提升视频生成的速度和质量。

Sora AI头条
MuseV：基于SD的AI视频生成工具角色一致且视频时长不限

一款名为MuseV的虚拟人视频完整解决方案应运生，为虚拟人视频领域带来了全新的突破。MuseV基于SD，支持文生视频、图生视频、视频生视频等多种生成方式，能够保持角色一致性，且不受视频长度限制。无论是个人用户还是企业用户，都可以通过MuseV轻松地制作出高质量的虚拟人视频，满足各种场景的需求。

MuseV AI视频 AI头条
斯坦福团队大模型Octopus v2火了：手机就能运行准确性超越GPT-4

斯坦福大学研究人员发布的Octopusv2模型引起了开发者社区的极大关注，其20亿参数的模型一夜下载量超过2k。这一模型可以在智能手机、汽车、个人电脑等端侧设备上运行，并在准确性和延迟方面表现超越了GPT-4，同时将上下文长度减少了95%。设备端AI智能体时代即将到来，Octopusv2的发布为这一趋势注入了新的活力。

Octopusv2 AI头条
斯坦福推可以在手机端跑的大模型 Octopusv2超越GPT-4一夜爆火

斯坦福大学的研究团队近日推出了一款名为Octopusv2的新型人工智能模型，这款模型以其在端侧设备上的强大运行能力受到广泛关注。论文:Octopusv2:On-devicelanguagemodelforsuperagent论文地址:https://arxiv.org/abs/2404.01744模型主页:https://huggingface.co/NexaAIDev/Octopus-v2Octopusv2的推出，标志着设备端AI智能体时代的来临。对于那些对AI技术充满热情的开发者和企业来说，Octopusv2无疑提供了一个全新的�

Octopusv2
AI延时视频生成工具MagicTime在线体验地址放出

MagicTime是一款创新的在线工具，它能够根据用户提供的文本描述生成展示真实世界物理变化过程的时间延迟视频。这种技术的应用范围非常广泛，可以用于记录和展示各种自然和人为引起的变化过程。对于教育和科普来说，MagicTime提供了一种生动、直观的教学工具，帮助学生和公众更好地理解复杂的科学概念。

MagicTime AI头条
谷歌推多模态视频模型VLOGGER，自动生成丰富动作视频

谷歌的研究人员最近推出了一款名为VLOGGER的多模态扩散模型，能够自动生成带语音、丰富动作的人物视频。用户只需向VLOGGER输入图像和语音，就可以获得逼真的视频效果。VLOGGER的推出为虚拟数字人的制作提供了更便捷、高效的解决方案，同时也在多模态视频生成领域取得了重要的技术突破。

VLOGGER 谷歌 AI头条
荐李飞飞团队年度报告揭底大模型训练成本：Gemini Ultra是GPT-4的2.5倍

如何复盘大模型技术爆发的这一年?除了直观的感受，你还需要一份系统的总结。斯坦福HAI研究所发布了第七个年度的AIIndex报告，这是关于人工智能行业现状的最全面的报告之一。该指数中的其他图表显示，不同人群的观点存在显著差异，年轻人更倾向于乐观地看待人工智能将如何改变他们的生活。

李飞飞 GeminiUltra GPT-4

今日大家都在搜的词：

热文

3 天
7天

李飞飞携斯坦福联袂谷歌推出比肩Pika的视频生成模型W.A.L.T

今日大家都在搜的词：

热文

站长商机