突破性文本生成视频方法LVD，利用LLM创建动态场景布局

2023-10-10 16:16 · 稿源：站长之家

文章概要:
1. 困扰文本提示生成视频的挑战:研究团队引入LLM-Grounded Video Diffusion（LVD）方法，以解决生成复杂时空动态视频的问题。
2. LVD采用大型语言模型（LLMs）来创建动态场景布局(DSLs)，作为视频生成的蓝图，同时发现LLMs具有惊人的能力来捕捉时空关系和复杂动态。
3. LVD结果显著优于基本视频扩散模型，为纯文本提示生成与所需属性和运动模式相符的视频，为内容创作和视频生成等应用开辟了新的可能性。

站长之家（ChinaZ.com）10月10日消息:针对从文本提示生成视频所面临的挑战，一支研究团队引入了一种新方法，名为LLM-Grounded Video Diffusion（LVD）。核心问题在于，现有模型难以准确表示文本提示中描述的复杂时空动态。

为了提供背景，文本到视频生成是一项复杂的任务，因为它要求仅基于文本描述生成视频。尽管以前曾尝试解决这个问题，但它们在生成的视频在空间布局和时间动态方面与给定提示的匹配方面通常表现不佳。

然而，LVD采用了一种不同的方法。它不是直接从文本输入生成视频，而是利用大型语言模型（LLMs）首先根据文本描述创建动态场景布局(DSLs)。这些DSLs本质上充当了随后的视频生成过程的蓝图或指南。

尤为引人注目的是，研究人员发现LLMs具有出人意料的能力，可以生成这些DSLs，不仅捕捉了空间关系，还捕捉了复杂的时空动态。这对于仅基于文本提示准确反映现实世界场景的视频生成至关重要。

为了使这个过程更具体，LVD引入了一种算法，利用DSLs来控制视频扩散模型中生成物体级空间关系和时空动态的方式。重要的是，这种方法不需要大量的训练;它是一种无需训练的方法，可以集成到各种具有分类器指导能力的视频扩散模型中。

LVD的结果非常显著。它在生成视频方面明显优于基本视频扩散模型和其他强基线方法，能够忠实地遵循文本提示中所需的属性和运动模式。LVD生成的文本和视频之间的相似性为0.52。不仅如此，文本和视频之间的相似性，以及视频的质量都超越了其他模型。

可见，LVD是一种开创性的文本到视频生成方法，利用LLMs的能力来生成动态场景布局，最终提高了从复杂文本提示生成的视频的质量和保真度。这种方法有潜力在内容创作和视频生成等各种应用中开辟新的可能性。

论文网址:https://arxiv.org/abs/2309.17444

（举报）

相关推荐
大家在看

关键词：

【腾讯云】11.11云上盛惠！云服务器首年1.8折起，买1年送3个月！

11.11云上盛惠！海量产品 · 轻松上云！云服务器首年1.8折起，买1年送3个月！超值优惠，性能稳定，让您的云端之旅更加畅享。快来腾讯云选购吧！

Docker容器镜像
去看看

Docker容器镜像 60元/15天

爆款产品组合购
去看看

爆款产品组合购低至1元

腾讯云x NVIDIA加速计划
去看看

腾讯云x NVIDIA加速计划最高获赠10万元扶持基金

2核2G云服务器
去看看

2核2G云服务器 112元/1年

查看更多相关信息>>

腾讯云 12-20

广告
CameraCtrl：让文本生成视频实现镜头控制支持AnimateDiff控制镜头

随着人工智能技术的发展，视频生成领域取得了长足的进步。在现有的文本到视频生成模型中，对镜头姿势的精确控制往往被忽视镜头姿势在视频生成中扮演着表达更深层叙事细微差别的影视语言角色。这一技术的应用前景广阔，有望在视频生成领域发挥重要作用。

CameraCtrl AI头条
Meta 推出 ViewDiff 模型：文本生成多视角 3D 图像

Meta与德国慕尼黑工业大学研发出创新模型ViewDiff，旨在帮助用户通过文本、图像或二者结合使用，快速生成高质量多视角3D图像。该模型解决了传统文本生成多视角3D图像领域的三大难点:无法生成真实背景环境、图像质量和多样性不理想、缺乏多视角和一致性。该模型的推出不仅在技术层面上具有重大意义，也将为未来的3D图像生成领域带来更多创新可能。

ViewDiff AI头条
InstantStyle: 文本生成图像格参考，用于SD保持风格一致

InstantStyle是一个通用框架，旨在在文本到图像生成过程中实现风格与内容的有效分离。该框架采用了两种简单但强大的技术，以实现对风格和内容的有效解耦。InstantStyle还将继续改进和扩展，为用户提供更多功能和选择，助力他们在图像生成领域取得更大的成功。

InstantStyle AI头条
文本生成8K、360度全景世界！Model 3重磅发布

知名生成式AI平台BlockadeLabs在官网重磅发布了全新模型——Model3。与Model2相比，Model3的生成效果实现质的提升，原生支持超高清8192x4096分辨率，增强了文本提示器能更好的描述生成世界，并且大幅度减少了生成世界的灰度值，使建筑、风景、人物等看起来更加高清、细腻。经过一年多的技术创新与业务积累，Blockade的用户超过150万，生成的作品超过1000万，成为很多游戏开发工作室、3D建模等常用工具，尤其是与Unity开发引擎集成后，迎来了一波用户增长高峰。

Model3 AI头条 AI模型
荐文本生成3分钟44.1 kHz 音乐，Stable Audio 2.0重磅发布！

4月4日，著名开源大模型平台Stability.ai在官网正式发布了，音频模型StableAudio2.0。StableAudio2.0支持用户通过文本或音频，一次性可生成3分钟44.1kHz的摇滚、爵士、电子、嘻哈、重金属、民谣、流行、乡村等20多种类型的高质量音乐。StableAudio2.0免费赠送20积分，生成的音乐可以商业化，这对于抖音、快手、B站的视频自媒体用户来说挺有帮助的。

StableAudio
Mixtral-8x22B官网体验入口语言模型文本生成工具使用指南

Mixtral-8x22B是一个预训练的生成式稀疏专家语言模型，由MistralAI团队开发。该模型拥有141B个参数，支持多种优化部署方式，旨在推进人工智能的开放发展。

Mixtral-8x22B
AI视频生成工具ID-Animator：可保持角色一致生成视频动画

生成具有指定身份的高保真人类视频引起了广泛关注。现有技术在训练效率和身份保持之间往往难以取得平衡，要么需要繁琐的逐案微调，要么在视频生成过程中通常会丢失身份细节。当提供多个控制图像时，生成的视频序列紧密遵循多个图像提供的序列。

ID-Animator AI头条
IBM申请名为 “LAB” 的专利，利用合成数据训练LLM

IBM近日申请了一项名为“LAB”的专利，旨在利用合成数据来训练LLM模型，以加速企业AI技术的发展。AI模型对数据有着巨大的需求提供大量、质量高、相关性强的数据常常成为一项挑战。IBM可能会利用这一专利来支持那些正在构建自己AI模型的企业，提供一种相对于收集真实用户数据言更少资源密集的方法。

IBM LLM AI头条
AI也可以生成延时视频了 MagicTime输入文本即可生成植物生长视频

一个名为MagicTime的新模型引起了业界的广泛关注。这个模型专注于生成变形时间延迟视频，基于DiT的架构，解决了现有文本到视频生成模型未能充分编码现实世界物理知识的问题。MagicTime还计划将额外的变形景观时间延迟视频集成到相同的注释框架中，查找ChronoMagic-Landscape数据集，然后使用该数据集Open-Sora-Planv1.0.0，获得MagicTime-DiT模型。

MagicTime AI头条
AI视频生成神器 PixVerse:保持角色一致性、百变场景

视频生成神器PixVerse推出了新功能，让用户能够实现角色一致性换背景，解决了AI生成效果不一致的问题。网友展示了生成效果，角色面部基本一致，背景丰富生动。期待未来AI技术的发展，为各行业带来更多可能性。

PixVerse AI视频 AI头条

Learn, Build & Ship SaaS with ShipGPT:构建和交付AI的Next.js模板和教程

SHIPGPT是一个前后端完整的AI模板，提供了各种AI用例的脚手架，使您能够构建自己的AI应用程序或将AI集成到现有技术中，无需雇佣全栈开发人员和AI开发包装器。

AI SaaS 模板

https:创建你的 ComfyUI 工作流程应用，并与他人分享

ComfyFlow 是一个基于 ComfyUI 的工作流程应用创建平台，能够快速创建工作流程应用并与他人分享。它使用稳定扩散（Stable Diffusion）和 ComfyUI 技术构建，具有简单易用、完全托管、免费使用等优点。

ComfyFlow ComfyUI 工作流程应用

AI Experts Top:AI Experts是一家专注于数字营销的AI顾问机构，致力于将人工智能技术应用于业务中，帮助企业提高效率和推动增长。

AI Experts是一家专注于数字营销的AI顾问机构，通过AI驱动的工具，帮助企业高效地生产高质量的内容，并通过数据分析提供有价值的见解，引导业务策略。AI Experts的主要优点包括节省时间和资源、提高内容质量、提供数据驱动的决策支持等。产品背景信息：AI Experts是由真人运营的AI机构，致力于帮助企业将人工智能技术应用于业务中。

AI 数字营销内容生产

Pongo:是一个语义过滤器，使用1行代码可以将RAG工作流中的LLM幻觉减少80%。

Pongo的语义过滤器可以通过一行代码将RAG工作流中的LLM幻觉减少80%。它利用多种先进的语义相似性模型和专有的排名算法，确保您始终获得正确的信息。Pongo可以与现有的流程集成，并提供快速的响应时间和零数据保留。

语义过滤器 RAG工作流语义相似性

Video To Tweet:将YouTube视频转换为推特/博客内容

Video To Tweet是一个将YouTube视频转换为推特和博客内容的工具。它能够将视频转换成有吸引力的推特和详细的博客文章，帮助您轻松提升在线存在感。通过尝试使用我们的工具，优化您的内容策略，扩大触达更广泛的受众。

社交媒体内容创作数字营销

TextToVideo.Bot:将文本转化为令人惊叹的视频。

TextToVideo是一个AI驱动的工具，可以将文本转化为令人惊叹的视频。它可以帮助用户快速创建YouTube、Instagram和TikTok等平台上的内容，无需等待或支付过高的费用。它提供快速、经济实惠的视频制作解决方案，帮助用户讲述故事，提升品牌影响力。

视频创作工具 AI

Email Generator AI Tool:Email Generator AI工具是一款帮助您高效撰写电子邮件的人工智能工具。

Email Generator AI工具可以帮助您快速、高效地生成电子邮件内容，节省您的时间和精力。

生产力工具电子邮件

MentorAI:通过，你可以向马库斯·奥勒留提问和描述生活中的问题和情况，他将提供个人指导和斯多葛哲学的建议作为回应。

MentorAI允许您提问并描述生活中的问题和情况，马库斯·奥勒留将以个人指导和斯多葛哲学的建议作为回应。它提供了与一位哲学家国王的互动体验，帮助您在生活中面对挑战时获得智慧和指导。

智慧指导哲学

TravAI:是一款AI驱动的旅行培训产品，提供交互式AI培训、模拟、评估和智能助手，为旅行行业人员提供最新的技能和知识。

TravAI是一款旅行行业的AI驱动培训产品，通过注入AI技术，为培训注入活力。它能创建引人入胜、交互式的培训课程，进行逼真的角色扮演模拟，并设计能够真正起作用的测验。同时，TravAI利用您的数据为旅行团队量身定制个性化学习体验，让培训不再是通用的、一刀切的。它是培训旅行业专业人员的更智能、更快速的方式。

旅行培训 AI

Nextminds:是一家提供在线辅导服务的平台，为所有科目和学术水平的学生提供个性化辅导。

Nextminds是一个提供在线辅导服务的平台，通过与经验丰富的导师在线互动，为学生提供个性化的学习经验。平台提供ICSE、CBSE和州委员会等多种教育体系的辅导。Nextminds的主要优点是学生可以在舒适的家中与专业的导师进行一对一的在线学习，为学生提供高质量的辅导服务。

在线辅导学习个性化

Pedagogue.io:每天花费10分钟，提升您的AI技能。

Pedagogue是一款AI技能培训平台，旨在帮助个人和企业提升AI技能。通过该平台，用户可以学习AI工具、技术和策略，并获得40%的生产力提升。Pedagogue的优势在于更新及时的内容库、个性化的技能培养、有趣的学习方式以及具有商业价值的数据驱动洞察。

AI 技能培训教育

LexiGym:你的语言学习伴侣。🚀 # #HinkouLabs

LexiGym是一款语言学习应用，帮助用户提升语言技能。它具有离线和多语言支持的创新功能，是最强大的语言学习伴侣。用户可以根据自己的预算选择免费使用或付费订阅，灵活选择学习方式。LexiGym还提供易于创建字典和智能学习等功能，以及详细的训练统计数据。

语言学习词汇训练多语言

Alevels.ai:A Levels AI是一个利用人工智能提高A Levels学习成绩的工具。

A Levels AI利用人工智能技术，提供个性化的学习计划和辅导资源，帮助学生在A Levels考试中取得优异成绩。它通过分析学生的学习情况和弱点，为其提供针对性的学习建议和练习题。A Levels AI还提供实时答疑和学习进度跟踪功能，帮助学生更好地掌握知识。

教育考试辅导人工智能

MailReply:是一款AI助手，可生成专业且人性化的邮件回复，节省时间。

MailReply通过AI生成邮件回复，帮助用户节省时间。它可以在保持人类写作风格的同时，根据邮件内容生成上下文相关的回复。MailReply适用于Windows和macOS，并兼容多种邮件客户端。

邮件回复 AI助手工具

Notification harbor:高性能团队的电子邮件营销平台

Notification harbor是一个为电子邮件营销团队提供AI优化的电子邮件内容和自动化流程的平台。通过使用LLM技术，我们可以在短短5分钟内创建高性能的电子邮件营销内容，并且随着时间的推移，产品甚至可以自我优化。我们的平台简化了电子邮件营销活动的方式，确保每个活动都能精准地与您的目标受众建立联系。AI生成的电子邮件模板根据您提供的信息和要求选择最合适的模板。实时个性化电子邮件可以提高用户参与度和转化率，并根据每个用户实时定制内容。AI驱动的电子邮件营销使您的团队在创建电子邮件模板和文本方面节省了60％的时间。

突破性文本生成视频方法LVD，利用LLM创建动态场景布局

今日大家都在搜的词：

热文

站长商机