首页 > 业界 > 关键词  > LLM最新资讯  > 正文

突破性文本生成视频方法LVD,利用LLM创建动态场景布局

2023-10-10 16:16 · 稿源:站长之家

文章概要:

1. 困扰文本提示生成视频的挑战:研究团队引入LLM-Grounded Video Diffusion(LVD)方法,以解决生成复杂时空动态视频的问题。

2. LVD采用大型语言模型(LLMs)来创建动态场景布局(DSLs),作为视频生成的蓝图,同时发现LLMs具有惊人的能力来捕捉时空关系和复杂动态。

3. LVD结果显著优于基本视频扩散模型,为纯文本提示生成与所需属性和运动模式相符的视频,为内容创作和视频生成等应用开辟了新的可能性。

站长之家(ChinaZ.com)10月10日 消息:针对从文本提示生成视频所面临的挑战,一支研究团队引入了一种新方法,名为LLM-Grounded Video Diffusion(LVD)。核心问题在于,现有模型难以准确表示文本提示中描述的复杂时空动态。

为了提供背景,文本到视频生成是一项复杂的任务,因为它要求仅基于文本描述生成视频。尽管以前曾尝试解决这个问题,但它们在生成的视频在空间布局和时间动态方面与给定提示的匹配方面通常表现不佳。

image.png

然而,LVD采用了一种不同的方法。它不是直接从文本输入生成视频,而是利用大型语言模型(LLMs)首先根据文本描述创建动态场景布局(DSLs)。这些DSLs本质上充当了随后的视频生成过程的蓝图或指南。

尤为引人注目的是,研究人员发现LLMs具有出人意料的能力,可以生成这些DSLs,不仅捕捉了空间关系,还捕捉了复杂的时空动态。这对于仅基于文本提示准确反映现实世界场景的视频生成至关重要。

为了使这个过程更具体,LVD引入了一种算法,利用DSLs来控制视频扩散模型中生成物体级空间关系和时空动态的方式。重要的是,这种方法不需要大量的训练;它是一种无需训练的方法,可以集成到各种具有分类器指导能力的视频扩散模型中。

image.png

LVD的结果非常显著。它在生成视频方面明显优于基本视频扩散模型和其他强基线方法,能够忠实地遵循文本提示中所需的属性和运动模式。LVD生成的文本和视频之间的相似性为0.52。不仅如此,文本和视频之间的相似性,以及视频的质量都超越了其他模型。

可见,LVD是一种开创性的文本到视频生成方法,利用LLMs的能力来生成动态场景布局,最终提高了从复杂文本提示生成的视频的质量和保真度。这种方法有潜力在内容创作和视频生成等各种应用中开辟新的可能性。

论文网址:https://arxiv.org/abs/2309.17444

举报

  • 相关推荐
  • NVIDIA RTX 加速 PC 端 4K AI 视频生成,LTX-2 与 ComfyUI全面升级

    2025年是PC端AI发展的突破之年,小语言模型(SLM)准确率相比2024年提升近2倍,显著缩小了与云端大语言模型(LLM)的差距。NVIDIA在CES上宣布了一系列针对RTX设备的AI升级,以解锁PC上的生成式AI性能。通过优化ComfyUI、开源LTX-2视频生成模型、加速Ollama和llama.cpp等工具,实现了视频/图像生成性能最高提升3倍、显存占用最多降低60%,以及SLM推理性能最高提升35%。这些改进让用户能在本地RTX AI PC上无缝运行先进的工作流,同时享受隐私、安全和低延迟优势。全新的视频生成工作流和由Nexa.ai推出的Hyperlink本地智能搜索工具,将进一步推动生成式AI在2026年全面走向大众创作者、游戏玩家和生产力用户。

  • 荣耀500 Pro MOLLY 20周年限定版上架预约

    荣耀500Pro MOLLY20周年限定版已在荣耀商城开启预约通道。 这款联名手机堪称联名界的“天花板”。其机身背部精心印制了经典的MOLLY小画家图案,极具辨识度与艺术感。不仅如此,它还配备了造型独特的旅行箱礼盒,礼盒正面印有MOLLY20周年形象,为手机增添了一份别样的收藏价值。 荣耀商城的页面信息显示,限定版礼盒内容丰富多样,包含定制取卡针、红包、彩窗透卡、邀�

  • 带80岁爷爷搞抽象,“隔辈整活”成短视频新赛道?

    ​穿着夸张战袍的八旬姥爷变身“大力水手”,喊着“风鹰铠甲”合体成铠甲勇士,戴着假发cos拳皇八神庵……临近春节,社交平台上出现大批“隔代整活”视频。 年轻人返乡后,拉着家中老人拍摄各种抽象、搞怪内容,播放量动辄百万,甚至火到海外。

  • 短视频刷多了会脑雾:记不住事

    你是否遇到过这种情况,正准备说话,突然忘了刚才想要说什么?明明是一个比较熟悉的人,却怎么也想不起对方的名字?这就好比人的大脑被蒙上了一层雾”,不够清醒、敏锐,被称之为脑雾”。 医学专家指出,脑雾”并非医学诊断,而是患者对自身注意力涣散、精神难以集中、伴随疲惫感的生动客观描述,就像大脑中笼罩着一团雾气,清晰的思维通路被堵塞。 这种状态�

  • 关于长视频忠粉养成记,优酷SVIP亮出一套「多很多」秘籍

    12月底,一波剧粉涌进了上海豫园。 有人兴致勃勃与所追剧集的剧集场景、角色立牌合照;有人一袭古风造型,主打一个沉浸式游园;有人在社交平台再次安利一下自己的心头好;也有人遗憾未能到场,只好在评论区询问是否有人能帮忙购买周边…… 当一批批如《藏海传》《凡人修仙传》《暗河传》等年度爆款剧集近距离走进用户,优酷SVIP超酷会员日(以下简称超酷会员日)举�

  • 2025 长视频:「内容为王」不变,「体验为王」上位

    2025年的长视频行业,似乎正在发生一种微妙但直观的变化。 过去两三年里,“爆款率”几乎成为了衡量平台成败的唯一指标,其核心逻辑仍是传统意义上的“内容为王”。 然而,爆款供给的天然不确定性让这一逻辑遭遇瓶颈:当S+级大剧播完,如何填补“空窗期”以抵御用户流失?如何引导用户从“追IP”转向“追平台”,构建对品牌本身的深度粘性? 这成为了所有长视频平台

  • 罗永浩押注的视频播客,赚不到钱?

    视频播客,似乎正成为资本们新做的“局”:先是B站在乌镇戏剧节推出《乌镇十日谈视频播客特辑》,徐志胜、赖声川和陈妍希纷纷亮相;接着央视新闻就官宣称,将与B站就总台主持人大赛新闻主播季进行视频播客主题环节的深度共创;同时,小红书发起“随时随地视频播客”活动,抖音精选也上线了自有视频播客栏目。 很快,微博和腾讯视频也盯上了视频播客这条赛道,分别�

  • 跨境品牌加速「All in」,TikTok Shop正成为出海必争新主场

    今年黑五,POP MART的TikTok Shop团队直接把圣诞氛围感搬进了自己的直播间。「新品发售、阶梯式满赠优惠、Ship in48h……」,不断堆叠的直播福利,将圣诞节庆+黑五大促的欢愉氛围与顶流IP的情绪魅力在直播间呈现得淋漓尽致。 这只是POP MART在 TikTok Shop 跨境自运营(POP)模式下的其中一幕。黑五期间,共有25个全球头部品牌,借由平台的「Super Brand Day(超级品牌日)」,推出了68款�

  • 即构推出AI音视频能力矩阵 助力应用突围增长

    如今,移动应用市场竞争进入了存量博弈新阶段,应用内的新玩法复制成本低,单靠独创模式难以吸引用户留存。Sensor Tower数据显示,全球应用商店双寡头垄断格局稳固,头部应用占据超60%用户时长,中小应用突围愈发艰难。行业增长逻辑已转向内容质量与优质体验,音视频质量低下可能导致用户留存与转化显著下滑。尤其是在直播语聊、网课、电商、音视频创作工具等高频�

  • 从买量到内容驱动:视频号发力,搅局小游戏行业?

    ​视频号又放大招。 12月29日,微信视频号正式推出“小游戏变现任务”,为创作者与游戏行业带来新的生态联动信号:满足千粉条件的创作者,可通过发布优质原创短视频挂载小游戏推广链接,获取现金收益,部分游戏分成比例达30%。 这一功能落地并非孤立动作,而是视频号在小游戏推广领域的重要补位——此前,平台已通过直播推游戏、主播激励计划等布局该赛道。 此举

今日大家都在搜的词: