首页 > 业界 > 关键词  > LLM最新资讯  > 正文

突破性文本生成视频方法LVD,利用LLM创建动态场景布局

2023-10-10 16:16 · 稿源:站长之家

文章概要:

1. 困扰文本提示生成视频的挑战:研究团队引入LLM-Grounded Video Diffusion(LVD)方法,以解决生成复杂时空动态视频的问题。

2. LVD采用大型语言模型(LLMs)来创建动态场景布局(DSLs),作为视频生成的蓝图,同时发现LLMs具有惊人的能力来捕捉时空关系和复杂动态。

3. LVD结果显著优于基本视频扩散模型,为纯文本提示生成与所需属性和运动模式相符的视频,为内容创作和视频生成等应用开辟了新的可能性。

站长之家(ChinaZ.com)10月10日 消息:针对从文本提示生成视频所面临的挑战,一支研究团队引入了一种新方法,名为LLM-Grounded Video Diffusion(LVD)。核心问题在于,现有模型难以准确表示文本提示中描述的复杂时空动态。

为了提供背景,文本到视频生成是一项复杂的任务,因为它要求仅基于文本描述生成视频。尽管以前曾尝试解决这个问题,但它们在生成的视频在空间布局和时间动态方面与给定提示的匹配方面通常表现不佳。

image.png

然而,LVD采用了一种不同的方法。它不是直接从文本输入生成视频,而是利用大型语言模型(LLMs)首先根据文本描述创建动态场景布局(DSLs)。这些DSLs本质上充当了随后的视频生成过程的蓝图或指南。

尤为引人注目的是,研究人员发现LLMs具有出人意料的能力,可以生成这些DSLs,不仅捕捉了空间关系,还捕捉了复杂的时空动态。这对于仅基于文本提示准确反映现实世界场景的视频生成至关重要。

为了使这个过程更具体,LVD引入了一种算法,利用DSLs来控制视频扩散模型中生成物体级空间关系和时空动态的方式。重要的是,这种方法不需要大量的训练;它是一种无需训练的方法,可以集成到各种具有分类器指导能力的视频扩散模型中。

image.png

LVD的结果非常显著。它在生成视频方面明显优于基本视频扩散模型和其他强基线方法,能够忠实地遵循文本提示中所需的属性和运动模式。LVD生成的文本和视频之间的相似性为0.52。不仅如此,文本和视频之间的相似性,以及视频的质量都超越了其他模型。

可见,LVD是一种开创性的文本到视频生成方法,利用LLMs的能力来生成动态场景布局,最终提高了从复杂文本提示生成的视频的质量和保真度。这种方法有潜力在内容创作和视频生成等各种应用中开辟新的可能性。

论文网址:https://arxiv.org/abs/2309.17444

举报

  • 相关推荐
  • LR-99益生菌为孤独症治疗带来新希望,哈佛团队确认突破性效果

    孤独症也称自闭症,是一种发生于儿童早期的神经发育障碍性疾病,病因不清,一般起病于3岁前,以社交沟通障碍、兴趣狭隘、行为重复刻板为主要特征,严重影响儿童社会功能和生活质量。这些孩子就像天上的星星,在自己的世界里独自闪烁,因此也被叫作“星星的孩子”。LR-99的发现和应用,无疑为这一庞大患者群体带来了福音,有望让更多星星的孩子走出孤独,拥抱温暖的世界。

  • GPU算力重构用户体验:中国移动×摩尔线程云电脑突破性能瓶颈

    在数字化全面推进的背景下,云电脑凭借其高效协同与灵活部署的显著优势,已成为个人用户的优选方案。传统云电脑在用户体验与成本效益方面的短板,长期制约其规模化发展。通过不断的技术创新和合作深化,摩尔线程与中国移动将共同引领云电脑技术的发展,为用户带来更加卓越的体验,为行业树立新的标杆。

  • 政策驱动下,AI代码生成的三大技术突破方向

    国家对人工智能领域高度重视,出台了一系列政策推动其发展。《新一代人工智能发展规划》明确指出,要加快人工智能关键技术突破,促进人工智能与各行业深度融合。未来随着技术的持续迭代,以飞算JavaAI为代表的编程辅助工具将为软件行业的高效发展注入新动能,推动行业迈向更高峰。

  • 网民利用AI生成明星“澳门赌博输10亿”谣言被拘留

    一则关于"顶流明星在澳门输了10亿"的虚假信息在网络上广泛传播,引发公众热议和大量猜测。经公安机关调查查明,此消息纯属谣言。也警示广大网民不要滥用AI工具制造和传播虚假信息,否则将面临法律制裁。

  • 刘晓庆打假AI生成假冒视频:画面、声音像我 但不是我

    快科技3月3日消息,今日,有微博网友@刘晓庆反馈,称微信视频号有博主用AI生成视频假冒她。随后,刘晓庆转发并配文:天哪,我点进去看了一下,画面是我,声音很像我,但不是我!这是怎么做到的?大家以后不会搞不清楚哪个才是真的我了吧?我在各个平台都叫刘晓庆。”据了解,该网友反馈的假冒刘晓庆的微信视频号名为晓庆人生”,目前,该账号已无法在微信中搜索

  • AI FOR ALL驱动AI生态创新 中兴通讯全场景AI终端亮相MWC2025

    北京时间3月3日,中兴通讯以”AIFORALL“为主题,携全队列多形态AI终端亮相2025年世界移动通信大会,展现AI驱动的全场景智慧生态。众多创新终端全球首发,包括红魔首款4K裸眼3D游戏本、第二代小折叠努比亚Flip2、AI耳机等智能穿戴设备,以及依托AI、5G-A、WiFi7等前沿技术打造的多款FWA&MBB新品。在当今数字化浪潮的推动下,中兴通讯终端业务将持续推进“AIFORAll”产品战略与核�

  • 腾讯混元一口气开源5个3D生成模型:最快30秒生成

    腾讯最新公告,一口气开源5个3D生成模型,通过腾讯混元3D官网即可体验。这5个开源模型均基于Hunyuan3D-2.0打造:Turbo系列模型:在保证高精度和高质量的基础上,对几何生成模型进行了数十倍的加速,确保整个生成过程能够在30秒内完成。除通用OBJ、GLB、FBX外,可输出STL、USDZ及MP4等主流格式,无缝连接3D打印工具,也可支持模型快速预览及移动端实时交互,满足不同业务场景对3D模型格式的使用要求。

  • Soul App实时人像视频生成研究成果获国际学术顶会CVPR2025录用

    IEEE国际计算机视觉与模式识别会议CVPR2025公布论文录用结果,社交平台SoulApp技术论文《Teller:Real-TimeStreamingAudio-DrivenPortraitAnimationwithAutoregressiveMotionGeneration》被接收。SoulApp团队在论文中提出了一个新的面向实时音频驱动人像动画的自回归框架,解决了视频画面生成耗时长的行业挑战外实现了说话时头部生成以及人体各部位运动的自然性和逼真性。Soul将把最新的AI能力尽快落地到站内多元场景中,如即将上线的实时视频通话能力将融入平台的AI虚拟人情感化陪伴体系“虚拟伴侣”、多对多互动场景“群聊派对”等功能中,进一步提升平台AI虚拟人的交互能力,以及人机交互的在场感和情感温度,为用户带来有趣、温暖的社交体验。

  • 小鹅通:“每次创建直播都要捣鼓很久,用户还找不到观看入口...我太难了!”

    登录小鹅通管理台体验完整的知识店铺能实现更完整和丰富的效果哦!“每次在开电脑上创建直播很麻烦?登录小鹅通管理台体验完整的知识店铺能实现更完整和丰富的效果哦!

  • 迭变的小熊电器:从造产品、造场景到造生活

    当父辈们还在回味攒半年工资抢购彩电的峥嵘岁月时,新一代中产早已把空气炸锅、破壁机、早餐机、扫地机器人等“生活外挂”加入购物车。 《中国小家电行业现状深度分析与发展前景研究报告》显示,中国家庭户均拥有小家电数量为9. 5 个。而艾媒咨询的调研结果表明,中国智能小家电消费者年龄集中在26- 40 岁,占比超过七成,且大多具有中等及以上收入水平。 在冰箱�

热文

  • 3 天
  • 7天