首页 > 业界 > 关键词  > LLM最新资讯  > 正文

突破性文本生成视频方法LVD,利用LLM创建动态场景布局

2023-10-10 16:16 · 稿源:站长之家

文章概要:

1. 困扰文本提示生成视频的挑战:研究团队引入LLM-Grounded Video Diffusion(LVD)方法,以解决生成复杂时空动态视频的问题。

2. LVD采用大型语言模型(LLMs)来创建动态场景布局(DSLs),作为视频生成的蓝图,同时发现LLMs具有惊人的能力来捕捉时空关系和复杂动态。

3. LVD结果显著优于基本视频扩散模型,为纯文本提示生成与所需属性和运动模式相符的视频,为内容创作和视频生成等应用开辟了新的可能性。

站长之家(ChinaZ.com)10月10日 消息:针对从文本提示生成视频所面临的挑战,一支研究团队引入了一种新方法,名为LLM-Grounded Video Diffusion(LVD)。核心问题在于,现有模型难以准确表示文本提示中描述的复杂时空动态。

为了提供背景,文本到视频生成是一项复杂的任务,因为它要求仅基于文本描述生成视频。尽管以前曾尝试解决这个问题,但它们在生成的视频在空间布局和时间动态方面与给定提示的匹配方面通常表现不佳。

image.png

然而,LVD采用了一种不同的方法。它不是直接从文本输入生成视频,而是利用大型语言模型(LLMs)首先根据文本描述创建动态场景布局(DSLs)。这些DSLs本质上充当了随后的视频生成过程的蓝图或指南。

尤为引人注目的是,研究人员发现LLMs具有出人意料的能力,可以生成这些DSLs,不仅捕捉了空间关系,还捕捉了复杂的时空动态。这对于仅基于文本提示准确反映现实世界场景的视频生成至关重要。

为了使这个过程更具体,LVD引入了一种算法,利用DSLs来控制视频扩散模型中生成物体级空间关系和时空动态的方式。重要的是,这种方法不需要大量的训练;它是一种无需训练的方法,可以集成到各种具有分类器指导能力的视频扩散模型中。

image.png

LVD的结果非常显著。它在生成视频方面明显优于基本视频扩散模型和其他强基线方法,能够忠实地遵循文本提示中所需的属性和运动模式。LVD生成的文本和视频之间的相似性为0.52。不仅如此,文本和视频之间的相似性,以及视频的质量都超越了其他模型。

可见,LVD是一种开创性的文本到视频生成方法,利用LLMs的能力来生成动态场景布局,最终提高了从复杂文本提示生成的视频的质量和保真度。这种方法有潜力在内容创作和视频生成等各种应用中开辟新的可能性。

论文网址:https://arxiv.org/abs/2309.17444

举报

  • 相关推荐
  • 阿里开源通义新模型:指定首尾图片生成视频

    快科技4月18日消息,据报道,阿里巴巴旗下通义万相宣布开源其创新视频生成技术首尾帧生视频14B模型。这项突破性AI技术能够根据用户提供的起始和结束画面,智能生成720p高清过渡视频,为视频创作带来全新可能。该模型通过先进的深度学习算法,能够精准理解输入画面的内容、风格及主题特征。当用户提供首尾两帧图像后,模型会智能分析画面中的视觉元素,包括物体形�

  • 可灵AI开启视频生成2.0时代!全球用户数已突破2200万

    4 月 15 日,快手可灵AI在北京中关村国际创新中心举行“灵感成真”2. 0 模型发布会,宣布基座模型再次升级,面向全球正式发布可灵2. 0 视频生成模型及可图2. 0 图像生成模型。

  • 乐其创新SmallRig:推动影像配件从“主机配角”迈向“场景主角”

    手机品牌在影像功能上的竞争日趋激烈,硬件参数和计算摄影技术的进步推动了移动影像的发展。随着旗舰手机的影像硬件逐渐接近物理极限,画质差异缩小,用户对影像设备的需求从单纯的画质追求转向创作自由度和场景适应性,这一转变使得影像配件的重要性日益凸显。无论是普通用户还是专业创作者,都可以通过配件实现更高效、更灵活的影像创作。

  • 港仔机器人发展人形机器人产业生态 布局多个应用场景

    4月21日,港仔机器人公司与国华达闼战略合作签约暨公司成立媒体见面会在京举行。该公司将专注定制化机器人开发制造,瞄准教育、医疗健康、长者照护、物业管理等多元场景需求,打造一站式MaaS解决方案。同时成立研究院推动跨学科研究及商业化应用,并在香港建立人形机器人生产线。目前已在康养、智能医疗等领域取得进展,其养老机器人已获市场认可。公司计划到2035年生产2亿台家庭保姆机器人,服务4亿老人。与南通市政府合作的康养示范区项目将服务3000名用户,预计带来可观订单。据行业报告预测,2025年中国人形机器人市场规模将达53亿元,2029年或突破750亿元。公司将持续发力技术研发和市场拓展,抢占行业先机。

  • “支付宝碰一下”最新披露:布局400城、超300种行业场景全覆盖

    支付宝"碰一碰"支付功能上线321天取得亮眼成绩:已覆盖全国400+城市,接入5000+品牌、千万商家,拓展至餐饮、出行等300种细分场景,用户数破亿且半数为30岁以下年轻人。该功能通过NFC技术实现手机解锁即付,简化支付流程,并推出17款场景化产品。支付宝宣布投入百亿资源支持生态建设,包括免费升级商家收银设备、发放消费补贴等。复旦大学与支付宝联合研发的国产芯片为技术底座,实现全产业链自主可控。目前该功能已形成完整生态链,成为连接用户与服务的新入口,推动数字经济发展。

  • 康佳集团深化数字生态布局 家庭场景大数据平台重塑智能家电体验

    康佳集团近期以数字技术为核心驱动,在智能家电、半导体及白电领域取得多项突破。旗下易平方公司打造的“家庭场景大数据应用服务平台”入选重庆市数字经济产业发展试点示范项目。在半导体技术商业化进程中,重庆康佳光电还实现关键突破:MicroLED红光芯片键合良率提升至98%,带动MiniLED直显屏单月出货量环比明显增长。其参与编制的《Mini/Micro LED显示屏Mura缺陷评价方�

  • 低端显卡登上AI的大船!6GB显存就能生成高质量视频

    快科技4月20日消息,GitHub的Lvmin Zhang联合斯坦福大学的Maneesh Agrawala,发布了一项突破性的新技术FramePack,通过在视频扩散模型中使用固定长度的时域上下文,可以更高效地生成时间更长、质量更高的视频。根据实测,基于FramePack构建的130亿参数模型,只需一块6GB显存的显卡,就能生成60秒钟的视频。FramePack是一种神经网络架构,使用多级优化策略,完成本地AI视频生成。目前,�

  • 谷歌Gemini整合Veo 2视频生成模型,8秒720P视频轻松搞定

    谷歌宣布又有一款 AI 模型将加入 Gemini,但这次它不仅仅是一个聊天机器人。

  • 视频生成模型Vidu Q1怎么用?Vidu Q1官网是什么?

    国产视频生成大模型Vidu Q1在性能、价格和功能上实现重大突破。该模型由生数科技推出,在VBench评测中超越Sora等国内外顶尖模型,支持1080p高清视频生成,每秒价格低至3毛钱。其首尾帧功能仅需两张图即可实现电影级运镜效果,支持多元风格生成和48kHz高采样率混音功能。Vidu Q1已深度赋能影视、广告、动漫等行业,大幅降低创作门槛。

  • 谷歌A2A协议的应用场景有哪些?A2A协议的使用场景是什么?

    本文比较了谷歌A2A协议与Anthropic MCP协议在智能体交互方面的差异。MCP协议采用Client-Server架构,专注于标准化AI与外部资源的交互,包含资源、提示、工具和采样四大核心机制,适合处理结构化任务。A2A协议则侧重智能体间的动态协作,支持跨平台任务分配与通信,具有能力发现、协作、用户体验协商和任务管理等功能。两者虽各有优势但存在互补性:MCP在技术实现上更复杂耦合度高,A2A则因开放性设计更吸引开发者。随着AI技术进步,这两种协议都将推动行业向更智能高效的生态系统发展。