首页 > AI头条  > 正文

谁说视频只能“一镜到底”?字节创新技术LCT,让AI像导演一样拍摄电影大片!

2025-03-18 10:13 · 来源: AIbase基地

你是不是已经看惯了那些由AI生成的,虽然逼真但总感觉少了点“味道”的短视频?现在,一项名为长上下文调整 (Long Context Tuning, LCT) 的创新技术横空出世,它让AI视频生成模型拥有了执导多镜头叙事视频的能力,如同电影和电视剧那样,在不同镜头之间自由切换,构建出更连贯、更引人入胜的故事场景。

image.png

过去,顶尖的AI视频生成模型,比如SoRA,Kling,Gen3,已经能够创造出长达一分钟的逼真单镜头视频。但这与真实世界中,由多个镜头组成的叙事视频(比如电影中的一个场景)的需求之间存在巨大的鸿沟。一个电影场景通常由一系列捕捉同一连贯事件的不同单镜头视频组成。

例如,在电影《泰坦尼克号》中,杰克和露丝在甲板上相遇的经典场景就包含了四个主要的镜头:杰克回头的特写、露丝说话的中景、露丝走向杰克的广角镜头,以及杰克从背后拥抱露丝的特写。生成这样的场景,需要确保视觉外观(如人物特征、背景、光线和色调的一致性)和时间动态(如人物动作的节奏和相机运动的平滑度)在不同镜头之间保持高度的连贯性,从而保证叙事的流畅性。

为了弥合单镜头生成和多镜头叙事之间的差距,研究人员提出了多种方法,但大多存在局限性。一些方法依赖于输入关键的视觉元素(如人物身份和背景)来强制保持跨镜头的视觉一致性,但难以控制光线和色调等更抽象的元素。另一些方法则先生成一组连贯的关键帧,再利用图像到视频(I2V)模型独立合成每个镜头,这又难以保证镜头之间的时间一致性,并且稀疏的关键帧也限制了条件的有效性。

而LCT的出现,正是为了解决这些难题。它就像给预训练的单镜头视频扩散模型安装了一个“超强大脑”,使其能够处理更长的上下文信息,直接从场景级别的视频数据中学习镜头间的连贯性。LCT的核心在于以下几个创新设计:

全注意力机制的扩展:LCT将原本应用于单个镜头的全注意力机制扩展到包含场景内的所有镜头。这意味着模型在生成视频时,能够同时“关注”整个场景的所有视觉和文本信息,从而更好地理解和维护跨镜头的依赖关系。

交错的3D位置嵌入:为了让模型能够区分不同镜头中的token(文本和视频的基本单元),LCT引入了一种交错的3D旋转位置嵌入(RoPE)。这就像给每个镜头和其内部的token都打上了独特的“标签”,使得模型既能识别每个镜头的独立性,又能理解它们在整个场景中的相对位置关系。

异步噪声策略:LCT创新性地为每个镜头应用独立的扩散时间步。这使得在训练过程中,模型能够学习不同镜头之间的动态依赖关系,并更有效地利用跨镜头的信息。例如,当一个镜头的噪声水平较低时,它可以自然地作为视觉信息的丰富来源,指导其他噪声较高的镜头的去噪过程。这种策略也为后续的视觉条件输入和联合生成提供了便利.

实验结果表明,经过LCT调整的单镜头模型在生成连贯的多镜头场景方面表现出色,并展现出一些令人惊喜的新能力。例如,它可以根据给定的角色身份和环境图像进行组合生成,即使模型之前没有接受过此类任务的专门训练。此外,LCT模型还支持自回归的镜头扩展,无论是连续的单镜头延伸还是带有镜头切换的多镜头扩展都可以实现。这项特性对于长视频的创作尤其有用,因为它将长视频生成分解为多个场景片段,方便用户进行交互式修改。

更进一步,研究人员还发现,在LCT之后,具有双向注意力的模型可以进一步微调为上下文因果注意力。这种改进的注意力机制在每个镜头内部仍然保持双向关注,但在镜头之间,信息只能从先前的镜头流向后续镜头。这种单向的信息流使得在自回归生成过程中可以高效地利用KV-cache(一种缓存机制),从而显著降低计算开销。

如图1所示,LCT技术可以直接应用于短片制作,实现场景级的视频生成。更令人兴奋的是,它还催生了交互式多镜头导演、单镜头扩展以及零样本的组合生成等多种新兴能力,尽管模型从未针对这些特定任务进行过训练。如图2展示了一个场景级视频数据的示例,它包含全局提示(描述角色、环境和故事梗概)以及针对每个镜头的具体事件描述。

总而言之,长上下文调整(LCT) 通过扩展单镜头视频扩散模型的上下文窗口,使其能够直接从数据中学习场景级的连贯性,为更实用的视觉内容创作开辟了新的道路。这项技术不仅提升了AI生成视频的叙事能力和连贯性,也为未来的长视频生成和交互式视频编辑提供了新的思路。我们有理由相信,未来的视频创作将因为LCT等技术的进步而变得更加智能化和更具创造力。

项目地址:https://top.aibase.com/tool/zhangshangxiawentiaoyoulct

论文地址:https://arxiv.org/pdf/2503.10589

  • 相关推荐
  • Soul深耕AI社交,最新技术成果亮相WAIC 2025

    2025世界人工智能大会圆满落幕,Soul+App携自研端到端全双工语音通话大模型等创新成果亮相,展示AI重塑社交体验的潜力。该技术打破传统对话模式,支持多人语音互动,提升群聊参与度。Soul还展示多模态交互突破,包括实时视频生成能力,推动社交向“情感共生”进化。未来Soul将继续以“AI+社交”为核心,打造更智能、真实的社交体验,在AI社交赛道持续领跑。

  • AI日报:智谱AI发布AutoGLM 2.0;腾讯元宝接入腾讯视频;字节发布开源大语言模型 Seed-OSS

    本期AI日报聚焦多项AI技术突破:智谱发布革命性语音代理AutoGLM 2.0,实现全平台语音操控;腾讯元宝接入视频平台提升观影便捷性;字节跳动开源大模型Seed-OSS专注长文本处理;速卖通AI代理助力新品推广效率翻倍;微软测试Copilot智能文件搜索功能;Liquid AI推出低延迟视觉语言模型LFM2-VL;OpenAI月收入首破10亿美元;谷歌Pixel 10系列全面升级AI功能,包括情感识别和实时翻译;Pixel Buds Pro 2引入AI手势控制;ElevenLabs发布支持70+语言的文本转语音API。

  • 寒武纪:持续研发投入 聚力技术创新

    寒武纪2025年上半年业绩亮眼:总营收28.81亿元,同比增长4347.82%;归母净利润10.38亿元,增长295.82%。业绩增长得益于AI算力需求持续增长,公司凭借AI芯片核心优势,深化与大模型、互联网等领域头部企业技术合作。持续加大研发投入达4.56亿元,研发团队792人占比77.95%,80.18%为硕士及以上学历。新一代智能处理器微架构和指令集正在研发,基础系统软件平台持续优化迭代,训练和推理平台功能增强,支撑大模型预训练和强化学习业务。

  • 再次定义行业创新范式 跃然创新推出全球首款端到端 AI 玩具 CocoMate

    8月26日,跃然创新推出全球首款搭载端到端语音模型的AI玩具CocoMate系列。该产品采用可拆卸设计,配备3000mAh电池,支持4G和WiFi网络。依托端到端技术,具备丰富交互表现和拟人化情感能力,支持多重唤醒、主题游戏及聊天室等功能。新品将于8月27日开售,首发包含奥特曼及原创IP“泡泡”等角色,后续还将上线财神爷、塔罗猫等系列,目标人群从儿童延伸至成年人。

  • 三星Galaxy Watch8系列:帮你解锁不一样的新学期

    新学期开始,假期放松感逐渐褪去。文章强调开学不仅是课程更新,更是生活方式的调整。通过三星Galaxy Watch8系列智能手表,可科学管理作息、饮食和情绪,帮助养成良好习惯,以充沛精力迎接学业挑战。该手表提供睡眠监测、压力趋势分析等功能,助你实现自我提升,成为更好的自己。

  • 大厂押注的AI和视频化,能成为播客的好出路吗?

    长期在国内市场不温不火的播客赛道,正在焕发出越来越蓬勃的新机。 8月15日,自带流量和多重话题标签的罗永浩入驻B站,并宣布将开启一档视频播客节目《罗永浩的十字路口》,8月19日,罗永浩发布了第一条视频播客,与理想汽车创始人李想进行了近4小时的深度对话,一度引发热议,在B站内的观看量超230万。 而由罗永浩掀起的这一波流量热潮背后,可以看出B站对于视频

  • AI日报:抖音打击AI技术滥用行为;OpenAI 收购开发数据分析平台 Statsig;ElevenLabs 音效模型更新

    抖音打击AI技术滥用行为,对违规商家和达人采取下架、清退等措施。ElevenLabs音效模型升级至版本2,支持长音频和无缝循环。OpenAI收购数据分析平台Statsig,增强产品迭代能力。亚马逊推出Lens Live AI功能,实时扫描购物。谷歌AI推出Stax工具,帮助开发者评估大语言模型。WordPress推出AI工具Telex简化网站构建。Liquid AI发布LFM2-VL模型,提升手机视觉语言处理。苹果开源FastVLM与MobileCLIP2模型,优化边缘设备AI应用。MetaGPT推出自动化测试工具RealDevWorld,精准率达92%。瑞士发布开源大模型Apertus,提供多语言处理能力。

  • 从番茄到红果,张超和他的“狼群”崛起字节

    几周前,小红书上某位“大厂”博主发布的笔记突然火了,这篇笔记的封面写道:“张超太能打了,西瓜没做到的事,红果做到了。” 熟悉互联网圈的人,都知道红果短剧是字节旗下的新锐业务,近期刚刚在DAU指标上,完成了对传统视频平台优酷的反超。而没那么熟悉互联网圈的人,都在问一个问题:张超是谁? 张超,早年间曾在百度任职,2016年加入字节跳动,先后负责过今日

  • DTCC2025丨达梦以智算多模与AI创新引领行业变革

    近日,IT168联合旗下ITPUB、ChinaUnix两大技术社区主办的第十六届中国数据库技术大会(DTCC2025)在京隆重召开。大会以“智能创新 数赢未来”为主题,汇聚超百位行业专家及上千名嘉宾,聚焦数据库领域前沿技术。达梦数据作为领军企业受邀参会,重点展示了其在多模数据处理与AI+数据库融合方面的突破,推出“智算多模”引擎,实现统一存储与智能查询,为行业智能化发展注入新动能。

  • 推荐2025年必种草的AI一键ppt转视频创作工具

    文章介绍了三款AI工具(课件帮、Visionstory、Fliki),可将静态PPT快速转换为动态视频微课。这些工具操作简便,支持自动生成口播稿、多语言配音、智能字幕及动画效果,适用于教育、企业培训等多种场景,无需专业技能即可上手,大幅提升视频制作效率。

今日大家都在搜的词: