AIbase报道 香港大学与快手可灵团队近日联合发表重磅论文《Context as Memory: Scene-Consistent Interactive Long Video Generation with Memory Retrieval》,提出革命性的"Context-as-Memory"方法,成功解决长视频生成中场景一致性控制的核心难题。
创新理念:将历史上下文作为"记忆"载体
该研究的核心创新在于将历史生成的上下文视为"记忆",通过context learning技术学习上下文条件,实现长视频前后场景的高度一致性控制。研究团队发现,视频生成模型能够隐式学习视频数据中的3D先验,无需显式3D建模辅助,这一理念与谷歌Genie3不谋而合。
技术突破:FOV记忆检索机制大幅提升效率
为解决历史帧序列理论上可无限延长带来的计算负担,研究团队提出基于相机轨迹视场(FOV)的记忆检索机制。该机制能从全部历史帧中智能筛选出与当前生成视频高度相关的帧作为记忆条件,显著提升计算效率并降低训练成本。
通过动态检索策略,系统根据相机轨迹FOV重叠关系判断预测帧与历史帧的关联度,大幅减少需要学习的上下文数量,实现模型训练和推理效率的质的飞跃。
数据构建与应用场景
研究团队基于Unreal Engine5收集了多样化场景、带有精确相机轨迹标注的长视频数据集,为技术验证提供坚实基础。用户仅需提供一张初始图像,即可沿设定相机轨迹自由探索生成的虚拟世界。
性能表现超越现有方法
实验结果显示,Context-as-Memory在几十秒时间尺度下保持出色的静态场景记忆力,并在不同场景中展现良好泛化性。与现有SOTA方法对比,该技术在长视频生成场景记忆力方面实现显著性能提升,且能在未见过的开放域场景中有效保持记忆连续性。
此次突破标志着AI视频生成技术向着更长时序、更高一致性的方向迈出重要一步,为虚拟世界构建、影视制作等应用领域开辟新的可能性。