首页 > AI头条  > 正文

超长视频生成的新突破!LongVie 框架让创作无界限

2025-08-20 17:53 · 来源: AIbase基地

在过去的两年中,视频生成技术经历了惊人的进步,尤其是短视频的创作。然而,制作超过一分钟的高质量、风格统一的超长视频仍然是一项巨大的挑战。对此,上海人工智能实验室联合南京大学、复旦大学、南洋理工大学 S-Lab 以及英伟达等机构,共同推出了 LongVie 框架,系统性解决了这一领域中的核心问题。

LongVie 的目标是让超长视频的生成变得更加可控和一致。团队发现,传统的视频生成模型在处理长视频时,常常面临时序不一致和视觉退化等难题。前者主要表现为画面细节与内容不连贯,后者则指随着视频时长的增加,画面颜色和清晰度的下降。

image.png

为了解决这些问题,LongVie 从 “控制信号” 和 “初始噪声” 两个方面入手。首先,团队提出了 “控制信号全局归一化” 策略,这意味着在生成视频时,不再只在单一片段内进行归一化,而是统一整个视频段的控制信号,从而提升跨片段的连贯性。其次,他们引入了 “统一噪声初始化” 策略,确保各个片段共享同一初始噪声,这样可以从源头上减少不同片段之间的视觉漂移。

在解决视觉退化问题上,LongVie 采用了多模态精细控制方法。单一模态的控制常常无法提供稳定的约束,而 LongVie 结合了密集控制信号(如深度图)和稀疏控制信号(如关键点),并引入退化感知训练策略,使得模型在处理长视频时,能够保持更高的画质和细节。

image.png

此外,LongVie 还推出了 LongVGenBench,这是首个专为可控超长视频生成设计的基准数据集,包含100个超过1分钟的高分辨率视频,旨在推动该领域的研究与评测。根据定量指标和用户评测结果,LongVie 在多个评估上超越了现有技术,赢得了用户的高度偏好,达到了 SOTA(最先进技术)水平。

随着 LongVie 框架的问世,超长视频生成将迎来新的时代,创作者们将能够在更大的自由度下实现自己的创意。

项目地址:https://vchitect.github.io/LongVie-project/

  • 相关推荐
  • AI日报:接入MJ!夸克发布造点AI;Wan2.5-Preview发布;可灵推最新视频生成模型可灵2.5Turbo

    近日AI领域迎来多项重要更新:阿里夸克发布AI创作平台“造点”,整合通义万相Wan2.5与Midjourney V7,支持音画同步视频生成;Wan2.5-Preview实现多模态输入与电影级视频同步生成,提升视觉创作能力;可灵AI推出视频生成模型2.5Turbo并降价30%,降低使用门槛;阿里通义推出Qwen3-ASR-Toolkit,实现小时级音视频转录;谷歌相册AI编辑功能扩展至安卓用户,支持语音修图;谷歌Mixboard工具助力创意设计,生成情绪板;Qwen发布Qwen3-Max模型,在代码生成与智能体能力表现突出;Figma推出MCP服务器,实现设计到代码的一键转换,提升开发效率。

  • 科研抗老新突破!HBN推出新品双A醇晚霜3.0

    HBN品牌六周年之际在上海举办“循迹·求真之旅”护肤讲堂,发布新品“双A醇晚霜3.0”。活动汇聚学界、医界权威,探讨抗老科研前沿与功效护肤趋势。刘玲玲教授分享皮肤衰老临床干预策略,刘玮教授解析系统性衰老生物标志物研究进展。新品基于扎实科研,联合重庆大学、浙大医学院研究A醇抗衰新机制,成果发表于高分期刊。双A醇晚霜3.0创新提出三维“细胞生态网”理念,整合三大自研原料:补骨脂阿魏酸酯实现高效温和,乙基三肽-30瓜氨酸提升皮肤弹性,昆仑雪菊提取物舒缓抗氧。产品质地轻薄易吸收,从根源改善松弛、下垂、皱纹问题,开启系统性抗老新时代。

  • B站想用「视频播客」吸引更多优质创作者

    近两个月,「视频播客」作为一种新的内容形态火了起来。不止一个平台入局,不止一个创作者参与。鲁豫与易立竞的对谈,罗永浩与李想、何小鹏的对谈,不仅在B站获得百万播放,切片内容还在全网传播。最近,甚至有人建议罗永浩邀请贾国龙录一期《罗永浩的十字路口》。 但「视频播客」与音频播客的区别是什么、与其他视频内容有何不同、市场空间和商业化前景如何�

  • Reviews.ai 依托 DigitalOcean 高效实现 AI 业务扩展

    Reviews.ai是一个消费者反馈聚合平台,帮助品牌将客户评论转化为可执行的洞察。该平台专注于评论分析,通过AI驱动功能(如按需报告、主题分类和智能代理)提升产品与服务。近期从Review Monitor更名后,团队迁移至DigitalOcean云平台,解决了原有专用服务器架构的扩展瓶颈。迁移过程在合作伙伴Aquazeel支持下高效完成,仅用数周,成本降低近30%。新架构采用Droplets、托管数据库和负载均衡器,支持灵活扩展。未来计划利用GPU Droplets增强AI能力,进一步优化大型语言模型处理效率。

  • 美团发布高效推理模型LongCat-Flash-Thinking:部分性能接近GPT5

    9月23日,美团LongCat团队发布全新高效推理模型LongCat-Flash-Thinking。该模型在保持极致速度的同时,性能更强大、更专业,在逻辑、数学、代码、智能体等多个领域的推理任务中达到全球开源模型最先进水平(SOTA),部分任务性能接近闭源模型GPT5-Thinking。它增强了智能体自主调用工具能力,扩展了形式化定理证明能力,成为国内首个结合深度思考、工具调用与非形式化、形式化推理的大语言模型。在数学、代码、智能体等高复杂度任务上表现尤为突出,多项基准测试成绩领先开源及闭源顶尖模型,已在HuggingFace、Github全面开源。

  • 专业级、电影感还是随手拍?佳能、富士、大疆三款热门Vlog视频机怎么选?

    文章介绍了三款适合Vlog拍摄的热门设备:佳能R50V、富士X-S20和大疆Pocket 3。佳能R50V以轻巧机身(约323克)和6K超采4K视频为核心优势,支持全像素双核自动对焦、专业视频格式及竖屏直播优化,适合日常记录到专业创作。富士X-S20搭载2610万像素APS-C传感器,提供胶片模拟色彩和6.2K视频录制,兼顾画质与便携性。大疆Pocket 3主打稳定拍摄,配备1英寸传感器和三轴云台,支持4K/120fps视频,适合旅行快速出片。三款设备各具特色,满足不同Vlog创作者的需求。

  • AI日报:美团发布推理大模型LongCat-Flash-Thinking;阿里Wan-Animate开源;字节推豆包翻译大模型

    AI日报栏目聚焦人工智能领域最新动态。美团推出高性能推理大模型LongCat-Flash-Thinking;阿里开源Wan-Animate模型革新AI视频生成;字节跳动发布豆包翻译模型,支持28种语言互译;华为与浙大联合推出安全大模型DeepSeek-R1-Safe;阿里云即将发布跨模态模型Qwen3-Omni;xAI推出计算成本降低98%的Grok4Fast模型;YouTube发布多项AI创作辅助功能;IBM推出轻量级文档处理模型Granite-Docling-258M;中科院发布类脑大模型SpikingBrain实现百倍速度突破;OpenAI将推出仅限Pro用户的计算密集型新功能。

  • 免费生成10秒高清视频!通义App接入通义万相2.5

    在2025云栖大会上,阿里发布通义万相Wan2.5 Preview系列模型,覆盖文生视频、图生视频、文生图和图像编辑四大功能。其视频生成模型首次实现音画同步,可生成匹配画面的人声、音效和BGM,时长从5秒提升至10秒,支持24帧/秒的1080P高清输出,降低影视级创作门槛。模型指令遵循能力增强,支持运镜等复杂连续变化控制。用户通过通义App输入指令即可自动生成10秒高清视频,每日免费使用15次,支持导出无水印视频。同时,图像生成能力全面升级,可生成中英文字符和图表,支持图像编辑功能,一句话即可完成P图。

  • 天网杯纳米AI视频创作赛圆满落幕,ISC.AI学苑推动“教育AI+”新范式

    9月23日,第三届“天网杯”网络安全大赛在天津落幕,吸引全国顶尖战队角逐,同期举办纳米AI视频创作赛。赛事聚焦个人信息保护、防诈 骗等网络安全议题,通过“以赛促学”模式提升学生防护意识与AI应用能力。ISC.AI学苑作为平台支持,依托“纳米AI”技术降低创作门槛,推动“安全+AI”人才培养。大赛评选出24个奖项,并联合多所高校深化合作,促进AI技术在教育场景的落

  • 深度解读丨悠然无界大模型BLM-1.0:跨空间、跨任务与跨本体泛化的里程碑

    9月28日,悠然大模型BLM-1.0完成迭代升级并全面开源。该模型突破数字与物理世界壁垒,实现跨空间迁移、跨任务学习与跨本体泛化能力,以统一模型覆盖多种机器人平台。在空间理解、推理与执行评估中综合超越同规模SOTA方法,支持工业制造、智慧城市等场景应用,推动空间智能生态共建。

今日大家都在搜的词: