超长视频生成的新突破！LongVie 框架让创作无界限

2025-08-20 17:53 · 来源： AIbase基地

在过去的两年中，视频生成技术经历了惊人的进步，尤其是短视频的创作。然而，制作超过一分钟的高质量、风格统一的超长视频仍然是一项巨大的挑战。对此，上海人工智能实验室联合南京大学、复旦大学、南洋理工大学 S-Lab 以及英伟达等机构，共同推出了 LongVie 框架，系统性解决了这一领域中的核心问题。

LongVie 的目标是让超长视频的生成变得更加可控和一致。团队发现，传统的视频生成模型在处理长视频时，常常面临时序不一致和视觉退化等难题。前者主要表现为画面细节与内容不连贯，后者则指随着视频时长的增加，画面颜色和清晰度的下降。

为了解决这些问题，LongVie 从 “控制信号” 和 “初始噪声” 两个方面入手。首先，团队提出了 “控制信号全局归一化” 策略，这意味着在生成视频时，不再只在单一片段内进行归一化，而是统一整个视频段的控制信号，从而提升跨片段的连贯性。其次，他们引入了 “统一噪声初始化” 策略，确保各个片段共享同一初始噪声，这样可以从源头上减少不同片段之间的视觉漂移。

在解决视觉退化问题上，LongVie 采用了多模态精细控制方法。单一模态的控制常常无法提供稳定的约束，而 LongVie 结合了密集控制信号（如深度图）和稀疏控制信号(如关键点)，并引入退化感知训练策略，使得模型在处理长视频时，能够保持更高的画质和细节。

此外，LongVie 还推出了 LongVGenBench，这是首个专为可控超长视频生成设计的基准数据集，包含100个超过1分钟的高分辨率视频，旨在推动该领域的研究与评测。根据定量指标和用户评测结果，LongVie 在多个评估上超越了现有技术，赢得了用户的高度偏好，达到了 SOTA（最先进技术）水平。

随着 LongVie 框架的问世，超长视频生成将迎来新的时代，创作者们将能够在更大的自由度下实现自己的创意。

项目地址：https://vchitect.github.io/LongVie-project/

相关推荐

荐AI日报：接入MJ！夸克发布造点AI；Wan2.5-Preview发布；可灵推最新视频生成模型可灵2.5Turbo

近日AI领域迎来多项重要更新：阿里夸克发布AI创作平台“造点”，整合通义万相Wan2.5与Midjourney V7，支持音画同步视频生成；Wan2.5-Preview实现多模态输入与电影级视频同步生成，提升视觉创作能力；可灵AI推出视频生成模型2.5Turbo并降价30%，降低使用门槛；阿里通义推出Qwen3-ASR-Toolkit，实现小时级音视频转录；谷歌相册AI编辑功能扩展至安卓用户，支持语音修图；谷歌Mixboard工具助力创意设计，生成情绪板；Qwen发布Qwen3-Max模型，在代码生成与智能体能力表现突出；Figma推出MCP服务器，实现设计到代码的一键转换，提升开发效率。

AI创作平台通义万相音画同步
科研抗老新突破！HBN推出新品双A醇晚霜3.0

HBN品牌六周年之际在上海举办“循迹·求真之旅”护肤讲堂，发布新品“双A醇晚霜3.0”。活动汇聚学界、医界权威，探讨抗老科研前沿与功效护肤趋势。刘玲玲教授分享皮肤衰老临床干预策略，刘玮教授解析系统性衰老生物标志物研究进展。新品基于扎实科研，联合重庆大学、浙大医学院研究A醇抗衰新机制，成果发表于高分期刊。双A醇晚霜3.0创新提出三维“细胞生态网”理念，整合三大自研原料：补骨脂阿魏酸酯实现高效温和，乙基三肽-30瓜氨酸提升皮肤弹性，昆仑雪菊提取物舒缓抗氧。产品质地轻薄易吸收，从根源改善松弛、下垂、皱纹问题，开启系统性抗老新时代。

HBN新品发布会真功效护肤讲堂双A醇晚霜3.0
荐B站想用「视频播客」吸引更多优质创作者

近两个月，「视频播客」作为一种新的内容形态火了起来。不止一个平台入局，不止一个创作者参与。鲁豫与易立竞的对谈，罗永浩与李想、何小鹏的对谈，不仅在B站获得百万播放，切片内容还在全网传播。最近，甚至有人建议罗永浩邀请贾国龙录一期《罗永浩的十字路口》。但「视频播客」与音频播客的区别是什么、与其他视频内容有何不同、市场空间和商业化前景如何�

视频播客内容形态平台入局
Reviews.ai 依托 DigitalOcean 高效实现 AI 业务扩展

Reviews.ai是一个消费者反馈聚合平台，帮助品牌将客户评论转化为可执行的洞察。该平台专注于评论分析，通过AI驱动功能（如按需报告、主题分类和智能代理）提升产品与服务。近期从Review Monitor更名后，团队迁移至DigitalOcean云平台，解决了原有专用服务器架构的扩展瓶颈。迁移过程在合作伙伴Aquazeel支持下高效完成，仅用数周，成本降低近30%。新架构采用Droplets、托管数据库和负载均衡器，支持灵活扩展。未来计划利用GPU Droplets增强AI能力，进一步优化大型语言模型处理效率。

消费者反馈品牌洞察评论分析
美团发布高效推理模型LongCat-Flash-Thinking：部分性能接近GPT5

9月23日，美团LongCat团队发布全新高效推理模型LongCat-Flash-Thinking。该模型在保持极致速度的同时，性能更强大、更专业，在逻辑、数学、代码、智能体等多个领域的推理任务中达到全球开源模型最先进水平（SOTA），部分任务性能接近闭源模型GPT5-Thinking。它增强了智能体自主调用工具能力，扩展了形式化定理证明能力，成为国内首个结合深度思考、工具调用与非形式化、形式化推理的大语言模型。在数学、代码、智能体等高复杂度任务上表现尤为突出，多项基准测试成绩领先开源及闭源顶尖模型，已在HuggingFace、Github全面开源。

高效推理模型 LongCat-Flash-Thinking 开源模型
专业级、电影感还是随手拍？佳能、富士、大疆三款热门Vlog视频机怎么选？

文章介绍了三款适合Vlog拍摄的热门设备：佳能R50V、富士X-S20和大疆Pocket 3。佳能R50V以轻巧机身（约323克）和6K超采4K视频为核心优势，支持全像素双核自动对焦、专业视频格式及竖屏直播优化，适合日常记录到专业创作。富士X-S20搭载2610万像素APS-C传感器，提供胶片模拟色彩和6.2K视频录制，兼顾画质与便携性。大疆Pocket 3主打稳定拍摄，配备1英寸传感器和三轴云台，支持4K/120fps视频，适合旅行快速出片。三款设备各具特色，满足不同Vlog创作者的需求。

佳能R50V 富士X-S20 大疆Pocket3
荐AI日报：美团发布推理大模型LongCat-Flash-Thinking；阿里Wan-Animate开源；字节推豆包翻译大模型

AI日报栏目聚焦人工智能领域最新动态。美团推出高性能推理大模型LongCat-Flash-Thinking；阿里开源Wan-Animate模型革新AI视频生成；字节跳动发布豆包翻译模型，支持28种语言互译；华为与浙大联合推出安全大模型DeepSeek-R1-Safe；阿里云即将发布跨模态模型Qwen3-Omni；xAI推出计算成本降低98%的Grok4Fast模型；YouTube发布多项AI创作辅助功能；IBM推出轻量级文档处理模型Granite-Docling-258M；中科院发布类脑大模型SpikingBrain实现百倍速度突破；OpenAI将推出仅限Pro用户的计算密集型新功能。

AI日报美团大模型 LongCat-Flash-Thinking
免费生成10秒高清视频！通义App接入通义万相2.5

在2025云栖大会上，阿里发布通义万相Wan2.5 Preview系列模型，覆盖文生视频、图生视频、文生图和图像编辑四大功能。其视频生成模型首次实现音画同步，可生成匹配画面的人声、音效和BGM，时长从5秒提升至10秒，支持24帧/秒的1080P高清输出，降低影视级创作门槛。模型指令遵循能力增强，支持运镜等复杂连续变化控制。用户通过通义App输入指令即可自动生成10秒高清视频，每日免费使用15次，支持导出无水印视频。同时，图像生成能力全面升级，可生成中英文字符和图表，支持图像编辑功能，一句话即可完成P图。

通义万相文生视频图生视频
天网杯纳米AI视频创作赛圆满落幕，ISC.AI学苑推动“教育AI+”新范式

9月23日，第三届“天网杯”网络安全大赛在天津落幕，吸引全国顶尖战队角逐，同期举办纳米AI视频创作赛。赛事聚焦个人信息保护、防诈骗等网络安全议题，通过“以赛促学”模式提升学生防护意识与AI应用能力。ISC.AI学苑作为平台支持，依托“纳米AI”技术降低创作门槛，推动“安全+AI”人才培养。大赛评选出24个奖项，并联合多所高校深化合作，促进AI技术在教育场景的落

天网杯网络安全大赛纳米AI
深度解读丨悠然无界大模型BLM-1.0：跨空间、跨任务与跨本体泛化的里程碑

9月28日，悠然大模型BLM-1.0完成迭代升级并全面开源。该模型突破数字与物理世界壁垒，实现跨空间迁移、跨任务学习与跨本体泛化能力，以统一模型覆盖多种机器人平台。在空间理解、推理与执行评估中综合超越同规模SOTA方法，支持工业制造、智慧城市等场景应用，推动空间智能生态共建。

悠然无界大模型 BLM-1.0 开源模型权重

今日大家都在搜的词：

热文

3 天
7天

超长视频生成的新突破！LongVie 框架让创作无界限

荐AI日报：接入MJ！夸克发布造点AI；Wan2.5-Preview发布；可灵推最新视频生成模型可灵2.5Turbo

科研抗老新突破！HBN推出新品双A醇晚霜3.0

荐B站想用「视频播客」吸引更多优质创作者

Reviews.ai 依托 DigitalOcean 高效实现 AI 业务扩展

美团发布高效推理模型LongCat-Flash-Thinking：部分性能接近GPT5

专业级、电影感还是随手拍？佳能、富士、大疆三款热门Vlog视频机怎么选？

荐AI日报：美团发布推理大模型LongCat-Flash-Thinking；阿里Wan-Animate开源；字节推豆包翻译大模型

免费生成10秒高清视频！通义App接入通义万相2.5

天网杯纳米AI视频创作赛圆满落幕，ISC.AI学苑推动“教育AI+”新范式

深度解读丨悠然无界大模型BLM-1.0：跨空间、跨任务与跨本体泛化的里程碑

今日大家都在搜的词：

热文

理想汽车推出焕新版L系限时优惠 10 月 8 日前享1.5万置换补贴

小米回应“小米汽车突然自己开走”：排除车辆质量问题

小米17 1TB版明日开售售价5299元

苹果iOS18.7.1正式版更新发布重要安全修复

OPPO A6开售：售价1599元起搭载7000mAh六年长寿电池

AI日报：豆包大模型1.6-vision发布；DeepSeek发布V3.2-exp模型

罗永浩替小米说公道话：海报小字是行业陋习

腾讯QQ闪传功能上线支持单文件最大10GB传输

苹果iOS 26.0.1正式版发布：修复iPhone 17系列Wi-Fi、拍照等Bu

王腾小红书账号注销快手账号已被封禁抖音账号已私密视频号已

OPPO Find X9系列定档：10月16日发布

鸿蒙智行享界S9T上市13天大定破 15000 台

理想汽车推出焕新版L系限时优惠 10 月 8 日前享1.5万置换补贴

站长商机