昆仑万维开源SkyReels-V2：无限时长电影生成模型

2025-04-21 11:01 · 来源： AIbase基地

昆仑万维 SkyReels 团队正式发布并开源了 SkyReels-V2，这是全球首个使用扩散强迫（Diffusion-forcing）框架的无限时长电影生成模型。该模型通过结合多模态大语言模型(MLLM)、多阶段预训练、强化学习和扩散强迫框架来实现协同优化，标志着视频生成技术迈入了一个新的阶段。

SkyReels-V2的发布旨在解决现有视频生成技术在提示词遵循、视觉质量、运动动态和视频时长协调上的重大挑战。该模型不仅在技术上实现了突破，还提供了多种应用场景，包括故事生成、图生视频、运镜专家和多主体一致性视频生成（SkyReels-A2）。SkyReels-V2现已支持生成30秒、40秒的视频，并具备生成高运动质量、高一致性、高保真视频的能力。

微信截图_20250421110023.png

SkyReels-V2的核心技术创新包括:

全面的影视级视频理解模型 SkyCaptioner-V1:通过结构化的视频表示方法，结合多模态 LLM 的一般描述与子专家模型的详细镜头语言，显著提高了对镜头语言的理解能力。该模型能够高效地理解视频数据，生成符合原始结构信息的多样化描述。
针对运动的偏好优化:通过强化学习训练，使用人工标注和合成失真数据，解决了动态扭曲、不合理等问题。SkyReels-V2在运动动态方面表现出色，能够生成流畅且逼真的视频内容。
高效的扩散强迫框架:通过微调预训练的扩散模型，将其转化为扩散强迫模型，显著提高了生成效率。该方法不仅减少了训练成本，还实现了长视频的高效生成。
渐进式分辨率预训练与多阶段后训练优化:整合了来自通用数据集、自收集媒体和艺术资源库的亿级数据，通过多阶段优化方法，确保了 SkyReels-V2在资源有限的情况下，逐步提升多方面的表现，达到影视级视频生成的水准。

在性能评估方面，SkyReels-V2在 SkyReels-Bench 和 V-Bench 中表现出色。SkyReels-Bench 包含1020个文本提示词，系统性地评估了四个关键维度:指令遵循、运动质量、一致性和视觉质量。在 SkyReels-Bench 评估中，SkyReels-V2在指令遵循方面取得了显著进展，同时在保证运动质量的同时不牺牲视频的一致性效果。在 V-Bench1.0自动化评估中，SkyReels-V2在总分（83.9%）和质量分(84.7%)上均优于所有对比模型，包括 HunyuanVideo-13B 和 Wan2.1-14B。

SkyReels-V2的应用场景丰富多样，包括:

故事生成:通过滑动窗口方法，模型在生成新帧时会参考之前生成的帧和文本提示，支持时间上的扩展，生成具有连贯叙事的长镜头视频。
图像到视频合成:提供了两种图像到视频（I2V）的生成方法，包括微调全序列文本到视频(T2V)扩散模型和扩散强迫模型与帧条件结合的方法。
摄像导演功能:通过专门筛选的样本，确保基本摄像机运动及其常见组合的平衡表示，显著提升了摄影效果。
元素到视频生成:基于 SkyReels-V2基座模型，研发了 SkyReels-A2方案，能够将任意视觉元素组合成由文本提示引导的连贯视频。

昆仑万维 SkyReels 团队表示，将继续推动视频生成技术的发展，并将 SkyCaptioner-V1和 SkyReels-V2系列模型进行完全开源，以促进学术界和工业界的进一步研究和应用。团队还将继续优化 SkyReels-V2的性能，探索更多应用场景，并进一步降低计算成本，使其能够更广泛地应用于创意内容制作和虚拟仿真领域。

GitHub地址:
https://github.com/SkyworkAI/SkyReels-V2
论文地址:
https://arxiv.org/abs/2504.13074
SkyReels官网地址:
https://www.skyreels.ai/home

相关推荐

荐AI日报：阿里通义开源音频生成模型ThinkSound；谷歌Veo3支态图片生成视频；昆仑万维发布 Skywork-R1V 3.0

【AI日报】今日AI领域重要动态：1)阿里开源支持链式推理的音频生成模型ThinkSound，实现高保真空间音频生成；2)谷歌Veo3升级，支持静态图片生成生动视频；3)Hugging Face发布30亿参数小模型SmolLM3，性能优于Llama-3.2-3B；4)阿里开源网络智能体WebSailor，展现强大推理和检索能力；5)Moonvalley发布原生1080P视频生成模型Marey Realism v1.5；6)Vidu Q1支持最多七张参考图像生成一致性视频；7)苹果�

人工智能音频生成链式推理
荐A日报：B站升级动漫视频生成模型AniSora V3；字节开源4D视频生成框架EX-4D；DeepSWE开源AI Agent系统强势登顶

AI日报栏目汇总了近期AI领域的重要进展：1)字节跳动开源EX-4D框架，可将单目视频转换为多视角4D视频；2)B站开源动漫视频生成模型AniSora V3，支持多种风格；3)DeepSWE+开源基于Qwen3-32B的AI Agent系统；4)字节开源3亿参数图像编辑模型VINCIE-3B；5)Stability AI推出移动端音频生成模型Stable Audio Open Small；6)谷歌发布免费教育AI工具套件Gemini for Education；7)Topview推出革命性AI数字人带货技术Avatar

人工智能 AI技术趋势 4D视频生成
荐AI日报：腾讯混元推3D生成大模型Hunyuan3D-PolyGen；钉钉AI表格重磅来袭；阿里推多模态大语言模型HumanOmniV2

本文介绍了AI领域多项重要进展：1)腾讯推出首个美术3D生成大模型Hunyuan3D-PolyGen，显著提升建模效率；2)阿里发布多模态大模型HumanOmniV2，准确率达69.33%；3)钉钉AI表格实现1小时处理千项任务；4)百度PaddleOCR3.1版本在多语种识别和文档翻译方面升级；5)微软推出Deep Research智能体，自动化研究流程；6)香港理工与OPPO联合开源视频超清框架DLoRAL；7)谷歌开源MCP工具箱简化AI与数据库集成；8)Win11将推出AI动态壁纸功能。这些创新展示了AI在3D生成、多模态理解、办公效率、视觉处理等领域的突破性进展。
谭章熹博士出席 RISC-V 中国峰会详解开源架构全球征程与中国机遇

2025年7月16日，第五届RISC-V中国峰会在上海张江科学会堂举行。作为中国大陆规格最高、规模最大的RISC-V专业会展，峰会吸引了全球专家与产业领袖参与。RISC-V国际基金会董事谭章熹博士发表主题演讲，回顾了RISC-V从伯克利起步到全球发展的历程，强调其开源、免费、无专利限制的特性推动了技术创新和生态繁荣。他指出，RISC-V基础指令集仅40余条，结构简洁但高度模块化，适用于从嵌入式设备到高性能计算领域。中国正积极建设RISC-V生态，预计2030年中国高性能RISC-V芯片市场规模将达2000-3000亿元，占全球20%-30%。谭博士表示，RISC-V发展重心正向AI加速、数据中心等高性能场景迈进，将与x86、ARM展开竞争，成为数字时代承载国家技术主权与产业升级的重要基础。
可灵AI推出可图2.1模型多维能力跃升、会员限时7天免费

可灵AI于7月10日上线可图2.1模型，图片生成能力全面升级：1）指令遵循能力显著提升，可精准捕捉复杂提示细节；2）新增180多种风格响应，支持特殊材质、数字艺术等创作需求；3）人像美感大幅优化，肌肤纹理与光影效果更自然；4）增强电影质感生成，能呈现大片级层次氛围；5）文字生成效果提升，支持中英文营销海报等设计。即日起面向会员免费开放7天，实测显示该模型在复杂场景还原和细节表现上达到新高度，累计已生成超3亿张图片。
荐A日报：月之暗面开源大模型Kimi K2；智源全面开源RoboBrain2.0；通义千问发布Qwen Chat桌面客户端

本期AI日报重点报道了多项AI领域突破性进展：1.月之暗面推出万亿参数开源大模型Kimi K2，展现强大智能能力；2.智源研究院开源RoboBrain2.0和RoboOS2.0机器人系统；3.通义千问发布桌面客户端Qwen Chat；4.IndexTTS2实现影视级语音合成；5.HuggingFace开源机器人Reachy Mini热销；6.Meta推出实时视频生成模型StreamDiT；7.PixVerse新增多关键帧视频生成功能；8.特斯拉推出仅支持AMD处理器的Grok AI助手；9.OpenAI推迟开源大模型发布以加强安全测试；10.Liquid AI开源边缘AI模型LFM2；11.AI"时间穿越"特效在社交媒体走红。

人工智能开源大模型技术趋势
荐「6月30日AI日报」百度开源文心大模型4.5系列；通义千问发布多模态生成模型Qwen VLo

AI日报精选：1)百度开源文心大模型4.5系列，含10款新模型，性能优异；2)通义千问发布多模态模型Qwen-VL，支持图文交互；3)阿里开源3亿参数多模态模型Ovis-U1；4)华为开源盘古7B稠密和72B混合专家模型；5)美图MOKI推出AI创意广告功能，一键生成专业视频；6)谷歌Gemini 2.5 Pro API重新免费开放；7)豆瓣上线"深入研究"AI功能；8)小米"AI百宝箱"结束内测；9)北京智研院开源多模态系统OmniGen2；10)知乎升级"直答"知识库功能。

AI日报文心大模型开源模型
美团宣布骑手养老保险补贴全国上线：不限跑单时长自由选择缴纳地

日前，美团宣布，在此前试点养老保险补贴的基础上，即日起，美团将正式在全国范围内上线养老保险补贴。与当地有关部门完成系统对接后，将陆续在各地上线。该方案将与试点保持一致，只要骑手在过去6个月内有3个月收入达到当地社保缴费基数下限，就将自动获得养老保险补贴资格。美团表示，将继续坚持不限骑手类型”不限跑单时长”，同时，骑手可以自由选择缴
陈佩斯：20年没演电影是因为黄渤霸屏电影《戏台》即将公映

7月9日，电影《戏台》的主创团队，包括陈佩斯、黄渤等一众明星，现身成都进行路演宣传。活动现场，陈佩斯幽默地表示，自己20年没演电影是因为黄渤“霸屏”，让他感觉好像被淘汰了。此言一出，立即引发现场一阵欢笑，而黄渤则迅速澄清，笑称陈佩斯说的是沈腾，再次将欢乐气氛推向高潮。电影《戏台》由陈佩斯亲自编剧并执导，他携手黄渤、姜武、尹正领衔主演，�
荐AI日报：智谱上线PPT生成功能AI Slides；可灵 AI 发布可图2.1模型

本文介绍了AI日报栏目及近期AI领域多项突破性进展：1)智谱推出免费AI Slides工具，基于GLM模型快速生成高质量PPT；2)可灵AI发布可图2.1模型，支持180多种风格图像生成；3)NVIDIA推出DiffusionRenderer技术，实现视频到可编辑3D场景转换；4)墨刀AI新增30秒生成高保真原型功能；5)Higgsfield推出Soul ID工具，10张照片即可生成虚拟形象；6)谷歌DeepMind开源GenAI Processors工具库；7)谷歌Veo新增图像转视频功能；8)Mistral AI发布专为代码建模的Devstral2507系列模型。这些创新展示了AI在内容生成、3D建模、产品设计等领域的快速发展。

今日大家都在搜的词：

热文

3 天
7天

昆仑万维开源SkyReels-V2：无限时长电影生成模型

荐AI日报：阿里通义开源音频生成模型ThinkSound；谷歌Veo3支态图片生成视频；昆仑万维发布 Skywork-R1V 3.0

荐A日报：B站升级动漫视频生成模型AniSora V3；字节开源4D视频生成框架EX-4D；DeepSWE开源AI Agent系统强势登顶

荐AI日报：腾讯混元推3D生成大模型Hunyuan3D-PolyGen；钉钉AI表格重磅来袭；阿里推多模态大语言模型HumanOmniV2

谭章熹博士出席 RISC-V 中国峰会详解开源架构全球征程与中国机遇

可灵AI推出可图2.1模型多维能力跃升、会员限时7天免费

荐A日报：月之暗面开源大模型Kimi K2；智源全面开源RoboBrain2.0；通义千问发布Qwen Chat桌面客户端

荐「6月30日AI日报」百度开源文心大模型4.5系列；通义千问发布多模态生成模型Qwen VLo

美团宣布骑手养老保险补贴全国上线：不限跑单时长自由选择缴纳地

陈佩斯：20年没演电影是因为黄渤霸屏电影《戏台》即将公映

荐AI日报：智谱上线PPT生成功能AI Slides；可灵 AI 发布可图2.1模型

今日大家都在搜的词：

热文

理想小米同一个地方开发布会：理想i8发布会定于首都国际会议中

贾跃亭旗下FF获1.05亿美元融资将加速FX Super One生产交付

华为鸿蒙智行：尊界S800上市50天大定破8000台

华为MatePad Pro 12.2开启预约预计7月24日正式发布

理想i8开启预定：7月29日上市预售价35-40万元

A日报：Kimi开放平台上线Kimi Playground；OpenAI重磅发布Chat

小米深圳大厦开园：卢伟冰现场喝小米粥

小米骨传导耳机2发布：699元 7月21日开售

尾号“8个7”手机号拍出320万元溢价率高达146%

AI日报：美图发布影像AI Agent RoboNeo；1.8bit量化Kimi K2模型

A日报：月之暗面开源大模型Kimi K2；智源全面开源RoboBrain2.0

淘宝闪购：日订单量再次突破8000万创新高

王化在小米履职10年雷军：谢谢这十年辛苦的工作和贡献

理想小米同一个地方开发布会：理想i8发布会定于首都国际会议中

黄仁勋与雷军合影上热搜一旁小米SU7 Ultra见证科技双雄会

黄仁勋称想买一辆小米汽车英伟达在多方面与小米开展合作

贾跃亭旗下FF获1.05亿美元融资将加速FX Super One生产交付

抖音：“抖音会议”App是诈骗软件会直接控制用户手机

站长商机