首页 > AI头条  > 正文

昆仑万维开源SkyReels-V2:无限时长电影生成模型

2025-04-21 11:01 · 来源: AIbase基地

昆仑万维 SkyReels 团队正式发布并开源了 SkyReels-V2,这是全球首个使用扩散强迫(Diffusion-forcing)框架的无限时长电影生成模型。该模型通过结合多模态大语言模型(MLLM)、多阶段预训练、强化学习和扩散强迫框架来实现协同优化,标志着视频生成技术迈入了一个新的阶段。

SkyReels-V2的发布旨在解决现有视频生成技术在提示词遵循、视觉质量、运动动态和视频时长协调上的重大挑战。该模型不仅在技术上实现了突破,还提供了多种应用场景,包括故事生成、图生视频、运镜专家和多主体一致性视频生成(SkyReels-A2)。SkyReels-V2现已支持生成30秒、40秒的视频,并具备生成高运动质量、高一致性、高保真视频的能力。

微信截图_20250421110023.png

SkyReels-V2的核心技术创新包括:

  1. 全面的影视级视频理解模型 SkyCaptioner-V1:通过结构化的视频表示方法,结合多模态 LLM 的一般描述与子专家模型的详细镜头语言,显著提高了对镜头语言的理解能力。该模型能够高效地理解视频数据,生成符合原始结构信息的多样化描述。

  2. 针对运动的偏好优化:通过强化学习训练,使用人工标注和合成失真数据,解决了动态扭曲、不合理等问题。SkyReels-V2在运动动态方面表现出色,能够生成流畅且逼真的视频内容。

  3. 高效的扩散强迫框架:通过微调预训练的扩散模型,将其转化为扩散强迫模型,显著提高了生成效率。该方法不仅减少了训练成本,还实现了长视频的高效生成。

  4. 渐进式分辨率预训练与多阶段后训练优化:整合了来自通用数据集、自收集媒体和艺术资源库的亿级数据,通过多阶段优化方法,确保了 SkyReels-V2在资源有限的情况下,逐步提升多方面的表现,达到影视级视频生成的水准。

在性能评估方面,SkyReels-V2在 SkyReels-Bench 和 V-Bench 中表现出色。SkyReels-Bench 包含1020个文本提示词,系统性地评估了四个关键维度:指令遵循、运动质量、一致性和视觉质量。在 SkyReels-Bench 评估中,SkyReels-V2在指令遵循方面取得了显著进展,同时在保证运动质量的同时不牺牲视频的一致性效果。在 V-Bench1.0自动化评估中,SkyReels-V2在总分(83.9%)和质量分(84.7%)上均优于所有对比模型,包括 HunyuanVideo-13B 和 Wan2.1-14B。

SkyReels-V2的应用场景丰富多样,包括:

  1. 故事生成:通过滑动窗口方法,模型在生成新帧时会参考之前生成的帧和文本提示,支持时间上的扩展,生成具有连贯叙事的长镜头视频。

  2. 图像到视频合成:提供了两种图像到视频(I2V)的生成方法,包括微调全序列文本到视频(T2V)扩散模型和扩散强迫模型与帧条件结合的方法。

  3. 摄像导演功能:通过专门筛选的样本,确保基本摄像机运动及其常见组合的平衡表示,显著提升了摄影效果。

  4. 元素到视频生成:基于 SkyReels-V2基座模型,研发了 SkyReels-A2方案,能够将任意视觉元素组合成由文本提示引导的连贯视频。

昆仑万维 SkyReels 团队表示,将继续推动视频生成技术的发展,并将 SkyCaptioner-V1和 SkyReels-V2系列模型进行完全开源,以促进学术界和工业界的进一步研究和应用。团队还将继续优化 SkyReels-V2的性能,探索更多应用场景,并进一步降低计算成本,使其能够更广泛地应用于创意内容制作和虚拟仿真领域。

  • GitHub地址:

    https://github.com/SkyworkAI/SkyReels-V2

  • 论文地址:

    https://arxiv.org/abs/2504.13074

  • SkyReels官网地址:

    https://www.skyreels.ai/home

  • 相关推荐
  • AI日报:阿里通义开源音频生成模型ThinkSound;谷歌Veo3支态图片生成视频;昆仑万维发布 Skywork-R1V 3.0

    【AI日报】今日AI领域重要动态:1)阿里开源支持链式推理的音频生成模型ThinkSound,实现高保真空间音频生成;2)谷歌Veo3升级,支持静态图片生成生动视频;3)Hugging Face发布30亿参数小模型SmolLM3,性能优于Llama-3.2-3B;4)阿里开源网络智能体WebSailor,展现强大推理和检索能力;5)Moonvalley发布原生1080P视频生成模型Marey Realism v1.5;6)Vidu Q1支持最多七张参考图像生成一致性视频;7)苹果�

  • A日报:B站升级动漫视频生成模型AniSora V3;字节开源4D视频生成框架EX-4D;DeepSWE开源AI Agent系统强势登顶

    AI日报栏目汇总了近期AI领域的重要进展:1)字节跳动开源EX-4D框架,可将单目视频转换为多视角4D视频;2)B站开源动漫视频生成模型AniSora V3,支持多种风格;3)DeepSWE+开源基于Qwen3-32B的AI Agent系统;4)字节开源3亿参数图像编辑模型VINCIE-3B;5)Stability AI推出移动端音频生成模型Stable Audio Open Small;6)谷歌发布免费教育AI工具套件Gemini for Education;7)Topview推出革命性AI数字人带货技术Avatar

  • AI日报:腾讯混元推3D生成大模型Hunyuan3D-PolyGen;钉钉AI表格重磅来袭;阿里推多模态大语言模型HumanOmniV2

    本文介绍了AI领域多项重要进展:1)腾讯推出首个美术3D生成大模型Hunyuan3D-PolyGen,显著提升建模效率;2)阿里发布多模态大模型HumanOmniV2,准确率达69.33%;3)钉钉AI表格实现1小时处理千项任务;4)百度PaddleOCR3.1版本在多语种识别和文档翻译方面升级;5)微软推出Deep Research智能体,自动化研究流程;6)香港理工与OPPO联合开源视频超清框架DLoRAL;7)谷歌开源MCP工具箱简化AI与数据库集成;8)Win11将推出AI动态壁纸功能。这些创新展示了AI在3D生成、多模态理解、办公效率、视觉处理等领域的突破性进展。

  • 谭章熹博士出席 RISC-V 中国峰会 详解开源架构全球征程与中国机遇

    2025年7月16日,第五届RISC-V中国峰会在上海张江科学会堂举行。作为中国大陆规格最高、规模最大的RISC-V专业会展,峰会吸引了全球专家与产业领袖参与。RISC-V国际基金会董事谭章熹博士发表主题演讲,回顾了RISC-V从伯克利起步到全球发展的历程,强调其开源、免费、无专利限制的特性推动了技术创新和生态繁荣。他指出,RISC-V基础指令集仅40余条,结构简洁但高度模块化,适用于从嵌入式设备到高性能计算领域。中国正积极建设RISC-V生态,预计2030年中国高性能RISC-V芯片市场规模将达2000-3000亿元,占全球20%-30%。谭博士表示,RISC-V发展重心正向AI加速、数据中心等高性能场景迈进,将与x86、ARM展开竞争,成为数字时代承载国家技术主权与产业升级的重要基础。

  • 可灵AI推出可图2.1模型 多维能力跃升、会员限时7天免费

    可灵AI于7月10日上线可图2.1模型,图片生成能力全面升级:1)指令遵循能力显著提升,可精准捕捉复杂提示细节;2)新增180多种风格响应,支持特殊材质、数字艺术等创作需求;3)人像美感大幅优化,肌肤纹理与光影效果更自然;4)增强电影质感生成,能呈现大片级层次氛围;5)文字生成效果提升,支持中英文营销海报等设计。即日起面向会员免费开放7天,实测显示该模型在复杂场景还原和细节表现上达到新高度,累计已生成超3亿张图片。

  • A日报:月之暗面开源大模型Kimi K2;智源全面开源RoboBrain2.0;通义千问发布Qwen Chat桌面客户端

    本期AI日报重点报道了多项AI领域突破性进展:1.月之暗面推出万亿参数开源大模型Kimi K2,展现强大智能能力;2.智源研究院开源RoboBrain2.0和RoboOS2.0机器人系统;3.通义千问发布桌面客户端Qwen Chat;4.IndexTTS2实现影视级语音合成;5.HuggingFace开源机器人Reachy Mini热销;6.Meta推出实时视频生成模型StreamDiT;7.PixVerse新增多关键帧视频生成功能;8.特斯拉推出仅支持AMD处理器的Grok AI助手;9.OpenAI推迟开源大模型发布以加强安全测试;10.Liquid AI开源边缘AI模型LFM2;11.AI"时间穿越"特效在社交媒体走红。

  • 「6月30日AI日报」百度开源文心大模型4.5系列;通义千问发布多模态生成模型Qwen VLo

    AI日报精选:1)百度开源文心大模型4.5系列,含10款新模型,性能优异;2)通义千问发布多模态模型Qwen-VL,支持图文交互;3)阿里开源3亿参数多模态模型Ovis-U1;4)华为开源盘古7B稠密和72B混合专家模型;5)美图MOKI推出AI创意广告功能,一键生成专业视频;6)谷歌Gemini 2.5 Pro API重新免费开放;7)豆瓣上线"深入研究"AI功能;8)小米"AI百宝箱"结束内测;9)北京智研院开源多模态系统OmniGen2;10)知乎升级"直答"知识库功能。

  • 美团宣布骑手养老保险补贴全国上线:不限跑单时长 自由选择缴纳地

    日前,美团宣布,在此前试点养老保险补贴的基础上,即日起,美团将正式在全国范围内上线养老保险补贴。 与当地有关部门完成系统对接后,将陆续在各地上线。 该方案将与试点保持一致,只要骑手在过去6个月内有3个月收入达到当地社保缴费基数下限,就将自动获得养老保险补贴资格。 美团表示,将继续坚持不限骑手类型”不限跑单时长”,同时,骑手可以自由选择缴

  • 陈佩斯:20年没演电影是因为黄渤霸屏 电影《戏台》即将公映

    7月9日,电影《戏台》的主创团队,包括陈佩斯、黄渤等一众明星,现身成都进行路演宣传。活动现场,陈佩斯幽默地表示,自己20年没演电影是因为黄渤“霸屏”,让他感觉好像被淘汰了。此言一出,立即引发现场一阵欢笑,而黄渤则迅速澄清,笑称陈佩斯说的是沈腾,再次将欢乐气氛推向高潮。 电影《戏台》由陈佩斯亲自编剧并执导,他携手黄渤、姜武、尹正领衔主演,�

  • AI日报:智谱上线PPT生成功能AI Slides;可灵 AI 发布可图2.1模型

    本文介绍了AI日报栏目及近期AI领域多项突破性进展:1)智谱推出免费AI Slides工具,基于GLM模型快速生成高质量PPT;2)可灵AI发布可图2.1模型,支持180多种风格图像生成;3)NVIDIA推出DiffusionRenderer技术,实现视频到可编辑3D场景转换;4)墨刀AI新增30秒生成高保真原型功能;5)Higgsfield推出Soul ID工具,10张照片即可生成虚拟形象;6)谷歌DeepMind开源GenAI Processors工具库;7)谷歌Veo新增图像转视频功能;8)Mistral AI发布专为代码建模的Devstral2507系列模型。这些创新展示了AI在内容生成、3D建模、产品设计等领域的快速发展。

今日大家都在搜的词: