首页 > AI头条  > 正文

潞晨科技推全新开源视频模型Open-Sora 2.0 训练流程全开源

2025-03-13 11:43 · 来源: AIbase基地

还在为动辄百万美金的视频生成模型望而却步?还在感叹AI视频创作只是巨头的游戏?今天,开源社区用实力告诉你: “No!” 一款名为 Open-Sora2.0的全新开源模型横空出世,彻底颠覆了视频生成的“氪金”规则。 难以置信的是,这款性能直逼商业级水准的110亿参数大模型,竟然只花费了区区20万美元(224张GPU)就训练成功! 要知道,那些动辄耗资数百万美元的闭源模型,在 Open-Sora2.0面前,性价比简直弱爆了!

Open-Sora2.0的发布,无疑是视频生成领域的一场“平民革命”。它不仅拥有媲美甚至超越百万美元级模型的强悍实力,更以前所未有的开放姿态,将模型权重、推理代码、训练流程全盘托出,彻底打开了高质量视频创作的 “潘多拉魔盒”。 这意味着,曾经高不可攀的AI视频生成技术,如今已触手可及,人人都有机会参与这场激动人心的创作浪潮!

image.png

GitHub 开源仓库:https://github.com/hpcaitech/Open-Sora

1. 硬核实力:眼见为实,数据说话

1.1效果炸裂!Open-Sora2.0视频Demo先睹为快

口说无凭,眼见为实! Open-Sora2.0的生成效果到底有多惊艳? 直接上Demo视频,让各位 “验验货”:

运镜如神!动作幅度精准拿捏: 无论是人物的细腻动作,还是场景的宏大调度,Open-Sora2.0都能如同专业导演一般,精准控制运动幅度,画面表现力直接拉满!

画质爆表!流畅度堪比丝滑:720p高清分辨率,24FPS稳定帧率,Open-Sora2.0生成的视频,清晰度、流畅度都无可挑剔,完全超越市面上同类产品,视觉体验直接“起飞”!

场景百变!驾驭能力全面开花: 田园风光、都市夜景、科幻宇宙…… 各种复杂场景,Open-Sora2.0都能信手拈来,画面细节丰富到令人发指,相机运镜更是流畅自然,简直是“AI界的达芬奇”!

1.2参数规模“以小博大”,性能直逼闭源巨头

Open-Sora2.0并非“花架子”, 而是拥有真材实料的“技术硬核”。 仅仅110亿的参数规模,却迸发出惊人的能量,在权威评测平台 VBench 和用户主观评测中,都取得了足以叫板 HunyuanVideo 和30B Step-Video 等闭源巨头的卓越成绩,堪称 “以小博大” 的典范!

用户说了算!偏好性评测力压群雄: 在视觉效果、文本一致性、动作表现三大维度上,Open-Sora2.0至少有两项指标超越了开源 SOTA 模型 HunyuanVideo,甚至将 Runway Gen-3Alpha 等商业模型斩落马下,用实力证明了 “低成本也能有好货”!

VBench榜单“实力认证”,性能逼近天花板: 在视频生成领域最权威的 VBench 榜单上,Open-Sora2.0的进步速度堪称“火箭蹿升”。 从1.2版本到2.0版本,它与 OpenAI Sora 闭源模型之间的性能差距,从4.52% 直接缩减到0.69%,几乎可以忽略不计! 更令人振奋的是,Open-Sora2.0在 VBench 评测中得分,已经超越了腾讯 HunyuanVideo,再次证明其 “低投入,高产出” 的巨大优势,为开源视频生成技术树立了新的里程碑!

2. 低成本炼成记:开源背后的技术密码

Open-Sora 自开源以来,就凭借其高效、优质的视频生成能力,迅速成为开源社区的“当红炸子鸡”。 但随之而来的挑战是:如何打破高质量视频生成 “成本高企” 的魔咒,让更多人能够参与进来? Open-Sora 团队迎难而上,通过一系列技术创新,硬生生将模型训练成本砍掉了5-10倍! 要知道,市面上动辄百万美元的训练费用,Open-Sora2.0用区区20万美元就搞定了,简直是 “开源界的性价比之王”!

Open-Sora 不仅开源了模型代码和权重,还慷慨地 공개 了全流程训练代码,构建起了一个充满活力的开源生态。 短短半年时间,Open-Sora 的学术论文引用量就逼近百次,在全球开源影响力榜单上名列前茅,超越了所有开源 I2V/T2V 视频生成项目,成为当之无愧的 “开源视频生成领头羊”。

2.1模型架构:传承与创新并举

Open-Sora2.0在模型架构上,既传承了1.2版本的精髓,又进行了大胆创新: 延续了3D 自编码器和 Flow Matching 训练框架,并保留了多桶训练机制,确保模型能够 “兼容并蓄”,处理各种长度和分辨率的视频。 同时,又引入了多项 “黑科技”, 让视频生成能力更上一层楼:

3D 全注意力机制加持: 更精准地捕捉视频中的时间和空间信息,让生成的视频画面更连贯、细节更丰富。

MMDiT 架构“神助攻”: 更准确地理解文本指令和视频内容之间的关联,让文生视频的语义表达更精准、更到位。

模型规模扩容至11B: 更大的模型容量,意味着更强的学习能力和生成潜力,视频质量自然水涨船高。

FLUX 模型“打底”,训练效率“起飞”: 借鉴开源图生视频模型 FLUX 的成功经验,进行模型初始化,大幅降低了训练时间和成本,让模型训练效率 “坐上火箭”。

2.2高效训练秘籍:开源全流程,助力成本“狂降”

为了将训练成本压到 “地板价”,Open-Sora2.0在数据、算力、策略等方面都做足了功课,堪称 “开源界的省钱专家”:

数据“精挑细选”,质量“万里挑一”: Open-Sora 团队深知 “garbage in, garbage out” 的道理,对训练数据进行 “地毯式” 筛选,确保每一份数据都是 “精品”,从源头上提升模型训练效率。 多阶段、多层次的数据筛选机制,配合各种 “黑科技” 过滤器,让视频数据质量更上一层楼,为模型训练提供了最优质的 “燃料”。

算力“精打细算”,低分辨率训练“打头阵”: 高分辨率视频训练的成本,远高于低分辨率视频,二者之间的算力差距,最高可达40倍! Open-Sora2.0巧妙地避开了 “硬碰硬”, 优先进行低分辨率训练,高效学习视频中的运动信息,在大幅降低成本的同时,确保模型能够掌握视频生成的 “核心技能”, 可谓 “事半功倍”。

策略“灵活多变”,图生视频“曲线救国”: Open-Sora2.0并没有一开始就 “死磕” 高分辨率视频训练,而是采取了更聪明的 “迂回战术” —— 优先训练图生视频模型,加速模型收敛速度。 事实证明, 图生视频模型在提升分辨率时,收敛速度更快,训练成本更低, 可谓 “一箭双雕”。 在推理阶段, Open-Sora2.0还支持 “文生图再生视频” (T2I2V) 模式, 用户可以先通过文本生成高质量图像, 再将图像转化为视频, 获得更精细的视觉效果, “条条大路通罗马”。

并行训练“火力全开”,算力利用率“榨干最后一滴”: Open-Sora2.0深知 “单丝不成线,独木不成林” 的道理, 采用了高效的并行训练方案, 将 ColossalAI 和系统级优化技术 “武装到牙齿”, 最大程度提升计算资源利用率, 让 GPU 集群 “火力全开”, 实现更高效的视频生成训练。 一系列 “黑科技” 加持, 让 Open-Sora2.0的训练效率 “坐上火箭”, 成本大幅降低:

序列并行 + ZeroDP: 优化大规模模型分布式计算效率,实现 “人多力量大”。

细粒度 Gradient Checkpointing: 在降低显存占用的同时,保持计算效率,实现 “开源节流”。

训练自动恢复机制: 确保99% 以上有效训练时间,减少资源浪费,实现 “稳定可靠”。

高效数据加载 + 内存管理: 优化 I/O,防止训练阻塞,加速训练流程,实现 “一路狂飙”。

异步模型保存: 减少模型存储对训练干扰,提高 GPU 利用率,实现 “一心多用”。

算子优化: 针对关键计算模块深度优化,加速训练过程,实现 “提速增效”。

这些优化措施 “组合拳” 下来, Open-Sora2.0在高性能和低成本之间找到了完美平衡, 大幅降低了高质量视频生成模型的训练门槛, 让更多人能够参与到这场技术盛宴中来。

2.3高压缩比 AE “神助攻”,推理速度“再提速”

训练成本降下来还不够,推理速度也要跟上! Open-Sora2.0瞄准未来, 探索高压缩比视频自编码器 (AE) 的应用, 进一步降低推理成本, 提升视频生成速度。 目前主流视频模型采用4×8×8自编码器, 生成768px、5秒视频, 单卡耗时近30分钟, 推理效率亟待提升。 Open-Sora2.0训练了一款高压缩比 (4×32×32) 的视频自编码器, 将推理时间缩短至单卡3分钟以内, 速度提升了10倍! 简直是 “光速” 生成!

高压缩比编码器虽好, 训练难度却极大。 Open-Sora 团队迎难而上, 在视频升降采样模块中引入残差连接, 成功训练出重建质量媲美 SOTA 视频压缩模型, 且压缩比更高的 VAE, 为高效推理奠定了坚实基础。 为了解决高压缩比自编码器训练数据需求大、收敛难度高等问题, Open-Sora 还提出了基于蒸馏的优化策略, 并利用已训练好的高质量模型进行初始化, 减少数据和时间需求。 同时, 重点训练图生视频任务, 利用图像特征引导视频生成, 加速高压缩自编码器收敛, 最终实现了推理速度和生成质量的 “双赢”。

Open-Sora 团队坚信, 高压缩比视频自编码器将是未来视频生成技术发展的关键方向。 目前初步实验结果已展现出惊人的推理加速效果, 他们希望借此吸引更多社区力量, 共同探索高压缩比视频自编码器的潜力, 推动高效、低成本视频生成技术更快发展, 让 AI 视频创作真正 “飞入寻常百姓家”。

3. 开源集结号!共赴AI视频革命新征程

今天,Open-Sora2.0正式开源! 我们诚挚邀请全球开发者、科研机构、AI 爱好者加入 Open-Sora 社区, 携手共建, 共同推动 AI 视频革命的浪潮滚滚向前, 让视频创作的未来, 更加开放、普惠、精彩!

GitHub 开源仓库:https://github.com/hpcaitech/Open-Sora

技术报告:

https://github.com/hpcaitech/Open-Sora-Demo/blob/main/paper/Open_Sora_2_tech_report.pdf

  • 相关推荐
  • 腾讯混元视频生成工具全新开源:人物不会“变脸” 物体不会“漂移”

    腾讯混元5月9日宣布推出开源的多模态定制化视频生成工具HunyuanCustom。该工具基于混元视频生成大模型打造,支持文本、图像、音频等多模态输入,能生成高质量定制视频。主要功能包括:单/多主体视频生成、视频配音、局部编辑等,在保持主体一致性的同时可灵活调整场景和动作。适用于广告、电商、影视等场景,如快速更换商品背景、制作数字人视频等。目前单主体生成功能已开源,其他功能将于5月陆续开放。用户只需上传图片和文字描述即可生成连贯自然的视频内容。

  • 可灵AI发布全新2.0模型:上线多模态视频编辑功能

    快科技4月16日消息,据报道,可灵AI在北京举行灵感成真”2.0模型发布会,正式发布可灵2.0视频生成模型及可图2.0图像生成模型。据介绍,可灵2.0模型在动态质量、语义响应、画面美学等维度保持领先;可图2.0模型在指令遵循、电影质感及艺术风格表现等方面显著提升。3月27日,全球AI基准测试机构Artificial Analysis发布了最新的全球视频生成大模型榜单,快手可灵1.6pro(高品质模

  • AI日报:阿里通义万相首尾帧生视频模型;豆包开源Seed智能体模型UI-TARS-1.5;OpenAI首发“智能体实践指南”

    欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解:https://top.aibase.com/1、阿里通义万相首尾帧生视频模型Wan2.1-FLF2V-14B开源阿里巴巴的通义实验室在Hugging Face和GitHub上开源了Wan2.1-FLF2V-14B模型,标志着AI视频生成技术的重大进步。该模型支持高清视频生成

  • 秒杀同行!Kimi开源全新音频基础模型,横扫十多项基准测试,总体性能第一

    Kimi-Audio是一款开源的通用音频基础模型,在语音识别、音频理解、音频转文本、语音对话等任务中表现优异。该模型采用集成式架构设计,包含音频分词器、音频大模型和音频去分词器三大核心组件,支持多模态输入处理。在十余项音频基准测试中,Kimi-Audio均取得领先性能,如LibriSpeech ASR测试WER仅1.28%,VocalSound测试达94.85%。模型使用1300万小时多语言音频数据进行预训练,并构建了自动处理流水线生成高质量训练数据。评估结果显示,Kimi-Audio在语音识别、音乐理解、语音情感分析等任务上全面超越同类模型,在OpenAudioBench和VoiceBench对话测试中也表现最佳。目前模型代码、检查点和评估工具包已在GitHub开源。

  • 阿里开源通义新模型:指定首尾图片生成视频

    快科技4月18日消息,据报道,阿里巴巴旗下通义万相宣布开源其创新视频生成技术首尾帧生视频14B模型。这项突破性AI技术能够根据用户提供的起始和结束画面,智能生成720p高清过渡视频,为视频创作带来全新可能。该模型通过先进的深度学习算法,能够精准理解输入画面的内容、风格及主题特征。当用户提供首尾两帧图像后,模型会智能分析画面中的视觉元素,包括物体形�

  • 字节AI加速文生图技术新突破,GOOG/微美息引领开源大模型释放科技势能

    字节跳动发布豆包1.5深度思考模型,升级文生图能力。该模型在专业领域和通用任务中表现突出,采用MoE架构,总参数量200B,激活参数20B,推理成本优势显著。同时,其图像生成模型Seedream 3.0性能追平GPT-4o等顶尖模型。全球AI产业加速发展,开源模型降低技术门槛,推动商业化落地。微美全息等企业构建开放AI生态,DeepSeek等公司通过开源策略促进技术普惠。行业迎来"开源AI+"新阶段,企业需把握机遇应对挑战。

  • 阿里千问3登顶球最强开源模型 已在通义App上线

    阿里集团推出新一代开源AI模型"通义千问3"(Qwen3),包含8款不同规格的混合推理模型。旗舰型号Qwen3-235B采用混合专家架构,创下国产模型性能新纪录;Qwen3-32B则以部署成本低、运行稳定见长。该系列在逻辑推理、编程、翻译等专业领域表现卓越,用户可通过通义App和网页版体验。升级后的通义App整合问答对话、图像理解与生成等多项功能,持续强化代码生成、数学解题等专业场景应用能力,致力于打造实用性强的个人AI助手。

  • 山石网科发布全新Open XDR解决方案:开启安运营新范式

    山石网科发布全新Open XDR解决方案,以"开放融合、AI赋能、智慧运维"为核心理念,突破传统安全架构局限。该方案通过南北向开放架构实现全领域数据采集与异构设备联动,打破数据孤岛;集成云端/本地AI大模型,降低安全运维门槛,实现日志精准解读和威胁深度分析;创新"案件调查"功能构建完整攻击链路,结合可视化剧本编排实现闭环安全运维。方案支持多源数据接入和无代码插件扩展,构建灵活可扩展的安全生态,助力企业从被动防御转向主动研判,为数字化转型提供智能化安全运营保障。

  • DeepSeek领航大模型普惠化浪潮,xAI/微美息加速开源AI布局打造新格局

    DeepSeek 作为当前最受关注的大模型之一,凭借其技术创新正在加速 AI 普惠化进程。根据机构新报告显示,DeepSeek已经成为全球增长最快的AI工具,其每月新增网站访问量已经超过OpenAI的ChatGPT。DeepSeek市场份额全球第三目前,DeepSeek市场份额6.58%,仅次于ChatGPT和Canva。DeepSeek是继ChatGPT之后的又一现象级AI产品,它的市场份额从2.34%快速增长至6.58%,展现出强劲的增长态势。全球著名�

  • 亚马逊气候认证全流程解析:跨境卖家如何借力绿舟实现绿色突围

    亚马逊气候友好认证(CPF)正成为跨境电商提升竞争力的关键工具。该认证帮助消费者识别低碳环保产品,认证商品可获得专属"绿标"和流量倾斜。数据显示,CPF认证产品订单量是普通产品的1.36倍,销售额平均增长12%。认证流程包括:1)确认产品符合国际环保标准;2)提交碳足迹报告等材料;3)通过亚马逊卖家中心申请。绿舟(GoingGreen™)提供一站式服务,通过数字化SaaS平台可缩短报告周期至4-6周,效率提升40%,并帮助降低成本30%。未来随着欧盟碳关税等政策落地,气候友好认证将从"加分项"变为"必选项"。绿舟预测,未来三年70%跨境企业需完成碳合规转型。

今日大家都在搜的词: