Open-Sora悄悄升级支持16秒视频生成和720p分辨率

2024-04-25 14:00 · 稿源：站长之家

站长之家（ChinaZ.com）4月25日消息:Open-Sora 在开源社区悄悄更新了，现在，该项目不仅支持长达16秒的单镜头视频生成，而且视频分辨率最高可达720p，能够处理各种宽高比的文本到图像、文本到视频、图像到视频、视频到视频以及无限长视频的生成需求。

技术报告与模型架构:

Open-Sora技术报告已在GitHub上发布，详细介绍了新功能和模型架构。

作者团队对STDiT架构进行了关键性改进，提高了模型的训练稳定性和整体性能。

引入了旋转位置编码（RoPE embedding）和QK归一化技术，以增强训练稳定性。

ST-DiT-2架构能够自动缩放位置编码，处理不同大小尺寸的输入。

多阶段训练方法:

Open-Sora采用了多阶段训练方法，通过分步骤引入数据，高效实现高质量视频生成。

初始阶段视频采用144p分辨率，混训图片和更高分辨率视频。

第二阶段提升至240p和480p分辨率，第三阶段进一步增强至480p和720p。

统一的图生视频/视频生视频框架:

基于Transformer，DiT架构可支持图像到图像及视频到视频任务。

提出掩码策略来支持图像和视频的条件化处理。

掩码策略配置:

引入了随机掩码策略，以随机方式选择并取消掩码的帧，提高模型处理图像条件化的能力。

支持多时间/分辨率/长宽比/帧率训练:

通过分桶策略，使用原始视频的分辨率、长宽比和长度进行训练，增加采样灵活性。

数据收集和预处理流程:

作者团队提供了详尽的数据收集与处理指南，分享了自动化的数据处理流程。

性能全方位评测:

Open-Sora能够将文字描述转化为动人的动态视频，支持多种内容、分辨率、长宽比和时长的生成。

尽管取得了进展，但当前生成的视频在噪声问题、时间一致性、人物生成质量以及美学评分方面仍有待改进。作者团队将在下一版本中优先解决这些挑战。

项目地址：https://top.aibase.com/tool/open-sora

体验地址：https://huggingface.co/spaces/hpcai-tech/open-sora

（举报）

相关推荐

关键词：

浪漫自在，悦己之声森海塞尔ACCENTUM Open 真无线耳机樱花粉上市

森海塞尔于2025年9月22日在北京发布ACCENTUM Open真无线耳机樱花粉配色。新品在保持卓越音质的同时，以柔和樱花粉点缀耳畔，融合半开放式声学结构与舒适贴耳设计，支持蓝牙5.3多设备连接、双麦克风降噪及28小时续航。耳机单只仅重4.35克，配备IPX4防水，兼顾轻盈佩戴与全天候使用。樱花粉作为继经典黑白后的新配色，将于9月28日正式发售。森海塞尔强调其致力于创新音频解决方案，2025年正值品牌创立80周年，持续为客户打造独特声音体验。

森海塞尔 ACCENTUM Open
聚焦科技运动融合！北京apm AI运动会引领沉浸商业体验升级

北京APM于9月20日至21日举办“AI运动会”，集结多元智能机器人阵容，打造融合科技竞技与深度互动的沉浸式活动。活动以运动为核心，通过足球、拳击、马拉松等特色机器人项目，结合每日4场舞台表演和100个机器人领舞，直观呈现科技与运动的融合之美。现场设置AI互动环节，观众可体验机器人对抗赛、AI棋局对弈及机械臂操控，实现“科技可触、未来可感”。此次活动不仅是一场竞技盛宴，更以科技体验激发情感共鸣，通过沉浸式内容驱动消费新活力，突破传统商业增长极限，为城市商业生态注入创新动能。

AI运动会科技竞技智能机器人
荐AI日报：快手推出AI视频制作助手Kwali；字节跳动推出USO模型；OpenAI推出ChatGPT开发者模式

本文介绍了AI日报栏目，聚焦AI领域最新动态。快手推出Kwali视频助手，简化视频制作流程；字节跳动发布USO模型，解决图像生成中风格与主题的矛盾；微软推出Copilot Audio音频模式，提供个性化语音交互；Stability AI升级Stable Audio 2.5，支持高质量音频生成；阿联酋推出开源大模型K2 Think，拥有320亿参数；微信上线智能回复功能，提升公众号运营效率；OpenAI推出ChatGPT开发者模式，支持AI控制外部工具；字节跳动Seed团队发布AgentGym-RL框架，提升语言模型决策能力；月之暗面开源Checkpoint Engine中间件，优化LLM推理效率；B站开源IndexTTS-2.0文本转语音系统，支持情感与时长控制；Replit推出Agent 3编程助手，自主性提升10倍。

AI视频制作快手Kwali 多Agent框架
天网杯纳米AI视频创作赛圆满落幕，ISC.AI学苑推动“教育AI+”新范式

9月23日，第三届“天网杯”网络安全大赛在天津落幕，吸引全国顶尖战队角逐，同期举办纳米AI视频创作赛。赛事聚焦个人信息保护、防诈骗等网络安全议题，通过“以赛促学”模式提升学生防护意识与AI应用能力。ISC.AI学苑作为平台支持，依托“纳米AI”技术降低创作门槛，推动“安全+AI”人才培养。大赛评选出24个奖项，并联合多所高校深化合作，促进AI技术在教育场景的落

天网杯网络安全大赛纳米AI
“老登”应用，霸榜AI

AI应用的争夺战，打到哪儿了? 如果把整个AI行业想象成一座金矿:基础设施层（芯片、算力）相当于“卖铲子”，提供挖矿的基础工具;模型层(大模型研发)好比“卖地图”，告诉大家哪里有金子;而应用层是直接“下场淘金”，把金子变现。近两年AI应用的使用者越来越多，QuestMobile数据显示，截止到2025年8月，移动端AI应用用户规模达6.45亿，PC端达2.04亿。其中原生APP亿级应用的

AI应用 AI原生应用 AI行业
基于通义万相美图多款APP上线全新动漫特效、AI变身等视频生成功能

今日，美图公司旗下美图秀秀、RoboNeo、Wink和开拍等多款产品，推出全新动漫特效、AI变身等视频生成功能。据悉，新功能基于通义万相系列模型进行深度开发与训练，为美图的全球用户提供全新的创作体验。近年来，美图加速布局生产力场景，不仅推出面向企业的AI算法服务和解决方案，旗下消费级产品也在快速集成大模型。去年6月，美图就开始和阿里展开大模型合作。

美图秀秀 AI变身通义万相
荐iPhone 17“大冒险”：史上最薄、AI缺席，果粉买单吗？

北京时间9月10日凌晨，苹果发布会亮相8大新品，其中包括四款新机:iPhone17、iPhone17Pro、iPhone17Pro Max，以及iPhone Air。你可能会问:又是一年一度的苹果发布会，这次能有什么不一样?手机新品确实有些不同。最大的变化是苹果推出了全新的Air系列，同时砍掉了Plus。Air系列主打一个“薄”，厚度只有5.6毫米，光看数字可能没有概念，想象一下，相当于把你现在用的手机砍掉40%

苹果发布会 iPhone17 iPhone
荐AI投资，走到哪了？

AI赛道，从不缺少追梦人。多年来，创业者的名单持续刷新。从“AI四小龙”时代的汤晓鸥、印奇、朱珑、周曦，到大模型爆发后的王慧文、李开复、王小川、杨植麟、闫俊杰、唐杰，再到眼下炙手可热的90后王兴兴、彭志辉、肖弘、郭文景.....众多或熟悉或陌生的名字，纷纷涌入这场AI的浪潮。推动这股浪潮加速前进的，还有另一股力量——资本。红杉、高瓴、英诺天使、毅

AI赛道创业者资本
荐AI日报：MiniMax Music 1.5上线；腾讯会议上线AI托管；蚂蚁外滩大会发布AI眼镜可信连接技术框架gPass

本文介绍了AI领域的最新动态：MiniMax推出Music 1.5模型，支持4分钟高质量音乐生成；腾讯会议AI托管功能提供会议分身服务；蚂蚁集团发布AI眼镜连接框架gPass；Anthropic为Claude新增自动记忆聊天功能；苹果AI功能在欧盟受限；AI首次担任职业球队教练获胜；谷歌推出离线AI应用Edge Gallery；企业应用AI成熟度模型发布；Claude新增网页与PDF抓取功能；FTC启动对AI聊天机器人安全性的调查。

AI音乐 MiniMax 音乐生成
荐AI日报：阿里推多模态模型Qwen3-Omni；谷歌推出AP2协议；百度推出Qianfan-VL 模型

本期AI日报聚焦多领域技术突破：阿里云推出全球首个全模态AI模型Qwen3-Omni，支持文本、图像、音频和视频统一处理；百度发布多尺寸视觉理解模型Qianfan-VL，优化企业级应用。苹果扩展Image Playground平台，引入ChatGPT等第三方模型。谷歌与PayPal合作推出AP2协议，推动AI支付安全创新。钉钉上线AI表格助手，支持自然语言生成表格。DeepSeek开源V3.1-Terminus模型，性能显著提升。Kimi推出Agent会员服务，智元机器人开源全球首个通用具身智能模型GO-1，降低技术门槛促进行业创新。

AI模型全模态阿里云

今日大家都在搜的词：

热文

3 天
7天

Open-Sora悄悄升级支持16秒视频生成和720p分辨率

浪漫自在，悦己之声森海塞尔ACCENTUM Open 真无线耳机樱花粉上市

聚焦科技运动融合！北京apm AI运动会引领沉浸商业体验升级

荐AI日报：快手推出AI视频制作助手Kwali；字节跳动推出USO模型；OpenAI推出ChatGPT开发者模式

天网杯纳米AI视频创作赛圆满落幕，ISC.AI学苑推动“教育AI+”新范式

“老登”应用，霸榜AI

基于通义万相美图多款APP上线全新动漫特效、AI变身等视频生成功能

荐iPhone 17“大冒险”：史上最薄、AI缺席，果粉买单吗？

荐AI投资，走到哪了？

荐AI日报：MiniMax Music 1.5上线；腾讯会议上线AI托管；蚂蚁外滩大会发布AI眼镜可信连接技术框架gPass

荐AI日报：阿里推多模态模型Qwen3-Omni；谷歌推出AP2协议；百度推出Qianfan-VL 模型

今日大家都在搜的词：

热文

雷军公布小米17标准版外观：1.18mm窄边框、6.3英寸直屏

全新问界M7小订破22万：将于明晚上市公布价格

AI日报：美团发布推理大模型LongCat-Flash-Thinking；阿里Wan-

折叠屏iPhone细节曝光采用超薄钛合金：预计售价2000美元起

小米平板8系列搭载11.2英寸3.2K旗舰屏

雷军演讲主题《改变》官宣：聊玄戒芯片和小米汽车背后的故事

鸿蒙智行尚界H5小订破15万台：明晚上市

realme真我GT8系列官宣10月发布

iPhone17遭首批用户吐槽客服回应：建议新机带壳

转转宣布逐步关停自由市场全面聚焦“官方验”模式

AI日报：小米开源首个原生端到端语音大模型；通义万相Wan2.2-A

小米召回116887辆SU7电动汽车：将OTA升级消除安全隐患

雷军回应小米召回11.7万辆SU7：将为用户带来更多期待功能

鸿蒙智行秋季发布会定档9月23日：尚界H5、新问界M7来了

雷军公布小米17标准版外观：1.18mm窄边框、6.3英寸直屏

全新问界M7小订破22万：将于明晚上市公布价格

苹果 iPhone 17/Pro 系列今日发售多维度升级

京东：iPhone 17开卖4小时全国超3万人签收

AI日报：美团发布推理大模型LongCat-Flash-Thinking；阿里Wan-

折叠屏iPhone细节曝光采用超薄钛合金：预计售价2000美元起

站长商机

Open-Sora悄悄升级 支持16秒视频生成和720p分辨率

今日大家都在搜的词：

热文

站长商机

Open-Sora悄悄升级支持16秒视频生成和720p分辨率