首页 > 业界 > 关键词  > Open-Sora最新资讯  > 正文

Open-Sora悄悄升级 支持16秒视频生成和720p分辨率

2024-04-25 14:00 · 稿源:站长之家

站长之家(ChinaZ.com)4月25日 消息:Open-Sora 在开源社区悄悄更新了,现在,该项目不仅支持长达16秒的单镜头视频生成,而且视频分辨率最高可达720p,能够处理各种宽高比的文本到图像、文本到视频、图像到视频、视频到视频以及无限长视频的生成需求。

image.png

技术报告与模型架构:

Open-Sora技术报告已在GitHub上发布,详细介绍了新功能和模型架构。

作者团队对STDiT架构进行了关键性改进,提高了模型的训练稳定性和整体性能。

引入了旋转位置编码(RoPE embedding)和QK归一化技术,以增强训练稳定性。

ST-DiT-2架构能够自动缩放位置编码,处理不同大小尺寸的输入。

多阶段训练方法:

Open-Sora采用了多阶段训练方法,通过分步骤引入数据,高效实现高质量视频生成。

初始阶段视频采用144p分辨率,混训图片和更高分辨率视频。

第二阶段提升至240p和480p分辨率,第三阶段进一步增强至480p和720p。

统一的图生视频/视频生视频框架:

基于Transformer,DiT架构可支持图像到图像及视频到视频任务。

提出掩码策略来支持图像和视频的条件化处理。

掩码策略配置:

引入了随机掩码策略,以随机方式选择并取消掩码的帧,提高模型处理图像条件化的能力。

支持多时间/分辨率/长宽比/帧率训练:

通过分桶策略,使用原始视频的分辨率、长宽比和长度进行训练,增加采样灵活性。

数据收集和预处理流程:

作者团队提供了详尽的数据收集与处理指南,分享了自动化的数据处理流程。

性能全方位评测:

Open-Sora能够将文字描述转化为动人的动态视频,支持多种内容、分辨率、长宽比和时长的生成。

尽管取得了进展,但当前生成的视频在噪声问题、时间一致性、人物生成质量以及美学评分方面仍有待改进。作者团队将在下一版本中优先解决这些挑战。

项目地址:https://top.aibase.com/tool/open-sora

体验地址:https://huggingface.co/spaces/hpcai-tech/open-sora

举报

  • 相关推荐
  • 浪漫自在,悦己之声 森海塞尔ACCENTUM Open 真无线耳机 樱花粉上市

    森海塞尔于2025年9月22日在北京发布ACCENTUM Open真无线耳机樱花粉配色。新品在保持卓越音质的同时,以柔和樱花粉点缀耳畔,融合半开放式声学结构与舒适贴耳设计,支持蓝牙5.3多设备连接、双麦克风降噪及28小时续航。耳机单只仅重4.35克,配备IPX4防水,兼顾轻盈佩戴与全天候使用。樱花粉作为继经典黑白后的新配色,将于9月28日正式发售。森海塞尔强调其致力于创新音频解决方案,2025年正值品牌创立80周年,持续为客户打造独特声音体验。

  • 聚焦科技运动融合!北京apm AI运动会引领沉浸商业体验升级

    北京APM于9月20日至21日举办“AI运动会”,集结多元智能机器人阵容,打造融合科技竞技与深度互动的沉浸式活动。活动以运动为核心,通过足球、拳击、马拉松等特色机器人项目,结合每日4场舞台表演和100个机器人领舞,直观呈现科技与运动的融合之美。现场设置AI互动环节,观众可体验机器人对抗赛、AI棋局对弈及机械臂操控,实现“科技可触、未来可感”。此次活动不仅是一场竞技盛宴,更以科技体验激发情感共鸣,通过沉浸式内容驱动消费新活力,突破传统商业增长极限,为城市商业生态注入创新动能。

  • AI日报:快手推出AI视频制作助手Kwali;字节跳动推出USO模型;OpenAI推出ChatGPT开发者模式

    本文介绍了AI日报栏目,聚焦AI领域最新动态。快手推出Kwali视频助手,简化视频制作流程;字节跳动发布USO模型,解决图像生成中风格与主题的矛盾;微软推出Copilot Audio音频模式,提供个性化语音交互;Stability AI升级Stable Audio 2.5,支持高质量音频生成;阿联酋推出开源大模型K2 Think,拥有320亿参数;微信上线智能回复功能,提升公众号运营效率;OpenAI推出ChatGPT开发者模式,支持AI控制外部工具;字节跳动Seed团队发布AgentGym-RL框架,提升语言模型决策能力;月之暗面开源Checkpoint Engine中间件,优化LLM推理效率;B站开源IndexTTS-2.0文本转语音系统,支持情感与时长控制;Replit推出Agent 3编程助手,自主性提升10倍。

  • 天网杯纳米AI视频创作赛圆满落幕,ISC.AI学苑推动“教育AI+”新范式

    9月23日,第三届“天网杯”网络安全大赛在天津落幕,吸引全国顶尖战队角逐,同期举办纳米AI视频创作赛。赛事聚焦个人信息保护、防诈 骗等网络安全议题,通过“以赛促学”模式提升学生防护意识与AI应用能力。ISC.AI学苑作为平台支持,依托“纳米AI”技术降低创作门槛,推动“安全+AI”人才培养。大赛评选出24个奖项,并联合多所高校深化合作,促进AI技术在教育场景的落

  • “老登”应用,霸榜AI

    AI应用的争夺战,打到哪儿了? 如果把整个AI行业想象成一座金矿:基础设施层(芯片、算力)相当于“卖铲子”,提供挖矿的基础工具;模型层(大模型研发)好比“卖地图”,告诉大家哪里有金子;而应用层是直接“下场淘金”,把金子变现。 近两年AI应用的使用者越来越多,QuestMobile数据显示,截止到2025年8月,移动端AI应用用户规模达6.45亿,PC端达2.04亿。其中原生APP亿级应用的

  • 基于通义万相 美图多款APP上线全新动漫特效、AI变身等视频生成功能

    今日,美图公司旗下美图秀秀、RoboNeo、Wink和开拍等多款产品,推出全新动漫特效、AI变身等视频生成功能。 据悉,新功能基于通义万相系列模型进行深度开发与训练,为美图的全球用户提供全新的创作体验。 近年来,美图加速布局生产力场景,不仅推出面向企业的AI算法服务和解决方案,旗下消费级产品也在快速集成大模型。 去年6月,美图就开始和阿里展开大模型合作。

  • iPhone 17“大冒险”:史上最薄、AI缺席,果粉买单吗?

    北京时间9月10日凌晨,苹果发布会亮相8大新品,其中包括四款新机:iPhone17、iPhone17Pro、iPhone17Pro Max,以及iPhone  Air。 你可能会问:又是一年一度的苹果发布会,这次能有什么不一样?手机新品确实有些不同。 最大的变化是苹果推出了全新的Air系列,同时砍掉了Plus。Air系列主打一个“薄”,厚度只有5.6毫米,光看数字可能没有概念,想象一下,相当于把你现在用的手机砍掉40%

  • AI投资,走到哪了?

    AI赛道,从不缺少追梦人。 多年来,创业者的名单持续刷新。从“AI四小龙”时代的汤晓鸥、印奇、朱珑、周曦,到大模型爆发后的王慧文、李开复、王小川、杨植麟、闫俊杰、唐杰,再到眼下炙手可热的90后王兴兴、彭志辉、肖弘、郭文景.....众多或熟悉或陌生的名字,纷纷涌入这场AI的浪潮。 推动这股浪潮加速前进的,还有另一股力量——资本。红杉、高瓴、英诺天使、毅

  • AI日报:MiniMax Music 1.5上线;腾讯会议上线AI托管;蚂蚁外滩大会发布AI眼镜可信连接技术框架gPass

    本文介绍了AI领域的最新动态:MiniMax推出Music 1.5模型,支持4分钟高质量音乐生成;腾讯会议AI托管功能提供会议分身服务;蚂蚁集团发布AI眼镜连接框架gPass;Anthropic为Claude新增自动记忆聊天功能;苹果AI功能在欧盟受限;AI首次担任职业球队教练获胜;谷歌推出离线AI应用Edge Gallery;企业应用AI成熟度模型发布;Claude新增网页与PDF抓取功能;FTC启动对AI聊天机器人安全性的调查。

  • AI日报:阿里推多模态模型Qwen3-Omni;谷歌推出AP2协议;百度推出Qianfan-VL 模型

    本期AI日报聚焦多领域技术突破:阿里云推出全球首个全模态AI模型Qwen3-Omni,支持文本、图像、音频和视频统一处理;百度发布多尺寸视觉理解模型Qianfan-VL,优化企业级应用。苹果扩展Image Playground平台,引入ChatGPT等第三方模型。谷歌与PayPal合作推出AP2协议,推动AI支付安全创新。钉钉上线AI表格助手,支持自然语言生成表格。DeepSeek开源V3.1-Terminus模型,性能显著提升。Kimi推出Agent会员服务,智元机器人开源全球首个通用具身智能模型GO-1,降低技术门槛促进行业创新。

今日大家都在搜的词: