首页 > 业界 > 关键词  > Open-Sora最新资讯  > 正文

Open-Sora悄悄升级 支持16秒视频生成和720p分辨率

2024-04-25 14:00 · 稿源:站长之家

站长之家(ChinaZ.com)4月25日 消息:Open-Sora 在开源社区悄悄更新了,现在,该项目不仅支持长达16秒的单镜头视频生成,而且视频分辨率最高可达720p,能够处理各种宽高比的文本到图像、文本到视频、图像到视频、视频到视频以及无限长视频的生成需求。

image.png

技术报告与模型架构:

Open-Sora技术报告已在GitHub上发布,详细介绍了新功能和模型架构。

作者团队对STDiT架构进行了关键性改进,提高了模型的训练稳定性和整体性能。

引入了旋转位置编码(RoPE embedding)和QK归一化技术,以增强训练稳定性。

ST-DiT-2架构能够自动缩放位置编码,处理不同大小尺寸的输入。

多阶段训练方法:

Open-Sora采用了多阶段训练方法,通过分步骤引入数据,高效实现高质量视频生成。

初始阶段视频采用144p分辨率,混训图片和更高分辨率视频。

第二阶段提升至240p和480p分辨率,第三阶段进一步增强至480p和720p。

统一的图生视频/视频生视频框架:

基于Transformer,DiT架构可支持图像到图像及视频到视频任务。

提出掩码策略来支持图像和视频的条件化处理。

掩码策略配置:

引入了随机掩码策略,以随机方式选择并取消掩码的帧,提高模型处理图像条件化的能力。

支持多时间/分辨率/长宽比/帧率训练:

通过分桶策略,使用原始视频的分辨率、长宽比和长度进行训练,增加采样灵活性。

数据收集和预处理流程:

作者团队提供了详尽的数据收集与处理指南,分享了自动化的数据处理流程。

性能全方位评测:

Open-Sora能够将文字描述转化为动人的动态视频,支持多种内容、分辨率、长宽比和时长的生成。

尽管取得了进展,但当前生成的视频在噪声问题、时间一致性、人物生成质量以及美学评分方面仍有待改进。作者团队将在下一版本中优先解决这些挑战。

项目地址:https://top.aibase.com/tool/open-sora

体验地址:https://huggingface.co/spaces/hpcai-tech/open-sora

举报

  • 相关推荐
  • AI仿真人不如AI仿超市

    我真没空管你们这些水果蔬菜、厨房用品、酒水饮料的事了。 谁也没想到,在经历了邪恶猫狗的叙事浪潮后,AI短片的新风口是火车上的小推车——啤酒饮料矿泉水,花生瓜子八宝粥,前面的乘客把腿收一收!

  • 造一台AI PC=跑一遍AI基建——重新认识“创新的联想”

    联想在2026年4月22日发布ThinkPad新品及天禧AI生态,提出“超级个体”概念,即个体×ThinkPad×天禧AI=超级个体。文章从四个工序解析AI+PC的制造:大脑(天禧AI3.7的端云混合架构)、产线(天津工厂60%自动化率,每9秒下线一台)、神经(iChain供应链智能体覆盖90%部门)、地基(生态级零碳工厂和海神液冷技术)。联想通过自研技术整合算法、芯片、供应链和能耗,让AI+PC成为用户不在时也能工作的“分身”,体现中国创新的另一种形态——工程纪律与产品落地。

  • 最懂购物的AI,竟然会劝你别买了?

    ​过去买一支电动牙刷,我们可能要搜索、筛选、看参数、翻评价、比价格、凑满减。现在这个复杂的购物过程,压缩成了与AI的一段对话。 5月11日,阿里巴巴宣布千问与淘宝全面打通。以往我们想象过AI电商的样子,如今购物入口、决策方式和交易流程都开始被AI重写。 你可以在千问内完成从找东西、挑东西、下单、付款到查快递的全流程;也可以在淘宝App内点击底部“消息

  • Moka 2026 产品发布会:用三位 AI “同事”,迎接 AI 原生组织时代

    Moka于2026年5月13日在北京举办产品发布会,将旗下HR SaaS全面升级为Moka AI,推出三位AI“同事”——招聘Eva、人事Eva和BP Eva,以及底层引擎Moka AI Studio。这标志着Moka从工具向智能伙伴的转型,旨在帮助组织应对AI原生时代的挑战。通过AI同事主动推进招聘、人事事务和人才管理,Moka试图将HR从执行者转变为组织架构师,同时实现软件定制化,迎接千企千面的新时代。

  • AI日报:快手拟分拆可灵AI独立融资;360升级“安全龙虾”平台;网信办要求AI生成视频必须标注

    快手拟分拆可灵AI独立融资,估值200亿美元剑指明年IPO,其年化营收已破3亿美元,覆盖C端订阅与B端API调用,全球创作者超6000万。网信办发布短视频标注新规,要求平台为AI生成及虚构内容提供六类必选标签,强化存量视频追溯补标,推动产业合规。小米自研大模型MiMo获国际认可,百度发布Ernie5.1预训练成本骤降94%,性能挺进全球Search排行前四。360升级“安全龙虾”平台,10分钟可自建专家智能体;Claude Code推出Agent View统管后台AI任务。宇树科技发布全球首款量产载人变形机甲GD01,起售价390万元。谷歌地图深度集成Gemini,CarPlay导航将进入对话时代。

  • 中国优秀的AI企业有哪些?科技巨头——联想集团用“AI原生”战略给出答案

    联想集团作为中国优秀AI企业的标杆,通过混合式AI战略和ESG双重底色展现多维竞争力。其不仅在CDP气候、水安全及供应商参与度三项评级中获最高“A”级,连续三年蝉联供应商参与度A级,更在AI领域加速布局,提出成为AI原生公司目标,预计营收突破5600亿元。通过构建从终端到云端的全栈AI能力,联想推动AI规模化应用,并深度融合绿色供应链管理,实现技术与社会责任的平衡,成为全球AI竞赛中不可忽视的中国力量。

  • 灵瑞集首发瑞兽AI灵宠:以IP重构AI陪伴新范式

    芯伴科技推出“灵瑞集”AI灵宠系列,以中国瑞兽文化为内核,结合自研角色性格模型与全场景交互技术,打造6款差异化IP角色(辟邪、天禄、九尾狐等),定价169元起。产品搭载4G独立联网模块、长续航与Type-C快充,实现无WiFi秒级响应;配套互动小程序与治愈经营游戏,构建“硬件+软件+内容”生态闭环。该系列旨在将传统瑞兽转化为年轻人专属的“有文化、有温度、可成长”情感陪伴伙伴,降低AI潮玩体验门槛。

  • Flex-Master 折叠手柄+灵鳍 AI 机械臂,MOVA洗地机诠释AI生态新范式

    MOVA在江南电器工具联盟高端论坛发布旗舰新品M50 Ultra和X60 Ultra Steam,引领洗地机行业从“工具替代人力”向“全屋智能蒸汽清洁生态”升级。X60 Ultra Steam首创双效高温机械臂,实现顽固污渍溶解与无死角清洁;M50 Ultra搭载Flex-Master伸缩折叠臂系统,解决低矮空间清洁难题。两款产品均配备AI智能与活水自清洁系统,获行业高度认可,彰显MOVA在智能清洁领域的创新领导地位。

  • 被AI洗牌的人才市场:谁在决定你的身价?

    全球科技公司大裁员还在继续。今年2月以来,多家公司宣布裁员,有的裁员规模甚至是公司成立以来最大的一次。 甲骨文一夜之间上演「跨国大清洗」,预计裁员人数高达3万。Twitter前CEO Jack Dorsey创办的金融科技公司Block更是一次性砍掉40%员工。Meta也被曝正计划启动新一轮大规模裁员,20%(近1.6万)员工或将丢掉工作。 科技行业的大规模裁员正在世界各地蔓延。4月8日,《�

  • 即梦和可灵,能不能接住AI短剧风口?

    AI生成视频,冰火两重天。 一边是曾经炸场的Sora关停,一边是国内即梦、可灵用户与收入飞涨,以及阿里旗下新面孔Happy Horse1.0模型的涌现,引起新的狂欢。 这种强烈反差的直接原因,当然在于用户需要替代方案。 在多家海外科技媒体发布的Sora 迁移指南中,即梦、可灵与Google Veo3.1、Runway Gen-4.5等被列为主要替代方案。 Sensor Tower数据显示,Sora宣布关停后一周,可灵全球周�

今日大家都在搜的词: