首页 > 业界 > 关键词  > Open-Sora最新资讯  > 正文

Open-Sora开源项目更新:可生成长达16秒、720P高清视频

2024-04-29 09:52 · 稿源:站长之家

划重点:

Open-Sora 可生成16秒,720P 高清视频

⭐ 新版本架构升级,稳定性提升

⭐ 多时间 / 分辨率 / 长宽比 / 帧率训练,支持多模态功能

站长之家(ChinaZ.com)4月29日 消息:潞晨科技旗下文生视频模型开源项目 Open-Sora 近日进行了重大更新,新版本可以生成16秒时长、720P 高清视频。

image.png

在本次更新中,团队对1.0版本的 STDiT 架构进行了关键性改进,提高了模型的训练稳定性和整体性能。新版本采用了多阶段训练方法,有效地提升了视频生成质量,训练流程中引入了 QK 归一化技术和旋转位置编码。此外,Open-Sora 还支持多时间、分辨率、长宽比和帧率的训练,具备多模态功能,可以处理文本到图像、文本到视频、图像到视频等任务。

Open-Sora 的架构升级和训练流程优化使得视频生成更加稳定和高效。团队引入了掩码策略来支持图像和视频的条件化处理,提供了详细的掩码策略配置指南,增强了模型在处理图像条件化任务时的学习效果。另外,在数据收集和预处理方面,团队建立了自动化的流程,包括场景分割、字幕处理、数据评分与筛选等步骤,优化了数据集的质量和数量。

Open-Sora 的更新版本在模型稳定性、训练效率和功能扩展等方面都取得了显著进展,为用户提供了更加强大和多样化的视频生成能力。

项目入口:https://top.aibase.com/tool/open-sora

举报

  • 相关推荐
  • 谷歌Gemini整合Veo 2视频生成模型,8720P视频轻松搞定

    谷歌宣布又有一款 AI 模型将加入 Gemini,但这次它不仅仅是一个聊天机器人。

  • 阿里开源通义新模型:指定首尾图片生成视频

    快科技4月18日消息,据报道,阿里巴巴旗下通义万相宣布开源其创新视频生成技术首尾帧生视频14B模型。这项突破性AI技术能够根据用户提供的起始和结束画面,智能生成720p高清过渡视频,为视频创作带来全新可能。该模型通过先进的深度学习算法,能够精准理解输入画面的内容、风格及主题特征。当用户提供首尾两帧图像后,模型会智能分析画面中的视觉元素,包括物体形�

  • 腾讯混元视频生成工具全新开源:人物不会“变脸” 物体不会“漂移”

    腾讯混元5月9日宣布推出开源的多模态定制化视频生成工具HunyuanCustom。该工具基于混元视频生成大模型打造,支持文本、图像、音频等多模态输入,能生成高质量定制视频。主要功能包括:单/多主体视频生成、视频配音、局部编辑等,在保持主体一致性的同时可灵活调整场景和动作。适用于广告、电商、影视等场景,如快速更换商品背景、制作数字人视频等。目前单主体生成功能已开源,其他功能将于5月陆续开放。用户只需上传图片和文字描述即可生成连贯自然的视频内容。

  • 低端显卡登上AI的大船!6GB显存就能生成高质量视频

    快科技4月20日消息,GitHub的Lvmin Zhang联合斯坦福大学的Maneesh Agrawala,发布了一项突破性的新技术FramePack,通过在视频扩散模型中使用固定长度的时域上下文,可以更高效地生成时间更长、质量更高的视频。根据实测,基于FramePack构建的130亿参数模型,只需一块6GB显存的显卡,就能生成60秒钟的视频。FramePack是一种神经网络架构,使用多级优化策略,完成本地AI视频生成。目前,�

  • OPPO Reno14全系标配3.5倍潜望长焦:支持高清长焦Live图

    据了解,OPPO Reno14 Pro首发天玑8450处理器,采用台积电4nm制程工艺,CPU为1 3 4架构设计,是联发科最强天玑8系芯片。

  • DeepSeek上新!开源发布DeepSeek-Prover-V2-671B新模型

    快科技4月30日消息,今日,DeepSeek 今日在 AI 开源社区 Hugging Face 发布了一个名为 DeepSeek-Prover-V2-671B 的新模型。据介绍,DeepSeek-Prover-V2-671B 其参数量达到6710亿,使用了更高效的 safetensors 文件格式,并支持 BF16、FP8、F32 等多种计算精度,方便模型更快、更省资源地训练和部署。在模型架构上,该模型使用了DeepSeek-V3架构,采用MoE(混合专家)模式,具有61层Transformer层,7168维隐藏层。同时支持超长上下文,最大位置嵌入达163840,使其能处理复杂的数学证明,并且采用了FP8量化,可通过量化技术减小模型大小,提

  • 仅用三张图像即可生成 3D 场景,苹果新 AI 模型“很惊人”

    只需三张输入图像,Matrix3D 就能生成物体、甚至整个环境的详细 3D 重建,这显然可以为 Apple Vision Pro 等沉浸式头显带来非常有趣的应用……

  • 异瞳少年治沙月入7200元 此前一个月内涨粉近200万

    王金透露,其短视频账号在一个月内涨粉近200万,但走红后频繁受到打扰。4月中旬,他虽曾与运营团队合作拍摄3期视频,终因理念不合终止合作。后在老板协助下,全家搬至现居地。每日凌晨五点,王金与父母携带干粮前往沙漠,直至下午六点方结束栽树治沙工作。

  • 腾讯元宝又叒叕上新:一句话即可生成Mermaid图表

    据其介绍,只要在元宝里输入一句话,比如帮我用Mermaid生成一张xxx流程图”,系统就会自动生成饼图、流程图、甘特图、时序图等。生成后,用户可以立刻预览效果,或者复制代码拿去其他地方使用。 腾讯元宝介绍,这个功能比较适合用在学术研究、工作报告、数据分析等场景,能帮助用户把复杂的内容快速变成图表,让信息更直观,沟通也更高效。

  • 零百加速5.7!长城汽车:魏牌山是性能最强的插混MPV

    比亚迪新款高端MPV车型高能登场,加速表现卓越,零百加速仅需5.7秒,综合功率高达358kW,扭矩达762Nm。搭载智能四驱系统与Hi4混动技术,优化整车效率,解决用户对高性能四驱车油耗高的痛点。在高速场景中,效率提升13%-20%,并具备应对极端路况的开发系统,提供更安全的驾驶体验。此外,该车型全系标配四驱系统,不仅提升了高速行驶的精准度和稳定性,还能轻松应对雪地等复杂路况,有效避免车辆打滑带来的安全隐患。