首页 > 业界 > 关键词  > Open-Sora最新资讯  > 正文

Open-Sora 1.1发布 视频质量提升,生成时长延长至21秒

2024-05-28 10:23 · 稿源:站长之家

站长之家(ChinaZ.com)5月28日 消息:Open-Sora1.1发布,带来了显著的提升,尤其是在视频生成的质量和时长方面。新版本模型能够生成最长约为21秒的视频,使用更高质量的视觉数据和字幕进行训练,从而使其更好地理解世界的运作。此外,优化后的CausalVideoVAE架构提高了性能和推理效率。

gif.gif

主要更新和特点:

  • 视频生成质量和时长提升:新版本在视频生成的质量和时长方面都有显著提升,现在能够生成最长约为21秒的视频。

  • 高质量视觉数据和字幕训练:通过使用更高质量的视觉数据和字幕进行训练,模型对世界运作的理解得到了增强。

  • CausalVideoVAE架构优化:对CausalVideoVAE架构进行了优化,这不仅提升了视频生成的性能,还提高了推理效率。

  • 与Sora基础模型性能相似:实验结果显示,v1.1.0版本的性能与Sora基础模型相似,这证明了版本演化与Sora所展示的缩放定律的一致性。

新版本的开源释放对社区的视频生成发展具有重要意义。开源的代码、数据和模型为社区提供了方便的后续开发条件。

官方项目页介绍了对CausalVideoVAE的一系列改进,包括模型结构的优化和推理技巧的引入,进一步提升了模型的性能和效率。

Open-Sora-Plan v1.1.0的这些更新和改进,展示了视频生成技术在理解力、性能和效率方面的持续进步,同时也为未来的研究和开发奠定了基础。

项目地址:https://top.aibase.com/tool/open-sora-plan-v1-1-0

在线体验地址:https://huggingface.co/spaces/LanguageBind/Open-Sora-Plan-v1.1.0

举报

  • 相关推荐
  • 低端显卡登上AI的大船!6GB显存就能生成质量视频

    快科技4月20日消息,GitHub的Lvmin Zhang联合斯坦福大学的Maneesh Agrawala,发布了一项突破性的新技术FramePack,通过在视频扩散模型中使用固定长度的时域上下文,可以更高效地生成时间更长、质量更高的视频。根据实测,基于FramePack构建的130亿参数模型,只需一块6GB显存的显卡,就能生成60秒钟的视频。FramePack是一种神经网络架构,使用多级优化策略,完成本地AI视频生成。目前,�

  • 一图了解《第五人格》七周年发布会:三位新角色、全新玩法剧情

    《第五人格》官方还宣布,2026年,第五人格赛事将全面进行奖金升级。深渊的呼唤系列赛事奖金将增加至800万,IVL联赛单赛季奖金增加至300万,IJL联赛单赛季奖金增加至100万。

  • 山石网科发布全新Open XDR解决方案:开启安全运营新范式

    山石网科发布全新Open XDR解决方案,以"开放融合、AI赋能、智慧运维"为核心理念,突破传统安全架构局限。该方案通过南北向开放架构实现全领域数据采集与异构设备联动,打破数据孤岛;集成云端/本地AI大模型,降低安全运维门槛,实现日志精准解读和威胁深度分析;创新"案件调查"功能构建完整攻击链路,结合可视化剧本编排实现闭环安全运维。方案支持多源数据接入和无代码插件扩展,构建灵活可扩展的安全生态,助力企业从被动防御转向主动研判,为数字化转型提供智能化安全运营保障。

  • 双AI引擎数值怪天玑座舱平台CX-1发布,将智能座舱AI体验推向新高度

    联发科发布天玑汽车旗舰座舱平台C-X1,采用3nm制程工艺和Arm v9.2-A架构,搭载12核CPU和NVIDIA Blackwell GPU,AI算力达400TOPS,CPU单核性能领先行业80%,GPU渲染性能提升300%。该平台支持多模态交互和毫秒级响应,打破"车-家-手机"生态壁垒,实现跨端智能中枢。C-X1还集成强大ISP影像处理能力,支持12摄像头并行工作和8K视频录制。联发科预计到2028年,其汽车座舱平台全球营收将超30亿美元。这款产品标志着3nm车规芯片量产落地,推动智能座舱向AI定义座舱升级,成为行业新标杆。

  • 谷歌Gemini整合Veo 2视频生成模型,8秒720P视频轻松搞定

    谷歌宣布又有一款 AI 模型将加入 Gemini,但这次它不仅仅是一个聊天机器人。

  • 雅迪发布全球首款“碰一下”电动车:支付宝1秒解锁

    雅迪与支付宝达成战略合作,推出全球首款支持"碰一碰"解锁的智能电动车。用户只需用手机解锁后轻碰车身标识区,1秒即可开锁,比传统方式提速90%以上。该车还支持通过支付宝完成开座垫、设防、寻车等功能。每次"碰一碰"骑行可获得39克绿色能量,全年最多可种植2.4棵梭梭树。支付宝"碰一碰"功能上线321天已覆盖全国400+城市,接入5000+品牌和千万商家,用户数破亿,其中半数为30岁以下年轻人。

  • 阿里开源通义新模型:指定首尾图片生成视频

    快科技4月18日消息,据报道,阿里巴巴旗下通义万相宣布开源其创新视频生成技术首尾帧生视频14B模型。这项突破性AI技术能够根据用户提供的起始和结束画面,智能生成720p高清过渡视频,为视频创作带来全新可能。该模型通过先进的深度学习算法,能够精准理解输入画面的内容、风格及主题特征。当用户提供首尾两帧图像后,模型会智能分析画面中的视觉元素,包括物体形�

  • 可灵AI开启视频生成2.0时代!全球用户数已突破2200万

    4 月 15 日,快手可灵AI在北京中关村国际创新中心举行“灵感成真”2. 0 模型发布会,宣布基座模型再次升级,面向全球正式发布可灵2. 0 视频生成模型及可图2. 0 图像生成模型。

  • 腾讯混元视频生成工具全新开源:人物不会“变脸” 物体不会“漂移”

    腾讯混元5月9日宣布推出开源的多模态定制化视频生成工具HunyuanCustom。该工具基于混元视频生成大模型打造,支持文本、图像、音频等多模态输入,能生成高质量定制视频。主要功能包括:单/多主体视频生成、视频配音、局部编辑等,在保持主体一致性的同时可灵活调整场景和动作。适用于广告、电商、影视等场景,如快速更换商品背景、制作数字人视频等。目前单主体生成功能已开源,其他功能将于5月陆续开放。用户只需上传图片和文字描述即可生成连贯自然的视频内容。

  • 自在动听,森海塞尔 ACCENTUM Open真无线耳机开启聆听新体验

    森海塞尔品牌推出全新ACCENTUM Open真无线耳机,专为年轻用户设计。这款耳机采用半开放式设计,重量仅4.4克,提供奶白和经典黑两种配色。产品主打多场景使用,支持蓝牙5.3和多设备连接,具备28小时续航和快充功能(充电10分钟可播放1.5小时)。特色包括IPX4防水防汗、环境音感知功能,以及通过音频算法提升通话清晰度。三位KOL(张之琪、布鲁斯·米和张张呀)参与体验,展示其在不同生活场景中的适用性。森海塞尔持续关注年轻消费群体需求,将创新科技与个性化设计结合,引领耳机产品新潮流。