首页 > 业界 > 关键词  > 视频生成最新资讯  > 正文

国产Sora来了!清华发布视频生成大模型“视界一粟YiSu”

2024-06-12 22:29 · 稿源: 快科技

据快科技 6 月 12 日报道,北京视界一粟科技携手清华大学自动化系,隆重推出我国首个超长时长且高性价比视频生成大模型——"YiSu"。

YiSu 模型独具 16 秒的超长原生时长,可生成长达 1 分钟以上的视频。此外,它还具备更低的成本、更快的生成速度,并可部署于端侧设备。

年初,DiT 架构因 Sora 大模型而备受瞩目,吸引了众多企业和项目纷至沓来。然而,视界一粟 YiSu 并未局限于此。

该团队自研了视频生成大模型技术,融合 LLM 和扩散模型优势,整合了多模态融合、高训练效率、低推理效率和出色模型效果等特性,打造了一站式的视频生成解决方案。

此前,该团队推出的 WorldDreamer,是全球首次以 Transformer 和 LLM(掩码标记路由)为核心的视频生成项目。

此次发布的视频生成大模型为 YiSu-Beta V0.5 版本,该模型正在按每周小版本和每月大版本的节奏不断进化。未来几个月,其视频时长、可控性、推理速度、运行成本以及对物理世界的理解能力都将大幅提升。

值得一提的是,视界一粟科技核心团队在 AI 技术领域拥有超过十年的经验。团队成员来自清华大学、中科院、中科大等知名学府,已发表 200 余篇 AI 顶级论文,并在全球权威 AI 竞赛中屡获佳绩。

举报

  • 相关推荐
  • 视频生成每秒仅需1元!字节Seedance2.0正式上线API服务

    今日,字节旗下火山引擎正式上线Seedance 2.0系列API服务,企业和个人用户现在可以调用其视频生成能力。 作为全球SOTA模型,Seedance 2.0支持文字、图片、音频、视频四种模态输入;同时它在复杂交互和运动场景下的可用率更高,更加贴合工业级创作场景的需求。 此外,火山引擎还为Seedance 2.0建立了肖像与版权安全标准,覆盖视频生成涉及的各种模态和创作前后的全部流程。 �

  • 阿里发布Wan2.7-Video视频生成模型!从演迈向导 聚焦创作全链路

    阿里巴巴今日正式发布Wan2.7-Video视频生成系列模型,涵盖文生视频、图生视频、参考生视频和视频编辑四大模型。 新模型拥有全面的创作控制力,将AI的能力从单一素材生成扩至创作全链路,从演”迈向导”。

  • AI日报:火山引擎Seedance2.0 API全面开放;阿里巴巴首款具身机器人曝光;Skywork AI发布实时视频生成系统Matrix-Game 3.0

    本期AI日报聚焦多领域前沿动态:火山引擎Seedance 2.0 API上线,提供SOTA级视频生成能力;Skywork AI发布Matrix-Game 3.0,实现720p实时高清“世界生成”;特斯拉2026春季更新将带来Grok语音助手升级与FSD一键订阅。此外,五部门联合部署“人工智能+教育”行动,计划到2030年构建深度融合格局;爱奇艺CEO预测3-6个月内或出现AI商业大片;阿里巴巴发布首款具身四足机器人;LPM1.0模型实现单图转实时交互式数字人视频;谷歌Gemini推出基于Nano Banana技术的交互式可视化图像生成功能。

  • 逗哥配音:一站式AI创作平台赋能短视频生态,千万博主验证的配音软件再升级

    在短视频内容生态从粗放式铺量转向精细化质感运营的当下,配音已成为决定完播率与情绪价值的关键引擎。逗哥配音作为行业头部智能创作平台,凭借海量音色库、真人授权与全链路效率工具,以“一站式AI配音创作平台”的定位,深度赋能影视解说、小说推文、AI漫画及内容出海等多元变现赛道。其核心竞争力在于拒绝“一刀切”的配音方案,针对高潜力创作类型提供模块化赋能,并通过声音广场智能检索系统、精准节奏卡点算法及一站式效率工具箱,极大提升创作效率与沉浸留存。平台更构建了完善的声音资产增值与保护体系,推出声音授权变现模式,并建立专业的版权监控与法律维权绿色通道,吸引顶级声优与头部KOL入驻生态。未来,逗哥配音将继续以技术驱动创作普惠,为全球创作者提供更具情感温度与商业价值的声音基础设施。

  • OpenAI停止视频生成工具Sora 将内部进行重组

    OpenAI公司近日宣布了一个让不少用户感到意外的决定:在推出Sora独立应用程序仅仅六个月后,他们计划停止这项视频生成服务,目的是为了简化自家的AI产品线。 按照官方给出的说法,Sora的消费者端应用、开发者接口以及与ChatGPT相关的功能都将全面关闭。OpenAI团队在社交平台上发布了一封告别信,信中承诺会公布用户内容的保存方案以及具体的停运时间表。他们感谢了用户一

  • 长视频的AI竞赛:技术是门票,人才是底牌

    一条由B站UP主“DiDi_OK”创作的7分钟AI短片《牌子》最近引发了不少关注。 火星神秘警示牌降临引发全球性混乱,背后竟隐藏着关于人类文明重启、巴别塔式困境的多重隐喻;从异兽出没到街头枪战,镜头切换快速且流畅,还不乏“炫技”式的一镜到底……无论从主题丰富度还是画面效果来看,《牌子》都达到了“以假乱真”的程度。

  • 阿里云百炼上线三方视频生成模型,PixVerse首发登陆

    全球领先的AI视频生成模型PixVerse V5.6正式登陆阿里云百炼平台,成为该平台首批引入的视频生成模型。此次合作标志着PixVerse从技术领先迈向规模化商业应用。模型支持文生视频、图文生视频等多种创作模式,并推出按需、按时长计费的灵活模式,大幅降低高质量视频创作门槛。同时,PixVerse V5.6在复杂运动场景的稳定性和“镜头语言”理解能力上显著提升,能生成更符合商业交付标准的内容。通过百炼平台,PixVerse将触达阿里云庞大的企业用户群,推动AI视频从“演示级能力”迈向“工业化生产”,在电商营销、泛娱乐内容、短剧创作等多个行业展现广泛应用价值。

  • 腾讯混元3D世界模型2.0发布 一句话生成3D资产

    今日,腾讯正式发布并开源混元3D世界模型2.0(HY-World 2.0)。 官方表示,该模型一句话就能生成3D资产,并直接导入到游戏制作或具身仿真引擎,实现真正的可玩、可用。 具体来说,用户完全不需要懂任何复杂的3D软件,只要像平时说话一样输入一句文字描述,或者直接上传一张图片,模型就能精准解析复杂的语义。 随后,它会一键生成混合了3D高斯泼溅(3DGS)与Mesh表征的�

  • 面壁智能,大模型“另类”生存法则

    面壁智能,是中国大模型行业中的“另类”。 在国内外大肆流行Scaling Law(规模定律),即奉行参数越大、数据越多、算力越强,模型能力就越强的时候。 面壁智能则反其道行之,遵循“知识密度”,即用更少的参数实现更强的能力;以及“密度法则”,即在有限算力下,持续提升模型能力密度。 一个是“大力出奇迹”,一个是“以小博大”,这注定一开始面壁就与主流的�

  • 中端WOLED 新标杆 技嘉 GO27Q24G 全能电竞显示器性价比拉满

    技嘉推出GO27Q24G电竞显示器,采用27英寸WOLED面板,分辨率2560x1440,刷新率240Hz。搭载MLA技术和HyperNits智能增亮,实现1300尼特HDR峰值亮度与150万:1超高对比度。响应时间0.03ms,覆盖99% DCI-P3色域,支持G-SYNC和FreeSync防撕裂技术,配备HDMI 2.1和DP 1.4接口,以高性能与亲民定价重塑中端WOLED市场标杆。

今日大家都在搜的词: