首页 > 业界 > 关键词  > AI视频创作最新资讯  > 正文

创新免费AI视频创作工具Show-1,仅占普通模型25%GPU内存

2023-10-07 10:26 · 稿源:站长之家

文章概要:

1. 新加坡国立大学研究团队成功研发出名为Show-1的AI系统,能够从文本描述中生成高质量视频。

2. Show-1采用像素和潜变模型的混合架构,充分利用了两种方法的优势,实现了文本到视频的精确对齐和高效放大。

3. 与纯像素模型相比,Show-1仅需使用20-25%的GPU内存,同时在逼真度和文本到视频对齐方面实现了相同或更好的结果。

站长之家(ChinaZ.com)10月7日 消息:新加坡国立大学的研究团队最近成功研发了一款名为Show-1的AI系统,该系统可以将文本描述转化为高质量视频。这一突破性的技术在AI领域引起了广泛的关注,被誉为最佳的免费AI视频创作工具之一。

image.png

Show-1的研发团队采用了一种混合架构,将像素和潜变模型相结合,以充分发挥两种方法的优势。像素模型直接处理像素值,因此能够更好地与文本提示对齐,但需要大量计算资源。潜变模型则将输入压缩到潜变空间,然后进行扩散。虽然更加高效,但在保留精细文本细节方面存在困难。

Show-1模型将这两种模型架构相结合:像素模型用于生成关键帧和低分辨率插值图像,捕捉与文本提示接近的所有运动和内容。然后,潜变模型用于将低分辨率视频放大到高分辨率。潜变模型充当“专家”,以添加逼真的细节。这种混合方法将像素模型的精确文本到视频对齐与潜变模型的高效放大相结合,取得了最佳效果。

根据研究团队的介绍,Show-1在逼真度和文本到视频对齐方面取得了与Imagen Video或Runways Gen-2等最先进方法相同或更好的结果,同时仅需使用纯像素模型生成视频所需GPU内存的20-25%。这一特点也使得Show-1对开源应用具有吸引力。

Show-1具有以下产品特色功能:

  • 像素级和潜在级结合:Show-1独创性地将像素级和潜在级VDMs相结合,充分发挥了两者的优点,以实现文本到视频的生成。这一特色使其在保持高效性的同时能够实现精确的文本与视频对齐。

  • 高质量视频生成:通过首先使用像素级VDMs生成具有强文本-视频关联性的低分辨率视频,然后使用潜在级VDMs进行进一步上采样,Show-1能够生成高质量的视频,确保了视频的视觉质量。

  • 高效性:与像素级VDMs相比,Show-1在推理期间的GPU内存使用效率更高,显著减少了计算资源的需求,从而提高了效率。

  • 文本视频对齐:Show-1注重确保生成视频与文本提示之间的精确对齐,这意味着生成的视频能够更好地反映文本描述的内容,提高了生成视频与文本一致性。

  • 开源代码和模型权重:作者公开提供了Show-1的代码和模型权重,这意味着研究社区和开发人员可以自由地使用和构建在此模型的基础上进行进一步研究和开发。

总之,Show-1是一种先进的文本到视频生成模型,通过融合不同级别的VDMs,它能够高效地生成高质量、精确对齐的视频,并且具有开放的代码和模型权重,可用于各种应用,如视频生成、自动生成影片等。

Show-1项目网址:https://showlab.github.io/Show-1/

举报

  • 相关推荐
  • 声音革命!逗哥配音以独家达人声库重塑短视频创作新生态

    国内领先的智能配音平台"逗哥配音"推出全新升级的"臻品达人声库",通过动态扩容的独家声音资源和精准的风格适配能力,帮助短视频创作者提升内容吸引力。数据显示,使用该功能的短视频播放量达行业基准值的1.8倍。平台采用"数据优选+专业打磨"模式,精选超10亿播放量验证的顶级解说者资源,每季度新增20+达人声线,覆盖影视解说、游戏、好物推荐等20余个垂直领域。独创的"声效数据库"提供3000余种场景化音效模板,实现一键匹配专业级声场。某品牌营销案例中,创作者使用专属声线将产品视频转化率提升至15.7%。目前平台已覆盖微信小程序、PC端及移动APP全平台,支持80种语言实时转换。

  • 对话帷幄叶生晅:AI卖的是know-how,花哨的明星公司们最终是牺牲自己教育市场

    叶生晅痴迷于研究人类如何做决策。 从弗吉尼亚大学计算机本科毕业后,他来到加州理工跟神经学大佬Christof Koch搞研究,看哪些模式在决定着人类复杂的决策。Christof Koch门徒诸多,其中包括后来变成AI科学家的李飞飞。 这种对人类系统运转原理的研究,总会走向哲学甚至玄学的尽头。叶生晅更想接地气点,于是他又去哈佛商学院,直接用神经科学方法研究消费者购买决策,

  • 快手可灵AI上线2.1系列模型:生成5秒视频不到1分钟

    快手旗下可灵AI发布2.1系列模型,包含720p标准版和1080p高品质版,在性价比、生成速度和质量三大维度实现突破。新模型生成5秒视频仅需20-35灵感值,与上代保持相同成本;1080p视频生成时间不到1分钟,快于行业同级产品2-3倍。模型在动态表现、物理模拟和语义理解方面均有优化,人物动作更真实自然。可灵AI自发布以来发展迅猛,全球用户突破2200万,月活增长25倍,累计生成1.68亿视频和3.44亿图片。商业化进程加速,2025年Q1营收超1.5亿元人民币,展现强劲市场潜力。

  • 让创新发声,ISC.AI 2025创新独角兽沙盒大赛开启招募

    近日,ISC.AI2025 创新独角兽沙盒大赛以“让创新发声”为主题,坚持以创新为唯一评判标尺,面向全球创新力量开启数字安全创新、AI应用创新、高校创新新星三大赛道的招募……

  • 2025年高考数学新一卷上热搜:6个AI大模型宣布挑战 谁更强?

    近日,随着高考的落幕,一场别样的“高考”也在各大AI大模型之间展开。此次测试邀请了多家知名科技公司的大模型,参与2025年数学新课标Ⅰ卷中的14道客观题测试,以此检验它们在逻辑推理和数学能力上的表现。测试题目包括8道单选题、3道多选题和3道填空题,满分73分,测试过程严格遵循高考判分原则。 测试结果显示,字节跳动的豆包和腾讯的元宝(T1)以68分的总成绩�

  • 视觉中国25周年:时光为伴,与创作者一路同行

    视觉中国迎来25周年庆,平台已汇聚全球69万签约供稿人,累计向供稿方支付稿酬超27亿元。文章回顾了视觉中国从数码时代到AI纪元的发展历程,重点介绍了其在资讯、创意、视频、插画四大内容矩阵的布局。多位签约摄影师、设计师通过亲身经历,分享了与平台共同成长的合作历程,强调视觉中国为创作者提供了专业支持与商业变现渠道。面对AI技术浪潮,文章展望未来将继续深化"平台赋能创作者、创作者反哺生态"的共赢模式,期待在下一个25年引领视觉内容产业新变革。

  • 极光科技亮相BEYOND Expo 2025,斩获创新大奖

    极光移动在BEYOND Expo 2025科技博览会上展示了其GPTBots AI Agent平台和EngageLab全渠道互动解决方案,荣获创新大奖。该平台将大语言模型与企业私有数据安全结合,应用于金融服务、公共服务等多个领域,实现智能客服、数据分析等功能。EngageLab方案则通过全渠道客户旅程管理系统,帮助企业精准触达客户。展会期间,极光展位吸引了零售、医疗等行业代表关注,并与多家企业达成初步合作意向。这标志着极光在AI产业化应用领域的技术实力获得全球认可。

  • 从大学到中学:2025百度商业AI技术创新大赛播种未来科技人才

    百度商业AI技术创新大赛聚焦生成式AI与商业场景融合,2025年第三届赛事全面升级,设置三大前沿赛道:生成式广告推荐算法优化、视频广告生成推理性能优化、搜索场景视频广告AIGC产品优化。大赛走进吉林大学等高校开展宣讲,并延伸至中学进行AI科普,激发青少年科技热情。赛事旨在挖掘优秀人才,推动AI技术创新与产业落地,为中国AI领域培育未来之星。

  • DeepSeek更新R1推理AI模型,已发布Hugging Face

    更新后的 R1 拥有 6850 亿个参数,体量庞大。由于模型规模极大,普通消费者级别的硬件很可能无法直接运行。

  • AI出海进行时,优刻得北美节点GPU集群已上线!

    中国AI企业加速出海布局,瞄准海外更高利润空间。相比国内付费意愿弱、变现路径不明,海外市场具备更强商业化能力。企业出海面临算力基础设施挑战,需实现高效稳定使用本地资源。优刻得在北美部署GPU裸金属集群,提供开箱即用、性能无损的算力服务,助力客户突破AI规模化落地的算力瓶颈。该方案具备卓越计算性能、分钟级交付能力、硬件级隔离安全性,并符合国际数据合规要求,已服务直播电商、视频生成等多个领域,为出海企业提供全周期支持。