首页 > 业界 > 关键词  > StreamingT2V最新资讯  > 正文

Sora平替?2分钟超长AI视频模型StreamingT2V免费开源 试玩地址公布

2024-04-15 10:31 · 稿源:站长之家

站长之家(ChinaZ.com)4月15日 消息:近日,Picsart AI Research等团队联合发布了一款名为StreamingT2V的AI视频模型,该模型能够生成长达1200帧、时长达2分钟的视频,这在技术上超越了之前备受关注的Sora模型。StreamingT2V的发布不仅在视频长度上取得了突破,而且它是一个免费开源的项目,可以无缝兼容SVD和animatediff等模型,这对于开源生态的发展具有重要意义。

2.png

在Sora之前,市场上的视频生成模型如Pika、Runway、Stable Video Diffusion(SVD)等,通常只能生成几秒钟到十几秒的视频。Sora的出现以其60秒的视频生成能力成为行业的新标杆。而现在,StreamingT2V的推出,不仅在时长上有所突破,理论上还可以做到无限长,这为视频生成领域带来了更多可能性。

StreamingT2V的架构采用了先进的自回归技术,能够创建具有丰富运动动态的长视频,同时保持视频的时间一致性和高帧级图像质量。与现有的文本到视频扩散模型相比,这些模型通常集中在高质量的短视频生成上,而在扩展到长视频时往往会出现质量下降、表现生硬或停滞等问题。StreamingT2V通过引入条件注意力模块(CAM)和外观保留模块(APM),以及一种随机混合方法,有效地解决了这些问题。

CAM作为短期记忆块,通过注意机制调节当前一代的视频,以实现一致的块过渡;而APM作为长期记忆块,从第一个视频块中提取高级场景和对象特征,防止模型忘记初始场景。此外,StreamingT2V还利用高分辨率文本到视频模型对生成的视频进行自动回归增强,以提高质量和分辨率。

目前,StreamingT2V已经在GitHub上开源,并在huggingface上提供了免费试玩。尽管服务器负载可能较高,但用户可以尝试输入文字和图片提示来生成视频。此外,huggingface上也展示了一些成功的案例,证明了StreamingT2V在视频生成方面的强大能力。

StreamingT2V的发布不仅为视频生成领域带来了新的技术突破,也为开源社区提供了一个强大的工具,有助于推动相关技术的发展和应用。未来,我们或许可以期待更多基于这类技术的创新应用,例如在电影制作、游戏开发、虚拟世界构建等领域发挥重要作用。

开源代码:https://top.aibase.com/tool/streamingt2v

论文地址:https://arxiv.org/pdf/2403.14773.pdf

试玩地址1:https://huggingface.co/spaces/PAIR/StreamingT2V

试玩地址2:https://replicate.com/camenduru/streaming-t2v

举报

  • 相关推荐
  • 第一!世纪华通旗下Century Games登顶全球Top50手游商

    知名游戏媒体PocketGamer发布《2025年全球TOP50移动游戏商》榜单,世纪华通旗下Century Games从去年第7位跃居榜首,创下该榜单晋升速度新纪录。其成功源于持续创新与精准市场洞察:既实现《Whiteout Survival》等长线产品稳定运营,又凭借《Kingshot》等新作打造跨品类爆款,形成“双强驱动”格局。公司通过“微创新”策略结合AI技术提升研发效率,构建覆盖SLG、休闲、卡牌三大核心品类的产品矩阵。2025年上半年母公司世纪华通营收172亿元,同比增长85.5%,印证了其全球化布局与长效发展潜力。

  • ChatExcel重磅发布:基于AMD锐龙AI MAX+ 395处理器的数据分析Mini AI 工作站

    ChatExcel发布搭载AMD锐龙AI MAX+395处理器的Mini AI工作站,重构数据全链路,打造“找数-做数-分析数-看数-用数”的商业闭环平台。依托处理器96GB超大显存和统一内存架构,实现本地流畅运行GPT-oss-120B等大型模型,保障数据安全的同时显著提升分析效率。该方案以财务场景为例,支持多任务并行处理,将原本需1天完成的月度报表压缩至2小时,解决“数据不外发”与“高效处理”的核心矛盾。

  • 想释放多网卡带宽?银河麒麟V11的MPTCP方案来了

    本文介绍银河麒麟操作系统V11的MPTCP解决方案,通过多路径TCP协议聚合多网卡带宽,实现数据传输速度倍增和链路故障无缝切换。方案提供内核级原生支持,部署简单,兼容主流应用,显著提升网络性能与可靠性,有效解决单网卡带宽瓶颈和多网卡资源闲置问题,为高吞吐业务场景打造高效网络传输新引擎。

  • 努比亚Z80 Ultra定档10月22日,能拍能打,街拍游戏机

    努比亚Z80 Ultra将于10月22日发布,主打“能拍能打,绝世有双”定位,以“街拍游戏机”为核心标签。搭载三主摄方案,包括1/1.55大底广角、35mm高定主摄和85mm长焦,覆盖多场景拍摄。配备第五代骁龙8芯片和专业游戏引擎,支持144Hz刷新率、3000Hz触控采样率,游戏体验流畅。此外还具备超声波指纹、IP68/69防护、大容量电池等配置,实现影像与性能的全面升级,堪称全能旗舰机型。

  • 努比亚Z80 Ultra官宣10月22日发布 搭载无孔真全面屏

    今日,努比亚官方正式宣布,全新旗舰机型Z80Ultra将于10月22日14时全球首发。这款新机最大亮点在于延续了品牌标志性的真全面屏设计,成为业内首款实现正面无任何开孔的智能手机,为用户带来完整的视觉沉浸体验。 据官方公布的渲染图显示,Z80Ultra采用极窄边框工艺,上边框与左右两侧边框宽度控制极佳,黑边几乎不可见,仅下边框因技术限制稍宽。机身设计融入整体弧�

  • Matrixport 于 Token2049 新加坡期间举办 DAT 高峰论坛,聚焦下一轮市场周期话语权

    在2025年TOKEN2049新加坡峰会期间,Matrixport举办闭门论坛探讨数字资产财库战略。与会专家一致认为,DAT正从风控工具升级为机构战略核心,预计将形成寡头主导格局。Matrixport通过一站式解决方案推动行业标准化,其管理的DATCO持仓规模突破千亿美元。论坛凸显DAT作为华尔街资本入局加密市场的重要通道,未来将在全球金融体系中扮演关键角色。

  • 特斯拉V14终于来了!整合Robotaxi技术 马斯克:FSD有了意识

    以下是FSD 14的主要功能更新 1、新增到达选项(Arrival Options):驾驶者可选择目的地停车类型,包括停车场、街边、车道、停车库或路边停靠。 2、系统可识别警车、消防车、救护车等紧急车辆并自动避让或靠边停车。 3、实现对封路与临时绕行的实时处理。 4、增加自定义速度档位”以调整驾驶风格。新增SLOTH”模式,以更低车

  • vivo自研蓝河操作系统3发布:vivo WATCH GT 2首发

    在2025年vivo开发者大会上,vivo正式发布自研蓝河操作系统3。该系统主打全链路智慧能力,基于轻量、模块化设计,将完整AI方案便捷部署至不同设备。即将发布的vivo WATCH GT 2首发搭载,升级智慧体验。系统内置视觉、听觉及感知唤醒等能力,原生支持AI识别、降噪等功能,并引入蓝心智能,支持问答、语音识别等。流畅度方面,搭载蓝河流畅引擎,实测资源消耗降低60%,绘制效率提升36%,调度切换开销下降58%,资源占用减少40%。

  • 全球唯一上榜扫地机!追觅 X50 Ultra 入选《时代》年度最佳发明

    10月9日,《时代》周刊公布2025年度最佳发明榜单,追觅扫地机器人X50 Ultra凭借仿生机械足越障技术、自升降激光雷达及双机械臂贴边清洁等创新功能入选,成为唯一上榜的扫地机产品。该产品突破传统清洁局限,实现6厘米越障和毫米级无死角清洁,通过技术革新提升用户体验,体现品牌以创新解决用户痛点的战略方向。

  • AI日报:豆包大模型1.6-vision发布;DeepSeek发布V3.2-exp模型;Claude Sonnet4.5发布

    本期AI日报聚焦多项技术突破:DeepSeek发布V3.2-exp模型,通过稀疏注意力机制降低API成本50%;Anthropic推出Claude Sonnet 4.5,在编码任务表现卓越;ChatGPT新增即时结账功能,实现对话界面直接购物;OpenAI将推出AI版TikTok,所有内容由Sora2模型生成;百度地图升级小度想想2.0,提供智能出行服务;蚂蚁集团开源万亿参数模型Ring-1T-preview;DeepMind提出“帧链”概念,推动视频模型实现全面�

今日大家都在搜的词: