首页 > 业界 > 关键词  > StreamingT2V最新资讯  > 正文

超越Sora!AI视频模型StreamingT2V可生成120秒超长视频

2024-03-26 14:05 · 稿源:站长之家

划重点:

StreamingT2V技术实现了长视频生成的突破,可生成高度一致且长度可扩展的视频。

⭐ 该技术核心构架包括条件注意力模块(CAM)和外观保持模块(APM),确保视频连续性和视觉质量。

⭐ 实现方法分为初始化、Streaming T2V生成和Streaming Refinement三个阶段,提高了视频生成的质量和分辨率。

站长之家(ChinaZ.com)3月26日 消息:近日,UT奥斯丁等机构提出的StreamingT2V技术引发了广泛关注,将AI视频生成推向了新的高度。这项技术突破了以往视频长度的限制,实现了生成高度一致且长度可扩展的视频。

image.png

StreamingT2V技术的核心构架包括条件注意力模块(CAM)和外观保持模块(APM)。CAM利用短期记忆单元确保视频连续性,而APM作为长期记忆单元保持视频中对象或场景的一致性。这两个模块的结合,使得生成的视频不仅动态连贯,而且视觉效果高质量。在测试中,研究人员用Streaming T2V生成1200帧,长达2分钟的视频。

具体实现方法分为三个阶段:初始化、Streaming T2V生成和Streaming Refinement。在初始化阶段,利用文本到视频模型创造视频的前16帧;接着进入Streaming T2V阶段,通过自回归技术生成后续帧,保证视频内容连贯性;最后,在Streaming Refinement阶段对生成的视频进行优化,提高画质和动态效果。

特色亮点包括:

  • 从文本描述生成2分钟的视频

  • 创建具有复杂动态运动的视频

  • 确保长视频中的时间一致性

该技术的出现标志着AI视频生成的新突破,不仅可以生成1200帧甚至无限长的视频,而且内容过渡自然平滑,丰富多样。与此同时,StreamingT2V技术的不断完善和提升也将进一步推动AI视频生成领域的发展,为视频内容创作提供更多可能性。

项目入口:https://top.aibase.com/tool/streamingt2v

论文地址:https://arxiv.org/abs/2403.14773

举报

  • 相关推荐
  • AI日报:阿里开源Qwen-Image-Edit;淘宝“AI万能搜”功能灰度测试;小红书发布DynamicFace人脸生成技术

    本期AI日报聚焦多项AI领域创新:1)阿里开源Qwen-Image-Edit图像编辑模型,支持中文渲染与精准文本编辑;2)淘宝测试"AI万能搜"功能,重构电商搜索体验;3)小红书发布DynamicFace人脸生成技术,实现高质量图像视频换脸;4)Gemini API新增URL Context功能,简化网页内容获取流程;5)Nvidia推出小型开放模型Nemotron-Nano-9B-v2,支持智能推理开关;6)马斯克发布Grok Imagine 0.1测试版,进军AI图像生成领域;7)Vercel推出iOS版AI开发工具v0;8)理想汽车发布MindGPT 3.1模型,处理速度提升5倍;9)ToonComposer工具简化动画制作流程;10)ElevenLabs推出视频到音乐生成流程。

  • 智谱AI发布AutoGLM 2.0 - 首个为手机而生的通用Agent。

    智谱今天,终于发了AutoGLM2.0。 想一想,AutoGLM1.0的版本,距离我第一次首发写他们,已经过去快10个月了。 那个时候,他们掀起了一波Agent热潮,甚至连A股都出现了智谱概念股,他们也开启了Agent的另一条支线,用视觉的方式来操控原有设备。 当时,我对着我的手机说:我29号要去一趟深圳,你帮我定个罗湖地铁站附近的酒店,预算600元以内,大床房。 然后,我的手机,就像

  • 豆包1.5 Vision Lite 对比 GPT-5-min,谁更适合你?实测AI模型选型利器|AIBase

    文章探讨了企业选择AI大模型时面临的实际决策难题,指出单纯比较学术参数无法满足业务需求。AIBase模型对比平台(https://model.aibase.cn/compare)通过三大核心价值解决痛点:1)聚焦业务场景而非参数堆砌,突出价格、语言支持、上下文长度等实用维度;2)透明化成本计算,标注长文本溢价规则和多模态附加费;3)一键生成对比报告。平台特别强调中文场景的特殊性(如豆包1.5在中文处理成本的优势),并揭示厂商宣传中容易忽略的隐藏成本(如GPT-5-min超5000字符的30%溢价)。典型电商客服案例显示,需综合中文理解、多模态、性价比等维度决策,最终选择取决于具体业务需求而非绝对性能排名。

  • AI日报:腾讯混元开源Hunyuan-GameCraft;最强图像编辑器nano-banana发布;字节开源Agent专用模型 M3-Agent-Control

    本文介绍了AI领域最新动态:1)腾讯开源Hunyuan-GameCraft框架,可快速生成高质量游戏视频;2)Nano-Banana模型在图像编辑领域超越FLUX+Kontext;3)字节开源基于Qwen 3 32B的328亿参数M3-Agent-Control模型;4)Kimi将推出PPT生成功能;5)阿里1688将上线"诚信通AI版"会员服务;6)苹果智能家居中心推迟至2026年发布;7)万兴科技接入GPT-5;8)全球AI独角兽达498家,总估值2.7万亿美元;9)谷歌为Slides和

  • REDMI Note 15 Pro+首搭自研澎湃T1S芯片

    REDMI官方今日正式宣布,Note15系列将于8月21日(周四)19:00全球首发。作为该系列性能旗舰,Note15Pro首次搭载小米自研澎湃T1S信号增强芯片,这款与K80Pro同源的通信芯片,将中高频蜂窝通信性能提升最高37%,Wi-Fi和蓝牙性能同步增强16%,官方用"信号强到离谱"形容其通信表现。 据实测数据,澎湃T1S芯片在人流密集的商圈、车站等场景下,网络抢通能力显著提升;在地下车�

  • AI最新资讯在哪里看?AIbase:高效获取国内外AI新闻头条与行业动态

    文章探讨了AI时代信息过载的困境:有价值的前沿动态、重磅模型发布和行业解读分散各处,筛选成本高、效率低下。AIbase资讯导航站应运而生,通过四大核心功能解决痛点:1)聚合主流信源,过滤低质噪音;2)结构化分类呈现大模型动态、行业应用等六大板块;3)提炼核心要点,拒绝标题党;4)高频更新确保信息鲜度。该平台致力于成为AI领域的"信息雷达",帮助用户节省70%信息搜集时间,将精力聚焦于思考与创造。适用于技术负责人快速掌握行业动态、产品经理调研案例、投资人捕捉趋势等多元场景。

  • 王腾吃虫子:为了REDMI Note 15的新品宣传 我豁出去了

    REDMI总经理王腾表示,前几天跟德爷见面,他给我带了一盒竹节虫做早餐,我说我吃过早饭了,他还是硬要我尝了一个,为了REDMI Note 15系列的新品宣传,我也是豁出去了,大家有机会自己尝一下。 这次REDMI Note 15 Pro系列邀请荒野求生专家,地表最强实战之王德爷(埃德斯塔福德)挑战真实生活中更复杂、更高频、更极限的场景,共同见证手机实战品质之王的诞生。

  • 15天快装开业,Lamett乐迈石晶地墙品类投资模式解析

    贝壳研究院数据显示,2025年中国存量房装修市场规模将达3.34万亿元,消费者对健康环保、便捷高效的家装需求持续攀升。乐迈石晶作为全球石晶品类开创者,推出"100㎡开店、10余万投资、15天极速开业"轻资产模式,携手经销商掘金"新房整装+旧房改造"市场。其首创的石晶地板和石晶柜板技术,实现从地面材料向墙面、柜体等全屋空间应用的跨越,构建"地墙柜一体化"健康整装系统。凭借"零醛添加、防水防潮"等核心性能优势,石晶材料正加速替代传统建材。目前乐迈石晶在全球拥有10余家工厂及销售机构,业务遍及80多个国家和地区,为高端住宅及商业空间提供整体解决方案。

  • REDMI Note 15系列定档 将于8月21日发布

    今日,REDMI官方正式宣布,备受期待的Note15系列将于8月21日(周四)19:00全球首发。此次新机不仅延续了标志性的背部“四筒”造型,更通过机身轻薄化设计、立边中框与圆润收弧工艺的融合,搭配背部玻璃的流畅弧度,在保持辨识度的同时显著提升了握持手感。 屏幕方面,Note15系列首次在中端机型中采用等深微曲屏设计,兼顾高端旗舰的视觉沉浸感与日常使用的舒适度,整�

  • 哪里找最新AI工具官网?如何快速对比ChatGPT替代品?AI工具导航指南 - AIbase

    文章探讨了在AI工具爆炸式增长的时代,用户面临的信息过载和筛选困难问题。主要内容包括:1)AI领域迭代速度远超传统软件,个人追踪信息效率低下且容易错过关键更新;2)AIbase.cn平台致力于解决这一问题,通过聚合主流AI工具、严格审核信息来源、持续更新行业动态;3)平台提供多维对比功能,结构化呈现工具参数,帮助用户快速定位适合需求的解决方案;4)建议用户定期浏览平台资讯栏目,善用搜索筛选功能,通过对比视图做出明智选择。核心价值在于降低信息筛选成本,让用户更高效地获取有价值的AI工具和前沿资讯。

今日大家都在搜的词: