超越Sora！AI视频模型StreamingT2V可生成120秒超长视频

2024-03-26 14:05 · 稿源：站长之家

划重点:
⭐ StreamingT2V技术实现了长视频生成的突破，可生成高度一致且长度可扩展的视频。
⭐ 该技术核心构架包括条件注意力模块（CAM）和外观保持模块(APM)，确保视频连续性和视觉质量。
⭐ 实现方法分为初始化、Streaming T2V生成和Streaming Refinement三个阶段，提高了视频生成的质量和分辨率。

站长之家（ChinaZ.com）3月26日消息:近日，UT奥斯丁等机构提出的StreamingT2V技术引发了广泛关注，将AI视频生成推向了新的高度。这项技术突破了以往视频长度的限制，实现了生成高度一致且长度可扩展的视频。

StreamingT2V技术的核心构架包括条件注意力模块（CAM）和外观保持模块(APM)。CAM利用短期记忆单元确保视频连续性，而APM作为长期记忆单元保持视频中对象或场景的一致性。这两个模块的结合，使得生成的视频不仅动态连贯，而且视觉效果高质量。在测试中，研究人员用Streaming T2V生成1200帧，长达2分钟的视频。

具体实现方法分为三个阶段:初始化、Streaming T2V生成和Streaming Refinement。在初始化阶段，利用文本到视频模型创造视频的前16帧;接着进入Streaming T2V阶段，通过自回归技术生成后续帧，保证视频内容连贯性;最后，在Streaming Refinement阶段对生成的视频进行优化，提高画质和动态效果。

特色亮点包括：

从文本描述生成2分钟的视频
创建具有复杂动态运动的视频
确保长视频中的时间一致性

该技术的出现标志着AI视频生成的新突破，不仅可以生成1200帧甚至无限长的视频，而且内容过渡自然平滑，丰富多样。与此同时，StreamingT2V技术的不断完善和提升也将进一步推动AI视频生成领域的发展，为视频内容创作提供更多可能性。

项目入口：https://top.aibase.com/tool/streamingt2v

论文地址:https://arxiv.org/abs/2403.14773

（举报）

相关推荐

关键词：

荐AI日报：上海首例涉AI提示词著作权案宣判；Kimi K2 Thinking发布；中文图像编辑新王UniWorld-V2发布

今日AI领域动态：上海首例AI提示词著作权案宣判，法院认定提示词不具独创性；月之暗面发布Kimi K2思考模型，实现自主多轮工具调用；UniWorld-V2图像编辑模型支持中文框选即改，性能超越GPT-Image；谷歌推出AI文件检测工具Magika 1.0，支持超200种格式；Sora安卓版首日下载量达47万次；我国发布全球首个AI海洋大模型“瞰海”，可精准预测10天内海洋变化；宇树科技“Embodied Avatar”系统实现低延迟远程机器人操控；谷歌Gemini API推出文件搜索工具，简化私有RAG系统集成。

AI 著作权提示词
荐AI日报：可复刻音色的MiniMax Speech 2.6发布；TikTok推AI剪辑新工具“Smart Split”；Cursor 2.0发布

本期AI日报聚焦多项技术突破：MiniMax发布低延迟语音合成系统Speech 2.6，实现实时交互；蚂蚁数科与宁波银行打造的金融AI方案入选国际标准；智源推出具身操作能力的Emu3.5多模态模型；Cursor 2.0通过自研模型实现多智能体协同编程；xAI升级Grok新增视频生成功能；OpenAI推出可定制安全模型；TikTok推出AI剪辑工具Smart Split；微软发布强化学习框架Agent Lightning提升大模型训练效率。

AI日报 MiniMax Speech
小米17 Ultra 12月亮相：小米最强影像旗舰

据爆料，小米17 Ultra将于12月亮相，搭载1英寸超大底主摄，配备全新LOFIC技术及徕卡镀膜，结合2亿像素潜望长焦，大幅提升高光细节表现。新机采用圆形镜头模组，主摄与长焦均支持光学防抖，配备超瓷晶面板、骁龙8 Gen4处理器，电池容量达6000-7000mAh，顶配版支持双卫星通信，堪称小米最强影像旗舰。

小米17Ultra 影像旗舰 LOFIC技术
荐AI日报：昆仑万维SkyReels V3模型上线；月之暗面推Kimi Linear模型；MiniMax Music 2.0 发布

本期AI日报聚焦多领域创新：昆仑万维推出SkyReels V3模型，整合顶尖视频生成能力；月之暗面Kimi Linear模型处理长文本速度提升2.9倍；MiniMax Music 2.0实现专业级音乐创作；字节跳动启动豆包股权激励计划吸引AI人才；苹果iOS 27将迎AI重大升级，Siri更个性化；Dia浏览器融合Arc设计理念与AI技术；文心魔法漫画工具实现一键生成连载作品；谷歌Gemini Canvas新增PPT自动生成功能，由Gemini 2.5 Pro驱动，提升职场效率。

AI视频生成 SkyReels V3
品牌AI搜索监控实战手册:你的企业在ChatGPT眼中是什么样子?

某互联网大厂品牌总监分享：投入200万SEO使"企业级CRM"关键词在Google排名第一，但用户用ChatGPT询问"推荐适合中国企业的CRM系统"时，AI回答中根本没有该品牌。更值得警惕的是，竞品不仅被提及，还被AI用"性价比高""用户体验好"等正面词汇描述。这揭示2025年品牌营销最大盲区：企业不知道AI如何"看待"自身品牌。数据显示超40%年轻用户开始使用AI搜索作为主要信息渠道，而绝大多数企业对自己在AI平台的"形象"一无所知。文章提出GEO品牌监控概念，通过覆盖度、推荐强度、信息质量三个维度量化品牌在AI搜索中的影响力，并给出五步实施流程：建立监控基线、竞品对标分析、设置持续机制、深度洞察挖掘、数据驱动优化。通过真实案例说明，系统化GEO优化能在3个月内提升品牌提及率33个百分点，证明AI搜索时代的品牌竞争已从"被看见"升级为"被AI信任"。
软件定义汽车的质量革命：AI Agent如何终结座舱OTA的“路测噩梦”

在“软件定义汽车”浪潮下，智能汽车竞争核心转向座舱体验、ADAS功能及OTA迭代质量。然而，传统软件测试模式成本高、耗时长，难以覆盖复杂场景，易导致漏洞。AI驱动的“无人测试”通过大模型与智能体技术实现三大突破：需求自主解析与测试规划、GUI自主探索与自愈维护、智能诊断与根因分析。这将催生“人机协同”新范式，测试工程师角色转向质量策略师。到2027年，超80%企业将集成AI测试工具，汽车行业2025年成为转型关键节点。

软件定义汽车智能汽车座舱体验
荐AI日报：Lovart AI上线“元素拆分”功能；Xcode 26.1.1发布；阿里云通义模型首次大规模赋能双11

本期AI日报涵盖八大热点：Lovart AI推出"元素拆分"功能，实现海报智能分层编辑；苹果Xcode 26.1.1优化AI编码性能；阿里云通义模型双11单日翻译调用量突破14亿次；Gemini 3在历史手稿破译中展现专家级能力；德国法院裁定OpenAI使用歌词训练构成侵权；开源语音模型Maya1实现富有表现力的实时文本转语音；Meta首席AI科学家LeCun计划离职创办世界模型公司；AI专家罗福莉加入小米，将致力于构建物理世界智能。

AI设计元素拆分海报编辑
科普 | 读懂HBM和DRAM，才懂AI算力未来

在AI算力需求激增的背景下，存储芯片成为决定计算性能的关键。文章重点分析了三大易失性存储技术：SRAM凭借高速读写特性在CPU缓存中不可替代；DRAM作为数字世界的“主内存”，在容量与速度间实现平衡；HBM则通过3D堆叠架构革命性提升带宽，突破AI训练中的“内存墙”瓶颈。当前HBM需求爆发式增长，预计2025年市场规模将达340亿美元。中国企业在DRAM领域逐步突破，并开始布局HBM技术，正通过持续技术积累提升在全球半导体生态中的地位。

存储芯片 DRAM HBM
50人团队、1亿美元ARR，AI PPT还在续写“神话”？

AI 生成 PPT 可以说是去年的热门赛道，尤记得关于这类产品是否具有真正竞争力的热烈讨论，而2025年9月份的数据显示，赛道头部的明星创企 Gamma 却已经默默接近3000万的访问量。并且，今天官宣了由 a16z 领投的6800万美元 B 轮融资，融资后估值达到21亿美元。而不仅 Gamma，根据 AI 产品榜数据，9月份，AIPPT 赛道的 Top3产品流量平均涨幅30%+，更有一款

AI生成PPT Gamma融资 AIPPT赛道
TabTab 登顶模力工场 AI 应用榜榜首，把 AI 数据分析师装进口袋，关键结论更快抵达！

TabTab是一款全链路AI数据分析助手，核心功能包括多源数据连接（支持文档、数据库、电商平台等）、自动化采集清洗、内置分析模型及可视化呈现。其优势在于通过多智能体系统实现自然语言交互，降低分析门槛，让非技术人员也能快速完成客户洞察、销售业绩等分析，显著提升效率。产品定位中立，致力于构建多元化AI效率提升生态。

数据驱动效率提升智能体

今日大家都在搜的词：

热文

3 天
7天

超越Sora！AI视频模型StreamingT2V可生成120秒超长视频

荐AI日报：上海首例涉AI提示词著作权案宣判；Kimi K2 Thinking发布；中文图像编辑新王UniWorld-V2发布

荐AI日报：可复刻音色的MiniMax Speech 2.6发布；TikTok推AI剪辑新工具“Smart Split”；Cursor 2.0发布

小米17 Ultra 12月亮相：小米最强影像旗舰

荐AI日报：昆仑万维SkyReels V3模型上线；月之暗面推Kimi Linear模型；MiniMax Music 2.0 发布

品牌AI搜索监控实战手册:你的企业在ChatGPT眼中是什么样子?

软件定义汽车的质量革命：AI Agent如何终结座舱OTA的“路测噩梦”

荐AI日报：Lovart AI上线“元素拆分”功能；Xcode 26.1.1发布；阿里云通义模型首次大规模赋能双11

科普 | 读懂HBM和DRAM，才懂AI算力未来

50人团队、1亿美元ARR，AI PPT还在续写“神话”？

TabTab 登顶模力工场 AI 应用榜榜首，把 AI 数据分析师装进口袋，关键结论更快抵达！

今日大家都在搜的词：

热文

iPhone Pocket被吐槽像保温水瓶套网友：韭菜太好割

雷军回应小米双11战绩：谢谢大家支持

卢伟冰：小米手机双11连续三年国产销量第一

腾讯回应QQ群最早是为了员工约饭：是一个朴实无华的需求

AI日报：月之暗面开源AI新框架Kosong；百度发布新模型ERNIE-4.

95岁巴菲特每周还上5天班此前计划年底退休

华为Mate 70 Air今日开售：处理器双版本可选售价4199元起

微信宣布治理恶意外部链接：6类违规内容将遭限访

中国移动北斗卫星短信业务升级：支持文字+图片+语音

京东发布双11战报：订单总量增长近60% 下单用户同比增长40%

iPhone Pocket被吐槽像保温水瓶套网友：韭菜太好割

雷军回应小米双11战绩：谢谢大家支持

AI日报：广电整治AI动画乱象；360发布大模型安全白皮书；百度推

卢伟冰：小米手机双11连续三年国产销量第一

OPPO Reno15系列定档11月17日发布

焕新享界S9开卖72小时预订突破8000台

华为Mate 70 Air维修备件价格公布：换主板2499元

腾讯回应QQ群最早是为了员工约饭：是一个朴实无华的需求

AI日报：月之暗面开源AI新框架Kosong；百度发布新模型ERNIE-4.

特斯拉磁悬浮Cybertruck车模上架中国官网售价999元

站长商机