南洋理工大学研究人员推出研究人员发布Upscale-A-Video:利用文本提示提升视频超分辨率

2023-12-18 16:53 · 稿源：站长之家

**划重点:**
1. 🌐 视频超分辨率面临多种挑战，NTU研究人员采用潜在扩散框架中的本地-全局时间一致性策略，通过文本提示引导纹理创作，实现真实细节的卓越提升。
2. 🔄 通过本地微调和全局潜在传播模块，研究团队解决了CNN模型在生成真实纹理方面的限制，提高了视频局部和整体结构的稳定性。
3. 🎥 研究结果展示Upscale-A-Video在超分辨率性能上表现卓越，通过对比人工智能生成和真实视频超分辨率，呈现出更高的视觉逼真度和更精细的细节。

站长之家（ChinaZ.com）12月18日消息:近日，新加坡南洋理工大学（NTU）的研究人员成功发布了一项名为"Upscale-A-Video"的视频超分辨率技术，通过开创性的文本引导潜在扩散方法，旨在提升低质量视频的视觉质量。

视频超分辨率领域面临着在真实场景中常见的多样且复杂的降质问题，包括但不限于降采样、噪音、模糊、闪烁和视频压缩等因素。传统的基于卷积神经网络（CNN）的模型在缓解这些问题方面取得了一定进展，但由于生成能力有限，容易产生过度平滑的纹理，导致生成的视频缺乏真实感。

为了应对这些挑战，NTU的研究团队采用了本地-全局时间一致性策略，结合了潜在扩散框架。在本地层面，预训练的放大模型经过微调，集成了额外的时间层，包括3D卷积和时间注意力层，显著提高了本地序列的结构稳定性，减少了纹理闪烁等问题。同时，引入了一种新颖的流引导的递归潜在传播模块，以全局的方式进行操作，通过逐帧传播和潜在融合确保了较长视频的整体稳定性。

研究中探索了引入文本提示来引导纹理创建的创新方法，使模型能够生成更真实和高质量的细节。此外，通过向输入注入噪音，增强了模型对于重度或未知降级的鲁棒性，为恢复和生成之间的平衡提供了控制。较低的噪音水平优先考虑恢复能力，而较高水平则鼓励更精细的细节生成，实现了保真度和质量之间的权衡。

研究的主要贡献在于设计了一种强大的方法来解决真实场景视频超分辨率的问题，将本地-全局时间策略与潜在扩散框架相融合。通过引入时间一致性机制和对噪音水平和文本提示的创新控制，该模型在基准测试中表现出卓越的视觉逼真度和时间一致性。

NTU的研究不仅在技术上取得了显著进展，更为实现视频超分辨率的真实性和高质量提供了新的可能性。

（举报）

相关推荐

关键词：

云天励飞“算力积木”联手OISA，突破万亿级MoE大模型推理集群的Scale up瓶颈

云天励飞近日加入OISA生态，携手产业伙伴共建国产AI芯片互联体系，为中国算力生态注入新动力。OISA是中国移动提出的开放互联标准体系，旨在打造全向、对等、智能的互联新范式，解决智算集群内存互访难题，为大规模并行计算提供技术基石。云天励飞凭借在AI芯片与算力架构的长期积累，将依托“算力积木”架构的模块化优势，在大规模推理集群中实现高效互联，助力突破万级MoE大模型推理瓶颈，推动国产算力生态发展。

云天励飞 OISA生态 AI芯片互联
贾跃亭：FX Super One美国量产总装方案确定年底首车下线

贾跃亭近日发文表示，FX Super One美国量产总装方案确定，桥梁合作伙伴及供应链伙伴将启动量产总装阶段零部件供应，全员冲刺年底美国首车下线。此外，贾跃亭还称美国政府正考虑对美国本土生产的汽车实施重大关税减免，利好FF和FX。全球团队全力支持中东团队Super One 10月28日终极发布及11月车辆交付，已完成核心第三方应用验证。

贾跃亭 FX Super
全球首个！OpenAI将推“AI版抖音”：禁止上传实拍内容视频100%由AI生成

国庆假期前夕，OpenAI发布了Sora 2，一款旗舰视频和音频生成模型。据介绍，Sora 2可以完成以前的视频生成模型难以完成的事情，比如运动员的奥林匹克体动作、桨板上的后空翻，准确模拟浮力和刚度的动态等等，并擅长现实主义、电影和动漫风格。一则来自《连线》杂志的重磅爆料更是指出，OpenAI的下一步棋，并非简单升级一个模型，而是要亲自下场，推出一个独立的AI影�

OpenAI Sora 2
荐AI日报：生数科技推出Vidu Q2；火山引擎推出炉米Lumi；通义千问开源300+模型

本文汇总了近期AI领域多项重要进展：生数科技推出Vidu Q2模型，显著提升视频生成中细微表情的真实感；火山引擎发布炉米Lumi平台，支持视觉模型LoRA微调以定制独特风格；阿里云通义千问开源超300个模型，下载量突破6亿次；百度开源多模态视觉理解模型Qianfan-VL，适配不同场景需求；微软在Copilot中引入Anthropic模型，拓展AI助手功能；OpenAI计划在美国新建五个数据中心以加速Stargate项目；英伟达开源Audio2Face模型，提升实时面部动画生成效果；Meta发布具备沙箱推演能力的32B代码世界模型CWM，优化代码调试效率。这些动态展示了AI技术在视觉、多模态、开源生态及硬件支持等方面的快速迭代与创新突破。

AI 视频生成细微表情
荐当视频播客陷入“形式之争”，成就UP主才是真正的增量

随着B站推出“视频播客出圈计划”，抖音、小红书等平台相继加码，名人效应与资源倾斜不断助推着这一内容形态站上风口。与此同时，质疑也随之而来，“播客视频化是否只是一个伪命题?”“到底是视频播客化还是播客视频化?”等议论愈演愈烈。而在这些争论之外，一个更值得思考的议题正在浮现:当公众在讨论视频播客的概念是否成立时，行业能否借此机会跳出形式之�

视频播客名人效应内容形态
天网杯纳米AI视频创作赛圆满落幕，ISC.AI学苑推动“教育AI+”新范式

9月23日，第三届“天网杯”网络安全大赛在天津落幕，吸引全国顶尖战队角逐，同期举办纳米AI视频创作赛。赛事聚焦个人信息保护、防诈骗等网络安全议题，通过“以赛促学”模式提升学生防护意识与AI应用能力。ISC.AI学苑作为平台支持，依托“纳米AI”技术降低创作门槛，推动“安全+AI”人才培养。大赛评选出24个奖项，并联合多所高校深化合作，促进AI技术在教育场景的落

天网杯网络安全大赛纳米AI
iPhone 17 Pro被吐槽闪光灯离镜头太远：拍视频有影子

日前，苹果发布了iPhone 17 Pro系列，但由于采用新的大尺寸镜头模组，于是将闪光灯从镜头旁边移动到了机身另一侧。但近日一位网友吐槽，在使用iPhone 17 Pro系列的相机闪光灯时，会在录制视频对象附近产生阴影。他表示：看起来像是有人从角落里拿着灯，老实说，这真的超级烦人。”

iPhone 17 Pro
荐AI日报：豆包大模型1.6-vision发布；DeepSeek发布V3.2-exp模型；Claude Sonnet4.5发布

本期AI日报聚焦多项技术突破：DeepSeek发布V3.2-exp模型，通过稀疏注意力机制降低API成本50%；Anthropic推出Claude Sonnet 4.5，在编码任务表现卓越；ChatGPT新增即时结账功能，实现对话界面直接购物；OpenAI将推出AI版TikTok，所有内容由Sora2模型生成；百度地图升级小度想想2.0，提供智能出行服务；蚂蚁集团开源万亿参数模型Ring-1T-preview；DeepMind提出“帧链”概念，推动视频模型实现全面�

AI DeepSeek 稀疏注意力
中国数智财政市场第一！太极华青持续登顶IDC榜单

IDC报告显示，太极华青凭借预算管理一体化建设优势及AI、数据要素创新应用，连续四年蝉联中国数智财政市场第一。公司通过业务整合、流程再造与数据赋能，构建覆盖预算全周期管理体系，并推出行业垂类大模型，提供智能问答、报销、数据分析等服务，推动财政管理智能化升级。未来将持续强化数据与AI能力，助力数智财政建设。

数智财政预算管理一体化人工智能
“你好BOE”再度携非遗与当代设计亮相米兰以科技之力向世界展现东方美学 http://news.cnmtpt.com/?Sid=0_765W618634033&date=20251009

10月3日，“新生万物”中国非遗与当代设计展暨“你好BOE”品牌巡展在米兰开幕。BOE（京东方）作为首席显示技术合作伙伴，通过透明屏、万境屏等前沿产品，生动呈现茶酒论、唐人宫乐图等非遗文化，展现科技与艺术的深度融合。展览正值中意建交55周年，成为两国文化交流的重要见证，体现BOE以创新科技推动文化传承、拓展全球品牌影响力的战略实践。

中国非遗当代设计展 BOE(京东方)

今日大家都在搜的词：

热文

3 天
7天

南洋理工大学研究人员推出研究人员发布Upscale-A-Video:利用文本提示提升视频超分辨率

云天励飞“算力积木”联手OISA，突破万亿级MoE大模型推理集群的Scale up瓶颈

贾跃亭：FX Super One美国量产总装方案确定年底首车下线

全球首个！OpenAI将推“AI版抖音”：禁止上传实拍内容视频100%由AI生成

荐AI日报：生数科技推出Vidu Q2；火山引擎推出炉米Lumi；通义千问开源300+模型

荐当视频播客陷入“形式之争”，成就UP主才是真正的增量

天网杯纳米AI视频创作赛圆满落幕，ISC.AI学苑推动“教育AI+”新范式

iPhone 17 Pro被吐槽闪光灯离镜头太远：拍视频有影子

荐AI日报：豆包大模型1.6-vision发布；DeepSeek发布V3.2-exp模型；Claude Sonnet4.5发布

中国数智财政市场第一！太极华青持续登顶IDC榜单

“你好BOE”再度携非遗与当代设计亮相米兰以科技之力向世界展现东方美学 http://news.cnmtpt.com/?Sid=0_765W618634033&date=20251009

今日大家都在搜的词：

热文

微信又更新了撤回消息有大变化：可撤回本次发送的全部消息

雷军：小米17系列首销权益延续至10月31日

三星W26折叠屏手机官宣10月11日发布

iQOO 15官宣：10月20日发布

新款智界R7/S7上市44天大定破38000台

荣耀Magic8系列暨MagicOS10发布会定档10月15日

真我官宣与理光达成影像战略合作：真我GT8 Pro首发搭载

iQOO 15搭载自研电竞芯片Q3 能效提升40%

荣耀MagicPad3 Pro官宣10月15日发布搭载第五代骁龙8至尊

OPPO Find X9/Pro全配色外观公布将于10月16日发布

小米回应“小米汽车突然自己开走”：排除车辆质量问题

比特币价格突破12.5万美元刷新历史最高纪录

微信又更新了撤回消息有大变化：可撤回本次发送的全部消息

小米17 1TB版明日开售售价5299元

雷军：小米17系列开售仅5天销量破100万台

腾讯混元图像3.0登顶LMArena榜一

小米 17 标准版1TB版本 5299 元开售全系列销量同比增超20%

雷军：小米17系列首销权益延续至10月31日

乔布斯逝世14周年库克发文缅怀：我们深切怀念你

三星W26折叠屏手机官宣10月11日发布

站长商机