Adobe 发布 VideoGigaGAN 超分辨率视频模型

2024-06-04 08:46 · 稿源：站长之家

划重点:
⭐ Adobe 和研究人员合作推出 VideoGigaGAN，兼顾帧率连贯性和细节丰富的超分辨率视频模型。
⭐ VideoGigaGAN 基于 GigaGAN 模型开发，通过添加时序卷积、自注意力层和光流引导模块，解决了超分辨率视频模型的时间连贯性和细节丰富性问题。
⭐ VideoGigaGAN 模型利用时序卷积捕捉视频帧之间的时间依赖性，自注意力层提取空间细节和纹理信息，光流引导模块保持特征的空间一致性，从而生成清晰的超分辨率视频。

站长之家（ChinaZ.com）6月4日消息:全球多媒体巨头 Adobe 与马里兰大学的研究人员合作推出了新的超分辨率视频模型 VideoGigaGAN。该模型兼顾帧率连贯性和丰富细节，解决了当前超分辨率视频模型的难题。

微信截图_20240604084554.png

在过去的超分辨率视频转换中，存在两大难题:一是保持输出视频帧在时间上的连贯性，确保帧到帧之间平滑过渡，不出现闪烁或抖动的情况;二是在放大的视频帧中重建高频细节，提供清晰和逼真的纹理效果。然而，目前的超分辨率视频模型虽然在保持时间连贯性方面取得了进展，但以牺牲图像清晰度为代价，整体模糊缺乏更加生动的细节和纹理。

VideoGigaGAN 是基于 Adobe、卡内基梅隆大学和浦项科技大学之前推出的大规模图像超分辨率模型 GigaGAN 的基础之上开发而成。该模型通过添加时序卷积和自注意力层，将 GigaGAN 模型从2D 图像扩展为3D 视频模型，同时引入了光流引导模块，更好地对齐不同帧的特征，提高视频的时间一致性和细节丰富性。

时序卷积模块使模型能够捕捉视频帧之间的时间依赖性，从而提高超分辨率视频的时间一致性。自注意力层在解码器块中提取空间上的细节和纹理信息，同时在时间上增强一致性。光流引导模块利用光流来预测视频帧中的像素级运动，保持特征的空间一致性，生成清晰的超分辨率视频。

VideoGigaGAN 的技术原理：

基于 GigaGAN：VideoGigaGAN 基于大规模图像超分辨率模型 GigaGAN，通过将其扩展为视频模型来实现视频超分辨率处理。

时域注意力：在解码器块中添加时域注意力层，以确保在视频超分辨率处理过程中保持时域一致性。

特征传播模块：利用特征传播模块来增强一致性，将特征从视频的不同帧之间进行传播，以保持视频的连贯性。

抗锯齿处理：通过在编码器的下采样层中引入抗锯齿模块，有效抑制视频中的锯齿状伪影，改善视觉效果。

细节补偿：通过直接将高频特征通过跳跃连接传输到解码器层，以补偿在模糊处理过程中丢失的细节。

通过以上技术原理，VideoGigaGAN 能够在视频超分辨率处理中实现高质量的细节丰富的输出，并保持时域一致性。

VideoGigaGAN 具有以下功能特点：

视频超分辨率：能够将低分辨率的视频提升至高分辨率，增加视频细节和清晰度。

时域一致性：在进行视频超分辨率处理时，能够保持视频的时域一致性，避免出现时间上的不连续或跳跃。

丰富的细节处理：能够处理视频中的丰富细节，包括纹理、边缘和高频信息，提升视频质量。

抗锯齿处理：能够有效抑制视频中出现的锯齿状伪影，改善视频的视觉效果。

通用性：能够处理不同类型的视频内容，适用于多种视频处理场景。

高质量输出：生成的超分辨率视频具有更高的质量和清晰度，可用于多种应用领域。

VideoGigaGAN 可以在多种应用场景中发挥作用，包括但不限于：

1. 视频内容制作：提高视频内容的清晰度和细节，使得视频制作过程中可以处理低分辨率素材，并生成更高质量的视频作品。

2. 视频监控和安全领域：对于监控摄像头捕捉的低分辨率视频进行超分辨率处理，从而提高监控系统的效能和识别能力。

3. 视频通讯和会议：在视频通话和远程会议中，对低分辨率视频进行提升，改善视频质量，提升用户体验。

4. 医疗影像：对于医学图像和视频进行超分辨率处理，提高医疗影像的清晰度和诊断准确性。

5. 视频内容分发：对于在线视频平台或内容提供商，可以使用 VideoGigaGAN 提高视频质量，提供更清晰的视频内容给用户。

产品入口：https://top.aibase.com/tool/videogigagan

（举报）

相关推荐

关键词：

从足球公益到数字赋能，SnackVideo连续两年于印尼落地乡村公益活动

近日，由快手旗下专注印尼市场的短视频平台 SnackVideo 发起的 2025 年首场乡村公益活动在万丹省唐格朗市 Legok 区 Babakan 村圆满举行。此次活动不仅为当地村民带来了欢乐与希望，更展现了SnackVideo助力印尼乡村振兴的决心与担当。

SnackVideo 短视频平台快手短视频
荐AI日报：腾讯语音数字人模型HunyuanVideo-Avatar；Trae国际版开启付费订阅模式；Claude网页搜索功能全面开放

本文汇总了AI领域最新动态：1)腾讯开源数字人模型HunyuanVideo-Avatar，支持图像转视频创作；2)Trae国际版开启付费订阅，首月3美元；3)Claude网页搜索功能向免费用户开放；4)印度AI初创Builder.ai破产，亏损超5亿美元；5)腾讯元宝接入微信读书平台；6)快手计划加大AI投入但预计影响利润率；7)Mistral推出智能代理API；8)Claude移动端上线语音对话测试版；9)OpenAI拟推ChatGPT第三方登录功能；10)掘金发布AI项目一键部署工具；11)多模态模型视觉推理能力评估显示准确率仅25.8%；12)中石油发布3000亿参数昆仑大模型，推动油气产业智能化。

人工智能数字人短视频
荐重估昆仑万维：Meta式开源、Adobe级爆款、腾讯级生态

中国AI公司昆仑万维凭借独特商业模式实现快速增长，其战略融合了Meta的开源技术、Adobe的垂直产品矩阵和腾讯的生态思维。公司90%收入来自海外市场，通过视频、音乐、社交等产品矩阵在东南亚、中东等新兴市场快速扩张。核心产品包括短剧平台DramaWave（年收入1.2亿美元ARR）和AI音乐平台Mureka（年收入1200万美元ARR），均实现盈利。技术层面，公司采用"垂直开源+商业验证"模式，推出SkyReels视频生成等开源模型，形成开发者生态闭环。其独特之处在于：既非单纯对标国际巨头的通用模型，也避免国内同质化竞争，而是通过开源底座+垂类产品+生态卡位的组合构建差异化优势。2024年财报显示，公司AI业务年收入达10亿元，研发投入同比增长23.4%。市场看好其"平台型AI矩阵"价值，近一月股价上涨20.7%。这家中型科技企业的突围路径，为行业提供了技术出海与生态共建的新范式。

中国AI公司昆仑万维海外市场
小米通报海信Vidda商业诋毁案称海信Vidda构成商业诋毁

5月13日，小米法务部就与聚好看科技（海信旗下Vidda品牌）商业诋毁纠纷案终审结果发布声明。法院终审维持一审判决，认定聚好看2021年11月发布的含"米有问题""米有屌丝"等谐音文案的海报构成对小米商业诋毁，要求其在Vidda官微置顶致歉7天并赔偿小米55万元。Vidda已于5月10日发布致歉声明承认文案存在误导性。该案为净化行业竞争环境提供了司法范例，法院在审理中重点审查了涉案文案的语义指向性、传播范围及实际损害后果。小米强调企业竞争应遵循商业道德和法律规范，任何通过诋毁对手获取市场优势的行为都将受到法律制裁。（140字）

小米法务部聚好看科技商业诋毁
AI模型横评：回答越简洁，“幻觉率”可能越高！

你可能喜欢某些聊天机器人的回应，但这并不意味着它的回答是真实的……

AI幻觉 ai准确性高吗 AI准确率
DeepSeek更新R1推理AI模型，已发布Hugging Face

更新后的 R1 拥有 6850 亿个参数，体量庞大。由于模型规模极大，普通消费者级别的硬件很可能无法直接运行。

DeepSeek DeepSeekR1大模型 DeepSeekR1
豆包视频生成模型Seedance 1.0 lite发布：“迅速生成影视级的视频”

火山引擎在FORCE LINK AI创新巡展上发布多款AI模型升级产品：1）Seedance 1.0 lite视频生成模型，支持5-10秒480P/720P视频生成，具备影视级画质和生成速度优势，适用于电商广告、影视创作等场景；2）豆包1.5视觉深度思考模型，仅20B参数但具备多模态理解能力，在60项基准测试中38项达SOTA水平；3）升级版豆包音乐模型，新增英文歌曲创作功能，并能根据视频内容自动适配BGM。目前这些模型已在火山方舟平台和豆包APP上线。

AI模型升级视频生成技术火山引擎发布
音箱智商史诗升级 AI大模型渗透率已超20%

目前上市的新品已经全面搭载AI大模型技术，例如小度大金刚Pro和小米智能音箱等搭载大模型技术的新品在4月上市，兼顾了声学、美学和语音技术的多方面升级。

智能音箱 AI大模型智能家居
中文大模型忠实性幻觉评测：豆包大模型幻觉率仅4%，位居全球收之首

SuperCLUE+最新评测显示，豆包大模型1.5Pro以仅4%的幻觉率和96%的准确率位居全球榜首，超越DeepSeek、Gemini-2.5-pro和GPT-4o等主流模型。该模型在文本摘要、多文本问答等关键任务中表现优异，尤其在中文理解任务上国内领先。基于MoE架构设计，其综合性能超过多款超大规模预训练模型，推理成本显著降低。截至2025年3月，豆包大模型日均调用量达12.7万亿tokens，是一年前的106倍。IDC报告指出火山引擎以46.4%市场份额领跑中国公有云大模型市场。据悉，6月11日将发布豆包大模型最新升级进展。

豆包大模型中文大模型忠实性测评
Anthropic 发布 Claude 4 系列 AI 模型，有啥重大突破?

Anthropic 表示，这两款 AI 模型在多个行业基准测试中表现出色，是目前业内最强的模型之一……

AI大模型 Claude4大模型能连续工作7小时 Claude4

热文

3 天
7天

Adobe 发布 VideoGigaGAN 超分辨率视频模型

从足球公益到数字赋能，SnackVideo连续两年于印尼落地乡村公益活动

荐AI日报：腾讯语音数字人模型HunyuanVideo-Avatar；Trae国际版开启付费订阅模式；Claude网页搜索功能全面开放

荐重估昆仑万维：Meta式开源、Adobe级爆款、腾讯级生态

小米通报海信Vidda商业诋毁案称海信Vidda构成商业诋毁

AI模型横评：回答越简洁，“幻觉率”可能越高！

DeepSeek更新R1推理AI模型，已发布Hugging Face

豆包视频生成模型Seedance 1.0 lite发布：“迅速生成影视级的视频”

音箱智商史诗升级 AI大模型渗透率已超20%

中文大模型忠实性幻觉评测：豆包大模型幻觉率仅4%，位居全球收之首

Anthropic 发布 Claude 4 系列 AI 模型，有啥重大突破?

热文

多邻国ceo打脸，放弃“AI员工”战略，称：仍需人类员工！

DeepSeek更新R1推理AI模型，已发布Hugging Face

Opera发布“无所不能”的Neon AI代理浏览器，离线也能写代码

扎克伯格：“Meta AI 月活用户突破 10 亿……但仍远远不够”

在“杀死”iPhone之前，奥特曼和艾维将先革了AI设备的命？

谷歌研究表明：量子计算机可比预期更快破解 RSA 加密

Remixpoint加码比特币押注，追投700万美元，股票上涨5.26%

虚拟币交易变抢劫？投资者直接以“绑架、折磨”进行勒索

再生狗皮肤初创公司说：生物打印器官还有“ 10 到 15 年”

三星Galaxy VS 苹果iPhone：谁家用户谁赚得更多？

站长商机