腾讯多媒体实验室夏珍：视频画质增强的现状、应用、未来

2023-04-24 14:29 · 稿源：站长之家用户

　　全真互联时代，音视频技术内核不断更新迭代，LiveVideoStackCon 2022 北京站邀请到腾讯多媒体实验室视频技术研发负责人——夏珍，与大家分享画质增强技术的一些前沿探索和应用研究，在经典影像中非常重要的画质提升技术人脸修复和去压缩失真的能力，以及在腾讯视频和云游戏中能带来画质增强的技术。

　　来自腾讯多媒体实验室的夏珍，一直从事视频处理技术的相关研究与应用，希望分享的内容能给到大家一些帮助，也借此机会向各位同行学习。

　　本次分享的主题是《画质增强的前沿应用》，内容包括三部分：一是画质增强技术现状，第二部分是画质增强技术的前沿应用，第三部分是画质增强技术的趋势。

　　一、画质增强-现状

　　下面将从三方面介绍画质增强技术。

　　当时做PPT时还是 22 年 8 月份，当时最火的概念应该是4K/8K超高清、VR、3D等是人们热议的话题，不管是学界还是工业界都是高热点，在这些前沿技术应用里，画面分辨率、细节已达到非常高清的程度，制作内容也达到很高标准，甚至很多显示屏已经超过人眼能分辨的极限。

　　然而实际生活中，在不同的终端、场景和应用里，相信大家都遇到过以下情况：比如为了视频时画面更清晰，给父母买了像素很高的相机，然而最终呈现的画面依然模糊不清，或是参加线上会议时，经常出现画面模糊，又或是看剧时画质很差。大家会疑虑：内容为什么没有预期的清晰？

　　导致画面不如预期的因素有很多，包括硬件条件、网络带宽、编码方式、原始素材等，在这样受限的场景下，如何提升用户体验的主观感受呢？

　　提升画质是摆在很多应用场景下绕不开的命题，画质增强包括哪些技术？又分别能解决什么问题呢？下文将从三个维度进行分析，当然从信号处理的角度有更多维度去评估，比如频域等就不进一步展开了。

　　首先对于时域维度，即大家理解的时间维度上，他主要解决的视频连续播放时在时域上干扰人眼的信号，在实际场景中会有运动不流畅、画面抖动和时域噪声等问题，所以在时域上会出现对应的解决方案，比如插帧、视频去抖动、时域降噪等。

　　左侧的哈士奇在转动时会出现卡顿，通过帧率上采样可以使其更流畅。右侧上方是带噪声的影片，下方通过视频降噪算法优化后，画面噪声减少很多。

　　空域，即从空间的维度上，大家能遇到的大部分问题也是在这个维度上，它主要是提升人眼主观感受的画质，播放时比如模糊、噪声、失真、低分辨率等常见问题，所以在空域上有种类繁多的增强算法，大家都熟知的算法，超分辨率、去压缩失真、细节增强、去划痕等。上方左图存在许多块，编码压缩失真的问题、右图通过优化后获得了更好的画面效果。下方左图包括许多划痕和噪点，右图通过AI去划痕算法后极大改善了画面的画质。

　　色域，即从颜色的维度上，人眼对色彩是非常敏感，色彩畸变或黑白画面在很大程度上会影响用户的主观感受，在色域上增强技术分SDR域和HDR域的算法，比如SDR2HDR、色彩增强、暗场景增强、HDR增强等算法，都是对色彩进行处理的算法。

　　上方的图像经过HDR转换后，色彩及色域都更加丰富。下方的图像通过AI自动上色，使得画面丰富度和人眼主观感受有明显提升。

　　二、画质增强-前沿应用

　　接下来会从两方面介绍画质增强的前沿技术，一个是不太考虑算力但对效果有极致要求的经典影像修复技术，另一个是非常考验算力的终端超分技术。

　　2. 1 经典影像修复

　　这是 2022 年多媒体实验室修复李苦禅老人经典影像的画面，可以看到其中有很多影响主观质量的因素，包括划痕、雪花点、噪声、失真、模糊、色彩等问题。

　　这一页总结了影像修复中常见的问题，包括划痕、霉斑、噪声、低分辨率、模糊等，而经典影像修复包含以下几个主要步骤：胶片物理修复、胶转磁，数字修复和优化，最后的上映或保存。

　　在经典影像修复的过程中，腾讯多媒体实验室积累了深厚的技术和实践经验，形成一套较完整的基于AI的影像修复技术流程，主要分四个大的模块，包括智能分析、画质修复、画质增强和智能转码。

　　智能分析：对视频进行智能分析，提供包括帧级、场景级和视频级不同粒度的分析，包括画面复杂程度、运动程度、噪声程度、失真程度、色彩丰富度等分析，用以指导后续画质修复和画质增强技术能力的自动化使用。

　　画质修复：结合了智能分析模块的信息，选取最佳模型对视频进行修复，包括去压缩失真、视频降噪、人脸修复、去划痕等技术能力。

　　画质增强：根据智能分析模块的信息，合理选择最佳的算法和参数，包括视频超分辨率、色彩增强、细节增强、AI自动化上色、暗场景增强、帧率上采样等算法，经过这样处理后得到完整修复的视频。比如老的影片大部分是15fps或分辨率是720*468，此时画质增强模块会默认开启超分辨率和帧率上采样，对其进行插帧，从而使得影片在大屏播放时呈现出更好的效果。

　　智能编码：为了更好地进行传输和播放，结合腾讯多媒体实验室最核心的编解码能力，通过最佳人眼视觉的编码方式对视频进行转码压缩，在保证视频主观质量情况下，对视频进行最小质量的转码输出。

　　这是多媒体实验室“光影焕新”经典影像修复的主要架构，从架构上分为应用层、解析层、分析层、处理层、支持层和封装层。架构上会将智能分析的主要能力放在这一层，然后结合解析层的结果去指导处理层算法的自动化处理，底层也会根据服务器不同采用不同的底层架构，比如GPU服务器会用TRT做统一的深度学习推理库，而如果在CPU架构上则会转换成OpenVINO和其他能力，最后在封装层，根据用户的需求选择对应的码流。

　　当然在近年的研究和积累过程中，也遇到了非常多的问题和难题，比如去划痕在影像修复中很重要，但在业界研究是个很小众的问题，我们在数据集、算法和模型上都是从零开始构建，比如超分虽然不断有新的进展，但实际场景中适用性都不好，只能针对不同场景开发不同级别的模型。

　　以去失真生成模型研究为例，首先去失真生成模型解决了什么问题？在经典影像中不同于常见的视频，比如左图放大的画面，因为受限于经典影像拍摄的年代、拍摄硬件、存储等因素，导致画面存在严重破坏画质的问题，比如噪声、编码失真、模糊等等问题，之前的研究过程是先进行去压缩失真、降噪等处理再通过后面的超分辨率、细节增强等算法增强细节，但后面发现在前面进行去压缩失真和降噪等处理已经把细节都丢失了，后面的超分、细节增强很难恢复细节恢复，基于这个问题开发了去失真生成模型，主要解决的是在去压缩失真的同时对细节进行增强和生成，只有两个能力在一个模型里才能在去掉失真的同时生成更丰富的细节。

　　作为近年对超分辨率研究工作的延伸，腾讯多媒体实验室提出一种有效的失真生成模型。首先模型需要有处理复杂失真的能力，因此在数据集制作中参考现有SR模型的降质过程结合经典影像数据集的特点，尽可能还原经典影像中失真的类型和生成方式，数据集上会采用多种视频编码方式、多种上下采样方法，多种模糊和噪声方式进行数据生成。

　　模型分为三个模块，对齐模块、AR模块和判别器模块。对齐模块是将前后两帧进行特征对齐，经过性能分析发现，隐式的可变性卷积方式相对显性的光流对齐模块要更有效。AR模块是进行去失真和细节生成能力，最后经过判别器，判别器模块不同于单帧的判别，会提取当前帧空间信息和时域帧间的信息。为实现更有效的目的，采用前后两帧作为对齐帧，网络采用残差结构，光流和AR模块只需要关注特征部分，裁剪模型中对模型影响较小的层。

　　右图不仅修复了很严重的噪声、失真和模糊等问题，比如画面中噪声、背景的抖动和模糊的问题，同时对细节比如人脸、衣服纹理和植物的细节做了很好的生成，做到真正的高清呈现。

　　2. 2 端侧-有效超分

　　云游戏在中国市场成为越来越受关注的云和游戏结合的新模式。而随着云游戏的发展，编解码在云游戏中的应用逐渐得到体现，云游戏也逐渐从满足编解码性能和画质上进入更多拓展阶段，因为云游戏将算力从用户手机转移到服务器上，所以服务器、带宽的成本压力非常巨大，现阶段各公司在“降本增效”上下足了功夫，如何利用视频技术在保证画质体验不变的情况下，节省服务器和带宽成了一个重要课题，比如云游戏需要1080p/30fps才能保证基础体验，而现在使用了超分，只需要在服务器渲染540p/30fps的流，推到本地手机后再通过手机算力进行超分到1080p，实现节省带宽和服务器成本的目的。

　　接下来介绍腾讯多媒体实验室在云游戏中端侧超分的研究，端侧超分也会应用在腾讯视频中以达到降低成本的目的，端侧超分也是正在研究中的内容，因此提出来和大家一起讨论学习。

　　首先介绍超分在云游戏中遇到的难点，一个是云游戏对延时相比直播、视频通话要求更高，增加算法影响游戏的体验，二是云游戏大分辨率、高帧率画面，对算法性能要求非常高，三是云游戏终端分布广泛，包括PC、Mac、TV、手机等复杂场景适配困难。

　　基于以上的难点，腾讯多媒体实验室在模型上下了很大功夫，并基于之前积累的算法经验，提出了“化繁为简”的模型方案，但“简”并不简单。

　　首先利用残差结构，利用有限网络结构学习尽量多的参数，同时通过蒸馏方案，在中间层的学习中利用导师网络进行指导，第三重参数化，因为性能因素网络层数不够，便利用重参数思想训练复杂的网络，在推理时合并算子达到简化的目的。

　　经过多次优化，在windows和android上测试了一些不同结构的方案，基本上能达到超分后1080p/30fps的要求，左边的客观指标是在windows端对比传统bicubic和某个竞品的方案，从vmaf/psnr/ssim指标上都显著优于竞品和传统方案，当然这些客观指标其实并不能反映主观质量。

　　图中可以看出，右图自研超分方案相对于竞品在文字上边缘更细腻、完整，纹理上更细腻和真实，这也是超分需要达到的真实效果。当然方案还在不停优化中，还有很多可优化的点，也希望能和大家一起讨论和学习。

　　三、画质增强-未来

　　未来的技术发展列了以下四个方向，一个是作为AIGC的基础组件，比如在文生图、文生视频等方向上，画质增强能节省生成时间，生成更大更清晰的图像和视频；第二个是3D方向，比如在人脸建模方向上使用超分后能大幅度提升建模的效果；第三个是上文提到的移动端部署，随着手机性能不断提升，GPU、NPU等逐渐普及后，以前在移动端很难实现的能力也能在移动端落地了，比如云游戏的超分就能达到降本增效的目的，这个场景也可以用在点播、直播等场景中。第四点是画质技术本身应该朝着符合人眼真实度方向发展，比如AI上色怎么能还原以前真实的色彩，人脸修复能否更自然等。

　　以上是本次的分享，谢谢！如有问题请与腾讯多媒体实验室联系，了解更多信息。

（推广）

特别声明：以上内容(如有图片或视频亦包括在内)均为站长传媒平台用户上传并发布，本平台仅提供信息存储服务，对本页面内容所引致的错误、不确或遗漏，概不负任何法律责任，相关信息仅供参考。站长之家将尽力确保所提供信息的准确性及可靠性，但不保证有关资料的准确性及可靠性，读者在使用前请进一步核实，并对任何自主决定的行为负责。任何单位或个人认为本页面内容可能涉嫌侵犯其知识产权或存在不实内容时，可及时向站长之家提出书面权利通知或不实情况说明，并提供身份证明、权属证明及详细侵权或不实情况证明（点击查看反馈联系地址）。本网站在收到上述法律文件后，将会依法依规核实信息，沟通删除相关内容或断开相关链接。

相关推荐

关键词：

全球开源技术峰会GOTC 2025 圆满落幕

11月2日，为期两天的全球开源技术峰会GOT C2025在北京圆满落幕。本届峰会聚焦开源与人工智能深度融合，汇聚全球顶尖专家、行业领袖与数千开发者，共同探讨开源驱动的AI未来蓝图。现场吸引超3000人次参与，线上直播观看量突破500万，全网曝光超6亿次。大会设立十二大专题论坛，覆盖大模型应用、AI编程、云原生AI等前沿领域，并发布Open AgentKit等关键项目。通过“论坛+市集�

开源技术人工智能全球峰会
万源共振，智构未来，全球开源技术峰会GOTC 2025在京开幕

11月1日，全球开源技术峰会GOTC+2025在北京亦庄开幕，以“万源共振，智构未来”为主题，汇聚全球开源与AI领域专家。峰会探讨开源与人工智能深度融合的技术前景与生态建设，发布Open AgentKit平台及天翼云开源OpenTeleDB等成果。现场超2000人参会，直播观看超300万，展现中国开源生态活力与创新潜力，推动数字经济发展。

开源技术人工智能全球峰会
坚定研发 GMCC美芝以原创性技术打造空调好“心脏”

GMCC美芝15槽10极变频转子式压缩机自2025年投产以来，凭借静音、节能等革命性优势获行业认可。其应用三大原创技术：极致静音技术通过创新结构实现6Hz无异音，噪声较行业标杆再降5dB(A)；宽域节能技术采用高效电机及流道优化，低频能效提升2%；高质智能制造技术引入自动化工艺，生产效率提升42%。这些突破彰显美芝作为全球空调压缩机领导品牌的技术实力，推动产业从规模领先迈向技术领先。

空调压缩机 GMCC美芝变频转子式压缩机
九号公司举办首届「MoTech Day 2025」：让技术回归生活，让创新成为日常

10月24日，九号公司举办首届“MoTech Day 2025”技术文化节，这是专属于工程师的节日，也是公司首次以“技术文化”为核心议题的集团级活动。活动通过嘉宾演讲、互动体验与创意挑战等形式，聚焦智能出行、AI芯片、能源技术等前沿领域，旨在让“工程师精神”成为九号文化的核心符号，推动技术与文化双向融合，构建长期创新驱动力。活动还同步推出面向高校的“MoTech创意挑战赛”，并搭建线下互动打卡区，强化内部技术认同与组织活力，重塑品牌科技形象。

智能出行 AI芯片能源技术
数智驱动，共赢跨境｜RixDesk亮相ICBE 2025，重磅发布“跨屏全媒介广告投放解决方案”

在ICBE2025深圳跨境电商博览会上，RixDesk发布“跨屏全媒介广告投放解决方案”。该方案针对用户多设备切换导致的广告触点分散问题，通过跨屏整合、一次创建全媒介触达、智能优化及数据闭环四大核心功能，帮助品牌实现多平台高效投放，提升传播效果与ROI。系统利用AI技术自动分发内容、优化策略，助力跨境品牌在复杂流量环境中精准获客与持续增长。

跨境电商广告投放数字营销
创业者“奥斯卡”！卓世科技荣膺 HICOOL2025全球创业大赛二等奖

10月16日，HICOOL2025全球创业者峰会在京开幕。卓世科技的“璇玑玉衡大模型+MaaS训练平台+零代码Agent平台”三位一体AI全栈方案，从全球万余项目中脱颖而出，荣获大赛二等奖。该方案在模型性能、易用性及商业化闭环方面展现世界级水准，为大模型产业化落地提供标杆路径。五年来，HICOOL累计吸引167国3.4万项目参赛，孵化16家独角兽，赛后融资总额超500亿元，已成为全球最具影响力的创业赛事之一。

HICOOL2025 全球创业者峰会卓世科技
国内首个！海尔智家获评TÜV认可智能家电检测免目击实验室

海尔全球检测中心近日通过TÜV莱茵2025年度认证评审，升级为免目击实验室。这是国内首个在智能家电检测领域获此资质的企业，标志着其检测实力获国际权威认可。该资质可大幅缩短认证周期，提升产品上市效率，助力企业抢占市场先机。海尔还拥有CNAS、UL等多项国际认证，实现检测数据互认，未来将持续创新检测技术，为全球用户提供更优质产品体验。

海尔智家 TÜV莱茵免目击实验室
佳能 R50V：APS-C 画幅高画质 + 高帧率双突破，2025 年专业双修微单新基准

佳能R50V作为2025年APS-C画幅全能微单，凭借2420万像素CMOS与DIGIC X处理器，实现“高画质+高帧率”双突破。支持6K超采4K 30P无裁切、4K 60P流畅录制及全高清120P慢动作，配备10-bit 4:2:2色深与Canon Log 3专业视频配置。机身仅重323克，搭载第二代全像素双核AF系统，精准追踪人眼与运动主体。覆盖Vlog、人像、风光、赛事等多场景创作，结合6000元级高性价比定位，成为兼顾专业创作与日常记录的理想选择。

画质清晰帧率流畅拍照视频全能
2025武汉智能建造产业博览会开展首日！itc多款硬核产品首发！展位人气爆棚，互动体验嗨翻全场

2025年国际（武汉）智能建造产业博览会于10月31日至11月2日在中国光谷举办，聚焦“发展产业互联网、共建‘好房子’”主题。ITC保伦股份作为声光电视讯行业领先品牌，展示了智慧园区、多功能厅、安防监控等创新解决方案，吸引全球13个国家地区企业参展，1300件产品亮相。现场通过场景化体验区与专业讲解，凸显其在5G、AI等技术的应用实力，获得海内外客户高度认可，为�

智能建造产业博览会声光电视讯
小鹏将推出3款全球化Robotaxi 2026年同步开启试运营

小鹏汽车在2025科技日宣布，将于2026年推出三款全栈自研L4级Robotaxi，同步开启试运营。该车型搭载4颗图灵AI芯片，算力达3000TOPS，配备第二代VLA模型，具备强大泛化学习能力，能自适应全球不同交通习惯。作为中国首款全栈自研Robotaxi，无需额外改装，不依赖高精地图即可实现量产。车辆提供两套智驾方案，分别侧重通勤效率与极致安全，并在六大关键系统采用双冗余设计，确保行驶安全。小鹏还将开放Robotaxi SDK，与高德地图等伙伴共建全球服务生态。

小鹏Robotaxi L4级自动驾驶全栈自研

今日大家都在搜的词：

热文

3 天
7天

腾讯多媒体实验室夏珍：视频画质增强的现状、应用、未来

全球开源技术峰会GOTC 2025 圆满落幕

万源共振，智构未来，全球开源技术峰会GOTC 2025在京开幕

坚定研发 GMCC美芝以原创性技术打造空调好“心脏”

九号公司举办首届「MoTech Day 2025」：让技术回归生活，让创新成为日常

数智驱动，共赢跨境｜RixDesk亮相ICBE 2025，重磅发布“跨屏全媒介广告投放解决方案”

创业者“奥斯卡”！卓世科技荣膺 HICOOL2025全球创业大赛二等奖

国内首个！海尔智家获评TÜV认可智能家电检测免目击实验室

佳能 R50V：APS-C 画幅高画质 + 高帧率双突破，2025 年专业双修微单新基准

2025武汉智能建造产业博览会开展首日！itc多款硬核产品首发！展位人气爆棚，互动体验嗨翻全场

小鹏将推出3款全球化Robotaxi 2026年同步开启试运营

今日大家都在搜的词：

热文

小鹏机器人会走猫步太像人了！小鹏发布新一代人形机器人IRON

阿里回应饿了么更名：正处于灰度测试阶段

马斯克称若发现外星人证据就公开

AI日报：昆仑万维SkyReels V3模型上线；月之暗面推Kimi Linear

vivo Y500 Pro官宣11月10日发布：同档首发2亿HP5主摄

小米YU7全网首拆上热搜雷军回应：欢迎同行和专家指点

AI日报：Sora正式登陆Android；网易云音乐推AI调音大师；谷歌将

鸿蒙智行新款享界S9官宣11月7日开订

B站回应拉黑指定用户可屏蔽开屏广告：不实信息

问界M7提车关爱计划发布：等车超10周最高可补贴10000元

鸿蒙HarmonyOS 6与iOS数据互传功能预计12月上线

小鹏机器人会走猫步太像人了！小鹏发布新一代人形机器人IRON

阿里回应饿了么更名：正处于灰度测试阶段

AI日报：美团LongCat-Flash-Omni发布；Qwen3-Max上线深度思考功

DeepSeek崩了上热搜页面显示“服务器繁忙”

特斯拉Cybercab不配备方向盘和踏板预计2026年二季度下线

马斯克称若发现外星人证据就公开

AI日报：昆仑万维SkyReels V3模型上线；月之暗面推Kimi Linear

OPPO ColorOS 16正式版11月升级机型公布：支持23款机型

vivo Y500 Pro官宣11月10日发布：同档首发2亿HP5主摄

站长商机