首页 > 传媒 > 关键词  > 画质增强技术最新资讯  > 正文

腾讯多媒体实验室夏珍:视频画质增强的现状、应用、未来

2023-04-24 14:29 · 稿源: 站长之家用户

  全真互联时代,音视频技术内核不断更新迭代,LiveVideoStackCon 2022 北京站邀请到腾讯多媒体实验室视频技术研发负责人——夏珍,与大家分享画质增强技术的一些前沿探索和应用研究,在经典影像中非常重要的画质提升技术人脸修复和去压缩失真的能力,以及在腾讯视频和云游戏中能带来画质增强的技术。

  来自腾讯多媒体实验室的夏珍,一直从事视频处理技术的相关研究与应用,希望分享的内容能给到大家一些帮助,也借此机会向各位同行学习。

  本次分享的主题是《画质增强的前沿应用》,内容包括三部分:一是画质增强技术现状,第二部分是画质增强技术的前沿应用,第三部分是画质增强技术的趋势。

  一、画质增强-现状

  下面将从三方面介绍画质增强技术。

  当时做PPT时还是 22 年 8 月份,当时最火的概念应该是4K/8K超高清、VR、3D等是人们热议的话题,不管是学界还是工业界都是高热点,在这些前沿技术应用里,画面分辨率、细节已达到非常高清的程度,制作内容也达到很高标准,甚至很多显示屏已经超过人眼能分辨的极限。

  然而实际生活中,在不同的终端、场景和应用里,相信大家都遇到过以下情况:比如为了视频时画面更清晰,给父母买了像素很高的相机,然而最终呈现的画面依然模糊不清,或是参加线上会议时,经常出现画面模糊,又或是看剧时画质很差。大家会疑虑:内容为什么没有预期的清晰?

  导致画面不如预期的因素有很多,包括硬件条件、网络带宽、编码方式、原始素材等,在这样受限的场景下,如何提升用户体验的主观感受呢?

  提升画质是摆在很多应用场景下绕不开的命题,画质增强包括哪些技术?又分别能解决什么问题呢?下文将从三个维度进行分析,当然从信号处理的角度有更多维度去评估,比如频域等就不进一步展开了。

  首先对于时域维度,即大家理解的时间维度上,他主要解决的视频连续播放时在时域上干扰人眼的信号,在实际场景中会有运动不流畅、画面抖动和时域噪声等问题,所以在时域上会出现对应的解决方案,比如插帧、视频去抖动、时域降噪等。

  左侧的哈士奇在转动时会出现卡顿,通过帧率上采样可以使其更流畅。右侧上方是带噪声的影片,下方通过视频降噪算法优化后,画面噪声减少很多。

  空域,即从空间的维度上,大家能遇到的大部分问题也是在这个维度上,它主要是提升人眼主观感受的画质,播放时比如模糊、噪声、失真、低分辨率等常见问题,所以在空域上有种类繁多的增强算法,大家都熟知的算法,超分辨率、去压缩失真、细节增强、去划痕等。上方左图存在许多块,编码压缩失真的问题、右图通过优化后获得了更好的画面效果。下方左图包括许多划痕和噪点,右图通过AI去划痕算法后极大改善了画面的画质。

  色域,即从颜色的维度上,人眼对色彩是非常敏感,色彩畸变或黑白画面在很大程度上会影响用户的主观感受,在色域上增强技术分SDR域和HDR域的算法,比如SDR2HDR、色彩增强、暗场景增强、HDR增强等算法,都是对色彩进行处理的算法。

  上方的图像经过HDR转换后,色彩及色域都更加丰富。下方的图像通过AI自动上色,使得画面丰富度和人眼主观感受有明显提升。

  二、画质增强-前沿应用

  接下来会从两方面介绍画质增强的前沿技术,一个是不太考虑算力但对效果有极 致要求的经典影像修复技术,另一个是非常考验算力的终端超分技术。

  2. 1 经典影像修复

  这是 2022 年多媒体实验室修复李苦禅老人经典影像的画面,可以看到其中有很多影响主观质量的因素,包括划痕、雪花点、噪声、失真、模糊、色彩等问题。

  这一页总结了影像修复中常见的问题,包括划痕、霉斑、噪声、低分辨率、模糊等,而经典影像修复包含以下几个主要步骤:胶片物理修复、胶转磁,数字修复和优化,最后的上映或保存。

  在经典影像修复的过程中,腾讯多媒体实验室积累了深厚的技术和实践经验,形成一套较完整的基于AI的影像修复技术流程,主要分四个大的模块,包括智能分析、画质修复、画质增强和智能转码。

  智能分析:对视频进行智能分析,提供包括帧级、场景级和视频级不同粒度的分析,包括画面复杂程度、运动程度、噪声程度、失真程度、色彩丰富度等分析,用以指导后续画质修复和画质增强技术能力的自动化使用。

  画质修复:结合了智能分析模块的信息,选取最 佳模型对视频进行修复,包括去压缩失真、视频降噪、人脸修复、去划痕等技术能力。

  画质增强:根据智能分析模块的信息,合理选择最 佳的算法和参数,包括视频超分辨率、色彩增强、细节增强、AI自动化上色、暗场景增强、帧率上采样等算法,经过这样处理后得到完整修复的视频。比如老的影片大部分是15fps或分辨率是720*468,此时画质增强模块会默认开启超分辨率和帧率上采样,对其进行插帧,从而使得影片在大屏播放时呈现出更好的效果。

  智能编码:为了更好地进行传输和播放,结合腾讯多媒体实验室最核心的编解码能力,通过最 佳人眼视觉的编码方式对视频进行转码压缩,在保证视频主观质量情况下,对视频进行最小质量的转码输出。

  这是多媒体实验室“光影焕新”经典影像修复的主要架构,从架构上分为应用层、解析层、分析层、处理层、支持层和封装层。架构上会将智能分析的主要能力放在这一层,然后结合解析层的结果去指导处理层算法的自动化处理,底层也会根据服务器不同采用不同的底层架构,比如GPU服务器会用TRT做统一的深度学习推理库,而如果在CPU架构上则会转换成OpenVINO和其他能力,最后在封装层,根据用户的需求选择对应的码流。

  当然在近年的研究和积累过程中,也遇到了非常多的问题和难题,比如去划痕在影像修复中很重要,但在业界研究是个很小众的问题,我们在数据集、算法和模型上都是从零开始构建,比如超分虽然不断有新的进展,但实际场景中适用性都不好,只能针对不同场景开发不同级别的模型。

  以去失真生成模型研究为例,首先去失真生成模型解决了什么问题?在经典影像中不同于常见的视频,比如左图放大的画面,因为受限于经典影像拍摄的年代、拍摄硬件、存储等因素,导致画面存在严重破坏画质的问题,比如噪声、编码失真、模糊等等问题,之前的研究过程是先进行去压缩失真、降噪等处理再通过后面的超分辨率、细节增强等算法增强细节,但后面发现在前面进行去压缩失真和降噪等处理已经把细节都丢失了,后面的超分、细节增强很难恢复细节恢复,基于这个问题开发了去失真生成模型,主要解决的是在去压缩失真的同时对细节进行增强和生成,只有两个能力在一个模型里才能在去掉失真的同时生成更丰富的细节。

  作为近年对超分辨率研究工作的延伸,腾讯多媒体实验室提出一种有效的失真生成模型。首先模型需要有处理复杂失真的能力,因此在数据集制作中参考现有SR模型的降质过程结合经典影像数据集的特点,尽可能还原经典影像中失真的类型和生成方式,数据集上会采用多种视频编码方式、多种上下采样方法,多种模糊和噪声方式进行数据生成。

  模型分为三个模块,对齐模块、AR模块和判别器模块。对齐模块是将前后两帧进行特征对齐,经过性能分析发现,隐式的可变性卷积方式相对显性的光流对齐模块要更有效。AR模块是进行去失真和细节生成能力,最后经过判别器,判别器模块不同于单帧的判别,会提取当前帧空间信息和时域帧间的信息。为实现更有效的目的,采用前后两帧作为对齐帧,网络采用残差结构,光流和AR模块只需要关注特征部分,裁剪模型中对模型影响较小的层。

  右图不仅修复了很严重的噪声、失真和模糊等问题,比如画面中噪声、背景的抖动和模糊的问题,同时对细节比如人脸、衣服纹理和植物的细节做了很好的生成,做到真正的高清呈现。

  2. 2 端侧-有效超分

  云游戏在中国市场成为越来越受关注的云和游戏结合的新模式。而随着云游戏的发展,编解码在云游戏中的应用逐渐得到体现,云游戏也逐渐从满足编解码性能和画质上进入更多拓展阶段,因为云游戏将算力从用户手机转移到服务器上,所以服务器、带宽的成本压力非常巨大,现阶段各公司在“降本增效”上下足了功夫,如何利用视频技术在保证画质体验不变的情况下,节省服务器和带宽成了一个重要课题,比如云游戏需要1080p/30fps才能保证基础体验,而现在使用了超分,只需要在服务器渲染540p/30fps的流,推到本地手机后再通过手机算力进行超分到1080p,实现节省带宽和服务器成本的目的。

  接下来介绍腾讯多媒体实验室在云游戏中端侧超分的研究,端侧超分也会应用在腾讯视频中以达到降低成本的目的,端侧超分也是正在研究中的内容,因此提出来和大家一起讨论学习。

  首先介绍超分在云游戏中遇到的难点,一个是云游戏对延时相比直播、视频通话要求更高,增加算法影响游戏的体验,二是云游戏大分辨率、高帧率画面,对算法性能要求非常高,三是云游戏终端分布广泛,包括PC、Mac、TV、手机等复杂场景适配困难。

  基于以上的难点,腾讯多媒体实验室在模型上下了很大功夫,并基于之前积累的算法经验,提出了“化繁为简”的模型方案,但“简”并不简单。

  首先利用残差结构,利用有限网络结构学习尽量多的参数,同时通过蒸馏方案,在中间层的学习中利用导师网络进行指导,第三重参数化,因为性能因素网络层数不够,便利用重参数思想训练复杂的网络,在推理时合并算子达到简化的目的。

  经过多次优化,在windows和android上测试了一些不同结构的方案,基本上能达到超分后1080p/30fps的要求,左边的客观指标是在windows端对比传统bicubic和某个竞品的方案,从vmaf/psnr/ssim指标上都显著优于竞品和传统方案,当然这些客观指标其实并不能反映主观质量。

  图中可以看出,右图自研超分方案相对于竞品在文字上边缘更细腻、完整,纹理上更细腻和真实,这也是超分需要达到的真实效果。当然方案还在不停优化中,还有很多可优化的点,也希望能和大家一起讨论和学习。

  三、画质增强-未来

  未来的技术发展列了以下四个方向,一个是作为AIGC的基础组件,比如在文生图、文生视频等方向上,画质增强能节省生成时间,生成更大更清晰的图像和视频;第二个是3D方向,比如在人脸建模方向上使用超分后能大幅度提升建模的效果;第三个是上文提到的移动端部署,随着手机性能不断提升,GPU、NPU等逐渐普及后,以前在移动端很难实现的能力也能在移动端落地了,比如云游戏的超分就能达到降本增效的目的,这个场景也可以用在点播、直播等场景中。第四点是画质技术本身应该朝着符合人眼真实度方向发展,比如AI上色怎么能还原以前真实的色彩,人脸修复能否更自然等。

  以上是本次的分享,谢谢!如有问题请与腾讯多媒体实验室联系,了解更多信息。

推广

特别声明:以上内容(如有图片或视频亦包括在内)均为站长传媒平台用户上传并发布,本平台仅提供信息存储服务,对本页面内容所引致的错误、不确或遗漏,概不负任何法律责任,相关信息仅供参考。站长之家将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。任何单位或个人认为本页面内容可能涉嫌侵犯其知识产权或存在不实内容时,可及时向站长之家提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明(点击查看反馈联系地址)。本网站在收到上述法律文件后,将会依法依规核实信息,沟通删除相关内容或断开相关链接。

  • 相关推荐
  • 三星携手约翰・霍普金斯应用物理实验室以新一代Peltier Cooling制冷技术荣获R&D 100 Awards

    三星电子与约翰·霍普金斯应用物理实验室(APL)合作开发的新一代Peltier制冷技术,采用纳米薄膜材料,将制冷效率提升近75%,荣获R&D 100创新大奖。该技术可应用于半导体、医疗设备、汽车电子及数据中心等领域,成果已发表于《自然·通讯》期刊。三星表示将持续投入创新研发,巩固其在下一代制冷解决方案的领先地位。

  • Matrixport 受邀出席 Bitcoin Asia 2025,共议机构投资新趋势

    Bitcoin Asia 2025峰会将于8月28-29日在香港举行,由BTC Media主办。预计吸引超1.5万名与会者,涵盖主题演讲、圆桌讨论及展览等活动,突显香港在全球数字资产领域的战略地位。会议将探讨亚太市场潜力、机构化进程及多元化投资机会,并邀请200余位全球重量级嘉宾参与。Matrixport作为亚洲领先加密金融服务平台,将持续推动资产数字化及Web3基础设施落地,助力行业创新与发展。

  • 趣链科技董事长李伟参与2025数博会“DATA之夜”

    8月28日,“2025数博会·DATA之夜”在贵阳举行,主题为“数据筑基,具身向新”。活动由人民网与贵州大数据集团主办,多位政府官员、企业代表及专家学者出席。趣链科技董事长李伟受邀参加,与200余位嘉宾共同探讨数据与具身智能产业融合发展路径。李伟强调AI发展需遵循安全约束,提出借鉴“机器人三定律”构建可信智能生态,并指出区块链、隐私计算等技术可为安全规则执行提供支持。活动为AI时代的系统安全与社会信任提供了新启示。

  • Soul深耕AI社交,最新技术成果亮相WAIC 2025

    2025世界人工智能大会圆满落幕,Soul+App携自研端到端全双工语音通话大模型等创新成果亮相,展示AI重塑社交体验的潜力。该技术打破传统对话模式,支持多人语音互动,提升群聊参与度。Soul还展示多模态交互突破,包括实时视频生成能力,推动社交向“情感共生”进化。未来Soul将继续以“AI+社交”为核心,打造更智能、真实的社交体验,在AI社交赛道持续领跑。

  • 健合集团2025中期财报披露,ANC、BNC、PNC三大业务全线飘红

    健合集团2025年中期业绩显示,集团营收同比增长5.2%至70.2亿元,经调整纯利增长4.6%。中国市场贡献70.3%收入,增长8.7%。三大核心业务板块均实现增长:成人营养及护理用品(ANC)营收34.4亿元,增长5.9%,旗下Swisse品牌在中国市场表现强劲;婴幼儿童营养及护理用品(BNC)营收25.0亿元,增长2.9%;宠物营养及护理用品(PNC)营收10.8亿元,增长8.6%。集团财务稳健,现金储备达18.3亿元,并完成债务再融资优化资本结构。未来将继续聚焦"全家营养健康"战略,强化创新与市场拓展。

  • 【点击报名】xMEMS Live - Asia 2025 | 技术研讨会

    xMEMS将于2025年9月16日(台北)和18日(深圳)举办技术研讨会,聚焦高保真音频解决方案及PiezoMEMS平台在AI领域的应用。活动将展示Sycamore近场扬声器、Cypress主动降噪方案等创新产品,并探讨μCooling芯片风扇等散热技术。现场提供与行业专家交流机会,助力提升音频品质和释放AI潜能。

  • AI日报:苹果明年推出SiriAI搜索;OpenAI放开ChatGPT Projects功能;Kimi K2-0905 上线 Discord

    本文汇总了AI领域最新动态:苹果与谷歌合作,计划在Siri中引入Gemini AI技术;OpenAI向免费用户开放Projects功能,提升任务管理效率;谷歌推出免费Gemini CLI工具,集成GitHub提升开发效率;OpenAI估值飙升至5000亿美元,二级股票售出103亿美元;苹果自研AI搜索引擎“世界知识问答”计划2026年上线;月之暗面发布Kimi K2-0905模型,提升编程与创意写作能力;Raycast推出Cursor Agent插件优化代码编辑;谷歌发布nano banana官方Prompt模板,助力创意设计。

  • DSMC 2025第六届中国制造业华北数智峰会震撼启动!

    中国制造业数字化转型已从单点突破迈向系统集成阶段,建成2500余个数字化车间和智能工厂,工业机器人密度达每万人392台,5G+工业互联网项目覆盖41个工业大类。但仍面临技术融合不足、数据价值释放受限、区域发展不均衡三大挑战。未来五年,生成式AI将重构产品设计、工艺优化、供应链协同等全流程,数字孪生技术推动工厂向“虚实共生”演进。预计到2030年,AI驱动的制造业数字化转型有望为中国贡献1.5万亿美元经济价值。

  • WEEX亮相0xConnect线下活动,深化全球化布局与行业伙伴交流

    WEEX交易所受邀出席圣彼得堡0xConnect线下活动,与全球加密品牌共同探讨行业趋势并拓展合作机会。该活动聚集了来自交易所、公链项目、钱包及投资机构的代表,通过面对面交流碰撞出新的合作火花。WEEX团队借此机会向与会者介绍了平台在合规建设、资金安全和用户体验方面的价值理念,展示了打造安全透明交易环境的品牌承诺。未来WEEX将继续参与全球行业活动,以开放姿态推动加密生态健康发展。

  • ICH2025深圳连接器线束加工展览会今日盛大开幕,巨头云集,引领技术变革新潮

    第16届深圳国际连接器、线缆线束及加工设备展览会(ICH2025)今日开幕。展会以“智慧工业、连接未来”为主题,集中展示连接器、线束加工技术及解决方案,覆盖3C电子、汽车制造、医疗设备等多个领域。700余家企业参展,展出面积达4万平方米,呈现行业最新技术成果与发展趋势,推动产业创新升级。

今日大家都在搜的词: