首页 > 传媒 > 关键词  > 融云最新资讯  > 正文

融云:AI 算法在视频可分级编码中的应用

推广 · 2021-11-02 14:41 · 稿源: 厂商投稿

在10 月21 日 QCon上,融云视频算法专家黄博士分享了《AI 算法在视频可分级编码(SVC)中的应用》,从 ① 三种常用的可分级视频编码的特点;②WebRTC 采用的编码器及其应用方式;③可分级编码在 WebRTC 中的应用现状;④基于可分级编码的目标检测和码率分配方式;⑤AI 和可分级编码结合的应用前景和研究方向五部分深度拆解了 AI 与 SVC 相结合的应用实践。

一、三种常用可分级视频编码的特点

视频图像经过数字化之后数据量非常大,现有的网络和存储设备无法直接存储原始的视频图像,必须对视频和图像进行压缩,现有的主流压缩视频算法为 H.264,VP8,VP9,HEVC,VVC 等。一方面,从 H.264 到 VVC,编码复杂度越来越高,压缩效率也越来越高;另一方面,传输的网络带宽大小不一,且随时变化,单一的码流无法适应多种不同接收端的网络和设备环境。比如4G 网络和5G 网络传输带宽不一样,若在4G 和5G 网络中传输同一套码流,有可能会导致5G 网络带宽没有充分利用,最终影响视频的观看效果。

现在视频应用的环境存在多个不同的接收端,解决这个问题可以采用以下两种技术:联播(Simulcast)和可分级视频编码(SVC)。

如图1 所示,联播 Simulcast即同时传输多路码流,不同的码流具有不同的码率,用以传输在不同带宽下的码流。当终端设备处于高带宽的网络环境中,可以传输高码率的视频,以便获得更好的视频观看体验;当终端设备处于低带宽的网络环境中,可以传输低码率的视频,以便减少视频播放卡顿的现象。但是 Simulcast 支持的码率种类是有限的,难以适应复杂的网络环境。针对这个问题,研究人员提出了可分级视频编码 SVC,视频数据只压缩一次,却能以多个帧率、空间分辨率或视频质量进行解码。比如采用三层空域可分级和两层时域可分级,可以组合的模式达到六种,和 Simulcast 方式相比,系统的适应性得到很大提升。

(图1 联播&可分级)

常用的可分级编码有三种,分别是:空域可分级(Spatial Scalability)、质量可分级(Quality Scalability)和时域可分级(Temporal Scalability)。

(图2 可分级编码常用的三种方式)

空域可分级编码(图3 ),即对视频中的每帧图像产生多个不同空间分辨率的图像,解码基本层码流得到的低分辨率图像,如果加入增强层码流到解码器,得到的是高分辨率图像。

(图3 空域可分级)

质量可分级(图4 ),一个可行的做法是,基本层码流编码这一路对原始图像 DCT 变换后进行一次粗糙量化,熵编码后形成基本层码流。粗糙量化后的数据经反量化后形成基本层系数,与原始图像 DCT 变换系数相减形成差值信号,再对此差值信号再进行一次细量化和熵编码生成增强层码流。

(图4 质量可分级)

时域可分级(图5),即把视频序列不重叠地分割成多层,对基本层的帧进行普通的视频编码,提供具有基本时间分辨率的基本层码流;对增强层则是利用基本层数据对增强层的帧间预测编码,生成增强层数据。

(图5 时域可分级)

二、WebRTC 采用的编码器及其应用方式

WebRTC 支持的编码器包括 VP8,VP9 和 H.264。在用户感受层面, VP8 和 H.264 两种编码器的效果基本上是类似的。VP9 作为 VP8 的下一代编码器,在高清视频压缩方面,比 VP8 和 H.264 效果要好。

如图6,综合编码器性能和浏览器编码器的支持情况,可以得出如下结论:VP8 和 H. 264 编码效果基本一致,一般情况下两者皆可;VP9 主要用在 Google 公司自己的各种视频产品中,其中需要特别指出的是,VP9 支持多种 SVC ;HEVC 目前只能在苹果系统中使用,无法推广,不建议使用;AV1 同样太新了,仅仅在 Google 公司的产品中才能很好地支持,暂时不推荐。

(图6 编码器在浏览器中的支持情况)

三、可分级编码在 WebRTC 中的应用现状

在介绍可分级编码在 WebRTC 中的应用情况之前,先简要介绍下 WebRTC 的通信和组网流程。

如图7,客户端 A 和客户端 B 通信,可以采用直连的模式,也可以采用服务器的模式,在大规模的网络中,都会采用基于服务器的模式进行转发、信号处理等。

(图7 WebRTC 简单的流程)

针对多种应用场景具有多个接收端的特点,WebRTC 提供了三种解决方案:Mesh,MCU,SFU。

Mesh 方案(图8),即多个终端之间两两进行连接,形成一个网状结构。比如 A、B、C 三个终端进行多对多通信,当 A 想要共享媒体(如音频、视频)时,它需要分别向 B 和 C 发送数据。同样的道理,B 想要共享媒体,就需要分别向 A、C 发送数据,依此类推。这种方案对各终端的带宽要求比较高。

(图8 Mesh 方案)

MCU(Multipoint Conferencing Unit)方案(图9),该方案由一个服务器和多个终端组成一个星形结构。各终端将自己要共享的音视频流发送给服务器,服务器端会将在同一个房间中的所有终端的音视频流进行混合,最终生成一个混合后的音视频流再发给各个终端,这样各终端就可以看到/听到其他终端的音视频了。实际上服务器端就是一个音视频混合器,这种方案服务器的压力会非常大。

(图9 MCU 方案)

SFU(Selective Forwarding Unit)方案(图10),该方案也是由一个服务器和多个终端组成,但与 MCU 不同的是,SFU 不对音视频进行混流,收到某个终端共享的音视频流后,就直接将该音视频流转发给房间内的其他终端。

(图10 SFU 方案)

三种网络不同的带宽如图11 所示。可以看出,SFU 的带宽最大达到了25mbps,MCU 最小10mbps。

(图11 三种不同网络的带宽)

在特点方面,Mesh 方案的灵活性比较差;MCU 方案需要对码流进行类似转码、合流、分流等操作;SFU 方案服务器的压力小,灵活性更好,受到广泛欢迎。

如图12 为 Simulcast 模式和 SVC 模式转发方式示意图。从上下两个图可以看出,采用基于 SVC 的码流分配方式,对于 PC 端而言,具有更大的可修改性。无论采用哪种组网方式,采用 SVC 的方式,都会比采用 Simulcast 的方式具有更好的健壮性。

(图12 Simulcast 和 SVC 模式转发方式)

支持情况如图13 所示。从图中可以看出,H.264 仅支持 Simulcast,VP8 支持时域可分级,VP9 则全方位支持 SVC 编码。VP9 是 Google 公司在主推的编解码器,但是在 H.264 编解码器优化方面的推进力度不大,一定程度上限制了 WebRTC 的应用,比如苹果公司最新出品的 iPhone13 手机自带 H.264 的硬件加速功能,如果采用 AV1 编码器,虽然可以获得 SVC 的优点,但是无法进行硬件解码。在 WebRTC 中,Simulcast 是默认通过多线程技术,同时启动多个 OpenH264 编码器, SVC 则是可以调用 OpenH264 进行时域和空域可分级编码。

(图13 可分级编码在 WebRTC 的支持情况)

四、基于可分级编码的目标检测和码率分配方案

对于 N 路的 SFU 而言,SFU 必须考虑剩余 N-1 个终端码率总和。对于大多数视频会议而言,在给定的时域和空域层条件下的码率和总码率比例基本恒定。如图14 所示。

(图14 不同层码流分布图)

根据图14 的现象,将视频运动作为一个主要是衡量指标,对码流进行分配。相关论文具体的方案框架如图15 所示。

(图15 SVC 编码器码率分配)

该方案存在两个改进空间:第一个是运动量度的方法采用的当前帧和前一帧的差,难以准确地反映出视频运动变化的情况。第二个是增加除了运动特征以外的其他特征,以便更好地反映图像视频的变化。拟采用的解决方案如图16 所示。

(图16 拟采用的解决方案)

在 WebRTC 中,H.264 的编码器采用思科公司开源的 OpenH264 编码器,OpenH264 可分级编码配置文件展示如下。这个配置文件设置了时域分级层两层。

SVC 码流的特点是一套码流具有多层结构,在实际使用中,需要对码流进行提取操作。对于时域可分级而言,通过分析每个 NAL 中的 Temporal ID 对码流进行提取;对于空域可分级而言,通过分析每个 NAL 中的 Spatial ID 对码流进行提取;对于质量可分级而言,通过分析每个 NAL 中的 Quality ID 对码流进行提取。

从图17 中可以看出,OpenH264 的基本层的码流可以直接采用 AVC 解码器解码,基本层的 SVC_extension_flag 等于1。

(图17 可分级编码基本层解码图)

SVC 增强层码流的 NAL 包含 SVC 的语法,需要对 SVC 的码流进行转码,可分级编码的参考软件 JSVM 中有专门的转码模块,图18 为转码过程,可以发现多个 NAL 单元被重写成 AVC 的格式。

(图18 可分级编码增强层 NAL 层转码)

图19 为用 JSVM 转换之后的码流解码效果,可以用标准的 AVC 解码器解码。

(图19 NAL 层转码后的解码图)

五、AI 和可分级编码结合的应用前景和研究方向

可分级编码中最频繁使用的方法是空域可分级技术,但是不同分辨率在转换时,质量下降比较明显。ICME2020 会议上,有学者提出了用于视频编码的超分辨模型,该模型通过提取不同时刻的图像进行特征融合来重建出高分辨率图像。实验结果表明,超分效果有提升。

(图20 视频超分辨率结构图)

将该模型用于可分级编码器中,可以有效地改善不同分辨率码流切换的时候,给人带来的不适感。

MPEG5 提出了 Low Complexity Enhancement Video Coding(LCEVC),该编码方式和 H.264 相比,在相同的 PSNR 下,压缩效率更高。编码器如图21 所示。其中基本的编码器 Base Encoder 可以选用任意一种现成的编码器,比如 H.264,VP8,VP9 等。

WebRTC 和 LCEVC 相互结合,是未来的一个发展方向。作为一个新的视频编码标准,其具有几个特征:提升了基本层编码的压缩能力,具有低编码和解码复杂度,提供了一个额外的特征增强平台等。

从图21 可以看出,编码复杂度主要在取决于 Base Encoder,在 WebRTC 中广泛使用的 H.264 如果采用 LCEVC 的方式进行增强,在复杂度增加的情况下,编码效果会有明显地提升。一般而言采用 H.264 编码的1080P 高帧率的实时体育视频流需要8Mbps 的最高码率,而采用 LCEVC 仅仅需要4.8Mbps。

(图21 LCEVC 编码器)

鉴于 LCEVC 编码的效果,可以判断,LCEVC 和 WebRTC 结合,将是一个重要的研究和应用方向。

特别声明:以上内容(如有图片或视频亦包括在内)均为站长传媒平台用户上传并发布,文章为企业广告宣传内容,本平台仅提供信息存储服务,对本页面内容所引致的错误、不确或遗漏,概不负任何法律责任,相关信息仅供参考。站长之家将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。任何单位或个人认为本页面内容可能涉嫌侵犯其知识产权或存在不实内容时,可及时向站长之家提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明(点击查看反馈联系地址)。本网站在收到上述法律文件后,将会依法依规核实信息,沟通删除相关内容或断开相关链接。

  • 相关推荐
  • 大家在看
  • 腾讯云服务器12.12限时秒杀-1核2G首年50元

    腾讯云服务器12.12多种机型限时抢购,1核2G服务器4.17元/月,2核4G服务器6.17元/月,专业技术7*24小时在线服务,腾讯云为企业和个人提供快捷,安全,稳定的云服务!

    广告
  • 融云向上走半步 接过了战友的行军包

    如此决策就像在 5 公里越野中,接过了战友的行军包...融云可以向消费互联网用户,提供像水和电一样的通信云服务,但服务行业数字化转型,他将向上走半步,必须接过传统行业用户的行军包...”韩迎所说的“通信中台”就是“行军包”,为此他要将通信云能力,从iPaaS平台延伸至aPaaS平台...这家企业是隐藏在 30 万款APP背后的通信云巨头...这就是传统行业必须面对的数字鸿沟,用户需要服务商能向上走半步,提供“通信中台”...行业ISV则是融云的合作伙伴...此间合作伙伴的范围也肯定更广......

  • 从最新艾瑞报告,探寻通信厂商融云的「护城河」

    “谁能找到拥有宽阔护城河的企业,谁就能获得长久高收益。”巴菲特最为人所熟知的一个投资原则,就是要寻找有宽阔“护城河”的企业。“护城河”指企业拥有的保证它无法被竞争对手赶超的核心优势,也就是竞争壁垒。它们包括:有效规模、转换成本、成本优势、技术优势和规模效应等。艾瑞咨询在近期发布的《2021 年全球互联网通信云行业研究报告》(以下简称《报告》)中,对互联网通信云赛道优势领先的厂商融云分析发现,构成其竞争?

  • 小米有品首发长津湖联名手表:1950只 独立唯一编码

    去年9月30日上映后,《长津湖》一炮打响,目前累计票房57.7亿元,位列中国电影票房榜第一...小米有品首发海鸥长津湖联名限量版,限量发行1950只,每只都有独立唯一编号...海鸥长津湖联名限量版支持百米防水,无惧风雨,精钢材质多道工序锻造,坚硬无比...ST2500自动上链机芯,25颗红色宝石轴承,21600次/时高摆频,支持45小时动力储存...

  • 四大优势 让融云构筑通信中台厂商竞争壁垒

    今年,在政策引导下,政企数字化转型明显提速,通过数字化技术,企业的运营效率显著提升。但在推进数字化转型,尤其是云计算等技术落地应用的同时,也凸显出一系列问题,比如:伴随着企业组织架构的数字化演变,大量后台系统与前台应用应运而生,导致企业系统越来越“重”;由于各系统间缺乏统一的规划和开发,导致功能复用率低,用户体验不统一;早期过于垂直化和个性化的业务逻辑与基础系统耦合太深,导致新业务难以直接复用和快

  • AI算法加持:Scanbo介绍非侵入性血糖测量方案

    对于需要定期评估血糖水平的糖尿病患者来说,在手指上扎一针取血的测量方法,着实给不少人造成了心理和生理上的压力。好消息是,一家名叫 Scanbo 的人工智能初创企业,正着力于借助现成的数据分析和诊断工具,来终结这种侵入性的血糖测量方案。该公司开发的这款原型设备,结合了三导联心电图测量和光电容积描记图(PPG)技术。通过给一组算法输入持续 60 秒的测量值,即可给出相当有前景的血糖评估读数。除了无创血糖监测,Scanbo

  • 融云第三代场景化 SDK 引领通信厂商下阶段发力方向

    瞄准 Z 世代需求,成为很多产品的增长密码。这个出生于 1995 年 - 2009 年间的年轻群体,是“完全的移动设备用户”,他们愿意利用多媒体学习、娱乐,习惯于处理大量视觉信息。因此,他们对新事物的接受能力、学习能力非常强,也在长期信息爆炸的环境下形成了“寻求刺激、追求新鲜感”消费习惯。社交、泛娱乐类应用更要求新求变,才能在人们已经被大量精心设计的软件、信息流占据和分散的注意力中,分得一杯羹。这种市场需求侧的趋?

  • 融云超级群,如何实现类 Discord 无限用户实时社交

    不同于群组内艾特某一成员,默认所有不在线的成员都会收到消息通知,融云超级群支持只对指定的艾特用户发送消息通知,避免对其他用户造成骚扰...针对大型实时社区中用户的多样化社交需求,对于有进一步拉近社交关系的用户,融云超级群支持私信等多种聊天模式,有效提升用户粘性,符合用户的社交行为发展动线...

  • 融云携手致远互联 通信中台高效赋能协同办公

    十四五期间,数字化转型已成为政企行业改变工作运营模式、赋能业务发展、推动创新升级的主旋律。其中,“协同办公平台”已经成为数字化转型最重要的系统之一。致远互联作为头部的中国协同管理软件及云服务厂商,其协同办公管理产品包括企业版A系列和政务版G系列两大标准产品线,为数万家政府机构及企业级用户所选择,大中型、集团型企业,尤其是国资央企是其主要的客户群体。同时,致远互联的协同应用中台还提供个性化、零代码的业务应对平台,企业客户只需通过可视化的平台界面进行简单拖拽,即可搭建出诸如资产管理、订单管理等专属应用

  • 融云&泰隆银行实践案例 入选艾瑞通信中台白皮书

    近期,艾瑞咨询首次发布了《中国通信中台行业实践白皮书》,其中指出:通信中台是通信云厂商结合底层SDK通信能力和行业经验积累,抽取各场景下共性需求,将通信场景封装成可自由组合的通信模块...在行业实践方面,《白皮书》以融云与泰隆银行的合作为例,重点阐述了融云以“薄而全”的通信中台解决方案,满足泰隆银行内部通信需求,并大幅降低开发成本,为项目的快速上线发挥了关键作用......

  • 高分通过!腾讯TCE获得商用密用安全性评估认证

    依托腾讯安全云鼎实验室的商用密码合规解决方案,腾讯专有云企业版TencentCloudEnterprise,高分通过了“商用密码应用安全性评估”三级资格认证...密评对象包括关键信息基础设施、网络安全等级保护第三级及以上的重要信息系统,密评标准涵盖关键点是否采用密码技术进行保护、密码算法和技术是否满足防护要求、密码设备及服务是否具备资质三大要点...面对TCE专有云平台商密改造挑战,腾讯安全云鼎实验室结合TCE实际使用场景,经过90余天的鏖战,通过TCE的安全中间件进行安全合规能力的统一封装,同时通过云平台密码服务组件进行异构密码产品的适配,并对上提供多样密码能力,包括认证密码服务、终端密码服务、网络与通信安全服务、数据存储安全服务、管理配置安全服务等商密安全服务能力...相较于传统商用密码方案,云鼎实验室的商用密码合规解决方案具有“密码即服务”、融合架构、降本增效、生态保障四大特点,并在财付通、企业微信、健康码、WeCity、协同办公等多样化业务应用场景形成了最佳实践...

这篇文章对你有价值吗?

  • 热门标签

热文

  • 3 天
  • 7天