首页 > 传媒 > 关键词  > 声网最新资讯  > 正文

当基础设施故障后,声网SD-RTN™如何保障RTE服务的高可用性

2022-01-10 16:47 · 稿源: 站长之家用户

云计算的出现为企业的管理、业务开展、资源整合等带来了极大的便利性,也是数字化建设的核心基建之一,然而局部宕机或者大面积宕机事件对于云厂商来说却也无法避免,全球领先的计算平台也不例外。例如,美国东部时间 12 月 7 日上午 10 点 45 分,亚马逊 AWS 遭遇宕机,导致了迪斯尼+、奈飞等一些网站的在线服务受到影响,此次故障也在业内引发了较大的关注。

之所以说云厂商的宕机故障无法100%避免,核心在于造成的原因有很多种,例如人为失误、网络中断或者区域性网络拥塞、停电、自然灾害等,作为云厂商,能做的就是不断优化技术与服务来应对这些问题,将宕机发生的概率降到最低。

声网作为全球领先的实时互动云服务商,在海外的部分业务也使用了 AWS 的基础设施资源,在AWS 宕机事件中,声网的实时音视频服务并没有受到波及,背后的核心原因在于声网 SD-RTN™大网的独特架构设计保障了 RTE (实时互动)服务的高可用性,做到机房、硬件、网络等基础设施出现故障的情况下,仍然可以给用户提供高可用的 RTE 服务。

首先我们要了解什么是高可用性。一般来讲,一个靠谱的云服务一定是可用性非常高的,可用性的评判标准 SLA:服务等级协议(Service Level Agreement)对于云厂商来说就是服务可用性的一个保证,国内很多云厂商在售卖云服务时都会承诺99.9%的可用性, 9 越多代表全年服务可用时间越长服务更可靠,反之亦然。例如以全年 365 天做计算,99.9%的可用性,每年只有8. 76 小时的服务是不可用的,可用性的每一次提升都是一次技术的挑战,当遇上环境灾害、公网基础设施不可靠等问题时,怎么样快速地面对这些问题,多长时间恢复,是否有成熟的备案这是任何一个云厂商都要诚实面对的问题。

想要提升服务的可用性,需要从多个层面进行布局,例如机房布置、服务基础架构、运维自动化等,那么声网具体是如何在实践中保障RTE服务的高可用性,我们可以从四个层面展开来讲:

一、SD-RTN™架构设计:故障实时感知与智能调度、异地多活

业务架构:众所周知,基础设施会因为突发的网络拥塞、硬件故障、不可抗力等因素导致或大或小的一段时间的不可用。在这样的前提下,声网 SD-RTN™大网的架构师团队从设计之初就充分考虑到了基础设施的不稳定因素。如果要用几个关键词来描述 SD-RTN™,那就是全球覆盖、故障实时感知与智能调度、超低延时、弹性能力、异地多活、超高并发,而一旦基础设施出现故障,SD-RTN™的故障实时感知与智能调度能力以及异地多活的构建方式将发挥重要作用,保障服务的高可用。

 1、故障实时感知与智能调度:从全球来看,公网网络的波动是较为频繁的,SD-RTN™的网络嗅探服务能够实时的感知网络的质量,结合AI Ops(智能运维)的分析能力,能够实现分钟级的用户迁移,保障用户的音视频体验。

2、异地多活:SD-RTN™大网将全球资源划分为多个Region(区域),在Region内依然能够做到最低N+3(即:在最大的 3 个资源集群不可用的情况下,剩余的资源依然能够承接当前Region的负载)资源冗余的要求,不仅如此,Region之间依然能够形成互补的态势,某个Region故障时,可以通过互补Region进行承接。

3、灵活的扩弹性缩容能力:SD-RTN™大网的每个Region至少具备200%的实时弹性扩缩容能力,具备应对突发事件的能力,配合智能调度能够充分合理的进行资源使用。

SDK:同时,在音视频 SDK 侧声网也进行了大量的优化工作,包括抗弱网优化,音视频体验优化等,形成和业务层进行"里应外合"的局面,提升服务的可用性。

二、基础设施层面:机房全球分布、五地三中心资源覆盖

基础资源选点: SD-RTN™ 在全球部署了250+数据中心,覆盖全球 200 多个国家与地区,对于主要区域的最低要求是五地三中心的资源覆盖,每个区域采用核心节点+POP点的方式。这样一旦某区域其中一个或两个机房发生故障,依靠技术可以将故障城市的流量全部切换到运行正常的机房。

供应链管理:不依赖单家供应商的基础资源(包括:机房、硬件、网络等),当一家供

应商出现问题,可以快速切换到其他服务正常的供应商。

三、智能运维,快速阻断故障

如今行业都有一个共识,即运维复杂度在迅速增加,然而传统运维已经捉襟见肘,为此, 声网投入了巨大的资源和人力,克服了 AI 工程化落地的难点,将智能运维全面应用于 SD-RTN™的日常运维中,解决了传统运维的痛点:7*24H 不间断保障;高一致性和高质量的执行结果;统一高效的运维效率。

声网的 AI Ops(智能运维)能在 1 min之内(包含了数据聚合、上报、判断、执行、恢复等整体端到端时间)识别机房异常并且自动运维,,快速阻断故障影响蔓延, 保障边缘服务高可用。例如,边缘节点的网络拥塞是无法避免的, 在出现拥塞之后, 用户的音视频体验会打折(卡顿, 延时增大),这种情况下经验丰富的运维人员在 daytime 时期从故障发现到处理平均要花费 20 分钟, 如果故障发生在深夜或者处理不及时, 时间会更长, 这对用户的体验影响很大. 这时候 AI OPS的价值就体现出来了, 它能在2. 5 分钟之内识别并处理异常, 并且7* 24 不间断高一致性地执行, 以保障用户高质量的 RTC 体验。

四、RTE行业首个体验质量标准-XLA

前面我们提到,SLA 是很多云厂商与电信行业对服务可用性的评判标准,但在声网看来,SLA 对设备和网络接入标准进行规范,关注的是服务的可用性。但是在 RTE 行业,仅仅达到“可用”标准远远不够,用户渴望的是清晰流畅、没有卡顿的音视频互动,那么在实时互动体验质量上就必须达到“好用”的标准。对此,声网在 2020 年 7 月设计定义并推出了实时互动行业首个体验质量标准-XLA (Experience Level Agreement),这也是为 RTE 服务的可用性与体验质量推出的首个可量化、可查证、可赔付的体验质量标准。

与 SLA 不同的是,XLA 不仅关心实时互动的可用性和服务质量,还关注用户的体验质量,同时这也是第一个将质量保证焦点由设备转移到人的标准。XLA 主要包含四项体验指标,即5s登陆成功率、600ms 视频卡顿率、200ms 音频卡顿率和400ms 网络延时达标率,四个指标的月度达标率(1-不达标切片总时长/月度总时长)均需超过 99.5%。5s 登录成功率是指登录成功耗时需小于 5 秒才算合格,这项指标主要考验实时互动的可用性与等待体验;600ms 视频卡顿率与 200ms 音频卡顿率主要考验实时互动过程中流畅性体验;400ms 的网络延时指标面向音视频互动的实时性,延时需低于 400ms。

通过 XLA,客户可以获得声网对登陆成功率、端到端延时、音视频卡顿率等多个维度的实时互动体验质量承诺和保证,不需要再去担心终端用户的体验质量问题,真正做到用的放心,用的称心!

定义实时互动体验质量标准看似只是几个指标,但实际背后承载了声网团队长期的付出。XLA 质量标准的推出,是经过上百名技术专家针对全链路数据反复打磨、改进、验证,经历了 10 个版本的反复迭代,适配了50+网络模型、200+国家与地区的优化、6000+不同类型终端体验的优化以及全链路 1 万亿分钟的数据打磨。这背后代表的也是声网在实时互动云行业的长期深耕与积累。

推广

特别声明:以上内容(如有图片或视频亦包括在内)均为站长传媒平台用户上传并发布,文章为企业产品宣传内容,本平台仅提供信息存储服务,对本页面内容所引致的错误、不确或遗漏,概不负任何法律责任,相关信息仅供参考。站长之家将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。任何单位或个人认为本页面内容可能涉嫌侵犯其知识产权或存在不实内容时,可及时向站长之家提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明(点击查看反馈联系地址)。本网站在收到上述法律文件后,将会依法依规核实信息,沟通删除相关内容或断开相关链接。

  • 相关推荐
  • 大家在看
  • 【腾讯云】618年中专享优惠抢先看,价值1206元礼券一键领取

    腾讯云618采购采购季,云服务器多种机型限时抢购,产品首购低至1折,续费最高享3.6折优惠。,专业技术7*24小时在线服务,腾讯云为企业和个人提供快捷,安全,稳定的云服务!

    广告
  • “安超云ArSDN”荣获“信息基础设施优秀解决方案”

    工信部主管的权威媒体《中国电子报》公布了典型企业、创新产品与技术、优秀解决方案...今年,国际电信联盟及工业和信息化部国际合作司将“世界电信和信息社会日”主题确定为:“面向老年人和实现健康老龄化的数字技术...安超云ArSDN采用纯软件方式提供高效、便捷的网络虚拟化服务,无需绑定硬件,即可利用VxLAN Overlay网络,构建高效的L2 层网络,对基于异构底层硬件、多种虚拟化架构(如VMware、KVM、容器等)的多云网络环境实现统一覆盖......

  • Meta携手AMD合作开展Evenstar移动基础设施计划

    C114 讯 北京时间 5 月 12 日消息(艾斯)据路透社报道,Facebook母公司Meta Platforms和芯片制造商AMD本周三表示,双方正在合作开展一项移动网络基础设施计划,该计划旨在降低基站成本,使宽带服务在全球范围内更容易获得。这一移动基础设施计划计划名为Evenstar,由Meta于 2020 年初推出,并推广了名为Open RAN的平台,Open RAN平台使移动网络运营商能够混搭用于构建基站的硬件和软件,而不是从一家设备制造商那里购买所有这些东西。AMD数据中心和通信部门高管Gilles Garcia 表示,这为运营商提供了更大的灵活性,并使设备定价更具竞争?

  • 电力基础设施全面铺开可能还需要一个世纪

    在文章中表示电力基础设施的转变遵循 S 形曲线:增长率从慢到快,然后又回到慢...到 1912 年,发电量为 25 TWh,到 1930 年为 114 TWh,到 1940 年为 180 TWh,然后连续三个十年翻倍,到 1970 年将其提高到近 1,600 TWh...在这个过程中,电力消费量的上升首先是由价格下降推动的,然后是电力用途的增加...到 1960 年代后期,随着这些电力用户和一系列其他重度电力用户的所有权不断增加,住宅消费的份额达到了 25%,并在 2020 年达到了 40% 左右......

  • Facebook母公司Meta与AMD合作开展移动基础设施计划

    据路透社报道,Facebook母公司Meta和芯片制造商AMD周三表示,他们正在合作开展一项移动互联网基础设施计划,该计划将降低基站成本,使世界各地的宽带更加普及...AMD公司数据中心和通信集团的高管Gilles Garcia表示,这为运营商提供了更多的灵活性,使设备价格更具竞争力...

  • NFT基础设施AFKDAO 完成300万美元融资 Hoo Labs等参投

    5 月 21 日,AFKDAO在社交媒体上宣布,很高兴已经完成了来自一流领先风险投资公司的 300 万美元以上的融资...私募轮投资者已投资超过 300 万美元...作为该领域的资深人士,他们专注于支持他们的投资组合项目,一直到在筹款、营销咨询、开发、影响者营销和社区发展方面的启动...成立数百万美元的生态基金会,重点投资波卡生态、NFT、潜在项目等,重点投资分布式数据存储领域的优质项目......

  • DataPipeline完成B+轮1.2亿元人民币融资,定义基于DataOps理念的下一代数据基础设施

    近日,下一代数据基础设施提供商DataPipeline宣布完成来自知名投资方的B+轮1. 2 亿元人民币融资。DataPipeline将持续深化核心人才队伍,拓宽DataOps产品矩阵构建,加速市场与生态建设,积极参与行业标准制定,推动DataOps理念在重点行业落地。截至目前,DataPipeline共获得来自金沙江创投、远翼投资、经纬创投、BV百度风投、峰瑞资本、清流资本等的共计五轮的投资,金额达数亿元人民币。数据是数字经济时代的核心生产要素,在数据量激增、时效性能力要求提升、数据种类日趋复杂等的大趋势下,企业自身的数字化建设尤其是对数据的有效管理?

  • 得物以开创 “先鉴别,后发货”服务保障年轻用户品质消费

    成立6年多以来,得物从年轻人的品质消费需求出发,从成交的第一件商品起,就加入首创“先鉴别,后发货”的购物服务...这样安心的消费体验,使越来越多的年轻人聚集在得物,他们不仅热衷于在得物挑选购买潮鞋潮服、美妆、配饰、箱包等生活好物,在各大节日前后国内外顶尖品牌发售的新品也备受追捧,比如随着冬奥热度持续攀升,滑板、滑雪运动装备等也一度成为消费热门,但唯一不变的是得物对待任何一件商品层层鉴别的认真态度,在满足消费者多元化购物需求的也为品质消费的购物环境贡献出自己的一份力量......

  • 友深挖Certain Affinity与微软秘密酝酿的Project Suerte新游戏IP

    总部位于奥斯汀的游戏开发商 Certain Affinity,一直与微软有着密切的联系 —— 涵盖了多款《光环》游戏,以及即将到来的、受“吃鸡”类游戏启发的《光环:无限》模式...若消息靠谱,与 Microsoft Games 联手打造的这个未官宣项目,可能早在 2019 年 4 月就已经在秘密开发中 —— 甚至有望在 6 月 12 日的 Xbox Bethesda 2022 游戏展上亮相、并于 2023 年初发布......

  • NET-A-PORTER进入“颇特”时代,携手刘雯开启时尚奢品新可能

    于2019年正式进入中国一举入驻天猫奢品,加强中国时尚设计师品牌的买手选择,深化无微不至的时尚奢品服务,并于2021年成功正式推出中国版 APP...5月4日起,NET-A-PORTER将正式开启“无限 新可能”颇特星系天猫数字藏品共创项目,同步于元宇宙发布中文昵称“颇特”,成为中国领先进驻“元宇宙”的时尚奢品平台......

  • Google SMTP服务被利用来发送欺骗邮件

    我们中的大多数人不会过多地考虑我们的电子邮件上的"发件人"地址栏,它通常是由邮件程序或网络服务填写的。在收件人的一端,安全工具可以对照发送服务器检查这个地址,以验证邮件是否合法。但服务器和收件箱之间的SMTP中转服务器会允许邮件通过,即使地址不匹配,这就是为什么一些营销组织可以在不被阻止的情况下发送群发邮件。而Gmail恰好有SMTP中转设施,使得通过Google服务器发送非Gmail邮件成为可能。Avanan公司的研究人员发现,黑客正在操纵Google的服务,伪装成有信誉的品牌,发送成千上万的电子邮件,绕过安全工具,直接进入用户的

今日大家都在搜的词: