站长之家首页 > 传媒 > 数据库最新资讯 > 正文

十分钟看懂时序数据库(V)- 分布式计算

2017-06-29 17:02 · 稿源:站长之家用户投稿

物联网领域近期如火如荼,互联网和传统公司争相布局物联网。作为物联网领域数据存储的首选,时序数据库也越来越多进入人们的视野,而早在 2016 年 7 月,百度云在其天工物联网平台上发布了国内首个多租户的分布式时序数据库产品TSDB,成为支持其发展制造,交通,能源,智慧城市等产业领域的核心产品,同时也成为百度战略发展产业物联网的标志性事件。

前文提到数据查询特别是大数据量的聚合分析查询是时序数据库需要解决的一个主要问题,之前的文章介绍了通过预处理数据的方法,用空间换时间的思路,降低了大数据量聚合分析的延时。

本文将从分布式计算方向思考,从并发的角度介绍时序数据库如何降低数据查询的延时。

1. 单机时序数据的聚合计算

我们先来看看单机是如何支持单聚合函数的计算。单机聚合计算非常简单,用户查询数据时,计算节点查询获取时间范围内的所有时序数据,节点按照时序使用聚合函数对数据进行计算,生成计算结果。

分析查询也经常会使用嵌套聚合,嵌套聚合函数使用不同的时间窗口,内部函数通常使用小时间窗口,外部使用更大的时间窗口。那嵌套聚合查询在单机如何计算呢?和单一聚合函数类似,嵌套聚合函数的计算是在内部聚合函数计算的结果之上,根据时间再次计算,获取结果。如下图查询月平均气温最低的一周以及平均气温。总体来说,单机时序数据的嵌套和非嵌套聚合函数的实现过程简单直接,很容易理解。

 

单机计算有什么特征呢?从单机的计算过程,我们可以看到单机需要查询获取所有原始时序数据,原始数据查询的IO成本和计算成本非常高,整个查询的延时会很高,但是聚合运算后的结果往往数据量很少。

2. 分布式聚合计算

分布式计算是一种计算方法,与之相对的是集中式计算,是通过使用多个计算资源在分布式的环境中并发执行计算的方法。在时序数据库领域,随着数据的增长,时序数据会越来越多,单机的存储、查询和聚合分析IO时间成本非常高,虽然使用更加高效的硬件也能够缓解,但是有处理上限,基于成本等因素的考虑,分布式聚合查询仍然是时序数据库自然而然的选择。

当时序数据库存储的数据越来越多时,聚合查询不可避免,这也是OLAP分析查询中最常见操作之一,使用预处理可以提高查询性能,但是不够灵活。分布式聚合计算则是能够使用分布式的特性,通过多个计算资源并行计算,再对结果进行合并返回,通过并发提高聚合查询性能。

3. 分布式时序数据聚合计算

时序数据的分布式聚合计算需要多个节点并行计算,逻辑上也是一个Map/Reduce的过程,Map过程需要对原始时序数据进行分片,分别聚合计算。Reduce过程则是对多个分片计算结果的合并。往往聚合运算的结果和原始数据有着明显数据量的差距,其次分布式计算可以更多的考虑数据的本地化,因此使用分布式聚合计算显然能够有效提高查询性能。

时序数据要进行分布式计算需要解决两个基本问题:时序数据计算分片以及计算结果的合并。

3.1 时序数据计算分片

时序数据聚合计算的分片可以分为几个维度考虑:存储分片、聚合函数时间窗口以及查询条件。

首先,时序数据聚合查询包含多种条件,对时序数据进行分组聚合查询也是一种常用查询,不同的分组原始时序数据不同,因此可以通过查询分组对时序数据计算进行分片,不同的分组使用不同节点并发计算。

其次,时序数据聚合查询函数通常都包含时间窗口,相同时间窗口的原始数据聚合计算为一个数据点,不同的时间窗口用于计算的时序原始数据不同,因此也同样可以通过时间窗口对时序数据计算进行时间维度的分片,不同的节点计算不同时间窗口的数据。

第三,按照存储分片进行计算。我们先来回忆一下前文说描述的时序数据的存储,时序数据由于存储的数据量很大,单机并不能满足需求,因此需要对时序数据进行分片存储,分片(shard)通常使用metric+tags的方式进行,不同的分片存储在不同的存储节点,分片存储着原始时序数据,使用存储分片进行分片计算,也是一种自然而然的选择。如下图先对shard进行分片计算查询,最后对结果进行合并。

 

使用存储分片来分片计算有着什么优势呢?显然,数据查询和计算在存储分片的节点上进行,能够最大的保证数据本地化,能够有效减少网络通讯带来的延时,使得本地数据计算更加高效。

分布式聚合查询在实现时,往往多种计算分片方式同时使用,聚合计算尽量保证本地化、 尽量多的并发执行。

3.2 时序数据计算结果的合并

时序数据聚合计算结果的合并和计算分片的方式有相关性,不同分片方式结果的合并方式也不同。

首先,对于分组聚合查询结果的合并来说,不同的分组查询结果属于不同的分组,按照分组聚合查询条件合并结果,就能形成计算结果。

其次,对于聚合函数时间窗口分片查询的合并来说,不同的时间窗口的计算结果虽然属于同一个分组,但是结果在时间是上有序的,因此只需要对分片计算结果按照时序排序合并,就能获取最终计算结果。

第三,对于存储分片进行分片计算结果的合并来说,合并相对复杂,因为在同一个时间窗口内,可能会包含多个分片,多个分片上同一时间窗口需要聚合运算为一个数据点。聚合运算结果的合并就需要分析聚合函数的特性来进行,例如在A和B两个存储分片的同一时间窗口内SUM聚合函数,显然计算结果可以直接累加SUM(AU B) = SUM(A) + SUM(B),但是并不是所有的聚合函数都满足这一特性,需要根据聚合函数的特性做一一的分类。

当使用多种分片方式进行聚合查询时,相应结果的合并也同样更为复杂。

3.3 时序数据嵌套聚合运算

嵌套聚合查询也是数据分析的常用方式,嵌套聚合运算往往多个聚合函数嵌套而成,每个聚合函数的计算属性并不完全相同。在考虑计算分片时,可以考虑将外部嵌套函数和内部嵌套函数分开计算,选择更加有利的分片方式。例如考虑DIFF(SUM(A, 1day))嵌套聚合函数(DIFF聚合函数是计算前后时间序列结果的差值),既可以使用按照时间窗口的方式分片计算,也同样可以考虑将DIFF的计算和SUM的计算拆分开来,先使用存储分片的方式聚合计算SUM(A,1day)的结果,结果合并时计算DIFF嵌套聚合函数的结果,存储分片的分布式计算能够充分利用数据本地化的特性,因此使用后者显然更加高效。嵌套聚合函数的数据如何分片计算,需要根据聚合函数特性以及场景具体分析,这仍然是一个需要深入考虑的问题。

3.4 计算任务的调度和优化

时序数据分布式计算除了计算分片和数据合并问题以外,同样需要处理任务调度和SQL查询优化的问题,现有的很多开源框架Spark、Presto、Mongodb(注1)、Hive(注2)都有相应的解决方案,这里就不做深入讨论了。

4. 时序数据聚合查询的难题

时序数据分布式聚合计算仍然有很多难题,例如COUNT(DISTINCT FIELD),这类聚合函数的特点是在计算结果时内部需要保存大量的中间数据用于计算,需要消耗大量计算和存储资源。虽然很多大数据领域分布式查询引擎等通过算法都尝试做了部分优化,但是仍然未能完全解决所有问题。

5. 总结

在时序数据库大数据量聚合分析查询中,聚合运算直接影响着查询性能,使用分布式计算的方法,能够有效的提高查询性能,相比较于预处理查询更加的灵活。本文主要从分片以及如何并发的角度做了讨论,但是一些特殊嵌套聚合场景的优化仍旧是需要深入思考课题。

注1:https://docs.mongodb.com/manual/aggregation/

注2:https://cwiki.apache.org/confluence/display/Hive/LanguageManual+Joins

免责声明:“站长之家”的传媒资讯页面文章、图片、音频、视频等稿件均为自媒体人、第三方机构发布或转载。如稿件涉及版权等问题,请与我们联系删除或处理。稿件内容仅为传递更多信息之目的,不代表本网观点,亦不代表本网站赞同其观点或证实其内容的真实性,更不对您的投资构成建议。我们不鼓励任何形式的投资行为、购买使用行为。

  • 大家在看
  • 相关推荐
  • 误删数据库?华为云数据库多重防护硬核保证数据安全

    最近有个关于删库的帖子在网上引发热议,数据库的安全可靠性又一次成为很多企业管理者的担忧,数据库安全和备份机制再次成为行业关注的重点。那么,删库的悲剧是否可以避免?删了数据库可以恢复如初吗?安全没到位,再多功能体验也白搭数据安全是守护企业生命的一道有力防线,对企业未来发展至关重要。但绝大多数中小企业的自建数据库和一些云厂商的云数据库服务往往忽略了数据安全的重要性,自身安全防护机制不够严谨,容易面临各种

  • 型号已现身数据库!新款iPad发布在即 升级幅度大

    现在全球爆发的疫情,让苹果不得不重新考虑何时发布新机,毕竟在这个关键时刻,用户的关注度都在疫情上。

  • CD数据库Freedb.org将于3月31日关闭

    社区生成的音乐CD数据库Freedb 将于 2020 年 3 月 31 日关闭。该服务是CDDB的免费替代产品。该服务是作为CDDB的免费替代品而建立的。许多CD刻录应用程序从Freedb中提取元数据以节省用户手工输入的时间,但是这项服务有一些主要的限制,现在已经被MusicBrainz所取代。

  • 前美国国土安全部指控窃取政府机密软件、数据库

    美国司法部指控美国国土安全部(DHS)的一名前代理监察长盗窃专有软件和政府机密数据库。

  • 3月数据库排行:前10整体下行,出新技术了?

    排名方面没有任何变动(仅针对前十),相信很长一段时间内也都不会变动,毕竟巨头的位置不是一时半刻就能动摇的。不过这个月的排行榜还是有值得关注的地方,可以看到,排名前十的数据库有七成的分数都出现了下降,其中前两名 Oracle 和 MySQL 的分数下降最多,分别降低了 4.11 和 7.92 分。

  • 支付宝自研数据库OceanBase正式通过阿里云向全球开放

    3月25日,支付宝表示自研的金融级分布式数据库OceanBase正式通过阿里云向全球开放,企业可在云上获得“支付宝同款”的世界顶级数据库处理能力。OceanBase数据库可实现数千亿条记录、数百TB数据上的跨行跨表事务,同时OceanBase可兼容Oracle和Mysql数据库。

  • ECC 数据库文件显示苹果新 iPad 即将面世:或为三摄 iPad Pro

    在 ECC 数据库中,该设备被描述为「Apple 平板电脑」,型号为 A2229。AppleInsider 认为,该设备可能为此前传闻的三摄 iPad Pro。不过考虑到此前苹果新设备的信息有提前数周甚至数月出现在 ECC 数据库中的情况,目前无法判断近期是否会有新款 iPad 发布。

  • 珀科技集团证通升级,解决互联网时代版权监管难题

    2020 年 3 月 12 日,四川库珀科技集团对一站式电子存证服务,库证通进行了全面升级。在区块链技术的基础上对共识算法进行了改进,使其满足更多使用场景,为用户提供一站式电子存证服务。 随着互联网的进一步升级,越来越多的公司陷入了版权困境。如何及时地发现侵权行为并进行取证让不少公司焦头烂额。库证通围绕着版权可信存证进行深度探索,最终实现为公司解决信息数据非法传播的鉴权问题。 据悉,库证通基于库珀科技集团自主?

  • 纳米数据与OPPO达成数据合作,体育大数据玩转智能语音时代

    都市白领熬夜看球伤不起?NBA狂热粉苦于找不到直播链接?不常看球还想收获一手体育消息?现在开始,OPPO在体育大数据时代给你全方位感官快速无延迟的体育赛事阅览体验!在过去的十年间, 人工智能(AI)经历了快速发展,图形图像信息的处理与语音识别信息的处理都达到了前所未有的高度,无论是VR游戏还是智能机器人,人们的生活中人工智能的身影已无处不在。而作为人工智能的重要分支,AI语音技术,拿起你的手机,送上一句轻轻的问候,你

  • 云测数据:新基建时代的“AI数据雄兵”

    几年前,AlphaGo瞬间点燃了AI的激情与梦想,巨大的光环把AI推向了市场的风口。之后的几年国内的AI创业虽然几经起落,但也逐渐走向成熟。AI产业将逐渐褪去浪漫主义的“光环”,走向实用主义的落地。在 3 月 4 日,国家决策层提出要发力于科技端的基础设施建设,人工智能成为“新基建”七大版块中的重要一项。“新基建”的呼啸而至,显然为中国AI产业的稳步推进起到了关键的作用。简单回顾一下AI的发展历程,AI的三大要素是指算法、?

  • UCloud优刻得数据方舟,强效守护数据安全

    业务连续性能力是企业在面对内外部风险,自我修复和快速反应的能力表现。在数字化时代,重要数据是企业正常运营的核心资产,对企业而言“生死攸关“,企业掌舵人们更是时刻加倍重点关注,丝毫不敢懈怠。但企业的重要数据保护也面临重大风险,如遇到恶意攻击,传统的数据备份亦会随恶意攻击而失效,造成企业也无法通过备份恢复业务数据。应用全部删除了还可以重新部署,数据没有了,企业就会面临生存危机。那么如何避免这样灾难性的

  • 谷歌将在全球新建4个数据中心,可用于国内数据灾难恢复的数据区域

    3月5日消息,谷歌云宣布将开设四个新的区域数据中心。这4个数据中心分别位于印度德里、卡塔尔多哈、澳大利亚墨尔本和多伦多加拿大。在此次消息发布之前,谷歌云已经在印度、澳大利亚和加拿大建立了区域数据中心,随着这些新的区域数据中心的发布,该公司现在可以提供两个地理上相互独立的可用于国内数据灾难恢复的数据区域。

  • 微软必应推出疫情地图数据网站,更新全球数据报告

    3月16日消息,微软必应团队发布了一个门户网站,用于跟踪全球范围内的新冠病毒疫情变化。微软必应发展和分销总经理迈克尔·谢克特表示,“在过去的一周里,许多必应员工在家远程办公为新冠病毒疫情创建了一个地图和权威的新闻资源网站。”该网站的地址为bing.com/covid,是一个基本的跟踪报道门户网站,该网站更新了全球每个国家和地区的疫情数据报告。

  • 新基建”带火大数据、AI,数据存储成刚需

    访谈嘉宾:浪潮存储产品线总经理李辉近日,“新基建”成为业界关注的热点,5G、大数据中心、人工智能、工业互联网等新型基础设施建设正在加速推进。为此,我们邀请到浪潮存储产品线总经理李辉,共同探讨新基建对数据存储产业的影响。新基建驱动5G、大数据、人工智能发展升级Q:新基建,是相较以往铁路、公路、机场等传统基建提出的概念。您如何看待加速发展“新基建”的社会和产业意义?李辉: “新基建”实际上就是新时代下,物质?

  • Convertlab入选胖鲸智2020 Brand Partner TOP 5

    近日,胖鲸智库发布2020年《品牌拍档 Brand Partner 20 | 50》营销行业创新研究,Convertlab作为国内领先的营销技术营销云企业,成功入选“Top50酷公司”,再次实力展现MarTech市场领跑地位。《品牌拍档 Brand Partner 20 | 50》是营销行业专业媒体平台胖鲸智库2020年重磅推出的研究成果。此研究在倾听品牌主切实营销服务需求、收集大量营销服务商信息基础上,抓住营销主线,厘清新兴赛道,用七大主干道和下属新干线来还原营销生态

  • 数据竞赛白皮书》:各地政府积极举办数据竞赛的深度分析

    数据竞赛是指在以真实业务问题为导向,聚合广泛的、跨学科的数据人才的参与,利用数据研发算法模型、探索解决方案的新型研发模式。放眼中国市场,数据竞赛自 2014 年萌芽以来,数量每年以翻倍之势增加,主导者不乏权威的科研机构与高校,亦有来自各行各业的领军企业。身担城市管理与民生重任的政务机构也在“大众创业、万众创新”的政策驱动下,开始意识到数据的力量,牵头组织了多场大型数据竞赛。在“大众创业、万众创新”的号召

  • 神策数据新版本上线,四大特性让数据治理更轻松

    一个好的大数据用户行为分析系统,不仅可以让使用者易用、分析的更深入,更会辅助企业将整体数据质量和准确性提升到一个新阶段。神策数据新版本上线,正是聚焦企业数据治理的强化和数据分析的深入多维进行了全面迭代,从根本上帮助企业灵活多维的进行精准的数据分析。一、源头保障,“强校验模式”让数据准确分析高效数据源不准确是引起数据分析结果不一致,业务与技术低效协同的根本性诱因之一。神策数据新版本在自由数据上报模式

  • 卡思数据:抖音VS快手,通过数据看KOL、粉丝及内容生态变迁

    2019 年,短视频一枝独秀,成为了移动互联网使用时长增长最快的细分领域。尽管各大资本方都陆续投入到短视频流量争夺中来,但综合平台竞争G2 格局已显现,抖音、快手毫无疑问成为短视频领域两强势力,在此背景下,抖音、快手围绕着“留量”和“商业变现效率”的竞争也愈发激烈。而在这如火如荼之下,随着短视频内容创作梯队的一再扩容,平台内部竞争也愈发加剧,内容创作者间的“淘汰赛”已然开启,创作者乃至MCN机构的生命周期都?

  • 一文了解最全球化的币交易所

    据不完全统计,目前币圈有至少 1000 家交易所,流动性、安全性、币种多少、产品等常常是用户选择的重要考量因素。今天为大家安利一家靠谱但又还不算大众的交易所库币,又名KuCoin。库币成立于 2017 年 9 月,目前是全球最流行的交易所之一。Tokeninsight的数据显示,库币的用户来自全球 100 多个国家和地区,分布之广全球No.1, 2018 年,库币获得了两大风投——IDG资本、经纬创投的 2000 万美元A轮融资。值得一提的是,IDG资本也?

  • 小米成立产融大数据公司,经营范围包括大数据服务区块链等

    天眼查数据显示,2月28日,小米数字科技有限公司新增对外投资,成立重庆口岸产融大数据产业发展有限公司。该公司注册资本 6600 万元,法定代表人、董事长为小米金融战略副总裁曹子玮,其经营范围包括大数据服务、人工智能公共数据平台、区块链技术相关软件和服务、数据处理和存储支持服务、互联网数据服务、科技中介服务等。天眼查股权结构显示,小米数字科技有限公司为该公司大股东,持股比例达49%。

  • 参与评论
文明上网理性发言,请遵守新闻评论服务协议