首页 > 经验 > 关键词 > 大数据最新资讯 > 正文

揭秘大数据时代秒级查询响应引擎的架构设计

2020-07-05 14:05 · 稿源:Analysys易观公众号
文章目录

声明:本文来自于微信公众号 Analysys易观(ID:enfodesk),作者:黄显东,授权站长之家转载发布。

近年来,大数据技术发展迅速,从过去的 Hive、Spark,到现在的 Flink、ClickHouse、Iceberg 等,各种大数据技术推陈出新,不断演进大数据存储和引擎系统的架构,来适应大数据时代的海量数据处理需求。

大数据

而随着技术的更迭,每次架构演进都需开发人员重构一次业务代码,既耗费了开发人员的精力,又会影响数据处理的效率。另外,在 PB 级数据体量下,开发人员还面临数据秒级处理与数据准确兼顾的挑战。

为此,易观基于 IOTA 架构思想设计出秒算引擎架构,以解决开发人员在数据处理上遇到的难题,并提升数据处理效率与质量。那可以秒级查询响应的秒算引擎是如何设计的呢?易观 CTO 郭炜与易观架构师高俊,给出了详细的分析和解读。

基于 IOTA 架构的秒算引擎如何设计?

秒算引擎是一个用户行为分析的数据解决方案,包含数据接收、数据实时处理、数据冷热存储和 OLAP 分布式 SQL 查询引擎,基于下一代 IOTA 架构设计,可针对各种业务场景进行快速分析查询。

1.jpg

基于IOTA架构,支持引擎快速升级

整体架构上,通过 SDK 在设备端将采集的数据转化成统一的数据模型,然后传送到秒算引擎中。秒算引擎分为临时存储、历史存储和查询引擎,由查询引擎将临时数据和历史数据合并,并提供统一的查询接口供用户查询。

架构以统一的数据模型贯穿始终,秒算引擎内部模块支持热插拔,可以保持前端查询引擎不变的情况下,将存储引擎个性化更换。

数据模型采用高度抽象的主谓宾数据模型,既能规范各端数据格式,又具有通用性和扩展性,解决了传统非结构化数据在结构化存储时带来的数据质量问题。秒算引擎还可实时处理用户上报的数据并入库,并立即和历史数据一起被分析计算。

除此之外,秒算引擎中数据表的表结构是由收到的真实数据动态生成,用户可以随时上报自己感兴趣的数据和字段,解决了过去分析系统 Schema 维护难的问题。还具有热数据自动 Dump 到磁盘、磁盘上的小文件自动 Merge、支持多种数据源的数据统一查询分析等特点。

数据处理性能提升 200% 秒算引擎 2.0 如何优化?

 一、实时数据缓冲层架构升级

秒算引擎中,历史数据都保存在 Hive 中,不过 HDFS 文件对追加写的支持不友好,需要将最近一段时间内上报的数据暂时存储在支持高吞吐、低延迟写入更新的数据库中。当数据量达到一定的阀值时,由秒算的后台线程将数据 Dump 到 Hive 中。整个过程,通过 Presto 的视图来保证 Hive 中的数据和实时缓冲层的数据同时参与分析计算。

2.jpg

Kudu引擎“透明”替换,数据处理性能数倍提升

由于单一的技术方案无法应对越来越差异化的需求场景,在秒算引擎 2.0 中抽象了 Buffer 层,以实现快速的切换新的缓冲层数据库,同时也让秒算引擎拥有更好的扩展性。秒算 2.0 通过采用 Kudu 替换 Hbase,数据处理的消费性能和持久化性能分别分别提升 200% 和 300%。

 二、智能虚拟分桶

秒算引擎 1.0 中用户上报的事件在 Hive 中是以用户 id 和事件发生时间排序后保存的,保证同一个用户的行为数据在磁盘上是连续的,可以减小查询时的磁盘寻址时间。同一个用户的行为数据按事件发生的时间做好排序,这样在漏斗等分析场景下可以优化排序的时间,提升查询性能。

不过,大部分产品在版本的迭代中会产生很多的事件,有些事件是核心事件,经常需要参与分析查询。还有些事件日常的分析场景使用不多,但会产生大量的事件数据,比如热图事件,如果把这类事件的数据和核心事件的数据放到一起,会影响到核心事件的查询性能。

3.jpg

核心数据和行为数据隔离,提升数据分析查询性能

因此,秒算引擎 2.0 中新增了智能虚拟分桶这一特性,通过智能虚拟分桶,可以将核心数据和行为数据隔离。借助这一特性,可以将核心事件放到同一个桶中,非核心的事件放到其它桶中,这样便可以提升数据分析查询的性能。

智能虚拟分桶主要分为以下一个步骤:首先是智能生成分桶策略。其次根据分桶策略,在数据从 Buffer 层 Dump 到 HDFS 时,将对应的事件数据放到该事件的分桶文件中。最后是查询引擎根据查询涉及的事件读取该事件对应的 HDFS 文件。

 三、优化查询计划

秒算引擎的一部分最新数据保存在 Buffer 中,历史数据保存在 Hive 中,通过使用了 Presto 的视图功能来同时查询 Buffer 和 Hive 中的数据,在视图里 Union all 不同存储库里的表,来提供统一的查询能力。

但在使用过程中,Union all 的两个子查询可能有不同的过滤条件,会导致 Presto 在处理 Union all 时的执行计划和查询单表的执行计划不一样。所以 Presto 查询引擎针对 Union all 的场景需要先将 Union all 两边的数据都读出来,之后再在上层做 Where 条件的过滤。

4.jpg

修改Presto执行计划,提升秒算查询性能

不过,如果 Union all 两边子查询的过滤条件本身一样,或者没有过滤条件,那就可以将这个视图的查询当成查询单表来处理的,即直接将 Where 条件下推到执行计划的 Source 阶段。

基于此认知,秒算引擎 2.0 修改了 Presto 的执行计划,专门针对这一点做了优化,提升了秒算的查询性能。同时针对 Presto 的优化,也已经反馈给 Presto 社区,通过社区为更多的人提供支持和帮助。

基于通用性、可二次开发的底层架构,秒算 2.0 引入了分池(Pool)查询。分池查询支持复杂长查询和短查询分开运行,保证在高并发访问与查询数据量大时,普通查询不会被一个复杂长查询阻塞。

5.jpg

引入分池(Pool)查询,解决大查询困扰

开放技术,拥抱开源

在易观多年的技术开发过程中,开源是基本的技术价值观。在 2019 年 8 月,易观自主研发的分布式任务调度引擎 DolphinScheduler 通过了 Apache 软件基金会的投票决议,正式成为 Apache 孵化器项目。

DolphinScheduler 是一个分布式、去中心化、易扩展的可视化 DAG 工作流任务调度系统,致力于解决数据处理流程中错综复杂的依赖关系,使调度系统在数据处理流程中开箱即用。易观希望通过开源的方式,让更多的人参与到大数据的生态建设中来。

目前,秒算引擎也计划逐步开源,通过开源将秒算的能力开放给更多需要的人,为更多的企业和开发者提供简单易用的服务。同时,也为技术社区的发展添砖加瓦,履行易观数据能力平民化的使命。

  • 相关推荐
  • 大家在看
  • 我来数科的大数据风控探索:数据驱动引领发展

    大数据风控能力是金融企业的命脉。不论是银行还是商业金融机构,其核心竞争力就是风控能力。作为金融科技的先行者,我来数科洞察未来金融市场趋势的基础上,率先进行数字科技升级,以数据驱动引领平台发展,在大数据风控领域做出了积极的探索。 众所周知,金融机构普遍肩负着社会经济的稳定健康发展的部分责任,同时又要作为商业单位存活,机构需要在兼顾监管层高标准与严要求的同时提升盈利水平,靠的就是风控。这其中,大数据风

  • 我来数科:大数据+AI为客户利益开启双重护航

    用高水准的服务保障客户利益,获得客户的信任,这是在激烈市场竞争中企业生存的必由之路。不久前刚刚完成品牌升级的我来数科,不仅在品牌定位和战略重心上有了新的变化,在服务理念和服务技术上也对自己提出了更高的要求。我来数科将更加增强平台的技术属性,用大数据+AI为保障客户利益开启双重护航。从行业现状来看,野蛮生长的时代显然早已过去,技术和服务才是新时代金融企业发展的硬道理。据了解,升级后的我来数科提出了全新?

  • Netflix是如何利用大数据打造爆款神剧的?

    好莱坞传奇编剧家威廉·戈德曼(William Goldman)曾经说过,在好莱坞,现在没有,将来也不会有人能够预测是什么原因能够让一部电影能够叫座。

  • Smartbi携手985高校:大数据之殇与智慧校园涅槃

    最近,教育部给本科教学质量“打分”:学业挑战度中等偏下,这一话题上了热搜,在网络上引起了人们的广泛关注和评论。联想到前段时间的新闻:近 30 所高校公布了超过 1300 名硕博研究生的退学名单,其中包括清华大学、复旦大学、中国人民大学等知名高校。我们不难发现,教育部这几年开始严查高校学风,严抓高校教育质量,学生教育水平,让高校“学生忙起来、教师强起来、管理严起来、效果实起来”。那么作为高校,又该如何评估教育

  • 71年来首次7月无台风 大数据揭秘“缺席”原因

    7月29日,据中国气象局官网消息,今年7月份我国将不会迎来台风,这是自1949年以来首次出现这样的情况。据悉,从常年来看,7月份属于我国台风的活跃期,平均生成台风4.1个。截至目前,今年只有

  • 大数据绘出中国股民画像:43.6%在用华为手机

    日前,一家数据公司发布了中国股民画像: 35 岁以上男性,本科学历,企业白领,爱用华为手机,已婚已育,有房有车,抗压能力强……据了解,这张画像是根据 2018 年公开数据整理而来。值得注意的是,43.6%的股民都在使用华为手机。

  • 携程发布“BOSS 直播”大数据 梁建章带货能力有多强?

    携程对外发布2020携程“BOSS直播”大数据报告,对外披露“BOSS直播”4个多月来的成绩。携程透露,以“BOSS直播”为核心的携程直播累计GMV破11亿元、产品核销率近5成、为千家高星酒店带货超百万间夜。“BOSS 直播”的主要仍面向高星酒店,这也是携程市场占有率最大的板块。报告透露,携程“BOSS直播”间内的预售产品均价仍在1200元以上,首批到店的酒店预售产品和效率接近50%。报告透露,携程直播间重复?

  • 美菜网,打造合作伙伴的经营投资优化大数据平台

    美菜网不仅是一个互联网生鲜电商平台,同时还是一个大数据服务平台。 美菜网以全价值链多元数据为基础,通过对数据的抽取、加工、分析,一键就能了解商品价格走向、各品类商品阶段性数据分析,解决信息不对称问题,帮助商户降低成本,提升效率。01智能推荐,让客户更精准的匹配需求如果您是客户,美菜网根据客户经营业态、所需商品不同,通过了解客户的日常采购习惯,及对您下单数据的分析,能够根据算法模型实时为您提供个性化的?

  • 大数据公司Palantir称已向SEC秘密提交IPO申请

    【TechWeb】7月7日消息,据国外媒体报道,大数据公司Palantir周一表示,已向SEC(美国证券交易委员会)秘密提交IPO(首次公开募股)申请。PalantirPalantir未透露计划何时上市,发行多少股份等信息。上月,有外媒报道,Palantir准备在今年秋天登陆资本市场。最近,Palantir正在积极为IPO做准备,上月任命了3名新董事,以符合监管规定。这3名新董事包括1名女性,即《华尔街日报》记者Alexandra Wolfe Schiff。加州规定上市公司必须

  • 对标美团 土巴兔大数据研究院发布首份行业指数报告

    作为2020年首秀,土巴兔大数据研究院将联合易观发布的《中国互联网装修行业指数洞察2020》。分析内容中运用易观的产业分析模型,并结合市场分析、行业分析和厂商分析,从互联网装修渗透率、用户消费水平、各地区消费能力、消费习惯等几方面进行全面剖析,对当前市场现状、规律、厂商的发展现状,及行业未来发展趋势做出判断。聂金津透露,2020年土巴兔将在原有研发费用基础上继续加大对大数据研究的资金投入,并计划向全球高薪招聘

  • 阿里云建成全国最大数据中心集群 全面应用自研硬核技术

    7月31日,阿里云宣布位于南通、杭州和乌兰察布的三座超级数据中心正式落成,陆续开服,将新增超百万台服务器,辐射京津冀、长三角、粤港澳三大经济带,加速新基建建设。截至目前,阿里云在全球22个地域部署了上百个云数据中心,其中规划建设了5座超级数据中心,分别位于张北、河源、杭州、南通和乌兰察布,已成为全国最大的数据中心集群。阿里巴巴IDC研发事业部总经理高山渊表示,相比传统数据中心,超级数据中心是面?

  • 百度防汛抗洪搜索大数据显示 相关热度飙破近 10 年峰值

    【防汛抗洪搜索大数据】2020 年汛期以来,南方多地接连发生洪涝灾害, 7 月 12 日水利部将水旱灾害防御Ⅲ级应急响应提升至Ⅱ级,同日鄱阳湖水位突破 1998 年历史极值。百度搜索大数据显示,“洪水”相关内容的搜索热度也突破了历史峰值,同比暴涨307%。

  • 喜讯连连!一览群智在“科技战疫·大数据公益挑战赛”中捷报频传

    6 月 28 日,“ 2020 北京数据开放创新应用大赛--科技战疫·大数据公益挑战赛”举办了线上颁奖会,一览群智“疫情政务问答助手”荣获算法赛道季军,并获评产业应用潜力证书;同时,“重大突发公共卫生事件处理解决方案”获评北京公共数据开放创新基地创新实践方案证书,以及一阶段竞赛优秀方案证书。本次大赛由北京市经济和信息化局、中国计算机学会大数据专家委员会联合主办,北京市大数据中心、北京市政交通一卡通有限公司、DataF

  • 工信部:2020年建成国家工业互联网大数据中心

    【TechWeb】7月10日消息,工信部印发《工业互联网专项工作组2020年工作计划》,提出了包括提升基础设施能力、构建标识解析体系、建设工业互联网平台、突破核心技术标准、培育新模式新业态、促进产业生态融通发展、增强安全保障水平、推进开放合作、加强统筹推进、推动政策落地等10大任务类别54项具体举措。具体来看,计划提出开展IPv6在交通行业推广应用的研究,推进IPv6在应急管理领域推广应用的研究。依申请协调批复5G工业互联?

  • 交通运输部公路科学研究院与腾讯地图携手发布公共交通出行大数据平台

    交通运输部公路科学研究院联合腾讯在北京举办“布局新基建,数据资源赋能城市交通发展”研讨会,探讨新基建背景下,交通大数据在交通产业发展中的应用,并且双方携手发布“公共交通出行大数据平台”,助力城市公共交通智慧化发展。

  • 2020携程“BOSS直播”大数据:GMV累计超11亿 海外带货超1亿元

    7月29日消息,今年3月,国内疫情趋于稳定后,以“高星酒店预售”为核心的携程“BOSS直播”,在三亚·亚特兰蒂斯酒店首次开启。今日携程发布2020携程“BOSS直播”大数据报告。报告显示,历时4个月零6天,以“BOSS直播”为核心的携程直播累计GMV(成交总额)破11亿元、产品核销率近5成、为千家高星酒店带货超百万间夜。截至目前,携程直播间的累计观看人数超过6000万,70、80、90后用户占比约为95%,其中主力购买用户为?

  • 2020携程“BOSS直播”大数据发布:直播间下单用户中注册5年以上用户占比超6成

    DoNews 7月29日消息(记者 程梦玲)携程发布“BOSS直播”大数据报告。报告显示,在携程直播间的下单用户中注册5年以上的用户占比超过60.9%,68.9%的下单用户为携程“黄金”及以上等级的用户。截至目前,携程直播间的累计观看人数超过6000万,对于观看携程的用户画像,《报告》也给出了清晰的描述。从年龄分布来看,70、80、90后用户占比约为95%,主力购买用户为经济实力强劲的80后,占比达58.4%。从区域分布来看,江浙沪的用户采购

  • AI数据迈入场景化时代,头部企业云测数据重建产业模式

    中国AI数据服务行业正走入场景化以及精细化时代,在政策的进一步推动以及技术的进一步成熟下,人工智能产业落地速度明显提速,中国AI数据服务行业迎来巨大的发展浪潮。iiMedia Research(艾媒咨询)发布的《 2020 年中国AI数据服务行业研究报告》主要针对商业模式、应用范围、竞争格局等领域进行市场解读、企业研究以及未来趋势预测。 中国AI核心产业市场规模将超 1500 亿元, 数据服务发展潜力不断拓展 中国AI数据服务行业现如今发

  • 后疫情时代的存储新常态 西部数据的策略和布局

    2020 年注定会成为载入史册的一年,新冠肺炎疫情的袭来,让处于数字化日益加深,信息革命转向智能AI进程不断加速的世界,感受到了技术革命存在的必然性,以及大数据引领下,以医疗行业为核心,全行业协同创新带来的活力。随着疫情逐渐的稳定,后疫情时代,各行各业都出现了一些“新常态”,所谓新常态,指的是在全民隔离的特殊时期,民众养成的一些生活或工作的新行为模式,在时间的推移中,逐渐成为了“解封”后的常态化模式。西?

  • 西部数据在后疫情时代助力“新常态”云办公

    没有人能够预料到今年年初的”疫情”会在全球肆虐,尽管在戴不戴口罩的问题存在争论,但在疫情期间,宅在家里办公已经一个全球共识:需要我们暂停脚步,借助云基础架构,让生活、工作、学习继续延续。而后疫情时代,对于远程办公的“新常态”,无疑也是企业的数据基础架构将面对的一大难题。对于芸芸众生而言,这是一种工作方式,但是对于专业人员来说,特别是IT专业人员来说,这就是一个Purpose-built,可以理解为“命题”作文。?

  • 参与评论
文明上网理性发言,请遵守新闻评论服务协议
  • 热门标签