首页 > 传媒 > 关键词 > 七牛云最新资讯 > 正文

七牛云数据科学系列论坛嘉宾黄东旭:TiDB 在实时数据分析中的最佳实践

2020-10-07 17:49 · 稿源:站长之家用户投稿

9 月 10 日晚,七牛云主办的「云加数据,智驱未来」数据科学系列论坛如期举行。在直播中,PingCAP 联合创始人兼 CTO 黄东旭为我们带来了主题为《 TiDB 在实时数据分析中的最佳实践》的精彩分享。以下内容根据演讲整理。

MySQL 作为单机数据库,当数据量增加时必然涉及到分库分表等操作去换取水平扩展能力,这时候的复杂度将会呈现几何倍的上升。TiDB 五年前的初心是想设计一个替换 MySQL 分库分表的方案,因此 TiDB 最早的目的是想做一个既能够像单机数据库一样使用,同时又拥有水平扩展能力的 OLTP 分布式数据库。

但是,当用户使用 TiDB 存储数据量越来越多后,有一个新类型的需求冒出来:用户会想我能不能直接在 TiDB 去做一些离线,甚至是准在线的数据分析,而不是把数据转移到 Hadoop 上。我认为有很大一部分比例 OLAP 的需求不用做很重的 ETL,比如电商用户,就想看一下现在卖出去多少东西,或者算一下今天赚了多少钱这种报表。但是过去的 Transaction Database 并不是为了这种比较复杂的分析而设计的。

所以这两年有一个新概念叫 HTAP,尽可能模糊了 OLTP 与 OLAP 的概念。过去因为技术、数据结构、硬件、网络等条件都不成熟,因此这两套设计水火不容,所以在技术上强行划分出了 OLTP 和 OLAP。我认为在未来这些技术细节或者底层差异会越来越模糊,包括 Gartner 在一个报告中也提到,未来只会有一种 Database。所以在 HTAP 的新概念之下会有很多更新的 Workload 诞生出来。

HTAP的技术演进过程

在 HTAP 之前,互联网公司是按照下图所示的一个传统架构去做在线业务和离线业务。

在业务侧,OLTP 的数据可能有很多 MySQL 或者分库分表,这些通过 Binlog 打到 Kafka 作为消息队列,传送到一个近实时的系统。比如用 HBase 去做一些数据的归拢,然后再把这个数据在 Hadoop 上用 hive 或者 Spark 这样的技术去做大数据分析和 ETL,或者再去把 ETL 产生的数据回写到另外的一些 MySQL,或者在另外的一些在线数据库上对外提供服务。这是一个传统的大数据处理架构,但这种架构的一个问题就是:在线和离线的业务是分得很开的,中间都要通过 ETL 的过程和数据的传输层来去串联整个系统。

这就为什么有很多公司只能看到前一天的数据,因为可能要一批一批地去加载。所以我认为 HTAP 这个技术的方向对于用户来说,就像智能手机对于传统手机一样,有了智能手机我就不再需要 GPS、单反相机、移动电话,一个 iPhone 就够了,极大地降低了业务和架构的复杂度。另外,原来可能要维护很多套系统、很多个团队,如果 HTAP 真的存在了,对于绝大多数业务而言只需要维护一套系统。从领导者的角度来说,运维成本和团队人员成本都会降低。

最后一点,我认为对于业务而言意义更大。从前我们很多决策依托的是老数据,但现在可以考虑依托实时数据。比如在一个线下商店,只要用户进入商店,就能通过人脸识别或者会员卡马上知道他接下来会想要去消费什么东西,对什么东西感兴趣,从而快速做出决策。这种情况下,如果系统不是实时的就没有意义,可能用户看一看就流失了。所以在这些基础之上叠加起来,可以对整个业务的迭代和敏捷程度有一个很大的提升。我认为 HTAP 是一种新的数据库物种,它不是传统 OLTP 和 OLAP 的改良。

仍然以电商为例,如上图所示:左边是偏交易的,右边是偏分析的。我们把电商平台内部系统切分成订单管理、账单的历史明细、推荐、联合仓储实时查询库存、实时大屏、促销调价、历史报表。线上最左端是订单管理,包括在线交易的部分,所以从最左端是靠近 OLTP 的,最右端是靠近 OLAP 的。

我们可以发现,像销售历史报表这种是纯离线场景,及时性要求不强的,我可以明天或者下个月看到这个月的报表都不受影响。但是,实时的促销调价、实时大屏、仓储查询都是偏实时的,需要根据线上订单情况、用户访问情况、实时交易情况以及其他渠道的推广情况实时去做计算。这些场景里,过去要实现一个这种系统需要用到 Flink、Spark streaming、Kafka 等技术以及很多实时数据同步工具才能实现。

这是一个很复杂的问题,会面临很多技术挑战:

第一个挑战是 OLTP 数据库的水平扩展性,对于 OLTP 数据库来说,拓展方案上只能用分库分表或者在业务层面做切分。

第二个挑战是 OLTP 系统需要同时兼具 OLAP 的能力,且同时支持行存列存。一般的 OLTP 系统都是用行存去作为底层的存储模型,而 OLAP 是使用列存,在查询的效率大概差了上百倍,业务人员很难放心的在一个 OLTP 系统上去跑复杂查询,背后是有一些风险的。因此不仅需要打消用户的担心,而且还需要在去跑 OLAP 端的时候能跑得快,必须得支持列存。

第三个挑战是需要两者有机统一而仅仅是两套分离的系统。如果分离就会面临互联互通的问题,比如在 OLTP 里边的数据怎么同步到 OLAP 系统里,同步的时延大概是多少,这些都是技术挑战。

TiDB 4.0:一个真正的HTAP系统

TiDB 最新的版本是 4.0。在我心中 TiDB 4.0 之前和 TiDB 4. 0 之后是两个完全不一样的产品。4.0 之前它是一个交易型数据库,是 MySQL 分库分表的很好替换,能支持海量数据的 MySQL 协议的在线业务,但它并不是一个好的数据仓库,也不是一个好的实时分析的产品,因为它是一个行存的数据库,虽然用起来很方便。

而 TiDB 4.0 可以说是一个真正的 HTAP 系统:

首先 TiDB 4.0 引入了列存的存储引擎,说明在与其它 AP 系统相比时,本质上是没有劣势的。

第二, TiDB 4.0 里,计算引擎是根据列存来做向量化的,相当于利用一些 CPU 批量计算的指令集,去在比较紧凑的数据结构格式上去做很高性能计算的一种技术,这是在 OLAP 数据库里面经常使用的一个技术。

还有一点,在传统的 OLAP 数据库里面几乎没法做的一个事情就是:有一些数据是在行存里是更好的,比如一个随机的带索引的点查,要去大海捞针式的查询,可能是在 OLTP 端是很好的 ,就可以直接找到数据。而列存是比较适合比如说我一张大表全部要扫描一遍,批量的扫描、批量的聚合。在 TiDB 4.0 里面,我们用了一些技术可以把这两种不同的存储领域的优势合并在一起,我们最近有一篇关于 HTAP 的论文入选 VLDB ,大家有兴趣可以仔细看看。

简单来说,整个 TiDB 的存储和计算是完全分开的。如果大家熟悉 HBase 就会知道它里面有 region ,每一块数据是一块小分片,在 TiDB 里每一个 region 其实是一个 Raft 的复制小组。相当于我们对每一小块数据的 Raft 复制小组里面引入了一块列存的副本,由于计算层跟存储层是分开的,所以我们的计算层可以根据 SQL 来确定请求,OLAP 的请求就发到 OLAP 的副本上, OLTP 的请求就发到 OLTP 的副本上。因为底层数据的同步,一直是通过 Raft 化整为零的同步。第二就是说在 workload 上,你的 OLTP 业务永远是在 TiKV 这种节点上去执行,OLAP 业务其实是在 TiFlash 的节点上执行,在原理上它是完全分开的,就硬件软件是分开的,你就不用担心说在这边跑一个复杂查询会不会阻塞这边,而且数据的同步是完全实时的。

所以底层的核心要点在于本身 TiKV 这边提供了一个很好的数据弹性伸缩机制,我们叫 Multi-Raft。实际上把我们所有的 data 拆成了无数个 Raft 的复制小组,我只需要清楚怎么去支撑支持这种异构的数据源,只需要给我的 Raft 的小组里边多一份异构的数据副本,这就很漂亮的嵌入到了原来的 Multi-Raft 的体系里。

而且在这一点上,它与其他的基于 Binlog、Kafka 的数据同步相比,有一个天然的优势,就是不需要其他的 Kafka。想象一下,如果我是两套不同的系统,左边是 MySQL,右边是 Hadoop,中间通过 Kafka 去同步,如果左右两边的数据吞吐量都特别大,Kafka 变成数据同步的过程,就会变成你的瓶颈。

所以在这一点上,TiDB 复制模式的漂亮之处在于它的数据同步的拓展是随着数据本身的拓展是一起的,相当于把整个数据的同步过程化整为零,拆到了每一块数据分片里面。

在前述 HTAP 场景下,简单就是说一句 SQL 开启一个表的列传模式,后 OLTP 业务完全不用做任何修改,但同时又能直接能在数据库上做 OLAP 的分析,这样整体的架构的复杂度,运维的成本,业务的实质性与业务的敏捷性就有很大的提升。所以从传统的交易分析的架构简化成为一个大的中央的 the source of truth 的架构,同时提供 APP 的 server 以及这种事实分析的商业智能的服务。

同时,你也可以去结合现有数仓把 TiDB 作为一个数据的中间层,当然我并不是说他一定会去替换掉原来的这种 Hadoop,或者说这种 database 的这种模型。因为确实有一些非实时的查询,避免不了 ETL,但是可以使用 TiDB 架在 Hadoop 之上提升整个数据扭转的一个实时性。

TiDB 是整体架构中的实时层的很好补充,这就是我今天的一个分享,谢谢大家。

数据科学系列论坛第二期预告

10 月 20 日,七牛云主办的「云加数据,智驱未来」数据科学系列论坛第二期将邀请七牛云数据科学家周暐、支流科技 CEO温铭、eBay Spark committer王玉明等业界专家围绕大数据及数据分析进行专业分享及深度探讨,敬请关注!

免责声明:“站长之家”的传媒资讯页面文章、图片、音频、视频等稿件均为自媒体人、第三方机构发布或转载。如稿件涉及版权等问题,请与我们联系删除或处理。稿件内容仅为传递更多信息之目的,不代表本网观点,亦不代表本网站赞同其观点或证实其内容的真实性,更不对您的投资构成建议。我们不鼓励任何形式的投资行为、购买使用行为。

  • 相关推荐
  • 大家在看
  • 七牛云数据科学系列论坛嘉宾陈超:七牛云机器数据分析平台 Pandora 最佳实践

    9 月 10 日晚,七牛云主办的「云加数据,智驱未来」数据科学系列论坛如期举行。在直播中,七牛云产品与研发副总裁陈超为我们带来了主题为《七牛云机器数据分析平台 Pandora 最佳实践》的精彩演讲。以下是演讲实录。嘉宾简介陈超,七牛云产品与研发副总裁,负责七牛云的产品规划与研发体系,近年来专注于机器视觉、分布式计算与机器学习等领域,有非常丰富的分布式计算系统及大规模机器学习系统的设计与实现经验,在分布式数据库方?

  • 七牛云入选「投资界硬科技TOP100」

    2020年9月9日,「投资界硬科技TOP100」榜单在西安2020全球创投峰会盛大发布,上海七牛信息科技有限公司(七牛云)入选该榜单。该榜单由清科投资界发起,旨在挖掘近三年有融资经历的未上市公司,评选出100家具有行业风向标意义,支撑中国科技创新和产业升级的优秀硬科技企业。“硬科技”概念由来已久。它区别于由互联网模式创新构成的虚拟世界,属于由科技创新构成的硬核世界,需要长期研发投入、持续积累才能形成的原创技术,具有极高技术门?

  • 七牛云数据科学系列论坛嘉宾马洪宾:大数据分析的云原生趋势

    七牛云「云加数据,智驱未来」数据科学系列论坛嘉宾马洪宾:大数据分析的云原生趋势9 月 10 日晚,七牛云主办的「云加数据,智驱未来」数据科学系列论坛如期举行。在直播中,Kyligence 创始合伙人 & 研发副总裁马洪宾为我们带来了主题为《大数据分析的云原生趋势》的精彩分享。嘉宾简介马洪宾,Kyligence 创始合伙人 & 研发副总裁,Apache Kylin 核心开发者及项目管理委员会成员 (PMC)。专注于大数据相关的基础架构和平台设计。在?

  • 特斯拉信心保障计划下线:不能七日内退车了

    据报道,10月16日特斯拉突然终止执行并下架了特斯拉信心保障计划,以后购车不再享受该政策,意味着消费者购买了特斯拉的电动车不能在7天内随意退还了。具体来说,根据特斯拉之前的信心保障政策

  • 中国电商SaaS赛道七年:生死疲劳,乱象与危机

    2013 年的那场著名的阿Q之战中,淘宝封杀微信。狠人白鸦知道机会来了:他兴奋地找朋友喝了一夜的酒,然后瞄准了微信电商生态被迫独立这一风口,把有赞从一个不涉及交易、“淘宝客”模式的引流平台升级成一个全方位介入交易、提供技术支持的平台,一战成名。

  • 迪士尼将在美裁员2.8万人 超七成为兼职员工

    当地时间 9 月 29 日,美国主题乐园迪士尼宣布将在其公园、体验和产品部门裁员2. 8 万人,占乐园员工总数25%。据悉,被裁员工中大约67%为兼职员工,部分高管及全职工也在名单中。

  • 好生活、享实惠 七彩云南·诺享会®开启云南消费新时代

    “这个夏天我们全家能过上‘缤纷夏日’,多亏了诺享会。”热衷网购的昆明本地人刘先生最近对电商APP——七彩云南·诺享会?很感兴趣。通过这个平台,他低价吃上了云南的特色食物,订到超低价的欢乐世界门票,还顺带去泡了古滇温泉,带家人度过了愉快的一天。在刘先生看来,如此方便又实惠的APP确实太少了,以前他都是常规购物用淘宝、京东,买生鲜水果去超市……随着现在电商平台的增多,功能和服务是完善了,但又出现了各平台良莠?

  • “不忘初心 科技兴国” 王东临特邀出席中国南湖院七星论道讲坛

    近日,中国电子科技南湖研究院(简称“中国南湖院”)七星论道讲坛在浙江嘉兴召开,国际顶级密码学专家、中国十大青年科学家、首届中国杰出工程师王东临教授应邀担任主讲嘉宾,与一百余位包括中国工程院院士、中国杰出工程师在内的相关领域专家共同探讨区块链在“新基建”中的重要作用。九十九年前,浙江嘉兴南湖一艘平凡的小船,承载着大无畏的革命先驱者和中华民族改写命运的希望,孕育和见证了中国共产党的庄严诞生。九十九年斗

  • 小阿七、饭思思、吴岱林等千万级网红“操盘手”YY的爆款方法论

    “那女孩对我说,说我保护她的梦,说这个世界上,对她这样的不多……”广州街头,一个穿着格子衬衫的女孩坐在地上唱着《那女孩对我说》,含泪的眼眸闪闪发光,尽管身形瘦瘦小小,声音中却饱含巨大的穿透力与无尽深情,旁观者都被她深深感动。

  • 全国七城联动 一加 8T Pop-up快闪活动正式启动报名

    9月28日,一加手机宣布将于10月17日举办一加 8T Pop-up 快闪活动,并于今日正式启动报名,用户登陆一加官网活动页面即可报名参加。一加 8T Pop-up 将在北京、深圳、上海、重庆、武汉、南京、昆明七座城市同步展开活动,用户在活动现场可体验并抢先购买一加 8T 手机,现场购机还可获赠Pop-up专属限定礼盒、参与抽奖活动还有机会赢取一加 8T 。用户还可参与加油同城活动,与一加产品经理面对面沟通。一加手机一直坚持打?

  • 斩获双金!第七届媒介360营销传播奖时趣再赢荣誉

    2020年9月18日,第七届媒介360营销传播奖在上海成功举办。时趣此次报选的两个案例:A+燃烧计划—美赞臣的CRM精准营销及帮宝适独家冠名母婴综艺两个案例,分别获得营销传播专案奖-医药保健类金奖,及泛娱乐营销奖-IP营销金奖两大殊荣。营销传播专案奖-医药保健-金奖A+燃烧计划—美赞臣的CRM精准营销美赞臣希望通过一场CRM营销,最大化利用品牌的私域流量,激活会员并提高会员在CRM体系中的互动,提升会员用户的生命周期价值。时趣通过洞察?

  • 马上金融人工智能技术一举夺得七项权威认证

    近日,马上消费金融(以下简称“马上金融”)自主研发的 7 项人工智能科研成果,获得了中国信息通信研究院专家组一致肯定,高分通过了中国人工智能产业发展联盟权威认证。本次参评项目覆盖了马上金融在自然语言处理、语音和视觉领域的先进人工智能技术和应用场景实践,反映了马上金融在人工智能方面自主研发能力的不断提升,标志着马上金融的自然语言处理技术服务平台、中文语音合成、中文语音识别、人脸检索、人证核验、文本客服及?

  • 多2座贵两万块!特斯拉Model Y七座版下月投产 年内交付

    自从特斯拉解散了美国的公关团队后,特斯拉官方对外公布发言,公布最新消息的重任,就落到了Twitter坐拥数千万粉丝的网红CEO埃隆马斯克身上。如今来看,马斯克也没有辜负众望,通过自己的影响

  • 共建世界级测试标准,腾讯牵头七家单位成立“软件测试能力认证联盟”

    2020年10月13日,腾讯联合阿里巴巴、华为、软通动力、北京大学、南京大学和同济大学共七家单位,在2020腾讯品质峰会上共同发起成立“软件测试能力认证联盟“(The Certification Board of Software Testing Competency,CBSTC)。这是国家5G和新基建战略指导下,国内成立的首个专注于软件测试能力认证的联盟机构。随着互联网软件开发和测试能力逐渐融合,未来的软件测试将不再只是测试工程师的工作,而将融入所有软件研发人员的职

  • 七国集团草案:监管没到位 反对Facebook推出Libra稳定币

    10月13日消息,据国外媒体报道,全球七大经济体的金融领导人认为,Facebook的Libra稳定币尚未准备好推出,因为监管还没到位。七国集团(G7)发布的一份声明草案显示,全球七大经济体的金融领导人将在当地时间周二表示,他们反对Facebook推出Libra稳定币,直到这种加密货币得到适当监管为止。外媒称,该草案是为美国、加拿大、日本、法国、英国、意大利和德国的财政部长和央行行长将要参加的会议准备的。银行家们提醒说

  • DNF礼遇特权第七季挑战希洛克奖励汇总 礼遇特权第7季奖励有哪些

    DNF在22日上线了礼遇特权的第七季挑战希洛克的内容,这个活动大家都很清楚了,那么这赛季的礼遇特权有哪些奖励呢?下面就来为大家分享一下。

    dnf
  • 文思海辉金融连续七年稳居银行业CRM解决方案子市场榜首

    从量到质,由广及深,大数据在经历高速发展后,已与银行业务深度耦合,各大商业银行逐步由大规模向高质量转变,从分散管理向归集化管理推进,以大数据为驱动,深入推进业务模式转型、挖掘客户价值,实现精准营销。 大数据时代,差异化营销和个性化服务是银行维系客户的重要方向。伴随着社交平台兴起和移动化趋势的盛行,多渠道下的碎片化数据越来越丰富,为了更好的整合内外部数据,贯彻以客户为中心的服务理念,促进客户信息规范

  • 47名主播被列入黑名单封禁5年 第七批主播黑名单完整名单

    【47名主播被列入黑名单封禁5年】据中国演出行业协会网络表演(直播)分会官微消息,根据《互联网文化管理暂行规定》《网络表演经营活动管理办法》《互联网直播服务管理规定》等相关法律法规,按照《网络表演(直播)行业主播“黑名单”管理制度》《黑名单认定工作流程》规定,中国演出行业协会网络表演(直播)分会现向社会公布第七批主播黑名单,被列入黑名单的主播将在行业内禁止注册和直播,封禁期限 5 年。现将名单公布如下:

  • 四年成功复制七家小米生态链企业,谷仓爆品学院做对了什么?

    会有第二个小米出现吗?在十周年纪念发布会之后,小米迎来股价暴涨创新高的好消息,一时间再度引起了大众对“小米现象”的广泛讨论。小米成立后,快速用新模式颠覆了传统手机产业并用极短时间跻身行业前列。如此耀眼的成绩之下,很多企业都想成为第二个小米,于是纷纷模仿小米的价格、风格设计、营销方式等,但事实证明,这些表象的复制并不能成就“小米第二”。面对不幸折戟的模仿者们,很多人片面地认为,小米的成功并不具备可复

  • 如何发挥数据的价值?:“七牛云Niu Talk ”云加数据智驱未来!

    领跑关键优势——数据驱动决策近日,由国内知名的云计算及数据服务提供商七牛云出品的“七牛云 Niu Talk”论坛首期举行。该系列论坛以数据科学为主题,用全新的视角,联合国内各大专注数据研发企业,从不同维度解读当下数据科学的力量。首期“七牛云Niu Talk ” 论坛邀请了业内知名数据公司 Zilliz 、PingCAP、Kyligence、支流科技、Databricks 等领军企业,就企业所遇到的数字化渠道日益强烈的偏好,对网络健康和网络安全的要求越来越高

  • 参与评论
文明上网理性发言,请遵守新闻评论服务协议
  • 热门标签