首页 > 传媒 > 关键词 > 七牛云数据最新资讯 > 正文

七牛云数据科学系列论坛嘉宾马洪宾:大数据分析的云原生趋势

2020-10-06 19:49 · 稿源:站长之家用户投稿

七牛云「云加数据,智驱未来」数据科学系列论坛嘉宾马洪宾:大数据分析的云原生趋势

9 月 10 日晚,七牛云主办的「云加数据,智驱未来」数据科学系列论坛如期举行。在直播中,Kyligence 创始合伙人 & 研发副总裁马洪宾为我们带来了主题为《大数据分析的云原生趋势》的精彩分享。

嘉宾简介

马洪宾,Kyligence 创始合伙人 & 研发副总裁,Apache Kylin 核心开发者及项目管理委员会成员 (PMC)。专注于大数据相关的基础架构和平台设计。在从事大数据和数据仓库相关工作之前,曾经是微软亚洲研究院的图数据库 Trinity 的核心贡献者。目前担任 Kyligence 企业级产品的研发负责人,帮助客户从传统数据仓库升级到云原生的、低 TCO 的现代数据仓库。

首先为了让大家有一个更强的代入感,马老师先介绍一个典型客户。这是一个快速增长的 SaaS 公司,在 40 多个国家有 1800 多个客户,其中覆盖了世界 500 强的 1/3,这些客户会每年带来超过 80 亿条的交易记录,所以说它是有一个非常大量的数据需要进行分析和挖掘。那么对他来说,他需要为这1800个客户提供丰富的报表来供他的这些客户进行分析。

他们把所有的数据放在了 AWS 的 RDS 中。显然 RDS 是没有办法满足目前的并发和性能需求的,所以这位客户不得不做了很多物化视图来加速它的 Dashboard。即便如此,现状仍然是有很多的查询需要花五秒以上的时间。因为这些报表都是由终端客户去使用,所以五秒的时间并不是特别可以被接受。除此之外,每天还需要花四个小时以上的时间去刷新所有的物化视图,数据准备的时间也会非常的长。更主要的是,目前 1800+ 的客户有可能是会在每天的差不多同时间去访问他的这些报表,但是基于目前的方案,可能只能支撑十个左右的并发。这意味着它的大部分的这个客户可能需要进行排队或者是花很长的时间才能刷出他的报表。

这个客户的核心需求是在云上做核心数据分析。这些需求主要包含以下几点。第一点是希望能够给终端用户一些灵活的报表。第二点是希望所有的报表能够提供一个比较好的性能,而且能够提供比较好的并发度。期望可以实现 100 个左右用户的并发。接下来的比较大的诉求是希望这套新的这个方案能够比较好的 scale。客户同时也提出了对数据准备的时间和对数据安全的要求。最主要的,是希望整个方案仍然可以像过去一样是 totally 在 AWS 上运作的,这样他不需要考虑多个环境的问题。当然出于成本的考虑,也提到了希望就最后整个方案是有一个比较低的 TCO。最后也提到了对数仓或者数据平台的选型是一个开放式的平台,这样将来能够接入一些机器学习或者是数据挖掘的这个能力。

带着这个客户的基本情况,马老师为我们拓展到未来数据分析与云原生趋势的解读,分享在数据分析领域或者是在数仓里面看到的云原生的趋势。当今,要不要上云已经没有歧义,但是可能有的人还会想,数据分析或者是我的数据资产,我的数仓,要不要上云。

上图是从 Google Trend 上获取的近五年的关于 Data Warehouse(蓝色)、Data Lake(红色)、Redshift(黄色,AWS 的著名云原生数据仓库)和 Hadoop (绿色)这四个关键字的热度趋势。可以观察到,最近的五年内,Hadoop 关键字的热度迅猛下降,Data Warehouse 的热度保持稳定,而 Data Lake 和 Redshift 的热度都有显著提升。另外值得一提的是,早在 2016 年初前后,Redshift 的热度就已经超过了 Data Warehouse,并且在最近超过了疲态明显的 Hadoop。

这也与我们的观察和感受一致:越来越多的企业客户正在从 On-Premise 的数仓方案,转向基于云(包含公有云和私有云)的解决方案,这种趋势在美国 2B 市场已经被广泛接受,在国内 2B 市场也已方兴未艾。由于无可取代的弹性扩展性、容灾性、低 TCO 和几乎无限量的存储空间,基于云平台的数据仓库技术正在逐渐让所有人相信拥抱云原生才是数据仓库技术以及相关数据分析技术未来。云原生的巨浪正在席卷全球的软件产业,包括开源软件和商业软件。在数据仓库这个细分领域,我们能明显的感受到数据仓库正在经历以下几代体系的演进:

第一代:传统的数据仓库

最早出现的是数据库一体机,是由单独的硬件软件所构成,这种数仓的问题主要在两个方面:第一,它需要专有的硬件,成本较高;第二,它的扩展性不高。在过去这样的问题是可以被用户接受的,但是在现今的大数据时代,有很多开源的技术可以用来在普通硬件上构建大数据平台,不愿意被单独的供应商或者硬件平台绑定,所以一体机模式的数仓越来越难得到普及。

这样的背景很自然地催生了第二类数据仓库的兴起:

第二代:基于通用硬件的分布式数据仓库

这类的数仓方案通常可以基于通用硬件(Commodity Hardware),在可扩展性上相比较传统的数仓有了质的飞跃。在笔者看来,这类的数仓也可以分为两大类,即 MPP 数仓(在商用数仓软件的代表是 Greenplum,在开源数仓的代表有 Presto 等)和批处理数仓(典型代表是 Hive 和 Spark)。MPP 和批处理的区别有点超出本文的主要范围,在此就不展开了。值得注意的是,和 Hadoop 有近亲关系的 Hive 虽然非常有可能随着 Hadoop 的巨轮一起慢慢消失,但是它却为第二类数仓带来了一种极其通用的数据表元数据定义的标准,并被 Presto,Spark 等技术全面地沿袭,成为了事实上的标准。

第二类的数据仓库获得了巨大的成功,放眼国内,无论是一线大厂还是不知名的小公司,都围绕这类技术开发除了完整的数仓和分析平台,大大地提高了大小企业对数据资产的发掘能力。但是这类数仓的弊端也慢慢地暴露出来:因为数据不断增加,需要不断增加节点,导致企业不得不自行投入扩建机房,继而进行全面的迁移数据工作。运维团队和业务团队无奈承受着背后的繁琐和低效,苦不堪言。此时不断成熟的云厂商给大家带来了新的可能:

第三代:第一代云原生的数据仓库

以 Amazon Redshift, Azure SQL DW 为代表,在云计算开始之初,云厂商就为用户准备好了用于分析型业务的云上数据仓库产品。这类数仓产品一般都需要申请一个固定节点数量的集群,都配有列式存储技术、分布式查询等特性。但是,由于云上有无限的计算节点资源可以申请,用户可以随时调节集群中的计算节点数量。无论是集群的启停、扩容、升级,这些操作都可以在云厂商的界面上通过几次点击完成,已经在云原生度上与第二类数仓有显著差异。

这一类数仓依托云上无限扩容的基础硬件设施,免除了运维人员在集群规模扩容时的空间困扰,需要更多的资源只需要在网页界面上点击即可完成。但是这类数仓数据和计算没有完成分离,会导致什么问题呢?比如某个用户已经申请了一个 10 台机器的节点,这 10 个节点每个都有计算资源(CPU)和存储资源(磁盘)。由于 workload 的增加,用户发现需要增加更多的计算资源才能满足,于是不得不把数仓配置从 10 个节点升级为 15 个。但是,这额外的 5 个节点的存储资源也是要收费的,即便用户的数据在原来的 10 个节点中完全够存。在这种情况下,用户的诉求是买更多的计算资源,但实际情况是他不仅购买了更多的计算资源,还购买了用不上的存储资源。这就大大增加了这样的数仓方案的 TCO,限制了企业在数据资产的有效利用。

第四代:新一代的云原生数据仓库

以 Snowflake, Amazon Athena, Azure Synapse, Amazon Redshift Spectrum(严格地说 Amazon Redshift Spectrum 只是一个 Redshift 的插件)为代表的新一代云原生的数据仓库,进一步实现了云上数仓计算与存储的分离。在第三类数仓中,即使用户已经在对象存储中准备好数据,仍然需要将数据导入到数仓后,才能进行查询。而第四类数仓可以直接查询用户在对象存储中的数据。在第三类数仓中,用户如果发现集群空间不足,不得不对集群进行扩容,这样不仅是在为更多的存储支付成本,而且在为更多的计算支付成本,即使他不缺少计算资源。而在第四类数仓中,用户在对象存储中的数据按量计费,在数仓节点中的计算按量计费,两者相互独立。

这种新一代的存储和计算分离的数仓架构催化了我们耳熟能详的数据湖数仓架构体系。在这种架构下,所有的数据都可以可靠、廉价、方便地存储到对象存储上(Amazon S3,Azure blob storage, ADLS),云厂商提供了完整的配套工具来确保用户的应用数据库、日志、APP 的数据可以顺利地落地到对象存储上。这种区别于块存储和文件系统的存储方式从根本上决定了云原生数仓的存储形态乃至设计形态:数据不再保存在某个节点的磁盘中,存储和计算天然分离,计算所需的一切存储,都来自遥远的、无限的、透明的对象存储中。

那总结一下,我们观察到数仓或者是数据分析在云上的趋势,首先是充分的利用云上的技术架构。不需要去操心机房的事情,不需要操心硬件的问题。第二点是会充分的利用云上的对象存储。第三点是会充分的利用云上弹性计算资源的这个特点,根据你的需要申请更多的资源或者是释放资源。经过一番梳理,我们可以看到数据仓库正在慢慢向云原生的、存储计算分离的方向上发展。企业做技术选型,以及我们自身做技术战略投入的时候,自然也需要尊重并拥抱这样的时代趋势。

现在,再回过头来看这位我们最开始提到的美国客户。通过云原生的方案,我们基本已经解决了大部分的问题,再结合 Kyligence 的方案,针对高性能、高并发的痛点,也给出了比较好的解决方案。

Kyligence 的方案主要给用户解决两大关键的问题。一个是在云原生解决方案当中的性能问题。一个是在云原生的解决方案中语义层的问题,也就是数据口径一致的问题。目的是为了确保同一个公司内大家对数据的理解是一致的。

通过我们在 Apache Kylin 上的积累与在新技术上的探索,以及在 Data Placement 的智能优化。从设备层面,会做 RAM,SSD 和对象存储之间的切换。从数据解决层面,在列式存储,多维数据集等为主的数据结构上进行切换。在服务层面,使用到Spark,ClickHouse 等计算中间件来完成用户的计算需求。同时也希望通过自动化的手段帮助用户减少手动调参或手动介入的必要。

数据科学系列论坛第二期预告

10月20日,七牛云主办的「云加数据,智驱未来」数据科学系列论坛第二期将邀请七牛云数据科学家周暐、支流科技 CEO温铭、eBay的王玉明等业界专家围绕大数据及数据分析进行专业分享及深度探讨,敬请关注!

免责声明:“站长之家”的传媒资讯页面文章、图片、音频、视频等稿件均为自媒体人、第三方机构发布或转载。如稿件涉及版权等问题,请与我们联系删除或处理。稿件内容仅为传递更多信息之目的,不代表本网观点,亦不代表本网站赞同其观点或证实其内容的真实性,更不对您的投资构成建议。我们不鼓励任何形式的投资行为、购买使用行为。

  • 相关推荐
  • 大家在看
  • 七牛云数据科学系列论坛嘉宾陈超:七牛云机器数据分析平台 Pandora 最佳实践

    9 月 10 日晚,七牛云主办的「云加数据,智驱未来」数据科学系列论坛如期举行。在直播中,七牛云产品与研发副总裁陈超为我们带来了主题为《七牛云机器数据分析平台 Pandora 最佳实践》的精彩演讲。以下是演讲实录。嘉宾简介陈超,七牛云产品与研发副总裁,负责七牛云的产品规划与研发体系,近年来专注于机器视觉、分布式计算与机器学习等领域,有非常丰富的分布式计算系统及大规模机器学习系统的设计与实现经验,在分布式数据库方?

  • 七牛云数据科学系列论坛嘉宾黄东旭:TiDB 在实时数据分析中的最佳实践

    9 月 10 日晚,七牛云主办的「云加数据,智驱未来」数据科学系列论坛如期举行。在直播中,PingCAP 联合创始人兼 CTO 黄东旭为我们带来了主题为《 TiDB 在实时数据分析中的最佳实践》的精彩分享。以下内容根据演讲整理。MySQL 作为单机数据库,当数据量增加时必然涉及到分库分表等操作去换取水平扩展能力,这时候的复杂度将会呈现几何倍的上升。TiDB 五年前的初心是想设计一个替换 MySQL 分库分表的方案,因此 TiDB 最早的目的是想?

  • 七牛云入选「投资界硬科技TOP100」

    2020年9月9日,「投资界硬科技TOP100」榜单在西安2020全球创投峰会盛大发布,上海七牛信息科技有限公司(七牛云)入选该榜单。该榜单由清科投资界发起,旨在挖掘近三年有融资经历的未上市公司,评选出100家具有行业风向标意义,支撑中国科技创新和产业升级的优秀硬科技企业。“硬科技”概念由来已久。它区别于由互联网模式创新构成的虚拟世界,属于由科技创新构成的硬核世界,需要长期研发投入、持续积累才能形成的原创技术,具有极高技术门?

  • 阿里云数据中台重磅发布生态合作计划

    9月18日,2020云栖大会专场分论坛,阿里云数据中台发布生态合作计划并集中发布了19个聚焦行业细分场景的数据模型、产品及解决方案白皮书。阿里云数据中台将开放其平台的数智化能力,由生态伙伴输入行业经验,共同以产品化、模块化或解决方案等形式对外输出服务,共同帮助企业客户更好地构建数据中台。阿里巴巴数据技术及产品部云上数据中台总监王赛表示,目前生态合作将重点面向伙伴,开放行业数据模型、数据化运营和数字化转型咨询等三大

  • 阿里云数据中台新品Quick Stock 助力货品全生命周期管理

    9 月 18 日,在 2020 云栖大会技术主论坛上,阿里巴巴集团副总裁、数据技术及产品部总经理朋新宇重磅发布全新产品——智能货品运营平台Quick Stock。Quick Stock旨在以数据为核心,通过更加精准和可配置的销量预测,以及仓储网络优化和调拨算法逻辑,帮助企业构建产销协同能力,实现高效的货品全生命周期运营。从“货”出发 重构“人—货”关系十年前,人们的购物行为大多限定在“场-货-人”的既定动线中:我们去一个门店或者商场,

  • 华云数据与联想携手发力超融合 推动中国政企用户实现数字化转型升级

    2020年9月25日,华云数据与联想主办的超融合解决方案及应用场景研讨会顺利召开。本次研讨会围绕超融合技术发展、应用场景、实际案例等方面,探讨如何利用超融合技术提升业务效率,重塑商业价值。从目前来看,在企业用户拥抱数字化转型过程中,超融合正在成为现代化数据中心的主流技术。其能够简化IT基础架构的部署和管理,帮助企业构建现代化的数据中心,加速企业向云迁移,从而更快的带来业务的可持续发展。根据Gartner的2019年超

  • 构建中国云生态|华云数据与天阙科技完成产品兼容互认证 携手推出“社会治理智能应用平台联合解决方案”

    日前,华云数据的国产通用型云操作系统安超OS 2020与天阙科技的网格化服务管理信息系统完成产品兼容性互认证。本次兼容性互认证经华云数据与天阙科技联合测试得出:产品相互兼容,整体运行稳定、性能卓越。双方还在此基础上,展开进一步合作,携手推出“社会治理智能应用平台联合解决方案”,满足政务管理服务核心需求,开启政务服务新格局。天阙科技是G2P的互联网领军企业,“互联网+与经济社会融合” 的先行者,中国领先的智慧治

  • 乘云而上的数据库,在数据中寻找确定性

    数据是信息建设之基「云优先」已经成为企业信息化建设的主旋律,「新基建」定义了云计算是基础设施也是操作系统。云计算由于在降本增效和弹性扩展等方面的优越性,越发受到企业青睐。在黑天鹅频现的 2020 年,企业面对的风险与挑战愈发严峻,企业间的竞争也十分激烈,如何在这些不确定中寻找确定性?答案是:深耕数据,升值业务,在数据中寻找确定性。利用云平台作为基础支撑,以数据驱动进行精细化运营,满足用户的多元化需求。而?

  • 特斯拉信心保障计划下线:不能七日内退车了

    据报道,10月16日特斯拉突然终止执行并下架了特斯拉信心保障计划,以后购车不再享受该政策,意味着消费者购买了特斯拉的电动车不能在7天内随意退还了。具体来说,根据特斯拉之前的信心保障政策

  • 硬盘恢复数据技巧:硬盘坏了数据可以恢复吗?

    电脑硬盘是我们日常使用电脑的时候经常打交道的一个装置。电脑硬盘分为内存和外存,内存负责存储电脑系统装置和电脑中的程序运行工作,外存负责电脑文件数据存储工作,因此硬盘负载着一台电脑最重要的信息,一旦不小心格式化会造成很大的麻烦。那么电脑硬盘格式化了还能恢复吗?下面介绍的这个方法非常简单。一、硬盘格式化数据恢复方法第一步:首先我们需要一些工具类软件来协助我们恢复数据。打开浏览器搜索“嗨格式数据恢复大师

  • 硬盘坏了数据可以恢复吗?硬盘数据恢复技巧

    硬盘坏了数据可以恢复吗?硬盘是计算机中最主要的存储设备,不管是电脑上使用的硬盘还是移动硬盘,其中都存储了重要的数据文件,在长期的使用和操作下,硬盘也很容易出现损坏的情况,那么硬盘坏了数据该怎么恢复呢?接下来就为大家介绍对应的操作步骤。第一步:下载安装”嗨格式数据恢复大师“,选择主界面的”磁盘分区丢失恢复“。【嗨格式数据恢复大师】 第二步:选择要恢复的分区,然后点击搜索分区。 第三步:待查找到该分区,

  • 硬盘坏了数据可以恢复吗?硬盘数据恢复攻略分享

    硬盘坏了数据可以恢复吗?关于硬盘数据恢复方法,我想我是有发言权的,前两天不知道什么原因,电脑开机之后硬盘F盘保存的电影等大文件都找不到了,存放电影的文件夹是空,可能是我不小心误删了,然后我就疯狂找硬盘数据恢复方法想要恢复回来,经过我不懈的努力,尝试了很多恢复方法以及硬盘数据恢复软件后,终于找回了误删除的硬盘数据!一、选择一款靠谱的数据恢复软件,我一般使用的是【嗨格式数据恢复大师】这款数据恢复软件有?

  • 深度好文:用数据重建快消流通秩序——舟谱数据邹文标访谈

    据国家统计局数据显示,2020年1-6月份,社会消费品零售总额172,256亿元,6月份,社会消费品零售总额33,526亿元。庞大的市场体量之下,自然也蕴含着更多的机会与挑战。舟谱数据联合创始人邹文标在接受亿欧访谈时讲到,从中国快消行业流通现象来看,当前线下的量大于线上,线下渠道高度分散,商品从仓库到货架,尤为分散的路径就会带来效率的问题,自然也就会存在机会点:能让如此分散变得集中一些,效率就会提升。然而线下经销商物?

  • 中国电商SaaS赛道七年:生死疲劳,乱象与危机

    2013 年的那场著名的阿Q之战中,淘宝封杀微信。狠人白鸦知道机会来了:他兴奋地找朋友喝了一夜的酒,然后瞄准了微信电商生态被迫独立这一风口,把有赞从一个不涉及交易、“淘宝客”模式的引流平台升级成一个全方位介入交易、提供技术支持的平台,一战成名。

  • 迪士尼将在美裁员2.8万人 超七成为兼职员工

    当地时间 9 月 29 日,美国主题乐园迪士尼宣布将在其公园、体验和产品部门裁员2. 8 万人,占乐园员工总数25%。据悉,被裁员工中大约67%为兼职员工,部分高管及全职工也在名单中。

  • 秒级追踪+爆款预测,魔方数据成直播大数据黑马

    魔方数据(iambox)是致力于快手全领域流量追踪分析的大数据服务平台,为用户提供快手直播广场即时数据分析、直播数据动态大屏呈现、爆款视频趋势追踪、数据定制化等服务,助力快手账号运营优化,辅助流量变现、电商带货。同时为广告主、商业合作等用户提供可靠的数据支持,帮助发掘优质账号、播主、机构。 自上线以来,魔方数据持续深耕快手大数据挖掘分析,以更及时、更真实、更可靠,更多维度的数据追踪分析功能,成为快手大数据

  • 又被“大数据杀熟”了?

    这是 7 月国内跨省旅游开放后的第一个节假日,又遇上国庆中秋连休 8 天。携程数据显示,预计今年国庆中秋 8 天长假旅游人次可能达到 6 亿。

  • 数据恢复大师恢复秘籍:有什么免费的硬盘数据恢复软件吗?

    有什么免费的硬盘数据恢复软件吗?相信很多的小伙伴都想知道电脑数据恢复的秘籍,因为我们大多数人在使用电脑时,经常会因为不小心误删或者磁盘格式化、损坏等原因导致重要电脑硬盘数据丢失的情况。也正是因为这样,目前市面上出现了很多的数据恢复软件。我们都知道,这些软件想要实现真正的数据恢复效果都是需要付费的!那么,电脑上最好用且免费的数据恢复软件有哪些呢?其实很简单,以下将为大家分享两款不同类型的,快来了解下

  • 好生活、享实惠 七彩云南·诺享会®开启云南消费新时代

    “这个夏天我们全家能过上‘缤纷夏日’,多亏了诺享会。”热衷网购的昆明本地人刘先生最近对电商APP——七彩云南·诺享会?很感兴趣。通过这个平台,他低价吃上了云南的特色食物,订到超低价的欢乐世界门票,还顺带去泡了古滇温泉,带家人度过了愉快的一天。在刘先生看来,如此方便又实惠的APP确实太少了,以前他都是常规购物用淘宝、京东,买生鲜水果去超市……随着现在电商平台的增多,功能和服务是完善了,但又出现了各平台良莠?

  • “不忘初心 科技兴国” 王东临特邀出席中国南湖院七星论道讲坛

    近日,中国电子科技南湖研究院(简称“中国南湖院”)七星论道讲坛在浙江嘉兴召开,国际顶级密码学专家、中国十大青年科学家、首届中国杰出工程师王东临教授应邀担任主讲嘉宾,与一百余位包括中国工程院院士、中国杰出工程师在内的相关领域专家共同探讨区块链在“新基建”中的重要作用。九十九年前,浙江嘉兴南湖一艘平凡的小船,承载着大无畏的革命先驱者和中华民族改写命运的希望,孕育和见证了中国共产党的庄严诞生。九十九年斗

  • 参与评论
文明上网理性发言,请遵守新闻评论服务协议
  • 热门标签