首页 > 传媒 > 关键词  > 数据库最新资讯  > 正文

将数据库性能提升100倍?大数据时代中,一位数据库老兵的创新之路

2021-07-13 09:27 · 稿源: 站长之家用户

当前构建大数据应用的难点是什么?对于这个问题,相信很多资深从业者都会回答:海量数据的高效处理与运维。在大数据时代中,它是数据库行业面临的基础性问题,如何将它解决?既是挑战,也是机遇。

在无数数据库行业的老将新兵中,我们注意到一批力图解决大数据语境下,数据库使用和运维难题的“引路人”。今天,InfoQ的专访对象---姚延栋,正是这批大数据“引路人”中的一个。

作为Greenplum的第三号员工,在过去十年间,姚延栋曾带领团队将Greenplum打造成为世界排名第三的分析型数据库,创下由华人主导的数据库产品最好排名。而在数据库领域从业数十年后,他又选择开启自己的创业之旅,与两位合伙人共同创办了一家名为四维纵横的数据库公司。那么,他为什么在这个时间点选择创业?当传统行业的数字化转型成为大势所趋,数据库领域又发生了什么新故事?我们带着这些问题,同四维纵横创始人姚延栋一起聊聊数据库的过去与未来,挑战与机遇。

行业中存在一种思维惯性

“创业是为了打破行业的惯性。”

“如果把数据库领域比作一个大森林,那么我们就是对地形非常熟悉的原住民。当有人想穿过大森林,却不知该走哪条路的时候,我们就充当“引路人”来帮助他们穿过森林。倘若没有我们,那他们可能会按照自己的惯性去走。”

姚延栋在Greenplum效力的十年期间,最初主要从外围模块入手打造产品,后来逐步向核心迈进,打磨内核模块,直到团队驾驭整个数据库内核,他坦言这与农村包围城市的过程十分类似。在此期间,他发现行业中存在一种惯性思维,而创业的目的就是为了打破这种惯性。

那么,这个惯性到底指的是什么?

以时序场景为例,现在业内普遍流行使用专用的时序数据库,典型的代表产品有InfluxDB、OpenTSDB等,而与此同时,几乎所有场景都需要关系型数据库。这样一来,大家就不得不引入多个数据库产品,使得技术栈以及监控运维变得十分复杂。

虽然专用时序数据库在一定程度上满足了业务对于时序处理的需求,但也存在诸多问题,其中性能低、扩展性差的问题尤为显著。过去时序数据库大多是为数据中心的服务器监控、埋点数据处理等简单场景设计的,所以,其无法为物联网等场景下的大量数据源和大量指标提供支持。除此之外,开发效率低、需要MPP数据库或者大数据产品配合以及数据孤岛化等方面,都是摆在从业者面前的难题。

应运而生的超融合时序数据库

“我一直把数据库的技术演进和生物界的进化类比去看。”

从上世纪60年代诞生起,数据库技术就一直在不断地演进、迭代,其背后主要是两股力量在推动:一股力量是性能问题,另一股力量是效率问题。

上世纪七八十年代,关系型数据库开始独步天下,从业者主要是基于关系型数据库来高效存储和处理应用开发中用到的数据;到了2000年左右,数据规模大幅增长,而大数据处理技术尚未展露雏形,整个社会对于浩瀚信息的处理仍处于比较迷茫的阶段,以至于技术的迭代速度赶不上数据增长的速度。自此,大数据处理的性能问题开始显现,数据库领域随之出现了时序数据库、KV数据库、文档数据库等专用数据库,以期解决性能从0到1的问题。但由于应用要与多个数据库沟通,从多个数据库读取数据到应用程序内存中再进行关联、聚集以及合并等计算,很多数据处理逻辑被迫只能放在应用中,开发和运维效率就不可避免地大打折扣。

如此一来,为了解决效率问题,行业中又出现了Presto等类型的产品,即在专用的数据库上封装一个查询引擎,试图把数据处理逻辑从应用处理逻辑中剥离出来。这种方式虽然在一定程度上解决了开发效率问题,但性能仍是短板,且并未从根本上解决技术栈复杂的问题。

我们可以看到,在进化了近50年后,现有的数据库技术已经不能满足从业者的需求 --- 他们需要更加简单易用、省心省力的数据库。在这样的背景下,为了能给用户提供简单易用的接口,真正实现数据平民化,姚延栋和他的团队将关系数据库、时序数据库和分析数据库融合在同一个数据库产品中,打造了全球唯一一款PB级超融合时序数据库--MatrixDB。

1626088910180002.jpeg

超融合时序数据库解决了什么问题?

目前,超融合时序数据库主要应用在两大场景:第一,时序、时空场景,通常是物联网、工业互联网、车联网和智慧城市等领域;第二,实时数据分析场景。

谈到时序、时空场景,姚延栋分享了一个海量设备、大量存储的典型物联网场景。“以一家做光纤和5G通讯设备的国际制造商为例,这家制造商大概有1000万设备,每台设备每次都会采集300个指标数据,每次共计需要采集30亿指标。”基于这种情况下,MatrixDB实现了超大规模数据的实时加载特性,在保证低延迟和高并发加载的同时,也减轻了系统资源消耗,充分将快速采集、高效存储的特性显示了出来,使得海量数据的存储问题、秒级采集的频率要求都能得到完美的解决。

在实时分析的特性方面,姚延栋又给出了另一个案例:在一个实时数据分析的业务中,MatrixDB可以实现对IT运营域和OT生产域的数据收集,通过ETL/CDC和物联网协议插入数据以后,便能将两张网的数据整合在一起,使得公司的全部数据一目了然地展现。当企业再基于这些数据进行分析时,就能得到更加精准且全面的结论。

1626088982819137.png

我们还注意到了MatrixDB的另一个重要特性——模块化和可插拔。专用时序数据库通常包含存储器和简单的执行器,没有优化器和并发控制等关系数据库经典组件。从本质上来看,它是把存储器“做成”了数据库,以此来解决一个特定的问题。而超融合时序数据库则是把存储器“做进”数据库,通过把各个核心功能做到模块化、可插拔,在一个关系数据库内部同时实现多种存储引擎,以及跨存储表关联和ACID。比如有200张表,其中190张是关系型数据,这部分可以使用关系引擎存储;剩余10张是时序数据,就可以使用时序引擎存储,且它们可以相互关联。

与传统的关系数据库+专用时序数据库相结合的架构相比,通过支持多种存储引擎,超融合时序数据库可以让性能快10-100倍,同时大幅降低成本,提升开发运维效率。

1626088998379330.png

令人惊喜的是,除了快速采集、高效存储、实时分析以及模块化和可插拔特性以外,我们注意到MatrixDB作为一款数据库产品,还提供了机器学习的能力。随着人工智能技术的飞速发展,In-Database Machine Learning成为一个值得关注的方向,将机器学习的算法内置到数据库将逐渐成为主流。一方面,借助分布式数据库的并行计算能力,可以使计算速度超越单机;另一方面,由于单机上的内存有限,在数据量很大的情况下,只能抽样进行训练,模型精度就会变差。通过In-Database Machine Learning模式,就能实现在全量数据上训练,模型精度也将得到进一步提高。

“过去从业者需要自己写程序才能实现机器学习。”这是姚延栋提到的一个现象,并表示这其中的技术门槛比较高。“目前,MatrixDB数据库通过直接提供SQL接口,大大降低了机器学习的门槛,能够在一定程度上缓解人才稀缺的问题”。

下一步怎么走?

“未来我们会继续在性能和效率两个维度持续发力,并沿着更智能的方向去发展。”落实到具体的业务层面,姚延栋表示会在提升易用性、构建生态两个方面重点发力。

众所周知,数据库运维对于从业者来说是一个很大的挑战,也因此衍生出了数据库运维这个行业。尤其在分布式数据库环境中,节点数量多以及需求多样化的特点,使得运维的难度更是大幅增加。姚延栋表示:“今后,我们将继续致力于降低数据库的使用门槛,使数据库有能力提供自动性能调优、健康检查等功能。”

在构建生态的方面,他也给出了更高层面的考虑。数据库是基础软件,没有人能够只使用数据库就解决业务问题,必须与很多周边产品搭配,才能发挥真正的价值。因此,对于数据库产品来说,生态的重要性不言而喻。“如果没有生态,我们相当于把复杂度问题扔给了用户,联合行业内上下游共建生态是我们接下来的方向”。

"数据库能定义未来记忆。"由于MatrixDB数据库更多应用于物联网、车联网、工业互联网和智慧生活等场景,姚延栋也与InfoQ谈到了他对于万物互联时代中数据库的理解,万物互联的目的是为了更智能化,而智能的前提是基于记忆,但事物本身是没有记忆能力的,如风力发电机、智能手环等等。“未来我们希望通过超融合时序数据库,赋予一些没有记忆能力的设备以记忆,为智能衍生出更多的可能性。”

万物互联时代的智能化到底会是什么样?这个问题还未有定论,仍然需要等待技术随着时代不断演进,不断进化才能得到答案。但可以肯定的是,在这之前先建立起事物的记忆能力,能够为不远的智能化时代奠定基础。

谈及数据库和四维纵横的未来,姚延栋希望能够让数据处理简单到像用电、用气、用水一样,把MatrixDB数据库打造成一个真正的一站式数据处理平台,让从业者在进行数据处理时,不再需要关心底层的数据存储以及计算的复杂性。这是四维纵横正在探索的方向,也是行业共同努力的终极目标。

特别声明:以上内容(如有图片或视频亦包括在内)均为站长传媒平台用户上传并发布,本平台仅提供信息存储服务,对本页面内容所引致的错误、不确或遗漏,概不负任何法律责任,相关信息仅供参考。站长之家将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。任何单位或个人认为本页面内容可能涉嫌侵犯其知识产权或存在不实内容时,应及时向站长之家提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明(点击查看反馈地址)。本网站在收到上述法律文件后,将会依法依规核实信息,沟通删除相关内容或断开相关链接。

  • 相关推荐
  • 大家在看
  • 人大金仓KINGBASE数据库与主流开源数据库性能实测

    近年来,人大金仓的数据库产品受到了外界诸多的关注。做产品,免不了要接受用户的对比和选择,数据库因其行业的自身特点,还有很多开源的技术产品同台比拼,用户因此也会产生诸多疑问,国产数据库相比开源数据库到底如何,今天我们选择数据库的一项核心能力——性能,将金仓KingbaseES和目前业界主流的两种开源数据库MySQL、PostgreSQL进行该能力层面的对比,以期为用户创造更丰富、公平的视角来解读国产数据库当前的发展现状。为?

  • “张江杯”大数据创新应用竞赛落幕 蜜度“城感通”用大数据赋能城市治理升级

    9月15日,2021“张江杯”浦东新区大数据创新应用竞赛暨上海市“一网通办”“一网统管”专项立功竞赛浦东赛区竞赛圆满落幕。竞赛以城市数字化转型为主题,开展创新应用成果竞赛和个人知识竞赛,并设置“数字化转型赋能城市治理方案赛”专项竞赛,汇集社会力量,为城市数字化转型过程中的具体场景和痛点提供优化解决方案。在数字化转型赋能城市治理方案赛中,众多企业与产品围绕浦东新区城市治理平台应用场景建设,以解决现阶段的重?

  • 与京东网易并肩!惟客数据入选信通院“卓信大数据计划”成员单位

    当前,数据已成为国家基础性战略资源、重要生产要素,对于推动经济高质量发展,助力国家治理体系和治理能力现代化具有重要作用。随着《数据安全法》以及《个人信息保护法》的正式通过,行业企业对数据安全领域的合规有着强烈的意愿,企业数据安全治理、数据安全保障、数据安全体系建设的重要性不断增强。近日,由工信部直属科研事业单位中国信息通信研究院发起的“卓信大数据计划”企业名单出炉。惟客数据作为大数据服务商,凭借科

  • 金电联行:以科技想象力驱动大数据创造力

    为深入贯彻落实习近平总书记关于促进数字经济和实体经济融合发展的重要指示精神,落实党中央、国务院关于深化新一代信息技术与制造业融合发展、打造数字经济新优势等决策部署,传统企业正积极布局数字化转型。金电联行作为在金融领域深耕多年的科技企业,以大数据和人工智能领域积累的丰富经验和雄厚技术实力,为企业提供一站式、全链条数字化转型服务,解决生产制造、设备维护、智能定价、智能物流、精准营销等难题,帮助企业搭?

  • 金电联行:深化大数据智能运算,推进新基建建设

    国务院常务会议最近审议通过“十四五”新型基础设施建设规划,明确“十四五”时期科学布局和推进建设以信息网络为基础、技术创新为驱动的新型基础设施。金电联行顺应产业的发展趋势与政策的发展,从自身的专业技术出发,构建数字化运营平台,助力推进新基建的建设进程。 新基建的主要内容包括5G基站建设、特高压、城际高速铁路和城市轨道交通、新能源汽车充电桩、大数据中心、人工智能、工业互联网七大领域。大数据中心的建设将是

  • 金电联行以大数据持续引领行业变革!

    2021年第六届大数据产业生态大会公布了“2021中国大数据企业50强”,金电联行与华为、腾讯、百度等企业一同登榜,在助推我国大数据产业发展战略中留下了浓墨重彩的一笔。自2007年起便在大数据领域耕耘的金电联行,已为金融、政府、制造业等行业提供上万大数据与人工智能落地案例,稳居大数据行业第一梯队。大数据起家,金电联行引领国内中小企业信贷融资变革潮流金电联行成立于2007年,成立之初便致力于解决重点小企业融资难题。从

  • 7号返程竟然不是最堵?国庆出行大数据汇总来了

    高德地图预测,10月1日上午迎来高速出程高峰,10月5日为返程高峰。预计2021年9月30日13时开始,全国高速交通压力将逐渐增大,峰值将出现在10月1日10时-11时。

  • 金电联行:新基建助推新发展 大数据开启新征程

    当前,大数据产业已经成为我国数字经济发展的重要引擎。随着国家加大力度支持新基建发展,人工智能、5G、物联网、数据中心等产业有望驶上“高速路”。新基建明星企业金电联行以数据智能为核心,打造信用新生态及新技术基础设施,赋能全行业智能化转型。 相对于侧重于“建”的传统基建,如铁路、公路、机场、桥梁等建设;新基建则侧重在于“用”,从科技端发力,主要包括七大领域:5G、大数据中心、人工智能、工业互联网四大技术领

  • 焕新产业生态,金电联行以大数据撬动营销增长

    如何做到精准营销,从而增加客户粘性,这无疑是要有一个强大的数据平台做后盾,依靠大数据平台,结合多元数据,这样的数据平台为支点,进行客户需求的引导性作用,不断加强互联网+的实际应用,达到从大数据中快速获取客户的购买欲望及购买需求。金电联行作为产业数字化转型服务商,一直致力于帮助各领域企业实现客户全生命周期的精细化运营,实现从营销到运营管理的闭环应用,以大数据创造增长势能。 在当前的移动互联网时代,企?

  • 产学研联合,金电联行重磅加码大数据人才培养

    大数据带来的巨大价值日益凸显,它通过技术的创新与发展,以及数据的全面感知、收集、分析、共享,为人们提供了一种全新看待世界的方法。随着大数据在生活中的运用越来越普及,大数据人才的需求也是日益剧增。金电联行深耕人工智能和大数据领域十四年,一直将大数据、AI人才培养作为重点,不断为行业输出高质量综合性人才。党的十八大以来,数字化和信息化人才发展体制机制改革不断深化,但与制造强国、网络强国建设要求相比,还存

这篇文章对你有价值吗?

  • 热门标签

热文

  • 3 天
  • 7天