首页 > 传媒 > 关键词  > Serverless最新资讯  > 正文

MatrixOne HTAP 分布式架构演进之路

2023-04-17 09:31 · 稿源: 站长之家用户

矩阵起源是一家专注于为企业用户提供简捷强大的数据操作系统的数据基础软件公司。公司创始团队来自腾讯云、Snowflake等国内外知名的互联网企业、软件公司、数字化企业和开源社区,核心团队为产品、研发、解决方案、生态和开源社区等领域的专家,在分布式架构、数据库、云计算、大数据及人工智能等领域积累了丰富经验。

MatrixOne 是矩阵起源(MatrixOrigin)开源的一款超融合 HTAP 云原生数据库,借助于全新设计和研发的统一分布式计算和存储框架,使数据库同时具备 TP、AP和Streaming三种能力,帮助客户彻底打破数据孤岛问题,成为企业智能化核心的数据基础设施。得益于这一创新的架构设计,用户可以在公有云、私有云、数据中心和边缘节点上部署和使用MatrixOne。秉承“One Size Fits Most”的产品理念,MatrixOne将运维工作简化到极 致,使得数据应用开发变得极为简捷,同时也保证了数据处理的极 致性能。

推翻三座大山

分布式框架

MatrixCube作为当时的分布式框架,提供了多副本存储模式,每一份数据都保存 3 副本并且以分片(shard)形式保存,使得存储的成本飙升。而基于Raft选举的Leader节点,频繁成为了热点,各类操作都需要通过Leader节点进行分发,在极端业务场景下,Leader节点的负载会数倍于普通节点。

引擎众多

早期的MatrixOne内置了三种存储引擎,三个引擎之间代码复用率较低,使得对功能的维护需要投入更多人力。而基于因子化算法的Plan构建方式过于激进和抽象,在计算组内部对其完全理解的程序员数量有限,往往添加功能时仍旧需要主开一人完成,新功能添加缓慢。

资源分配

旧架构采用了存算不分离的架构,这个架构导致了扩展性较差。每扩展一个单位的计算节点必须同步扩展存储资源。由于存储采用了shard分片,使得在shard较大时影响了OLTP的性能,在shard较小时,又会影响OLAP性能。

在找到了三座大山之后,接下来要做的事情就是一一扳倒它们,田丰博士结合MatrixOne的产品愿景以及未来的技术趋势,对于实验架构进行了总结,并提出了MatrixOne独有的架构设想,从整个架构的现状来看,要分三步走:

第 一步,将旧架构share nothing的框架破除,完成更灵活的解耦;

第二步,将多种引擎合二归一,实现内部引擎的大一统;

第三部,重构计算引擎,留有足够的空间给未来的产品发展。

重生后的MatrixOne

新架构通过解耦,最终实现了三个各自独立的层级,每个层级有自己的对象单元与分工,不同类型的节点可以灵活伸缩,不再受到其他层的制约:

计算层 ,以计算节点Compute Node为单位,实现了计算和事务处理的Serverless化,又有自己的Cache,可以实现任意重启与扩缩容;

事务层 ,以数据库节点Database Node为与日志节点Log Service为单位,提供完整的日志服务以及元数据信息,内置Logtail用于保存最近数据;

存储层 ,全量数据保存在以S3 为代表的对象存储中,实现了低成本的无线伸缩存储方式,以File Service命名的统一文件操作服务,实现了不同节点对底层存储的无感知操作。

在确定了以TAE作为唯 一存储引擎之后,对融合后的TAE引擎又做了诸多设计上的调整,才有了后来融合后的TAE存储引擎。完成了单一引擎完成所有数据库存储行为的目标,并且具备了如下优势:

列存管理 ,统一的列存与压缩,对于OLAP业务有着先天的性能优势;

事务处理 ,共享日志与DN节点共同完成对计算节点的事务支持;

冷热分离 ,使用File Service以S3 对象存储作为目标,每个计算节点都有自己的Cache。

多次运行测试,得出置信度较高的结果:

早期的计算引擎中,兼容MySQL的大目标没有变化,但是对于节点调度、执行计划、SQL能力又有着更高的要求。重构后的高性能计算引擎,既具备了实验架构中计算引擎的MPP,又弥补了过去的诸多不足:

兼容MySQL ,既有对MySQL协议的支持,又包含了对MySQL语法的支持;

融合引擎 ,基于DAG重新构建执行计划,可以同时执行TP和AP;

节点调度 ,未来可支持自适应节点内和节点间调度,同时满足并发和并行执行;

完善SQL能力,支持子查询、窗口函数、CTE、Spill内存溢出处理等。

积跬步以至千里

回顾历时数月的架构升级之路,充满了各种辛酸和痛苦。无论考虑的多么充分,在实际开发中,总会遇到各种各样意想不到的问题出现,尤其是在一些关键问题上的困难,让研发团队从开始的一筹莫展,到偶尔的灵光乍现,再到很后面的零之曙光,走向最终的黎明时刻。个中三昧,不言而喻。

这些难题中,主要围绕在存储、事务、负载隔离与资源配比几个方面。

寻找更合适的存储

在意识到三副本存储带来的问题后,如何寻找一个新的存储适配新架构,成为了当时一大难题,而这个新的存储必须满足两个核心需求,低成本与冷热数据分离。

在对市面上的诸多存储进行了调研以及试验之后,AWS S3 成为了最终的选择。单一副本,自带的冷热数据分离。

事务分工的调整

最初的新架构中,计算节点CN与数据库节点DN之间的分工是CN负责计算,计算结果推给DN,由DN完成事务。随着开发进度的不断推进,这个分工开始出现了问题,DN对事务的处理能力成为整个系统的瓶颈。因此,对于CN和DN的分工,必须做重新定义:

CN负责所有的计算以及事务逻辑,DN负责保存元数据信息、日志信息以及事务裁决,DN不再成为瓶颈;

在日志中引入Logtail对象,用于保存最近日志中的关联数据,定期将Logtail的数据写入S3 中,CN扩容可以实时将Logtail数据同步至Cache,实现了部分数据共享;

为事务大小设置阈值,超过阈值上限的事务直接写S3,日志只保存记录写入记录,未超过阈值的事务继续由DN写入,极大增加了吞吐量。

实现HTAP的工作负载隔离

作为HTAP数据库,如何实现不同类型的工作负载隔离,是一个必须解决的问题。在完成了对旧的实验架构的灵活解耦之后,工作负载的隔离也得以实现:

服务器级别的隔离,硬件资源充裕的情况下,各个组件分别在不同的物理机运行,接入同一个对象存储;

容器级别的隔离,硬件资源有限的情况下,利用所有节点无状态的特性,以容器作为各个节点的隔离手段。

实现资源配比的灵活调整

作为HTAP数据库,日常业务中,不同业务场景的比例是在动态变化中,对于资源的配比也有着更高的要求,而旧架构下的资源分配模式注定无法实现灵活调整,需要对各个节点实现更加精细化的管理,包含但不限于:

CN节点的分工,允许用户对CN进行划分,用于TP或AP业务,其中某项业务资源出现瓶颈之后,对CN进行水平扩容;

在不类业务的CN组之间,动态判断各组的负载情况,当前两类业务的负载差异较大时,可以自动将闲置资源分配至繁忙组内;

通过租户(account)的逻辑概念,实现逻辑资源的完全隔离,不同的租户可以以独享或共享的方式使用指定的CN资源。

写在最后

矩阵起源作为一家数据智能领域的创新企业致力于成为数字世界的核心技术提供者。 矩阵起源专注建设开放的技术开源社区和生态系统、打造世界 级的团队、并通过业界领先的技术创新和工程能力,实现数据在数字世界中的任意存储和任意计算,帮助用户释放数据的潜力和创新力(Store Anywhere, Compute Anywhere, Innovate Anywhere)。

整个MatrixOne的架构升级之路,始于0. 4 迭代,在0. 6 迭代初步完成,历时半年多,数十位一线研发与测试工程师投入其中,最终完成了今天的新分布式HTAP架构,团队与产品共同获得了成长。在今年,MatirxOne 将会推出第 一个 GA 版本,为开发者持续创造价值。

推广

特别声明:以上内容(如有图片或视频亦包括在内)均为站长传媒平台用户上传并发布,本平台仅提供信息存储服务,对本页面内容所引致的错误、不确或遗漏,概不负任何法律责任,相关信息仅供参考。站长之家将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。任何单位或个人认为本页面内容可能涉嫌侵犯其知识产权或存在不实内容时,可及时向站长之家提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明(点击查看反馈联系地址)。本网站在收到上述法律文件后,将会依法依规核实信息,沟通删除相关内容或断开相关链接。

  • 相关推荐
  • 洗烘一次搞定!Leader曝光烘干版三筒懒人洗衣机

    Leader三筒懒人洗衣机推出双烘版新品,满足年轻用户"懒得晒"需求。该产品延续首创的三筒分区设计,实现内衣、袜子、外衣分开洗,同时两个小筒均搭载PTC柔烘技术,可洗1KG+烘0.5KG,实现"洗烘一体"高效模式。产品采用一体水电设计,仅需一个插头即可安装使用。此次升级精准解决用户痛点,告别传统低效晾晒模式。据悉,Leader还将推出懒人洗衣机家族系列新品,包括洗鞋机、干衣机等组合方案,持续为用户提供更便捷高效的洗护体验。

  • 漠河相邻酒店立起“空调墙”:一面海尔,一面Leader

    今年夏季,黑龙江漠河遭遇罕见高温,当地酒店为留住游客大规模安装空调。松盈酒店选择认知度高的海尔空调,蓝莓酒店则锁定年轻化的互联网品牌Leader。数据显示,东北多地气温屡破历史极值,海尔系空调凭借完善的物流体系成为极北地区少数能高效覆盖的供应商。两家酒店经营者选择海尔系品牌各有考量:松盈看重成熟品牌的综合实力,蓝莓则青睐Leader的差异化优势。这场"空调保卫战"不仅为游客送去清凉,更展现了海尔智家品牌矩阵在特殊市场环境下的综合竞争力。

  • 爆品催生业绩增长!2025H1:Leader冰洗空等实现量额双高增

    2025年家电行业呈现稳健增长态势,年轻消费群体成为市场新引擎。三滚筒洗衣机、超省电空调等创新产品快速走红,精准切中年轻人"内衣外衣分洗但不愿手洗"等细分需求。Leader品牌表现亮眼,其懒人洗衣机预售突破8.8万台,带动多筒产品渗透率从3.2%跃升至9.5%。消费趋势显示,年轻人更注重产品背后的低碳环保、悦己体验等价值主张。上半年节能空调成市场热点,Leader、小米等品牌增幅显著。行业竞争正从功能消费转向价值观共鸣,能读懂用户情感需求的品牌将赢得新增量空间。爆品战略不仅带动业绩增长,更能构建品牌护城河,这或将成为家电行业突破增长瓶颈的有效路径。

  • Leader 2025H1:空调同类品牌增速第一,冰洗量额双增

    2025年上半年中国家电市场零售额同比增长9.2%,在政策利好和消费升级推动下行业稳健增长。年轻化品牌Leader表现亮眼,其空调产品销量增速达99%位居同类第一,AI省电系列年省电467度,解决"省电与性能不可兼得"痛点。冰洗领域同样出色,冰箱零售量增21.86%,洗衣机量额分别增8.94%和65.03%。创新产品如懒人三筒洗衣机预售首周订单近9万台,木兰大容量冰箱等精准满足年轻人个性需求。下半年市场竞争加剧,这些品牌能否持续高增长值得关注。

  • 2025家电H1:头部企业稳固,Leader、华凌新势力量额双高增

    2025年上半年中国家电市场在政策红利与消费升级推动下稳健增长,零售额同比增长9.2%。空调、洗衣机等细分品类表现突出,头部品牌保持主导地位,同时Leader、华凌等新势力品牌实现量额双增。以旧换新政策释放存量市场潜力,上半年带动超6600万消费者参与,购买家电超1.09亿台。年轻消费群体崛起推动"懒人经济"和"分区洗"等新需求,如Leader推出的三筒洗衣机和省电空调系列,华凌的多门超薄冰箱等创新产品精准匹配年轻人需求。新势力品牌在节能、个性化和智能交互领域持续突破,为行业注入新动能,下半年在双11等节点有望延续增长势头。

  • AI编程终于“开箱即用”了?Qwen3-Coder或许是那个质变节点

    ​7月23日,阿里通义团队正式发布Qwen3-Coder-480B-A35B-Instruct,这可能是AI编程领域的一个分水岭时刻。该模型采用480B总参数、35B激活的MoE架构,原生支持256K上下文,可扩展至1M token,在Agentic Coding、Browser-Use、Tool-Use三大类基准中多项评测的开源SOTA,性能直接对标Claude Sonnet-4。

  • 解锁SPA级衣物护理 三星AI神 黑钻衣物护理机以精致细节点亮生活仪式

    三星AI神+黑钻衣物护理机通过创新科技为高端衣物提供专业护理:采用双气流+双蒸汽技术深层清洁衣物,有效去除异味、灰尘和细菌;配备三重过滤系统可轻松处理宠物毛发;AI热泵烘干技术智能调节湿度,低温柔烘保护衣物色泽;595mm超薄机身设计可完美融入家居空间;兼具除湿功能改善居住环境。让衣物护理从外到内都充满精致感,为现代生活注入高级美学体验。

  • 微信对讲机上热搜:微信能自动发消息了 喊over over自动发消息

    今日上午,"微信对讲机"空降微博热搜榜首,网友纷纷化身"数字特工",用"over over"暗号解锁社交新玩法。这项正在灰度测试的语音交互功能,通过模拟传统对讲机操作模式,在年轻用户群体中引发传播热潮。 据参与内测的用户演示,在微信聊天界面长按语音输入按钮约 2 秒,界面即切换为醒目的绿色对讲模式。此时用户说出的话语会实时转化为文字显示

  • 跨境卖家如何用AI“偷懒”还多赚钱?揭秘卖家精灵AI功能矩阵的躺赢秘诀

    文章介绍了AI在跨境电商运营中的重要作用,重点推荐了"卖家精灵"AI工具。该工具提供三大核心功能:1)AI市场洞察,3分钟生成包含市场规模、竞争格局等9大模块的深度分析报告;2)AI-Keepa分析,自动识别竞品价格策略、断货情况等关键数据;3)AI评论分析,从海量评论中提炼6大维度消费者需求。此外还有AI Listing生成器,能快速产出高转化率的产品描述。这些AI工具能帮助卖家节省时间,将精力集中在发现商机、制定策略等高价值事务上。目前注册用户每天可免费使用10次分析功能。

  • 哪个大模型性价比最高?用这个 AI 大模型费用计算器轻松比价

    AI大模型快速发展,但不同厂商的定价规则差异大,导致选择困难。AIbase推出的AI大模型费用计算器(https://model.aibase.com/zh/calculator)能帮助开发者快速比较主流模型的调用成本。该工具覆盖GPT-4、Claude、文心一言等国内外热门模型,支持输入输出分开计费,实时更新官方定价,无需注册即可使用。用户只需输入文本,系统自动拆分token数并精准计算费用,结果清晰直观可排序。建议根据场景需求选择模型:平衡成本与性能可选GPT-4o、DeepSeek-V2;高精度需求选GPT-4 Turbo;中文场景优选国产模型。使用前通过计算器模拟成本,可避免项目超支风险。