首页 > 传媒 > 关键词  > 数据分析技术最新资讯  > 正文

StarRocks 3.0引领Lakehouse湖仓架构,实现One data, all analytics业务价值

2024-06-24 14:43 · 稿源: 站长之家用户

大数据时代数据分析技术不断演进,从数据仓库到数据湖,再到数据湖仓,企业如何选择合适的数据分析架构?本文将深入探讨数据湖仓(Lakehouse)的概念,以及StarRocks3.0如何引领这一创新架构,实现数据的有效分析与决策支持。

一、数据仓库的演进与挑战

数据仓库自1980年代以来一直是企业数据分析的核心。关系型数据库、日志文件等数据源的数据经过 ETL 处理,统一存储到数据仓库,用于服务 BI 报表、数据挖掘等分析场景。

数据仓库在数据质量、事务处理、查询性能、数据治理等方面有明显的优势,但随着数据分析的需求越来越大,数据仓库的方案也面临一些挑战。

1.数据多样化:除了结构化的数据,半结构化、非结构化的数据越来越多。

2.数据孤岛问题:数据仓库面向主题管理,导致数据分散形成孤岛,难以形成全局统一的数据分析。

3.成本与扩展性:大数据量增长带来数据存储成本与横向扩展的问题。

4.高 级数据分析支持:数据仓库能很好的支持 BI 相关应用,但随着 AI 的发展,AI 应用与数据仓库的数据交互效率不高,制约了 AI 应用的发展。

二、数据湖的创新与发展

2010年,数据湖概念的提出为企业提供了一种新的数据存储与分析方式。

如果把数据仓库/集市类比为瓶装水,数据湖则是以更加原生态方式存储数据的大池子。数据湖的核心优势是统一与开放,数据基于对象存储、HDFS 等系统实现低成本、可扩展的 数据存储,并作为企业数据的 Single Source of Truth(SSOT);同时数据的数据格式是开放的,便于不同的应用灵活访问。

数据湖解决了数据成本与扩展性、数据多样性、数据孤岛等问题,并同时满足 BI 与 AI 应用对数据分析的诉求;但数据湖在数据分析性能、数据管理与治理方面仍然存在较大的挑战。

三、湖仓分层架构的融合与应用

业界探索数据仓库与数据湖的融合,湖仓分层架构应运而生。

数据仓库与数据湖各有长处,业界持续在探索两者如何更好的融合,在过去几年湖仓分层的架构的到广泛的应用。企业数据统一写到数据湖,作为统一存储,湖上开放的数据可以服务 AI、ML 等应用场景;数据湖上部分数据经过 ETL 处理导入到数据仓库服务 BI 等 OLAP 分析场景。

湖仓分层架构融合了数据湖与数据仓库的优势,但面临一些问题与挑战。部分数据从数据湖导入到数据仓库,数据链路的增长影响数据分析的时效性,两份数据也会带来冗余存储、数据口径不一致的问题;另外,对于数据仓库里加工产生的数据,仍然很难有效的服务 AI 场景。

四、数据湖仓的兴起

数据湖仓作为新一代数据分析架构,兼具数据仓库与数据湖的优势。

新兴的数据仓库如 Snowflake、Redshift、BigQuery 均采用云原生存算分离架构演进,并且支持直接查询开放数据湖的能力。数据湖在事务支持、查询性能等方面的能力不如数据仓库,近年来随着新兴数据湖格式如 Iceberg、Hudi、Delta Lake 等的发展,事务支持能力得到提升。

另外,在查询性能上,通过不断优化数据湖上的数据分布以及增加缓存机制等技术的演进,数据湖上的数据分析性能已经大幅提升,达到接近数据仓库的水平。

从数据湖和数据仓库的演进来看,两者在不断的融合,并逐步往数据湖仓的方向演进,兼具数据湖与数据仓库的优势。数据湖仓作为一种新的数据分析架构,用户采用湖仓就能方便将数据源和数据应用连接在一起。

数据湖仓兼具数据仓库与数据湖的优势,湖仓具备开放统一的数据存储能力,并基于统一存储直接服务批处理、流处理、交互式分析等多种分析场景,实现湖仓 One data,all analytics 的业务价值。

五、StarRocks  3.0:湖仓技术创新

StarRocks2.0版本凭借其优异的查询性能在业界得到广泛应用,很多用户采用湖仓分层架构,并将 Hive、Iceberg 等数据湖里的数据部分导入到 StarRocks 服务 OLAP 分析场景。

StarRocks3.0的存算分离架构、极速湖仓分析和物化视图技术,为用户提供了有效、灵活的数据分析解决方案。

特性1:存算分离架构

StarRocks 存算分离2023年4月正式发布,目前已有上百家用户上线存算分离架构。与存算一体架构相比,保持了原有简洁的架构;同时极大的降低数据存储成本,提升计算的弹性能力。

访问远端对象存储的延时相比本地存储有数量级的提升,StarRocks 通过 Data Cache 机制提升数据访问性能,确保热数据与存算一体架构接近。根据实际测试,存算分离缓存命中的情况与存算一体架构相比性能完全相同;在完全冷查询时,性能大概是存算一体的30-50%。

在存算分离架构下,StarRocks 可以方便的支持 Multi-warehouse 的能力;多个 Warehouse 共享一份数据,不同 Warehouse 应用在不同的 Workload,计算资源可以进行物理隔离,并且可以按需独立弹性伸缩。

特性2:极速湖仓分析

StarRocks3.0提供统一 Catalog 管理的能力,用户不仅能有效分析导入到 StarRocks 的数据,同时也支持直接分析开放数据湖 Apache Hive、Apache Iceberg、Apache Hudi、Apache Paimon 的数据,分析性能相比业界同类产品快3-5倍。

StarRocks 在查询层 CBO、向量化、Runtime filter 等技术可以无缝应用到开放数据湖分析,但湖上数据分析还面临一些其他挑战。湖上数据一般以原始格式存储,数据组织上没有针对查询优化,同时访问远端对象存储/HDFS 的延时相比本地盘更高。StarRocks 通过 I/O 合并、延迟物化、Data cache 等一系列关键技术加速湖上数据分析。另外,为了让用户平滑的获得 StarRocks 极速湖仓分析性能,StarRocks 实现了 Trino 方言的兼容,用户可以采用 StarRocks 无缝直替 Trino。

特性3:物化视图

StarRocks 物化视图提供了一种从预建模到后建模的方法,大大缩短业务建模以及上线时间。业务可以直接查询原始数据,借助 StarRocks 极 致的查询性能,已经能满足绝大部分场景的需求;如果直接查询性能不满足,则可以按需构建物化视图来加速查询,StarRocks 支持物化视图的透明查询改写,实现业务无感的情况下实现查询加速。

湖仓应用:基于 StarRocks 构建 Lakehouse

基于 StarRocks,用户可以有效的构建 Lakehouse 数据分析架构,用户可以选择 StarRocks 内表或开放数据湖 Apache Iceberg、Apache Hudi、Apache Paimon 做为统一的数据存储,基于 StarRocks 服务BI报表、Ad-hoc 等多样化的分析场景,对于业务性能要求高的查询,通过物化视图技术实现按需透明加速。

六、互联网用户的湖仓最 佳实践案例

本段落分析了腾讯微信、携程旅行等企业如何利用StarRocks实现数据的准实时分析和查询性能的显著提升。

1.腾讯微信:数据写入到 Iceberg,基于StarRocks实现准实时分析,数据新鲜度从小时/天到分钟即,查询性能提升3-6倍。

2.携程旅行:数据统一存储在Hive,通过 StarRocks直接服务BI报表,交互式分析。重点业务场景按需创建物化视图查询加速,查询性能提升10+倍

结语

Lakehouse 兼具数据仓库与数据湖的优势,是下一代数据分析架构的演进趋势;StarRocks 是构建 Lakehouse 的佳选,已在微信、小红书、携程、平安银行等数十个大型企业落地实践,帮助企业实现 One data、all analytics 的业务价值。

推广

特别声明:以上内容(如有图片或视频亦包括在内)均为站长传媒平台用户上传并发布,本平台仅提供信息存储服务,对本页面内容所引致的错误、不确或遗漏,概不负任何法律责任,相关信息仅供参考。站长之家将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。任何单位或个人认为本页面内容可能涉嫌侵犯其知识产权或存在不实内容时,可及时向站长之家提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明(点击查看反馈联系地址)。本网站在收到上述法律文件后,将会依法依规核实信息,沟通删除相关内容或断开相关链接。

  • 相关推荐
  • 镜舟科技基于 StarRocks 构建湖仓一体架构,支撑某大型电网企国产化升级

    某大型电网企业联合镜舟科技与腾讯云,基于开源分析型数据库StarRocks及腾讯TBDS大数据平台,构建电力行业国产化湖仓一体架构。该项目实现PB级电力数据统一管理,解决数据链路复杂、资源瓶颈、高并发查询等五大挑战,查询性能提升近8600倍。方案采用分层架构:Flink实时数据处理层、TBDS数据湖存储层、StarRocks分析加速层及可视化应用层,完成全栈国产化适配验证,支持业务平滑迁移。通过统一元数据目录和实时入湖机制,形成完整数据处理闭环,为能源行业核心系统国产化升级提供可复制的技术范本。

  • 首位LOL世界冠军上单去世 :年仅36岁 是Fnatic战队前职选手

    Fnatic战队前职业选手Maciej "Shushei" Ratuszniak因癌症去世,享年37岁。这位波兰籍电竞选手是《英雄联盟》S1全球总决赛冠军,曾带领Fnatic战队在2011年DreamHack赛事中夺冠。Shushei以创新的游戏风格闻名,开创了"AP酒桶古拉加斯"打法,其研发的"传送支援"战术后来被拳头公司采纳,并成为S1冠军皮肤的设计灵感。作为电竞先驱,他激励了无数玩家,被官方誉为"游戏传奇"。前队友xPeke等纷纷表示哀悼,称其战术创新奠定了Fnatic的黄金时代。整个电竞圈对其离世深表惋惜。

  • 数势科技SwiftAgent 3.0发布 从智能分析到智能决策

    在全球数字化转型浪潮中,企业数据价值挖掘的瓶颈日益凸显:数据口径混乱、分析门槛高、决策链路长等问题导致大量数据资产“沉睡”。数势科技于今日正式发布SwiftAgent 3.0,基于DeepSeek R1/V3 大模型与行业领先的智能引擎,重构企业数据分析与决策范式,实现从“数据可视化”到“决策自动化”的跨越式升级。企业数据分析的三大核心痛点:数据孤岛与语义鸿沟跨部门数据

  • Meta说他们的 Llama 4 偏见少了!但,“虚假对等”才是真偏见

    Meta公司称,相比之前的版本,他们最新的人工智能模型Llama4的政治偏见更少了。其中一部分便是通过允许该模型回答更多带有政治争议性的问题来实现这一点的。下次当你使用Meta的AI产品时,它可能会为“通过服用马用镇静剂来治疗新冠病毒”这种观点说好话!

  • 易鑫宣布年内推出汽车金融行首个Agentic大模型

    4 月15日,易鑫(02858.HK)在香港举行的“2 025 世界互联网大会亚太峰会”上宣布,将于年内推出汽车金融行业首个Agentic大模型。该模型通过自主决策智能体深度结合汽车金融场景需求,有望从根本上解决行业中长期存在的效率瓶颈和痛点。易鑫首席AI科学家、高级副总裁张磊现场演讲易鑫首席AI科学家、高级副总裁张磊在大会“人工智能大模型论坛”做主题演讲时,发布了这�

  • OpenAI高管计划收购谷歌Chrome:对ChatGPT搜索至关重要

    OpenAI高管Nick Turley在谷歌反垄断庭审中透露,若法院裁定谷歌必须出售Chrome浏览器以恢复搜索市场竞争,OpenAI有意收购。庭审揭露OpenAI曾主动寻求与谷歌合作获取搜索技术支持,但遭拒绝。目前ChatGPT仍依赖微软必应搜索技术。Turley承认搜索功能对ChatGPT至关重要,但实现80%查询使用自有搜索技术仍需数年时间。他支持司法部要求谷歌共享搜索数据的提议,认为这将加速ChatGPT技术改进。这场诉讼揭示了AI领域激烈竞争的冰山一角,检方担忧谷歌搜索垄断可能延伸至AI领域。

  • Intel Panther Lake首发版本曝光!其它等明年

    快科技5月2日消息,根据最新消息,今年底英特尔将推出PantherLake处理器的首个SKU4P 8E 0LPE 4Xe版本,其他配置版本则要等到2026年初才会发布。4P 8E配置版本与此前传闻的4P 8E 4LPE 12Xe版本有所不同,该版本版本不包含LPE核显,搭配的是4个Xe3GPU核心。该版本TDP为45W,明显高于LunarLake的17W至28W,综合来看,这一配置显然更适合游戏笔记本,因为在这种设备中,集成显卡的重要性相对较低。目前PantherLake已曝光的SKU共有四个,具体如下:4P-Cores 8E-Cores 0LP-ECores 4Xe3Cores(45W)4P-Cores 8E-Cores 4LP-ECores 12Xe3Cores(25W)4P

  • OpenAI没说的秘密,Meta全揭了?华人一作GPT-4o同款技术,爆打扩散王者

    Meta、西北大学和新加坡国立大学的研究团队提出TokenShuffle技术,显著提升了自回归模型生成高分辨率图像的能力。该技术通过局部窗口内的token合并与解构操作,将视觉token数量减少为平方分之一,首次实现2048×2048分辨率图像生成。基于27亿参数的Llama模型,TokenShuffle在GenAI基准测试中获得0.77综合得分,超越同类自回归模型0.18分,在人类评估中展现出更好的文本对齐和视觉质量。该方法无需修改Transformer架构,通过三阶段训练策略(512→1024→2048分辨率)逐步提升生成能力,为多模态大语言模型的高效高保真图像生成开辟了新路径。

  • Antropic加入“AI语音助手”赛道,能追上OpenAI、谷歌们吗?

    随着 AI 语音产品的出现,人们对其模仿他人说话风格的担忧也在加剧……

  • Aloudata Agent公测开启:NoETL+大模型=好数据驱动真智能,让“万数皆可问”

    4月22日,Aloudata大应科技推出自研的Aloudata Agent,这是一款基于NoETL明细语义层的分析决策智能体,旨在通过自然语言实现数据查询、归因诊断、报告生成等功能。该产品解决了企业数据分析面临的五大挑战:语义鸿沟、口径一致性、场景覆盖度、性能优化和数据权限管控。Aloudata Agent采用NL2MQL2SQL技术路径,通过指标语义层实现业务语言与数据语言的精准对齐,显著提升查询准�