首页 > 传媒 > 关键词  > 数据分析技术最新资讯  > 正文

StarRocks 3.0引领Lakehouse湖仓架构,实现One data, all analytics业务价值

2024-06-24 14:43 · 稿源: 站长之家用户

大数据时代数据分析技术不断演进,从数据仓库到数据湖,再到数据湖仓,企业如何选择合适的数据分析架构?本文将深入探讨数据湖仓(Lakehouse)的概念,以及StarRocks3.0如何引领这一创新架构,实现数据的有效分析与决策支持。

一、数据仓库的演进与挑战

数据仓库自1980年代以来一直是企业数据分析的核心。关系型数据库、日志文件等数据源的数据经过 ETL 处理,统一存储到数据仓库,用于服务 BI 报表、数据挖掘等分析场景。

数据仓库在数据质量、事务处理、查询性能、数据治理等方面有明显的优势,但随着数据分析的需求越来越大,数据仓库的方案也面临一些挑战。

1.数据多样化:除了结构化的数据,半结构化、非结构化的数据越来越多。

2.数据孤岛问题:数据仓库面向主题管理,导致数据分散形成孤岛,难以形成全局统一的数据分析。

3.成本与扩展性:大数据量增长带来数据存储成本与横向扩展的问题。

4.高 级数据分析支持:数据仓库能很好的支持 BI 相关应用,但随着 AI 的发展,AI 应用与数据仓库的数据交互效率不高,制约了 AI 应用的发展。

二、数据湖的创新与发展

2010年,数据湖概念的提出为企业提供了一种新的数据存储与分析方式。

如果把数据仓库/集市类比为瓶装水,数据湖则是以更加原生态方式存储数据的大池子。数据湖的核心优势是统一与开放,数据基于对象存储、HDFS 等系统实现低成本、可扩展的 数据存储,并作为企业数据的 Single Source of Truth(SSOT);同时数据的数据格式是开放的,便于不同的应用灵活访问。

数据湖解决了数据成本与扩展性、数据多样性、数据孤岛等问题,并同时满足 BI 与 AI 应用对数据分析的诉求;但数据湖在数据分析性能、数据管理与治理方面仍然存在较大的挑战。

三、湖仓分层架构的融合与应用

业界探索数据仓库与数据湖的融合,湖仓分层架构应运而生。

数据仓库与数据湖各有长处,业界持续在探索两者如何更好的融合,在过去几年湖仓分层的架构的到广泛的应用。企业数据统一写到数据湖,作为统一存储,湖上开放的数据可以服务 AI、ML 等应用场景;数据湖上部分数据经过 ETL 处理导入到数据仓库服务 BI 等 OLAP 分析场景。

湖仓分层架构融合了数据湖与数据仓库的优势,但面临一些问题与挑战。部分数据从数据湖导入到数据仓库,数据链路的增长影响数据分析的时效性,两份数据也会带来冗余存储、数据口径不一致的问题;另外,对于数据仓库里加工产生的数据,仍然很难有效的服务 AI 场景。

四、数据湖仓的兴起

数据湖仓作为新一代数据分析架构,兼具数据仓库与数据湖的优势。

新兴的数据仓库如 Snowflake、Redshift、BigQuery 均采用云原生存算分离架构演进,并且支持直接查询开放数据湖的能力。数据湖在事务支持、查询性能等方面的能力不如数据仓库,近年来随着新兴数据湖格式如 Iceberg、Hudi、Delta Lake 等的发展,事务支持能力得到提升。

另外,在查询性能上,通过不断优化数据湖上的数据分布以及增加缓存机制等技术的演进,数据湖上的数据分析性能已经大幅提升,达到接近数据仓库的水平。

从数据湖和数据仓库的演进来看,两者在不断的融合,并逐步往数据湖仓的方向演进,兼具数据湖与数据仓库的优势。数据湖仓作为一种新的数据分析架构,用户采用湖仓就能方便将数据源和数据应用连接在一起。

数据湖仓兼具数据仓库与数据湖的优势,湖仓具备开放统一的数据存储能力,并基于统一存储直接服务批处理、流处理、交互式分析等多种分析场景,实现湖仓 One data,all analytics 的业务价值。

五、StarRocks  3.0:湖仓技术创新

StarRocks2.0版本凭借其优异的查询性能在业界得到广泛应用,很多用户采用湖仓分层架构,并将 Hive、Iceberg 等数据湖里的数据部分导入到 StarRocks 服务 OLAP 分析场景。

StarRocks3.0的存算分离架构、极速湖仓分析和物化视图技术,为用户提供了有效、灵活的数据分析解决方案。

特性1:存算分离架构

StarRocks 存算分离2023年4月正式发布,目前已有上百家用户上线存算分离架构。与存算一体架构相比,保持了原有简洁的架构;同时极大的降低数据存储成本,提升计算的弹性能力。

访问远端对象存储的延时相比本地存储有数量级的提升,StarRocks 通过 Data Cache 机制提升数据访问性能,确保热数据与存算一体架构接近。根据实际测试,存算分离缓存命中的情况与存算一体架构相比性能完全相同;在完全冷查询时,性能大概是存算一体的30-50%。

在存算分离架构下,StarRocks 可以方便的支持 Multi-warehouse 的能力;多个 Warehouse 共享一份数据,不同 Warehouse 应用在不同的 Workload,计算资源可以进行物理隔离,并且可以按需独立弹性伸缩。

特性2:极速湖仓分析

StarRocks3.0提供统一 Catalog 管理的能力,用户不仅能有效分析导入到 StarRocks 的数据,同时也支持直接分析开放数据湖 Apache Hive、Apache Iceberg、Apache Hudi、Apache Paimon 的数据,分析性能相比业界同类产品快3-5倍。

StarRocks 在查询层 CBO、向量化、Runtime filter 等技术可以无缝应用到开放数据湖分析,但湖上数据分析还面临一些其他挑战。湖上数据一般以原始格式存储,数据组织上没有针对查询优化,同时访问远端对象存储/HDFS 的延时相比本地盘更高。StarRocks 通过 I/O 合并、延迟物化、Data cache 等一系列关键技术加速湖上数据分析。另外,为了让用户平滑的获得 StarRocks 极速湖仓分析性能,StarRocks 实现了 Trino 方言的兼容,用户可以采用 StarRocks 无缝直替 Trino。

特性3:物化视图

StarRocks 物化视图提供了一种从预建模到后建模的方法,大大缩短业务建模以及上线时间。业务可以直接查询原始数据,借助 StarRocks 极 致的查询性能,已经能满足绝大部分场景的需求;如果直接查询性能不满足,则可以按需构建物化视图来加速查询,StarRocks 支持物化视图的透明查询改写,实现业务无感的情况下实现查询加速。

湖仓应用:基于 StarRocks 构建 Lakehouse

基于 StarRocks,用户可以有效的构建 Lakehouse 数据分析架构,用户可以选择 StarRocks 内表或开放数据湖 Apache Iceberg、Apache Hudi、Apache Paimon 做为统一的数据存储,基于 StarRocks 服务BI报表、Ad-hoc 等多样化的分析场景,对于业务性能要求高的查询,通过物化视图技术实现按需透明加速。

六、互联网用户的湖仓最 佳实践案例

本段落分析了腾讯微信、携程旅行等企业如何利用StarRocks实现数据的准实时分析和查询性能的显著提升。

1.腾讯微信:数据写入到 Iceberg,基于StarRocks实现准实时分析,数据新鲜度从小时/天到分钟即,查询性能提升3-6倍。

2.携程旅行:数据统一存储在Hive,通过 StarRocks直接服务BI报表,交互式分析。重点业务场景按需创建物化视图查询加速,查询性能提升10+倍

结语

Lakehouse 兼具数据仓库与数据湖的优势,是下一代数据分析架构的演进趋势;StarRocks 是构建 Lakehouse 的佳选,已在微信、小红书、携程、平安银行等数十个大型企业落地实践,帮助企业实现 One data、all analytics 的业务价值。

推广

特别声明:以上内容(如有图片或视频亦包括在内)均为站长传媒平台用户上传并发布,本平台仅提供信息存储服务,对本页面内容所引致的错误、不确或遗漏,概不负任何法律责任,相关信息仅供参考。站长之家将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。任何单位或个人认为本页面内容可能涉嫌侵犯其知识产权或存在不实内容时,可及时向站长之家提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明(点击查看反馈联系地址)。本网站在收到上述法律文件后,将会依法依规核实信息,沟通删除相关内容或断开相关链接。

  • 相关推荐
  • StarRocks Connect 2025 圆满落幕:AI Native 时代,数据分析未来已来

    StarRocks Connect 2025峰会圆满落幕,聚焦AI Native时代的数据分析未来。活动汇聚全球开发者与行业专家,分享StarRocks在复杂业务场景中的实践,探讨技术演进方向。从性能引擎到AI原生平台,StarRocks 4.0将支持多智能体协作框架,提升数据分析效率。多家企业展示应用案例,覆盖电商、金融、旅游等领域,验证了其高性能与成本优势。开源精神推动技术创新,共同探索数据智能的无限可能。

  • ChatExcel重磅发布:基于AMD锐龙AI MAX+ 395处理器的数据分析Mini AI 工作站

    ChatExcel发布搭载AMD锐龙AI MAX+395处理器的Mini AI工作站,重构数据全链路,打造“找数-做数-分析数-看数-用数”的商业闭环平台。依托处理器96GB超大显存和统一内存架构,实现本地流畅运行GPT-oss-120B等大型模型,保障数据安全的同时显著提升分析效率。该方案以财务场景为例,支持多任务并行处理,将原本需1天完成的月度报表压缩至2小时,解决“数据不外发”与“高效处理”的核心矛盾。

  • 葡萄酒进口数据:澳洲领跑,解码澳洲红酒黄金版图

    澳大利亚葡萄酒产业凭借独特风土条件、丰富品种和卓越品质,已成为全球市场重要力量。文章聚焦巴罗萨谷和石灰岩海岸两大经典产区,分析其地理特征、气候土壤及代表品种,并解读奔富和金锤酒庄的酿造哲学。数据显示,2025年澳洲葡萄酒出口额达248亿澳元,中国市场需求激增123%。产业正向品质驱动转型,两大酒庄通过技术创新与精准营销持续引领市场。

  • 续科天下发布全新XUKE TECH产品体系,为AI时代构建可靠数据基石

    续科天下发布XUKE TECH完整AI数据处理系统,推出Base、Embed、Vault三款核心产品,解决企业AI化过程中的非结构化数据处理难题。该系统能统一处理多模态数据,通过向量化转换和安全存储管理,形成端到端解决方案,帮助企业将70%的数据预处理精力转向模型开发,显著缩短AI项目上线周期,已在金融、互联网等领域验证实效。

  • RingConn智能戒指解码健康数据,亮相上海市医师协会医学大数据创新应用论坛

    9月27日,上海市医师协会医学大数据与转化创新专委会成立,并举办医学大数据创新应用论坛。会议聚焦可穿戴设备的医疗级数据价值,以RingConn智能戒指为例,展示其在持续监测心率、血氧、睡眠呼吸暂停(OSA)筛查等方面的突破。该产品凭借高佩戴率(超80%)和精准数据,正推动健康管理从医院向家庭延伸、从治疗向预防前移。未来,智能可穿戴设备将构建协同生态,实现数据互补与价值共生。

  • 引领资金交易管理系统新时代:ComStar系统携手金仓数据库全面上线

    9月24日,ComStar资金交易管理系统数据库信创项目上线汇报总结会在上海召开。中电科金仓与ComStar团队共同见证项目成功落地,围绕系统性能提升、数据库在金融核心系统应用等议题深入交流。项目验证了金仓数据库在金融交易场景下的技术领先性,部分场景效率提升近三倍,彰显国产数据库支撑金融核心业务的硬核实力。双方达成深化战略合作共识,未来将共同推动金仓数据

  • 宜享花依托AI与大数据技术,推动消费金融合规创新与服务提质

    宜人智科旗下品牌宜享花以人工智能与大数据技术为核心驱动力,构建覆盖全链路的一体化智能服务体系。平台在严格合规框架下,深度融合金融机构与多元场景资源,为消费者提供精准、安全的金融支持,并通过科技创新持续优化风控能力与服务体验。宜享花高度重视合规经营,建立覆盖业务全流程的个人信息保护机制,自主研发“Hawkeye反欺诈管理系统”有效识别并拦截欺诈行为。同时,平台发布《消费者权益保护2024年度报告》,建立六大消保评审维度,强化事前审查与专项检查机制。通过AI技术打造高效、智能的客户服务体系,累计提供智能客服超490万次,智能客服分流率达52%。未来,宜享花将持续深化科技应用,筑牢智能风控防线,完善消费者权益保护,为经济高质量发展注入科技金融新动能。

  • 卖家精灵火热亮相武汉电博会,以大数据+AI驱动跨境电商新增长!

    2025年第十届武汉国际电子商务暨数字贸易博览会于9月19-21日成功举办,主题为“链接全球·数创未来”,展览面积达2万平方米。展会汇聚亚马逊、Wildberries等国际电商平台,通过展览、论坛等形式展示电子商务与数字贸易领域的前沿技术与创新应用。卖家精灵作为亚马逊官方服务商亮相,其“AI市场洞察”功能成为焦点,可基于大数据与人工智能快速生成市场分析报告,帮助卖

  • 腾讯云大数据TBDS重磅升级,助力金融行业构建Data+AI一体化数智新范式

    腾讯云在腾讯全球数字生态大会上宣布,其大数据平台TBDS面向AI时代完成重磅升级。此次升级聚焦“数据与AI一体化”,旨在为金融机构提供兼具数据工程与数据科学能力的综合平台,打破传统数据处理与智能应用间的壁垒。新TBDS通过多模湖仓平台、WeData数智开发治理平台及DataAgent数据智能即服务构成核心架构,实现数据存储、管理、开发、治理与运维全面智能化。平台支持多模数据统一汇聚、异构计算负载调度,并显著提升数据开发到模型上线的全链路效率。在金融场景中,新TBDS已应用于信贷自动审批等业务,帮助机构提质增效。未来,腾讯云TBDS将持续发挥专业化与智能化优势,助力金融行业加速数字化转型。

  • 2025数贸会 | 每日互动:大数据+大模型,重塑营销价值

    9月26日,全球数字生态大会在杭州举行,聚焦AI与大数据如何重塑营销价值。每日互动朱晓鸣提出,企业需转变思维,从数据中洞察价值而非仅追求数据量,并介绍了“大数据联合计算模式”以平衡合规与营销增效。大会还推出AI营销产品AITA助手,结合大数据与行业经验,为品牌提供智能策略,助力降本增效,推动营销新纪元。

今日大家都在搜的词: