首页 > 传媒 > 关键词  > 数据分析技术最新资讯  > 正文

StarRocks 3.0引领Lakehouse湖仓架构,实现One data, all analytics业务价值

2024-06-24 14:43 · 稿源: 站长之家用户

大数据时代数据分析技术不断演进,从数据仓库到数据湖,再到数据湖仓,企业如何选择合适的数据分析架构?本文将深入探讨数据湖仓(Lakehouse)的概念,以及StarRocks3.0如何引领这一创新架构,实现数据的有效分析与决策支持。

一、数据仓库的演进与挑战

数据仓库自1980年代以来一直是企业数据分析的核心。关系型数据库、日志文件等数据源的数据经过 ETL 处理,统一存储到数据仓库,用于服务 BI 报表、数据挖掘等分析场景。

数据仓库在数据质量、事务处理、查询性能、数据治理等方面有明显的优势,但随着数据分析的需求越来越大,数据仓库的方案也面临一些挑战。

1.数据多样化:除了结构化的数据,半结构化、非结构化的数据越来越多。

2.数据孤岛问题:数据仓库面向主题管理,导致数据分散形成孤岛,难以形成全局统一的数据分析。

3.成本与扩展性:大数据量增长带来数据存储成本与横向扩展的问题。

4.高 级数据分析支持:数据仓库能很好的支持 BI 相关应用,但随着 AI 的发展,AI 应用与数据仓库的数据交互效率不高,制约了 AI 应用的发展。

二、数据湖的创新与发展

2010年,数据湖概念的提出为企业提供了一种新的数据存储与分析方式。

如果把数据仓库/集市类比为瓶装水,数据湖则是以更加原生态方式存储数据的大池子。数据湖的核心优势是统一与开放,数据基于对象存储、HDFS 等系统实现低成本、可扩展的 数据存储,并作为企业数据的 Single Source of Truth(SSOT);同时数据的数据格式是开放的,便于不同的应用灵活访问。

数据湖解决了数据成本与扩展性、数据多样性、数据孤岛等问题,并同时满足 BI 与 AI 应用对数据分析的诉求;但数据湖在数据分析性能、数据管理与治理方面仍然存在较大的挑战。

三、湖仓分层架构的融合与应用

业界探索数据仓库与数据湖的融合,湖仓分层架构应运而生。

数据仓库与数据湖各有长处,业界持续在探索两者如何更好的融合,在过去几年湖仓分层的架构的到广泛的应用。企业数据统一写到数据湖,作为统一存储,湖上开放的数据可以服务 AI、ML 等应用场景;数据湖上部分数据经过 ETL 处理导入到数据仓库服务 BI 等 OLAP 分析场景。

湖仓分层架构融合了数据湖与数据仓库的优势,但面临一些问题与挑战。部分数据从数据湖导入到数据仓库,数据链路的增长影响数据分析的时效性,两份数据也会带来冗余存储、数据口径不一致的问题;另外,对于数据仓库里加工产生的数据,仍然很难有效的服务 AI 场景。

四、数据湖仓的兴起

数据湖仓作为新一代数据分析架构,兼具数据仓库与数据湖的优势。

新兴的数据仓库如 Snowflake、Redshift、BigQuery 均采用云原生存算分离架构演进,并且支持直接查询开放数据湖的能力。数据湖在事务支持、查询性能等方面的能力不如数据仓库,近年来随着新兴数据湖格式如 Iceberg、Hudi、Delta Lake 等的发展,事务支持能力得到提升。

另外,在查询性能上,通过不断优化数据湖上的数据分布以及增加缓存机制等技术的演进,数据湖上的数据分析性能已经大幅提升,达到接近数据仓库的水平。

从数据湖和数据仓库的演进来看,两者在不断的融合,并逐步往数据湖仓的方向演进,兼具数据湖与数据仓库的优势。数据湖仓作为一种新的数据分析架构,用户采用湖仓就能方便将数据源和数据应用连接在一起。

数据湖仓兼具数据仓库与数据湖的优势,湖仓具备开放统一的数据存储能力,并基于统一存储直接服务批处理、流处理、交互式分析等多种分析场景,实现湖仓 One data,all analytics 的业务价值。

五、StarRocks  3.0:湖仓技术创新

StarRocks2.0版本凭借其优异的查询性能在业界得到广泛应用,很多用户采用湖仓分层架构,并将 Hive、Iceberg 等数据湖里的数据部分导入到 StarRocks 服务 OLAP 分析场景。

StarRocks3.0的存算分离架构、极速湖仓分析和物化视图技术,为用户提供了有效、灵活的数据分析解决方案。

特性1:存算分离架构

StarRocks 存算分离2023年4月正式发布,目前已有上百家用户上线存算分离架构。与存算一体架构相比,保持了原有简洁的架构;同时极大的降低数据存储成本,提升计算的弹性能力。

访问远端对象存储的延时相比本地存储有数量级的提升,StarRocks 通过 Data Cache 机制提升数据访问性能,确保热数据与存算一体架构接近。根据实际测试,存算分离缓存命中的情况与存算一体架构相比性能完全相同;在完全冷查询时,性能大概是存算一体的30-50%。

在存算分离架构下,StarRocks 可以方便的支持 Multi-warehouse 的能力;多个 Warehouse 共享一份数据,不同 Warehouse 应用在不同的 Workload,计算资源可以进行物理隔离,并且可以按需独立弹性伸缩。

特性2:极速湖仓分析

StarRocks3.0提供统一 Catalog 管理的能力,用户不仅能有效分析导入到 StarRocks 的数据,同时也支持直接分析开放数据湖 Apache Hive、Apache Iceberg、Apache Hudi、Apache Paimon 的数据,分析性能相比业界同类产品快3-5倍。

StarRocks 在查询层 CBO、向量化、Runtime filter 等技术可以无缝应用到开放数据湖分析,但湖上数据分析还面临一些其他挑战。湖上数据一般以原始格式存储,数据组织上没有针对查询优化,同时访问远端对象存储/HDFS 的延时相比本地盘更高。StarRocks 通过 I/O 合并、延迟物化、Data cache 等一系列关键技术加速湖上数据分析。另外,为了让用户平滑的获得 StarRocks 极速湖仓分析性能,StarRocks 实现了 Trino 方言的兼容,用户可以采用 StarRocks 无缝直替 Trino。

特性3:物化视图

StarRocks 物化视图提供了一种从预建模到后建模的方法,大大缩短业务建模以及上线时间。业务可以直接查询原始数据,借助 StarRocks 极 致的查询性能,已经能满足绝大部分场景的需求;如果直接查询性能不满足,则可以按需构建物化视图来加速查询,StarRocks 支持物化视图的透明查询改写,实现业务无感的情况下实现查询加速。

湖仓应用:基于 StarRocks 构建 Lakehouse

基于 StarRocks,用户可以有效的构建 Lakehouse 数据分析架构,用户可以选择 StarRocks 内表或开放数据湖 Apache Iceberg、Apache Hudi、Apache Paimon 做为统一的数据存储,基于 StarRocks 服务BI报表、Ad-hoc 等多样化的分析场景,对于业务性能要求高的查询,通过物化视图技术实现按需透明加速。

六、互联网用户的湖仓最 佳实践案例

本段落分析了腾讯微信、携程旅行等企业如何利用StarRocks实现数据的准实时分析和查询性能的显著提升。

1.腾讯微信:数据写入到 Iceberg,基于StarRocks实现准实时分析,数据新鲜度从小时/天到分钟即,查询性能提升3-6倍。

2.携程旅行:数据统一存储在Hive,通过 StarRocks直接服务BI报表,交互式分析。重点业务场景按需创建物化视图查询加速,查询性能提升10+倍

结语

Lakehouse 兼具数据仓库与数据湖的优势,是下一代数据分析架构的演进趋势;StarRocks 是构建 Lakehouse 的佳选,已在微信、小红书、携程、平安银行等数十个大型企业落地实践,帮助企业实现 One data、all analytics 的业务价值。

推广

特别声明:以上内容(如有图片或视频亦包括在内)均为站长传媒平台用户上传并发布,本平台仅提供信息存储服务,对本页面内容所引致的错误、不确或遗漏,概不负任何法律责任,相关信息仅供参考。站长之家将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。任何单位或个人认为本页面内容可能涉嫌侵犯其知识产权或存在不实内容时,可及时向站长之家提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明(点击查看反馈联系地址)。本网站在收到上述法律文件后,将会依法依规核实信息,沟通删除相关内容或断开相关链接。

  • 相关推荐
  • StarRocks 优化实践:揭秘毫秒级实时分析的三大核心技术

    StarRocks是一款高性能实时分析数据库,通过三大核心技术解决海量数据分析难题:1)向量化执行引擎,采用批处理方式减少CPU开销,支持SIMD指令集加速计算;2)CBO优化器,基于统计信息智能选择最优执行计划,支持复杂查询改写和物化视图优化;3)列式存储结构,结合稀疏索引和Bitmap索引提升I/O效率。其企业级产品镜舟数据库在此基础上增强多租户隔离、RBAC权限控制等特性

  • 火山引擎Data Agent体验中心正式上线!企业级AI数据专家触手可及

    火山引擎数智平台开放企业级数据智能体Data Agent体验中心,用户可零门槛体验"企业数字专家"在数据垂直领域的深度能力。该产品定位为"企业第一位AI数据专家",已上线股票分析、经营复盘、营销策略等6大场景应用。通过"数据+知识"融合、人机协同等核心价值,突破传统分析工具边界,实现从描述性分析到行动建议的跨越。作为L3级智能体,它能将企业内外部信息转化为可量化数字资产,显著降低数据使用门槛,提升决策效率。Gartner预测到2028年至少15%的日常决策将由AI自主完成。火山引擎此举标志着企业数据应用正式进入"动态智能体"时代。

  • 出门问问发布Agentic AI软硬结合产品TicNote,定义新一代“AI思考伙伴”

    出门问问发布新一代AI硬件TicNote,内置"Shadow AI"系统,实现"有记忆的AI记录+主动洞察+主动分析+陪伴创作"功能。该产品通过软硬件结合,成为用户的随身AI思考伙伴,适用于会议、商务沟通、学习等场景。TicNote具备20小时续航、10米远距收音、120+语言转写能力,支持跨文件项目管理。CEO李志飞表示,TicNote是"用AI的AI做AI"的AGI实践产品,标志着公司在软硬结合道路上更进一步。国内版已上线,海外版自2025年4月推出以来获广泛认可。

  • DigitalOcean 携手 AMD 推出 AMD Instinct MI300X GPU Droplet,加速 AI 创新

    DigitalOcean与AMD达成合作,将推出搭载AMD Instinct MI300X GPU的云服务器,支持AI/ML/HPC工作负载。该GPU具备192GB HBM3内存,能完整加载数十亿参数模型,显著提升训练和推理效率。服务定价每小时1.99美元起,支持1-8个GPU配置,并与Kubernetes无缝集成。未来还将推出MI325X GPU,并面向中国市场提供服务。此次合作旨在为开发者提供经济高效的AI开发解决方案,简化云端GPU部署流程。

  • AI日报:百度发布“绘想”平台与MuseSteamer;阿里音频驱动全身数字人模型OmniAvatar

    【AI日报】今日AI领域重要动态:1.开源语音大模型Step-Audio-AQAA发布,实现音频到语音的端到端自然转换;2.百度推出"绘想"平台与MuseSteamer,通过AI一键生成专业级视频;3.浙大与阿里联合发布OmniAvatar,音频驱动数字人技术取得突破;4.百度搜索迎十年来最大改版,新增智能框、百看和AI助手功能;5.xAI开发者控制台新增Grok4及Grok4Code引用,预示新一代AI模型即将发布;6.Gemin

  • 苹果公布 Intel Mac 支持终止时间表,Rosetta 2 也将逐步淘汰

    苹果近日正式确认,对 Intel 架构 Mac 的支持即将画上句号,而 Rosetta 2 应用转换功能也将进入淘汰阶段。

  • AI日报:阿里开源3D数字人项目MNN TaoAvatar;MiniMax Agent上线;罗永浩数字人直播再探“AI+IP”带货模式

    本文汇总了AI领域最新动态:1)阿里开源MNN+TaoAvatar技术,实现手机端3D数字人实时交互;2)MiniMax升级AI工具Agent,新增智能图像搜索和多语言支持;3)罗永浩数字人将登陆百度电商直播;4)OpenAI员工套现近30亿美元,软银成最大接盘方;5)ChatGPT推出深度研究和语音模式升级;6)Meta发布V-JEPA2模型,提升机器人环境适应能力;7)AMD与OpenAI合作推出新一代AI芯片;8)Google Gemini集成Imagen4图像生成模型;9)谷歌AI实现10公里级精准天气预报;10)Gartner预测到2028年80%的AI应用开发时间将缩短50%。

  • 九章云极发布“AI-STAR企业生态联盟”,首期投入1.8亿元

    2025年6月16日,九章云极DataCanvas公司在智能计算论坛上发布"AI-STAR企业生态联盟",推出开放的九章智算云Alaya NeW Cloud服务市场。同时宣布与赛富投资基金等机构联合设立1.8亿元"AI-STAR智算生态基金"。未来三年,公司将通过"开放服务市场+生态基金投资"模式,在AI高端算力、模型工具链、智能体应用等领域赋能生态伙伴。九章智算云Alaya NeW Cloud提供丰富的开源AI工具链及算力自选服务,支持主流大模型和衍生模型。公司强调开源开放是AI普及的核心驱动力,正构建开放的AI生态系统,为全球企业提供算力、工具、资金等全方位支持。

  • CertiK 联合创始人顾荣辉做客纽交所,剖析 Web3.0 安全挑战与未来趋势

    2025年5月21日,CertiK联合创始人顾荣辉教授在纽约证券交易所接受FintechTV专访,深入探讨Web3.0领域的安全问题。访谈聚焦Bybit和Coinbase近期安全事件,分析其暴露的系统性风险,并展望Web3.0安全发展趋势。顾教授指出,2025年第一季度全球区块链安全事件损失达16.7亿美元,其中Bybit的Safe Wallet遭新型攻击尤为突出,凸显Web3.0多层防护的迫切需求。他强调行业需加速构建更韧性的安全机制,呼吁完善监管框架,将网络安全纳入核心范畴。作为新加坡金管局顾问,顾教授建议监管制度需持续迭代,尤其在私钥保护等关键环节提供明确指引。他指出Web3.0行业对数据隐私的重视远超传统金融,推动行业向"用户为中心、安全优先"转型。未来监管框架、网络安全和数据隐私将成为推动Web3.0健康发展的三大支柱。CertiK作为全球最大Web3.0安全公司,持续为行业提供全周期安全产品和服务。

  • 持续战略投入,华为云Stack做智能时代更懂政企的云

    6月21日,华为云在开发者大会2025上举办"华为云Stack,做智能时代更懂政企的云"高峰论坛。论坛汇聚政府、金融、央国企等领域的政企用户及专家,围绕政企数字化转型展开探讨。华为云提出通过混合云架构帮助政企客户实现AI技术落地,已服务政务、金融、制造等多个领域。会上发布《政企AI平台架构及应用实践》白皮书,分享行业实践经验。湘钢集团基于华为云Stack构建了统一AI训练中心,上线32个智能场景;成都城投智建集团联合华为打造城市数据空间,推动全域数字化转型。华为云Stack下半年将适配CloudMatrix384超节点混合云,为政企提供澎湃AI算力。