首页 > 传媒 > 关键词  > 湖仓最新资讯  > 正文

2025 湖仓(Lakehouse) 趋势展望:开放架构与实时分析融合演进

2025-03-21 11:05 · 稿源: 站长之家用户

1. 为什么湖仓正在成为企业数据架构的必选项?

越来越多的企业正在通过实时数据处理能力构建核心竞争力——用户期待 APP 准确捕捉需求并实时响应,企业员工追求业务系统的秒级反馈,这些场景背后是千亿级数据资产的敏捷调度。

据 IDC 预测,2025 年全球数据量将突破 175 ZB,非结构化数据占比超过 80%,到 2027 年全球数据生成量更将突破 300 ZB。

企业正迎来数据价值释放的黄金阶段,而湖仓(Lakehouse)成为其中的关键引擎:

多模态数据融合:随着 AI 应用深入,结构化、半结构化与非结构化数据的协同分析正创造新的业务场景。湖仓架构原生支持多源异构数据统一管理,让视频分析、文档解析等跨模态分析成为可能。

性价持续突破:采用存算分离架构(如 S3/OSS 对象存储),企业存储成本可降至传统数仓的 10%,同时通过弹性计算资源调度,实现实时查询与批量处理的灵活成本控制。

湖仓架构(Lakehouse)正成为企业实现数据价值的战略性基础设施。

据资料统计,全球实时 Lakehouse 市场规模预计将从 2025 年的 2.85 亿美元增长到 2031 年的 12.41 亿美元,这些数据进一步印证了湖仓架构的战略价值。

通过开放表格式(Iceberg/Hudi/Paimon 等),配合流批一体引擎(如 Flink+StarRocks),企业可实现“One Data,All Analytics”,并以较低的成本获得 PB 级存储和亚秒级查询响应。

过去一年里,湖仓生态链条内工具快速发展壮大,逐渐带领体系走向成熟:

开放表格式统一:Snowflake 开源 Polaris Catalog、Databricks 收购 Tabular,推动 Iceberg 成为跨云数据湖事实标准;AWS S3 与 Azure Data Lake Storage 全面支持 Iceberg,云厂商“站队”开放生态。

元数据层竞争:Unity Catalog 与 Polaris Catalog 开源,标志着元数据管理从“私有协议”走向“开放协作”,企业可跨引擎统一管理权限、血缘与模型。

在数字化转型深水区,湖仓架构为企业提供了“弹性扩展-性能突出-成本可控”三重价值的解决方案。

2. Lakehouse 三大核心技术演进

存储层:统一数据源,低成本支撑全场景分析

存储层实现了“Single Source Of Truth”,支撑 AI 训练、BI 分析等场景的统一存储与用数,避免了传统架构中数据流转产生的损耗,显著降低企业存储成本。

通过开放表格式,存储层支持的数据类型也从结构化扩展到 JSON 等半结构化数据,以及面向 AI 场景的视频、音频等非结构化数据。

另外,存储层还引入了主键索引、向量倒排索引等多级索引体系来提升数据访问效率,同时支持从批量操作到流式实时读写的多种处理模式,满足企业全方位数据需求。

计算引擎层:多元拓展,较好的性价比

计算引擎层呈多元融合发展趋势,典型的如 Spark(批处理)、Flink(流处理)、StarRocks(实时分析)等引擎正在积极拓展自身功能便捷,打破传统细分界限,向统一引擎进化。

同时,引擎层更加注重性价比的提升,通过支持 ARM 架构、GPU 等新型硬件,以及引入全局缓存等创新机制,优化计算效率,在保持引擎专业特性的同时也有更高的资源利用率。

以 StarRocks 为例,作为查询引擎,性能和性价比仍是 StarRocks 优化重点,并将持续增强对湖生态支持,让原本需要多个引擎才能完成的任务用一个统一引擎完成,数据处理更便捷和智能:

提升性价比,提供更好的统计信息收集、索引和物化视图支持以提升性能。

跟进存储层新演进,支持半结构化类型、DELETE Vector 等实时场景优化功能。

实现完整的读写、DDL、存储过程、Table 迁移等功能。

开展数据存储优化工作,如 Compaction 服务和数据自动布局优化。

元数据层:从目录管理迈向数据智能

元数据层的管理范围已从传统的表、视图扩展到 AI 模型、特征、指标等多维度数据资产。通过提供统一的元数据服务,实现对不同计算引擎的无缝对接。在数据治理方面,元数据层也提供了全方位的权限管理、调度编排和数据血缘分析能力。

另外,元数据层也开始与 AI、BI 技术深度融合,支持数据资产的智能发现与管理。目前市场上 Unity Catalog、Gravitino 等解决方案都在积极完善产品能力,推动着元数据管理向更智能化方向发展。

3. 2025 年 4 大趋势预测

随着 Lakehouse 架构在 2024 年获得国际主流认可,2025 年将进入更深层次的发展阶段。基于对市场动态和用户实践的调研,我们认为接下来将有以下四大关键趋势:

趋势一:开放表格式(Iceberg)成为事实标准

随着越来越多企业选择将传统架构(如 Hadoop、ClickHouse 等)迁移到基于开放表格式的湖仓上来,全球市场的开放表格式呈现出“双轨并行”的竞争格局。

海外市场中,Apache Iceberg 凭借其成熟的生态系统和主流云厂商的支持,已确立主导地位,成为开放湖格式的事实标准。而在国内市场,Apache Paimon 则是一部分头部互联网企业的首要技术选择。

二者竞合关系类似于 Spark 与 Flink 的市场格局,两者将在不同场景下相互补充。值得注意的是,Paimon 也已支持生成 Iceberg 兼容的元数据,为用户提供更灵活的技术选择。

趋势二:接口标准化催生出模块化搭建湖仓的机会,更灵活、高性价比

随着开放标准的确立与生态成熟,模块化湖仓架构将获得更多企业(尤其是头部企业)认可。企业可以根据业务需求,通过存储、引擎、元数据的灵活组合,实现特出性价比。

这种转变的主要推动因素:

开放标准日益成熟,使组件之间的协作更加灵活

企业希望避免被单一供应商锁定,实现自由的技术选型

降本增效核心诉求,即更高的性价比

特别是有一定技术实力的头部企业,更倾向于通过灵活组合存储、计算引擎和元数据管理能力,构建最适合自身需求的数据架构,而非选择单一厂商的一体化解决方案。

趋势三:实时湖仓将成为国内企业升级的核心切入点

实时数据处理需求正从“T+1”和小时级向秒级分析演进,这使得实时湖仓成为企业数据架构升级的优选切入点。相比传统架构,实时湖仓方案具有两大优势:满足业务实时性要求和显著降低 TCO(总体拥有成本)。

凭借其出色的流批一体特性,Paimon 在实时场景中表现突出,正获得越来越多国内企业青睐, Paimon+StarRocks 的组合也成为企业实现实时湖仓的选择之一。

镜舟汇总和梳理了过去 1-2 年 StarRocks 在互联网、金融等行业的标杆案例,观察到湖仓技术在中国落地仍需经历三个阶段:

短期:企业会选择以实时湖仓为切入点,通过 Paimon+StarRocks 组合完成快速部署,以响应业务侧需求。同时这一阶段,存算分离将作为重点方案并行发展。

中期:随着生态系统逐步完善,开放湖格式将覆盖更多场景,企业会将选择近实时及部分离线业务迁移到湖仓上来,向统一数据存储与应用靠拢。

长期:传统数仓将逐步被湖仓替代,形成真正统一的 Lakehouse 架构,并支持将 AI 和数据分析场景深度融合,进一步实现数据智能。

趋势四:AI 原生 Lakehouse 成为新的基础设施

湖仓正在成为企业 AI 基础设施的重要组成部分。据毕马威人工智能报告显示,86%的海外企业计划统一其分析数据以支持 AI 开发。而在国内,这一趋势同样明显,诸如腾讯、Bilibili、小红书等头部互联网企业的湖仓架构均涉及了不同程度的 AI 应用。

AI 训练数据需求将推动更多企业从传统数仓迁移到 Lakehouse 架构,例如非结构化数据处理、向量检索等能力诉求。湖仓一体能够支持实时流处理与机器学习,满足模型训练需求。

这四大趋势相互影响、相互促进,共同推动着湖仓技术的演进。不过无论是否考虑选择湖仓架构,企业都需要对自身技术现状进行全面评估。

4. 企业数据平台选型建议

1. 当前企业现有架构评估

首先,企业需要分析当前的数据规模和增长趋势,判断是否面临存储成本过高的问题,是否对实时分析着迫切诉求,以此衡量现有架构对经营与效率产生的影响。其次,要评估现有技术栈的能力和局限性,包括查询性能瓶颈、运维复杂度、上下游拓展适配,以及对新兴 AI 应用的支持能力等。

同时,迁移成本也是一大考量因素。除了基础设施投入成本,还涉及技术、运维团队培训成本、业务中断风险等方面。

通过综合评估,企业能够更清晰地认识到湖仓架构是否真正适合自己,以及迁移方案。

2. 技术选型分析与建议,因需施策

镜舟科技基于过去在湖仓领域的实践经验,梳理了不同业务需求下的技术选型方向,供企业参考:

注重实时分析

有此类场景需求的企业,可以优先关注 StarRocks+Paimon 的组合架构,这种方案不仅能够满足秒级查询需求,还能通过流批一体化处理提供更实时的数据洞察。

以饿了么为例,饿了么从离线数仓 + 实时的 Lamda 架构,升级到 Flink + Paimon + StarRocks Lakehouse 方案,支撑实时交易补贴自助分析、以及客户满意度服务大屏等场景。相比实时数仓,在增加 15% 查询延时下,减少约 90%的存储成本,减少约 50% Flink 计算开销。

注重降本增效

以降本增效为主要目标的企业,选型时可以考虑存算分离架构配合智能缓存策略,成本优势显著,且性能接近存算一体。通过弹性的资源调度和完善的数据生命周期管理,企业可以在满足实时场景需求、保证性能的同时大幅降低运营成本。

注重 AI 应用拓展

开放湖格式(如 Iceberg)在这一场景下具备一定优势,它能够支持多引擎访问,满足不同 AI 训练场景的数据需求,同时通过统一的数据管理降低存储成本,这也解释了为什么越来越多的互联网企业开始将 AI 相关的数据迁移到湖仓架构。

湖仓架构下的数据平台理想实践:小红书

架构升级不仅需要技术选型,更需要深入理解业务需求,并在实践中不断优化和调整。

小红书作为国内领先的互联网企业,通过采用 StarRocks + Iceberg 的湖仓架构,实现了显著的技术突破:

查询性能:P90 查询响应时间提升 3 倍,稳定在 10 秒以内

存储效率:相比原 ClickHouse 架构节省 50% 存储空间

数据治理:引入智能排序键选择机制,持续优化查询效率

架构灵活性:支持多种 Join 策略,提升数据自助分析能力

通过一系列创新性的技术方案,包括实现 DataCache 本地缓存、引入 Z-Order 智能排序、支持灵活的 Join 策略等,将 P90 查询响应时间提升了 3 倍。同时,通过数据跳过(Data Skipping)机制的优化,他们在存储效率上也取得了突破性进展,相比原架构节省了 50%的存储空间。

5. 结语

在数据要素价值化与 AI 爆发的双重驱动下,湖仓一体(Lakehouse)已从技术概念演进为支撑企业数字化转型的核心底座。建议企业关注三个重点方向:

1. 建立面向开放表格式的数据治理体系,通过 Iceberg/Hudi/Paimon/Delta Lake 等标准接口实现跨平台数据引用;

2. 将实时湖仓能力建设纳入战略优先级,借助 StarRocks 等实时引擎释放流式数据价值;

3. 在 AI 基础设施规划中,预留非结构化数据处理能力,构建支持多模态数据应用的未来架构。

作为开源项目 StarRocks 的主要贡献者,镜舟科技也凭借对其深度优化和全栈技术整合能力,将 StarRocks 的高性能 OLAP 引擎与现代湖仓架构相结合,助力企业以低成本、高 ROI 投入湖仓浪潮。

推广

特别声明:以上内容(如有图片或视频亦包括在内)均为站长传媒平台用户上传并发布,本平台仅提供信息存储服务,对本页面内容所引致的错误、不确或遗漏,概不负任何法律责任,相关信息仅供参考。站长之家将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。任何单位或个人认为本页面内容可能涉嫌侵犯其知识产权或存在不实内容时,可及时向站长之家提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明(点击查看反馈联系地址)。本网站在收到上述法律文件后,将会依法依规核实信息,沟通删除相关内容或断开相关链接。

  • 相关推荐
  • 数据分析迎来“智能体”时代,火山引擎披露多智能体架构性能优化关键

    在2025智能大会暨第18届中国R会议上,火山引擎专家分享了Data Agent在业务数据分析中的性能调优实践。报告指出,数据分析正从传统商业智能向数据智能体跃迁,其核心能力扩展到复杂任务的自主执行与决策。Data Agent通过工具生态、运行时管理与安全环境设计,实现全场景覆盖,具备多步骤任务规划与动态调整能力,显著降低企业数据分析门槛并提升洞察效率。未来该技术将融合多模态理解与实时计算能力,在金融、制造、医疗等领域形成规模化落地,成为企业数据价值释放的核心引擎。

  • 格创东智以数据驱动工业能碳管理革新,斩获国家级赛事奖项

    2025年“数据要素×”大赛全国总决赛中,格创东智凭借“能碳大脑平台”项目获“发展潜力奖”。该平台通过采集、存储、管理、应用全流程数据治理,覆盖工业现场多维能耗数据,实现TB级能碳数据高效处理,预测准确率超95%,助力企业降本增效。已应用于半导体、新能源等领域百余家工厂,年降能耗15%-20%,管理效率提升50%,减少碳排放超35万吨,展现显著经济社会效益。

  • 从工具到数智中枢:DocuVerse云办公的生态价值与企业数智化未来

    飞天云DocuVerse云办公系统通过"ECM+AI"双轮驱动,将数字化工具从效率工具升级为企业"数智中枢"。其核心价值在于沉淀分散的员工经验、项目流程等数字资产,构建可复用的知识库,实现个人经验向组织能力的转化。系统突破传统文档管理局限,连接数据、流程与人员,支持快速接入第三方工具并兼容现有设备。产品兼顾中小企业快速部署与大型企业个性化需求,已服务教育、制造等多行业客户,推动企业内容管理从效率提升向价值创造跨越,成为数字化转型的可靠伙伴。

  • 云数据安全态势感知全新上线,筑牢内外网数据安全防线

    本文系统分析了云上数据安全的核心问题与解决方案。主要挑战包括:数据资产分散难管理、访问溯源成本高、风险定位困难、权限滞留易泄露。解决路径需构建统一安全运营视图,通过资产自动发现、AI敏感数据识别、访问关系可视化实现全面监测,结合多维动态分析提供精准管控建议。最终达成“看得见、管得住、防得准”的安全目标,并满足合规审计要求。

  • 卖家精灵将亮相浙江跨交会,以AI+大数据赋能华东卖家高效出海!

    2025年11月25-27日,中国(浙江)跨境电商进出口交易会将在义乌国际博览中心举办。展会聚焦"专业化突围、品牌化出海、全球化布局",设五大展区覆盖海外工厂、全链路服务、未来商业技术等,汇聚超1200家企业。依托义乌产业优势,结合AI智能选品与全域数据方案,助力卖家实现"选市场、找产品、链资源、学实操"全链路赋能,构建"买全球、卖全球"一站式跨境生态。

  • 从GEO指数看品牌成长曲线:数据化洞察的力量

    去年11月某创业公司CEO宣布其AI搜索曝光率突破50%,并强调数据驱动品牌运营的重要性。文章指出,AI搜索平均仅引用2-7个域名,曝光机会稀缺。通过某B2B软件公司的三阶段优化案例:从初始8%曝光率,经竞品分析、内容优化后,三个月提升至50%,验证了GEO指数(生成式引擎优化)的可追踪性。该指数能反映品牌在AI生态中的真实位置,指导内容策略调整,且行业数据显示其ROI达1:3.71,转化率比传统SEO高4.4倍。结论:AI时代品牌成长需依靠数据监测,避免“盲飞”。

  • GEO品牌监控平台横评:哪家工具的数据最准?

    本文测试多款GEO监控工具,发现同一关键词在不同工具中曝光率差异高达40%,直接影响AI推荐排名。通过对比测试,国际工具覆盖ChatGPT等平台但缺失国产AI,国内工具AIBase专注豆包、DeepSeek等平台,准确率达90%且提供竞品对比、场景还原等深度分析。建议国内企业首选AIBase,全球化业务可组合使用国际工具,并强调工具核心价值在于通过数据持续优化内容策略。

  • 顺网科技召开三季度业绩说明会,披露云业务关键数据:5万路可运营算力居行业领先

    顺网科技2025年第三季度实现营收15.09亿元,同比增长8.04%;归母净利润3.24亿元,同比大幅增长52.59%。公司重点披露算力云业务进展:已落地300多个边缘机房,覆盖全国近200个城市,服务超80万终端设备,其中电竞级算力规模达5万路,位居行业前列。游戏生态持续扩展,与B站联合推出卡牌游戏《三国:百将牌》。AI布局稳步推进,推出内置多模型的AI云电脑,并搭建AI基础设施平台。公司通过优化业务结构,聚焦高价值领域,强化长期竞争力。

  • 下一代企业 AI 基础设施要来了?云天励飞与金蝶共建融合新范式

    11月4日,云励飞与金蝶在2025全球创见者大会上签署战略合作协议。双方将以企业数字化软件生态与国产AI算力底座为双引擎,打通“算力-软件-场景”全链路,推动AI推理能力融入企业数字化全流程,打造国内首个算力与软件生态深度融合标杆。未来计划联合推出软硬件一体化方案,共建实验室,聚焦技术攻关与行业创新,优化AI在企业管理中的应用体验,助力政企数字化智能化转型,为国产算力规模部署提供实践路径。

  • 智能问数:让数据 “开口”,让 BI 价值 “焕新”

    在数字经济时代,传统BI模式因技术壁垒使数据价值难以释放。智能问数通过自然语言交互,让非技术人员直接对话数据,快速获取洞察,实现从“为报表而生”到“为决策赋能”的转变。其核心架构融合智能问数、数据洞见与动态分析,支持多轮对话优化可视化呈现,并引入数据洞见能力,助力企业看清过去、把握现在、预判未来,重塑数据驱动增长的新范式。

今日大家都在搜的词: