首页 > 传媒 > 关键词  > 正文

湖仓一体:揭秘数据湖架构现代化之道

2023-07-18 10:28 · 稿源: 站长之家用户

( 2023 年 7 月 17 日,北京) 数据湖诞生至今已有十多年的历史,为全球一些最 大的企业提供了数据分析的支持。然而,也有人认为,绝大多数数据湖部署已经演变成为“数据沼泽”。不论你站在哪一边,现实情况是,这些系统中仍然承载着大量的数据。这些数据规模庞大,使得移动、迁移或对其进行现代化都变得异常困难。

数据湖的巨大挑战: 单一结构的架构问题

从较高层次来看,数据湖是一个大规模的单一数据存储库。数据可以以原始形式存储,也可以经过优化,采用适合专用引擎使用的不同格式。

就Hadoop而言,它是最 受欢迎的数据湖之一,通过使用开源软件实现该存储库,并在通用硬件上运行,可以以非常低的成本在系统中存储大量数据。数据可以以开放的数据格式进行持久化,从而实现了数据消费的民主化,并通过自动复制提供了高可用性的支持。默认的处理框架具备从故障中恢复的能力。这无疑是与传统分析环境有着显著差异的重要转变,传统数据分析环境往往意味着供应商锁定以及无法处理大规模数据。

另一个出乎意料的挑战是将Spark引入作为大数据处理框架。由于其支持数据转换、流式处理和SQL,它迅速获得了广泛的认可。然而,它并未能与现有的数据湖环境友好共存,因此通常需要额外的专用计算集群才能运行Spark。

我们将时间前移 15 年回到当下,现实已经清楚地表明了这项技术所涉及的权衡和妥协。其快速的采用意味着客户很快失去了对数据湖中数据的追踪。同样具有挑战的是,他们无法确定数据的来源、获取方式以及在处理过程中的转换方式。数据治理仍然是这项技术中尚未探索的领域。虽然软件可能是开源的,但需要有人学习如何使用、维护和支持它。仅依赖社区支持并不能持续满足业务运营所需的响应时间。高可用性通过复制实现则意味着需要更多磁盘上的数据副本,增加存储成本,并导致故障更加频繁。而高可用的分布式处理框架则意味着不得不在性能方面做出妥协,以换取弹性(这将导致交互式分析和商业智能的性能严重下降)。

为何要对数据湖进行现代化?

数据湖在特定的使用场景中已经被证明是成功的。然而清楚的是,企业迫切需要对这些部署进行现代化,保护基础设施、技能和存储在这些系统中的数据的投资。

在寻找答案的过程中,行业研究了现有的数据平台技术及其优势。很明显,有效的方法是将传统的(或者说是遗留的)数据仓库或数据集市的关键特性与数据湖的优势结合起来。以下几个关键要素迅速浮出水面:

- 具备弹性和可扩展的存储,能够满足日益增长的数据规模需求。

- 采用开放的数据格式,使数据对所有人都可访问,同时针对高性能进行优化,并具备良好定义的结构。

- 开放的元数据(可共享),能够支持多个消费引擎或框架。

- 支持数据更新(ACID特性)和事务并发处理。

- 综合的数据安全和数据治理(如数据血缘、完整的数据访问策略定义和执行,包括地理分布)。

上述要素导致了湖仓一体的出现。湖仓一体是一种数据平台,是将数据仓库和数据湖的优点融合在一起,形成统一、协调的数据管理解决方案。

利用watsonx.data来现代化数据湖的好处

站在当下数据分析的十字路口,IBM的回应是为企业提供watsonx.data解决方案,这是一个用于大规模数据管理的新型开放式数据存储,允许企业在无需迁移的情况下围绕、增强和现代化其现有的数据湖和数据仓库。它支持开放式的多云与混合云,可以在客户管理的基础设施(本地或者私有云)和公有云上运行。它建立在湖仓一体架构之上,并嵌入了一整套解决方案(以及通用软件堆栈),适用于所有形态。

与市场上的竞品相比,IBM的方法基于开源堆栈和架构。这些组件并不是新的,而是业界已经广泛使用的成熟组件。IBM关注它们的互操作性、共存性和元数据交换。用户可以快速入门,从而大大降低了入门和使用的成本,因为其上层架构和基础概念是大家熟悉且直观的:

- 通过对象存储实现开放的数据(和表格格式)

- 通过S3 进行数据访问

- 使用Presto和Spark进行查询计算(SQL、数据科学、转换和流处理)

- 通过Hive和兼容结构实现开放的元数据共享

Watsonx.data为企业提供了一种保护他们在数据湖和数据仓库数十年投资的方式,使企业可立即扩展并逐步现代化其安装,将每个组件专注于对企业最重要的使用场景。

一个关键的差异化因素是多引擎策略,允许用户在统一的数据平台上根据实际情况选择适合的技术。watsonx.data使客户能够实现完全动态的分层存储(以及相关的计算)。随着时间的推移,这可以带来非常显著的数据管理和处理的成本节省。

如果最终企业的目标是通过湖仓一体架构来现代化现有的数据湖部署,那么watsonx.data则通过选择计算方式来最小化数据迁移和应用迁移,从而简化了任务。

接下来可以做什么?

在过去的几年里,数据湖在大多数企业的数据管理策略中发挥了重要作用。如果企业的目标是对其数据管理策略进行演进并现代化为真正的混合分析云架构,那么IBM基于湖仓一体架构构建的新型数据存储watsonx.data,则是值得企业考虑的技术选择。( 作者: Hebert W.Pereyra,IBM 杰出工程师,Hybrid Data Management首席架构师 / 译者: 刘俊 ,IBM watsonx.data开发架构师 )

关于IBM

IBM 是全球领先的混合云、人工智能及企业服务提供商,帮助超过 175 个国家和地区的客户,从其拥有的数据中获取商业洞察,简化业务流程,降低成本,并获得行业竞争优势。金融服务、电信和医疗健康等关键基础设施领域的超过 4000 家政府和企业实体依靠 IBM 混合云平台和 Red Hat OpenShift 快速、有效、安全地实现数字化转型。IBM 在人工智能、量子计算、行业云解决方案和企业服务方面的突破性创新为我们的客户提供了开放和灵活的选择。对企业诚信、透明治理、社会责任、包容文化和服务精神的长期承诺是 IBM 业务发展的基石。

推广

特别声明:以上内容(如有图片或视频亦包括在内)均为站长传媒平台用户上传并发布,本平台仅提供信息存储服务,对本页面内容所引致的错误、不确或遗漏,概不负任何法律责任,相关信息仅供参考。站长之家将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。任何单位或个人认为本页面内容可能涉嫌侵犯其知识产权或存在不实内容时,可及时向站长之家提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明(点击查看反馈联系地址)。本网站在收到上述法律文件后,将会依法依规核实信息,沟通删除相关内容或断开相关链接。

  • 相关推荐
  • 数智赋能社区物业联建共治——住欣家园探索“智慧居委会”基层治理现代化新路径

    当前各地探索社区与物业共建共治虽积累经验,但整体仍依赖人际协调和会议推动,缺乏稳定长效机制。平台联建通过数据共享破解基层采集难题,如住欣家园对接门禁、停车系统,实现信息实时更新,提升治理效率。专家指出物业数据可用于公共管理,但须规范使用范围。联建机制促进社区与物业协同,通过智能工单、联合巡查等提升服务响应,居民满意度明显提高,物业费收缴率改善。实践表明,共建共治需以组织联建为基础、服务联建凝聚共识,平台联建落地见效,推动基层治理现代化。

  • 重构屋顶空间:阳光新能源iGarden打造集发电、休闲、美观于一体的人生享受

    在现代家居理念升级的背景下,屋顶空间正被重新定义为家庭生活的延伸场所。阳光新能源推出的iGarden七彩阳光房,将发电功能与生活空间完美融合,成为越来越多家庭的“第二客厅”。其设计注重空间开阔与视觉连贯,配合天窗等组件营造明亮通透的氛围,用户可在此布置休闲家具,打造优质户外场地。产品具备可调倾角(3°-20°)、专利排水系统、模块化安装等技术创新,确保高效发电与强抗风能力(可抵御12级强风)。iGarden不仅满足绿色建筑与智慧能源需求,更体现了光伏产品从功能导向转向体验导向的趋势,成为提升生活品质的重要载体。

  • 行业最高“送装一体率”,日日顺供应链获抖音电商认可

    9月17日,抖音电商在上海举办2025年第三季度服务商大会。日日顺供应链作为官方大件物流服务商,凭借家电、家居行业最高的送装一体率获得认可。其通过AI驱动的数字化云仓方案,解决大件商品送装分离等行业痛点,并迭代“送新拆旧”等创新服务模式。未来抖音电商将建立针对大件安装类供应商的评价体系,日日顺将持续发挥送、装、修、服全链路一体化服务能力,为平台商家提供高效履约支持。

  • 小鹅通培训行业一体化解决方案:从获客到交付,帮你打通增长全链路!

    培训行业面临流量成本攀升、市场竞争激烈等困境,传统经营模式遭遇挑战。小鹅通推出培训行业一体化解决方案,通过公域引流、客户分配、培育转化、产品交付、推广传播全链路赋能,帮助商家实现多流量承接与高效用户运营。方案支持广告落地页搭建、私域营销、客户分配机制、用户标签体系等功能,提升获客转化与留存效率,助力商家构建可持续的私域增长体系。

  • 一箱收纳,双模一体|思看科技发布跟踪式光笔测量系统NimProbe

    思看科技9月17日发布NimProbe跟踪式光笔测量系统,采用无线轻量化设计,由手持光笔i-Probe和光学跟踪器i-Tracker组成。创新融合探测与扫描模式,覆盖夹具调装、基准划线及高精度零部件尺寸检测等场景,为工业检测和智能制造提供灵活高效的三维测量方案。系统兼容第三方平台,支持有线/无线模式切换,性能稳定可靠,适配多种测针和转接件,适用于汽车制造、航空航天等复杂结构测量需求。

  • 芯片架构大战,联发科旗舰领跑

    ​全世界对计算机的需求量总共可能只有5台”。1943年,IBM 董事长托马斯·沃森做出这个著名误判时,无法想象未来每个人口袋里的手机的算力都远超当年的超级计算机。 "640KB 内存对任何人都足够了”,38年之后,虽真实性存疑,但广泛流传出自比尔·盖茨的这句话同样成为技术预判失误的经典案例。 这些预言之所以被历史铭记,不仅因为它们错了,更因为它们揭示了技�

  • 素材同质化?转化跳失率高?听听掌慧科技数据和广告专家怎么说?

    掌慧科技打造的“出海聚能学院”首期直播成功上线,聚焦“2025移动游戏数据洞察”主题,邀请点点数据刘威和NewsBreak专家Cecile Cao分享行业洞见。直播吸引近2000人参与,探讨了游戏出海趋势、SLG品类轻量化、中东市场机遇等热点。专家指出在存量竞争时代需以数据驱动增长,并推荐垂直媒体精准获客。直播干货满满,后续还将每月举办系列分享助力行业发展。

  • 《海尔质量管理之道:从零距离到零边界》发布,人单合一破解AI时代质量管理难题

    《海尔质量管理之道:从零距离到零边界》新书发布,系统总结海尔40年质量管理经验。该书以“用户永远是对的”为核心理念,从早期“砸冰箱”事件到人单合一模式,展现了海尔质量管理的演进历程。书中强调在数字时代,企业需重新定义质量管理,通过零距离直面用户、零边界整合资源,实现用户体验至上。为全球企业高质量发展提供了中国模式的借鉴与参考。

  • 2025,抖音电商作者如何更好带货?揭秘八个关键原理

    当西装革履、英语流利的@马斯诺,站在西北农田里卖南瓜时,没人能想到靠这种强烈反差,他只用一条视频就卖出了1.8万单贝贝南瓜,还收获了“西海固外交官”的称号。 他的成功不是简单的卖货,而是在用故事和内容打动消费者。而这正是抖音电商时代“带货”逻辑升级的最佳缩影。 在「克劳锐」看来,如今的商品售卖的本质不再是单纯销售,而是内容创造,他们卖的不

  • 海信变频S架构:引领全球变频技术,开启舒适省电新时代

    海信空调在IFA2025展会上凭借变频S架构新品荣获多项创新大奖。该架构采用全栈自研技术,实现15秒速冷、30秒速暖,控温精度达±0.1℃,节能模式下电费可省50%。同时升级“金刚舱”与“信芯冰脉”技术,提升耐用性与极端环境适应性。产品承诺“10年不生锈”,满足用户对舒适与节能的双重需求。

今日大家都在搜的词: