首页 > 传媒 > 关键词  > 正文

湖仓一体:揭秘数据湖架构现代化之道

2023-07-18 10:28 · 稿源: 站长之家用户

( 2023 年 7 月 17 日,北京) 数据湖诞生至今已有十多年的历史,为全球一些最 大的企业提供了数据分析的支持。然而,也有人认为,绝大多数数据湖部署已经演变成为“数据沼泽”。不论你站在哪一边,现实情况是,这些系统中仍然承载着大量的数据。这些数据规模庞大,使得移动、迁移或对其进行现代化都变得异常困难。

数据湖的巨大挑战: 单一结构的架构问题

从较高层次来看,数据湖是一个大规模的单一数据存储库。数据可以以原始形式存储,也可以经过优化,采用适合专用引擎使用的不同格式。

就Hadoop而言,它是最 受欢迎的数据湖之一,通过使用开源软件实现该存储库,并在通用硬件上运行,可以以非常低的成本在系统中存储大量数据。数据可以以开放的数据格式进行持久化,从而实现了数据消费的民主化,并通过自动复制提供了高可用性的支持。默认的处理框架具备从故障中恢复的能力。这无疑是与传统分析环境有着显著差异的重要转变,传统数据分析环境往往意味着供应商锁定以及无法处理大规模数据。

另一个出乎意料的挑战是将Spark引入作为大数据处理框架。由于其支持数据转换、流式处理和SQL,它迅速获得了广泛的认可。然而,它并未能与现有的数据湖环境友好共存,因此通常需要额外的专用计算集群才能运行Spark。

我们将时间前移 15 年回到当下,现实已经清楚地表明了这项技术所涉及的权衡和妥协。其快速的采用意味着客户很快失去了对数据湖中数据的追踪。同样具有挑战的是,他们无法确定数据的来源、获取方式以及在处理过程中的转换方式。数据治理仍然是这项技术中尚未探索的领域。虽然软件可能是开源的,但需要有人学习如何使用、维护和支持它。仅依赖社区支持并不能持续满足业务运营所需的响应时间。高可用性通过复制实现则意味着需要更多磁盘上的数据副本,增加存储成本,并导致故障更加频繁。而高可用的分布式处理框架则意味着不得不在性能方面做出妥协,以换取弹性(这将导致交互式分析和商业智能的性能严重下降)。

为何要对数据湖进行现代化?

数据湖在特定的使用场景中已经被证明是成功的。然而清楚的是,企业迫切需要对这些部署进行现代化,保护基础设施、技能和存储在这些系统中的数据的投资。

在寻找答案的过程中,行业研究了现有的数据平台技术及其优势。很明显,有效的方法是将传统的(或者说是遗留的)数据仓库或数据集市的关键特性与数据湖的优势结合起来。以下几个关键要素迅速浮出水面:

- 具备弹性和可扩展的存储,能够满足日益增长的数据规模需求。

- 采用开放的数据格式,使数据对所有人都可访问,同时针对高性能进行优化,并具备良好定义的结构。

- 开放的元数据(可共享),能够支持多个消费引擎或框架。

- 支持数据更新(ACID特性)和事务并发处理。

- 综合的数据安全和数据治理(如数据血缘、完整的数据访问策略定义和执行,包括地理分布)。

上述要素导致了湖仓一体的出现。湖仓一体是一种数据平台,是将数据仓库和数据湖的优点融合在一起,形成统一、协调的数据管理解决方案。

利用watsonx.data来现代化数据湖的好处

站在当下数据分析的十字路口,IBM的回应是为企业提供watsonx.data解决方案,这是一个用于大规模数据管理的新型开放式数据存储,允许企业在无需迁移的情况下围绕、增强和现代化其现有的数据湖和数据仓库。它支持开放式的多云与混合云,可以在客户管理的基础设施(本地或者私有云)和公有云上运行。它建立在湖仓一体架构之上,并嵌入了一整套解决方案(以及通用软件堆栈),适用于所有形态。

与市场上的竞品相比,IBM的方法基于开源堆栈和架构。这些组件并不是新的,而是业界已经广泛使用的成熟组件。IBM关注它们的互操作性、共存性和元数据交换。用户可以快速入门,从而大大降低了入门和使用的成本,因为其上层架构和基础概念是大家熟悉且直观的:

- 通过对象存储实现开放的数据(和表格格式)

- 通过S3 进行数据访问

- 使用Presto和Spark进行查询计算(SQL、数据科学、转换和流处理)

- 通过Hive和兼容结构实现开放的元数据共享

Watsonx.data为企业提供了一种保护他们在数据湖和数据仓库数十年投资的方式,使企业可立即扩展并逐步现代化其安装,将每个组件专注于对企业最重要的使用场景。

一个关键的差异化因素是多引擎策略,允许用户在统一的数据平台上根据实际情况选择适合的技术。watsonx.data使客户能够实现完全动态的分层存储(以及相关的计算)。随着时间的推移,这可以带来非常显著的数据管理和处理的成本节省。

如果最终企业的目标是通过湖仓一体架构来现代化现有的数据湖部署,那么watsonx.data则通过选择计算方式来最小化数据迁移和应用迁移,从而简化了任务。

接下来可以做什么?

在过去的几年里,数据湖在大多数企业的数据管理策略中发挥了重要作用。如果企业的目标是对其数据管理策略进行演进并现代化为真正的混合分析云架构,那么IBM基于湖仓一体架构构建的新型数据存储watsonx.data,则是值得企业考虑的技术选择。( 作者: Hebert W.Pereyra,IBM 杰出工程师,Hybrid Data Management首席架构师 / 译者: 刘俊 ,IBM watsonx.data开发架构师 )

关于IBM

IBM 是全球领先的混合云、人工智能及企业服务提供商,帮助超过 175 个国家和地区的客户,从其拥有的数据中获取商业洞察,简化业务流程,降低成本,并获得行业竞争优势。金融服务、电信和医疗健康等关键基础设施领域的超过 4000 家政府和企业实体依靠 IBM 混合云平台和 Red Hat OpenShift 快速、有效、安全地实现数字化转型。IBM 在人工智能、量子计算、行业云解决方案和企业服务方面的突破性创新为我们的客户提供了开放和灵活的选择。对企业诚信、透明治理、社会责任、包容文化和服务精神的长期承诺是 IBM 业务发展的基石。

推广

特别声明:以上内容(如有图片或视频亦包括在内)均为站长传媒平台用户上传并发布,本平台仅提供信息存储服务,对本页面内容所引致的错误、不确或遗漏,概不负任何法律责任,相关信息仅供参考。站长之家将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。任何单位或个人认为本页面内容可能涉嫌侵犯其知识产权或存在不实内容时,可及时向站长之家提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明(点击查看反馈联系地址)。本网站在收到上述法律文件后,将会依法依规核实信息,沟通删除相关内容或断开相关链接。

  • 相关推荐
  • 镜舟科技基于 StarRocks 构建湖仓一体架构,支撑某大型电网企业国产升级

    某大型电网企业联合镜舟科技与腾讯云,基于开源分析型数据库StarRocks及腾讯TBDS大数据平台,构建电力行业国产化湖仓一体架构。该项目实现PB级电力数据统一管理,解决数据链路复杂、资源瓶颈、高并发查询等五大挑战,查询性能提升近8600倍。方案采用分层架构:Flink实时数据处理层、TBDS数据湖存储层、StarRocks分析加速层及可视化应用层,完成全栈国产化适配验证,支持业务平滑迁移。通过统一元数据目录和实时入湖机制,形成完整数据处理闭环,为能源行业核心系统国产化升级提供可复制的技术范本。

  • 智邦国际一体化ERP:企业一体化智能一体成型,重塑企业未来

    近期制造业、轻工业、电子凭证、人工智能等领域密集出台政策,推动企业全方位数智化转型。智邦国际推出"企业一体化+"数智生态体系,以ERP为核心构建全维一体化管理平台,覆盖企业全生命周期各环节。其一体化ERP系统支持30多套软件灵活组合,并集成AI获客、智能客服等创新应用,帮助企业打通内外数据孤岛,实现从数字化向智能化的跃升。该方案通过一站式的数据互通和智能协同,正在成为企业降本增效的新引擎,引领万物互联时代的数智化转型浪潮。

  • 智邦国际连获“数智一体化ERP领军企业”、“数智一体化ERP领军人物”

    近日, 2024 中国经济高峰论坛暨第二十二届新经济人物年会,在北京隆重举行。凭借智邦一体化ERP在“企业一体化”管理领域的卓越创新力和引领力,智邦国际荣获“数智一体化ERP领军企业”,智邦国际董事长兼CEO陈沐阳,荣获“数智一体化ERP领军人物”。连获殊荣见证行业内外对智邦国际产品矩阵、解决方案的高度认可,更是对未来发展不懈突破、价值共创的巨大激励。(智�

  • 寒武纪:云边端一体化环境 大幅提升开发效率

    近日,寒武纪发布 2024 年度业绩快报。数据显示,2024 年公司实现营业收入 117,446.44 万元,较上年同期增加 46,507.78 万元,同比大幅增长 65.56%。寒武纪表示:公司营业收入较上年同期增长 65.56%,主要系报告期内公司持续拓展市场,积极助力人工智能应用落地,使得报告期内收入规模较上年同期大幅增长。资深产业观察家李宏宇在接受媒体采访时指出,当下AI技术的应用范围在�

  • 小米YU7内饰突然曝光:取消仪表盘 一体环绕PHUD吸睛

    快科技4月17日消息,很突然,有博主曝光了一张小米YU7内饰清晰的谍照。虽然此次曝光的YU7依旧是试装车状态,但基本上展现了该车的设计理念和座舱细节。不同于SU7,YU7取消了非常有仪式感的翻转式仪表盘,同时也取消了HUD,但用上了更为科幻的PHUD,在风挡玻璃下方形成了一体式环绕状的屏幕”,有点类似阿维塔和林肯所配备的远端屏”。但YU7这块并非是一块屏幕,而是类似宝马将要上车的PHUD成像技术,它将前风挡底部变成一个大屏幕,可以显示诸如电量、时速、导航、档位等各种信息。其实实现的原理也并不复杂,就是在底部内置了多个投影,?

  • 山石网科数据备份一体机,一站式解决企业数据管理难题

    企业数据管理困境亟待突破1. 数据增长迅速,实时备份困难重重随着数字化进程的加速,企业数据量呈爆发式增长。业务系统 7×24 小时不间断运行,产生的数据瞬息万变。传统备份方式往往采用定时备份策略,无法及时捕捉数据的实时变化,导致两次备份之间的数据丢失风险极大。海量数据的备份需要消耗大量的时间和资源,传统备份手段在处理大规模数据时效率低下,难以�

  • 超聚变成功举办“液冷开放架构专题”研讨会

    4 月15- 17 日,超聚变探索者大会 2025 在郑州国际会展中心举行。大会期间, “液冷开放架构”专题研讨会暨液冷AI开放联盟 2025 年首次研讨会成功举办,《智算中心液冷整机柜服务器开放架构多样化算力兼容报告》正式发布。专题研讨会上,来自液冷AI开放联盟成员单位的 70 多位嘉宾齐聚一堂,共话智能时代基础设施建设方案,参与成员涵盖产业组织、行业用户、芯片厂商和�

  • 蔚来乐道架构再调整:天津和大连公司总经理离职

    快科技5月1日消息,近日,据媒体报道,蔚来汽车启动了新一轮人事调整,涉及旗下多个区域公司管理层。在区域公司层面,人员变动较为频繁。原蔚来天津区域公司总经理顾月、原蔚来大连区域公司总经理宫得权因个人原因离开蔚来。两人离职后,乐道天津区域公司总经理成龙将兼任蔚来天津区域公司总经理,乐道大连区域公司总经理李佳将兼任蔚来大连区域公司总经理,二者均向蔚来联合创始人、总裁秦力洪和乐道汽车总裁沈斐双向汇报。与此同时,蔚来内部还进行了其他区域的人事调整。蔚来杭州区域公司总经理樊宏银将兼任乐道杭州区域公司总经理,蔚

  • 华为申请注册华为玄甲商标:创新机身架构 提升抗摔能力

    近日,据天眼查知识产权信息显示,华为技术有限公司申请注册了“华为玄甲”商标,国际分类为科学仪器,目前该商标状态为等待实质审查。公开资料表明,“华为玄甲”是华为手机采用的一种创新机身架构设计。这一设计主要聚焦于提升手机的耐用性和抗摔能力,有望为手机用户提供更可靠、更坚固的使用体验。华为此次申请注册该商标�

  • 医疗信息江湖风云再起!金仓数据库亮相CHIMA 2025

    第29届中国医院信息网络大会(CHIMA2025)在厦门召开,聚焦"AI融合医疗、共促高质量发展"主题。金仓数据库作为国产数据库代表参展,展示了与汕头市中心医院合作的临床数据中心集成平台项目。该项目采用双轨并行方案,实现零停机切换,每个模块上线切换仅需暂停业务5分钟以内。金仓数据库具备100%兼容源库能力,已成功支持浙江省人民医院等多个院区系统国产化改造,并积累301医院云HIS系统等核心医疗系统替换案例。会议显示国产数据库已能满足医疗行业对数据安全、稳定性和高效管理的需求,助力医疗信息化建设。