首页 > 传媒 > 关键词  > 腾讯最新资讯  > 正文

腾讯进一步拥抱开源:主导Apache社区新一代分布式存储系统Ozone 1.0.0发布

2020-09-24 17:59 · 稿源: 厂商

刚刚获悉,由腾讯云大数据团队主导的Ozone 1.0.0版本在Apache Hadoop社区正式发布。据了解,经过2年多的社区持续开发和内部1000+节点的实际落地验证,Ozone 1.0.0已经具备了在大规模生产环境下实际部署的能力。

Ozone 是Apache Hadoop社区推出的新一代分布式存储系统,它的出现满足了大量小文件的存储问题,解决了Hadoop分布式文件系统在可扩展性上的缺陷。作为Hadoop生态圈的一款新的对象存储系统,能够支持百亿甚至千亿级文件规模的存储。

腾讯云大数据团队Ozone项目负责人陈怡表示,作为大数据领域的领导厂商,腾讯是国内一线互联网公司中最早加入社区的,目前已经在Ozone项目上已经主导完成了集群网络拓扑感知的开发,以及数据写入Multi-Raft Pipeline功能的开发。同时,主导的StorageContainerManager(SCM) 高可用HA功能也正在开发中。

Ozone 架构图

以集群网络拓扑感知来说,在传统的大数据构架下,有了网络拓扑结构,计算引擎的调度器可以将任务调度到离数据最近的节点来获取“数据的局部性”。即便是新兴的计算存储分离构架,同样也需要集群网络拓扑信息,来保证数据的故障容错能力和高可用性。

陈怡进一步介绍说,在Ozone 的Alpha 发布后,腾讯内部的大数据平台上线了Ozone生产集群,承接了一部分业务的数据存储。随着数据服务体量的增加,逐渐发现Ozone写入性能显现出了一定的波动和瓶颈。基于这个发现,腾讯Ozone项目组设计并开发了数据写入Multi-Raft Pipeline功能,显著的提升了Ozone的写入吞吐量和性能。

此外,为了测试Ozone整体的稳定性和性能,作为部署应用的先锋小队,腾讯内部部署了一个1000个数据节点的集群。进行了长达几个月的稳定性和压力测试。期间团队遇到并解决了各种OOM、节点Crash、性能低于预期等问题。经过全面的优化之后,单集群1000个节点现已能长时间稳定运行,并且所有的数据都校验确认正确无误。

除了1000个节点集群的测试,1.0.0版本还进行10亿个元数据对象的测试和优化,进一步解决长期困扰HDFS的大量小文件问题。目前Ozone 1.0.0能够轻松支持10亿个10KB小对象的写入,同时元数据节点内存使用不超过64GB。

为了确保Ozone和Hive、Spark、Impala等计算框架的无缝对接,Ozone 1.0.0进行了和Hive LLAP、Spark以及Impala的集成测试。TPC-DS的测试表明,在100GB和1TB两种数据量大小下,Ozone总体比HDFS有3.5%的优势。

经过不断的测试和优化,升级后的Ozone 1.0.0在版本功能上有了质的跨越。除了支持 Hadoop Compatible FileSystem、Hadoop 2.x以及 Hadoop3.x环境,Ozone 1.0.0还兼容Hadoop生态的Kerberos认证体系,支持数据的用户无感知加密存放和Ranger授权集成、GDPR “Right to Erasure”以及网络构架感知。

未来,腾讯云大数据还将发挥自身技术优势和积累,在Ozone的基础上开发基于SCM的新一代高性能分布式文件系统,并持续推进Ozone在更多腾讯内外部业务的实践落地,部署更大规模的生产集群。同时,进一步拥抱开源,深度参与Hadoop社区,提高Ozone的可靠性、稳定性和性能,将其打造成新一代大数据文件和对象混合存储系统。

值得一提的是,腾讯大数据团队除了在Ozone 项目上的贡献之外,近年来在开源领域的贡献正在逐步加速,目前已完成了大数据核心能力全开源。同时,还结合实际业务场景推动开源技术加速落地,通过技术实践和创新持续回馈社区贡献开源。在Apache基金会的大数据项目上,腾讯已经为主流的Hadoop、Spark、Flink等项目贡献了大量的特性和patch。

特别声明:以上内容(如有图片或视频亦包括在内)均为站长传媒平台用户上传并发布,本平台仅提供信息存储服务,对本页面内容所引致的错误、不确或遗漏,概不负任何法律责任,相关信息仅供参考。站长之家将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。任何单位或个人认为本页面内容可能涉嫌侵犯其知识产权或存在不实内容时,应及时向站长之家提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明(点击查看反馈地址)。本网站在收到上述法律文件后,将会依法依规核实信息,沟通删除相关内容或断开相关链接。

  • 相关推荐
  • 大家在看
  • 首款分布式存储落地产品---精灵盒子NAS介绍

    加密经济是下一个新兴市场投资前沿,而元宇宙则处于 Web3.0 互联网发展的前沿。元宇宙是一组互联的、体验式的3D 虚拟世界,人们可以在其中实时社交,形成横跨数字世界和物理世界的、用户所有的互联网经济。元宇宙在不断发展,很多的关键组件已经初具规模,正在彻底改变人们生活的方方面面,例如电子商务、媒体和娱乐,甚至是房地产。随着元宇宙概念的火热,关于数据存储安全的问题也逐渐进入人们的视野。作为数字经济时代最重要的?

  • 轻量级编辑器“Fleet”发布 具有分布式IDE架构

    日前,JetBrains宣布推出轻量级编辑器——Fleet。据了解,该编辑器是JetBrains以20年的 IDE 开发经验为基础从头构建的,使用了 IntelliJ 代码处理引擎,具有分布式 IDE 架构和重新设计的 UI。

  • 天翼云4.0分布式云等多款科技新品亮相2021国际数字科技展

    11 月 11 日, 2021 国际数字科技展暨天翼智能生态博览会正式拉开序幕。在这场数字科技饕餮盛宴中,天翼云展区亮相广交会展览馆B10. 2 号,以“中国电信分布式云-天翼云4.0”为主题,结合天翼云十年积淀,打造沉浸式的“数字中国”体验,展现数字经济魅力。天翼云4. 0 分布式云以天翼云云网资源布局、云网络、生态能力建设为基础,可以实现一云多态、一云多芯、一张云网、一致架构、统一调度、统一运维,支撑天翼云大视频平台、天?

  • 数据存储安全与价值应用,精灵盒子NAS开启私域存储数字经济时代

    数字经济时代,信息技术已经渗透到生活的方方面面,数据存储系统作为信息化系统的基础设施,构建稳定、高效、满足未来业务发展需求的数据存储系统将是企业和组织夯实数据底座、挖掘数据价值、释放数据潜能的关键。同时,伴随人工智能、大数据、 等新技术发展,使得数据量呈现指数级增长,数据激增带来存储计算需求的飞速增长,为数据存储产业及企业带来了新需求、新挑战和新机遇。谈及数据存储应用,就不得不提及上周由分布式存储?

  • 双十二好价依旧,这些存储产品值得关注

    双十一已经过去了,可能有部分小伙伴因为种种原因错过了买买买的机会,但是,别担心,朗科的存储产品在双十二(11. 30 日晚上八点至12. 12 日)依旧带来了好价。在双十二期间朗科所有存储产品,不管是存储卡、移动硬盘,还是内存条、固态硬盘,统统都有好价,优惠多多让你一次买个够。接下来,一起看看值得在双十二购买的产品清单吧。1.内存卡清单内存卡在很多场景都需要,行车记录仪、智能产品的内存还是监控摄像头统统都需要,现

  • 固态硬盘选致钛,让数据存储更高效

    在以往固态硬盘还没有兴起的年代,移动存储方面U盘和移动硬盘算是两个互补互存的产品形态,但那时候的移动硬盘虽然容量大,但体积较大,不易携带,而U盘虽便携但是只适合小体积的文件移动,随着固态硬盘技术不断的升级,移动固态硬盘现成为了存储媒介的主流,它的体积更加小巧便携,传输速度更快,今天带大家一起来评测一下这款来自长江存储的致钛木星10 移动固态硬盘。 致钛木星101TB移动固态硬盘基于长江存储Xtacking架构的64 ?

  • 三星电子扩大其"绿色芯片"产品阵容 涵盖存储与汽车领域

    三星电子今天宣布,其五款存储产品因成功减少碳排放而获得全球认可,另有20款存储产品获得碳足迹认证。三星的汽车LED封装也获得了碳足迹认证,这在汽车LED封装行业中尚属首次,进一步扩大了三星具有生态意识的"绿色芯片"组合。五款三星存储产品包括HBM2E(8GB)、GDDR6(8Gb)、UFS 3.1(512GB)、便携式SSD T7(1TB)、microSD EVO Select(128GB)--最近获得了碳信托组织的"Reducing CO2"标签。这五种产品的前一版本已于去年获得

  • 腾讯千帆重磅推出场景连接器,全面提升企业业务系统运作效能

    11 月 4 日, 2021 腾讯数字生态大会企业应用专场上,腾讯千帆正式发布场景连接器。通过场景连接器,企业用户的每一个成员都可以在平台上独立构建起专属于自己业务的场景化SaaS连接,从而助力企业全面提升业务系统运作效能,加速数字化转型速度。当前,数字化已经成为企业发展的必由之路。企业数字化进程中,由于当前SaaS系统间普遍存在流程不畅通、消息同步不及时等问题,当用户需要多套系统完成一项任务时,通常需要大量人工操作

  • 戏精“娘娘直播”,有人围观没人买

    演戏的明星跑去带货,带货的主播却开始在直播间飙戏,最近,“娘娘”直播火了。娘娘从宫廷走进直播间不为别的,只为卖货。看到她们盘着旗头、穿着古装卖护肤品时,观众又破防了,“这个双11,直播间真是卷到天翻地覆”。

  • 微软DNA数据存储探索取得突破 已经跨过最低写入速度门槛

    每一天人类创造250万GB数据,每年,全球产生的数据量都在成倍增长。这使我们与一个严重的问题相撞:我们产生数据的速度超过了我们存储数据的能力。解决办法就是DNA存储,它使用四个化学碱基,腺嘌呤(A),鸟嘌呤(G),胞嘧啶(C)和胸腺嘧啶(T)。这些化合物成对连接(A到T;G到C),形成双螺旋梯子上的梯级。事实证明,你可以使用DNA将1和0转换为这四个字母,用于存储复杂的数据。微软是云存储领域最大的参与者之一,它正在研?

这篇文章对你有价值吗?

  • 热门标签

热文

  • 3 天
  • 7天