首页 > 动态 > 关键词  > 探秘最新资讯  > 正文

深度:探秘Google数据中心内部运行

2008-06-03 09:45 · 稿源:互联网

Google这个搜索巨人很少暴露其数据中心,但在上周,Google研究员Jeff Dean在Google I/O会议上揭秘了它的部分运行情况。

一方面,Google使用了一些常规服务器,另外一方面,Google将1800台服务器组成了集群,这些集群服务器负责Google日常的搜索处理任务,这部分服务器的数量大约是700到1000台。

Google并未透露拥有多少台服务器,但我们估计的数量有成千上万。Dean透露,Google将40台服务器编为一个集群,而在全球范围,Google拥有36个数据中心。每个数据中心有150个服务器集群,这意味着Google拥有的服务器数量超过20万台,不过Google服务器的数量应该远远超过这一数字,而且每天都在增长。

无论有多少台服务器,Google取得的成就都引人瞩目。像纽约证券交易所和航空公司订票系统都使用大量的主干机服务器与软件,而Google主要使用自己的技术。

可以肯定,许多服务器厂商对此会感到酸溜溜的,但Google明显认为,将自己的技术命运掌握在自己手中最安全。Google搜索产品与用户体验部门副总裁Marissa Mayer说,创始人Larry Page鼓励在公司中形成一种“健康的,对不可能说不”的气氛。

数据中心入口

为了应对Google这样的搜索规模,需要让每台机器的性能发挥到极致。虽然服务器厂商们对其高端机型中的容错性能津津乐道,但Google更乐意将钱投到容错软件上。

Dean说:“我们的观点是,不可靠的硬件数量最好是可靠机型的两倍。你需要将可靠性放在软件层面。假如你运行1万台机器,那么每天都有一些死机。”

Dean说,在每个服务器集群运行的头一年,一般有1千台机器会发生故障;数千块硬盘会出问题;一个“电源分配单元”(PDU)将坏掉,令500到1000台机器当机6小时;20个服务器机架将出现故障,造成40到80台机器从网络上掉线;5个服务器机架将变得不稳定,这使得机架上的服务器处理的一半信息包失去响应;一个服务器集群需要重新连接,这将影响5%的机器,影响的时间跨度一般为2天。服务器集群有50%的过热可能性,过热会让绝大多数服务器在5分钟内当机,并且耗时1到2天来重新恢复。

虽然Google使用了一般的硬件设备,但在软件上却没有使用寻常的软件。Google要求英特尔提供专门定制的电路板。Dean还透露,Google目前为每40个服务器组成的机架配备一个机箱,而不是象一般情况那样为每个服务器配备一个机箱。

对于服务器本身,Google喜欢多核芯片配置。尽管许多软件公司正在努力适应多核芯片时代的来临,但Google对这种芯片使用起来得心应手。Google不得不让自己的技术适应有限的硬件资源架构,因此,他们已经进入了并行处理时代。

Dean说:“我们确实喜欢多核机器。对我们来说,多核机器用少量的机器实现了良好的连接性能。对我们而言,它们更容易使用。”

尽管Google需要对搜索以及其它服务进行快速响应,并行处理能够完成这一任务需要,虽然有可能单个线程的速度并不快。

Dean说:“单个线程的性能对我们来说确实没有多大关系。我们将重点主要放在并行处理问题上。”

Google如何让这些普通的硬件发挥作用?用软件。


图为数据中心的电力系统,超级计算机需要巨大的电力支持

Dean阐述了Google软件的三大核心元素:Google文件系统(GFS);Google大表(BigTable:是Google一种对于半结构化数据进行分布存储与访问的接口或服务);MapReduce算法(它是Google开发的C++编程工具,用于大于1TB数据的大规模数据集并行运算)。尽管Google依靠许多开源项目实现了企业的腾飞,但Google对这三套核心元素秘而不宣。

Google文件系统处于这三个元素的最底层,它负责许多服务器,机器的数据存储工作。很多Google文件系统的体积都异常庞大,有好几个petabyte规模(1 petabyte相当于1百万gigabytes)。有200多个服务器集群运行有Google文件系统,其中很多集群包含了上千台机器。

Google文件系统至少在三台名为“块服务器”(chunkservers)上存储大体积数据(一般为64MB);如果一台块服务器发生故障,那么主服务器会负责将数据恢复到新的区域。Dean说:“至少在存储层面,机器故障的处理由Google文件系统来完成。”

为了给全部这些数据提供一些结构,Google使用了大表。象甲骨文和IBM公司的商业数据库在这里发挥不了作用,因为这些产品无法满足Google的需要,Dean说,如果要使用商业数据库的话,价格将非常的昂贵。

Google从2004年开始设计大表,现在已经在Google 70多个项目中使用,包括Google地图,Google地球,Blogger,Google Print和核心的搜索目录。Dean说,大表管理的最大一个数据表格有6 petabytes大小,覆盖上千台机器。

2003年,Google编写了MapReduce的第一个版本,这种算法给了Google公司一条让自己数据发挥作用的途径来。例如,MapReduce能够找出一个词语在Google搜索目录中出现的次数;一系列网页中特定词语出现的频率;链接到某个特定网站的所有网站数量等。

有了MapReduce,Google可以编写出一个索引目录,迅速显示出与特定词语相关的网页出来。Dean说:“为了在可以接受的时间内完成这一工作,你需要在上千台机器上进行处理。”

Google对MapReduce软件的使用正在增多。2004年,MapReduce运行了2.9万个工作任务,到2007年,已有220万个工作由MapReduce来完成。同期,MapReduce对于一个工作的平均运行响应时间从634秒下降到了395秒,MapReduce任务的数据产出量从193 terabytes上升到了14018 terabytes。

Dean说,在任何一天,Google运行有大约10万个MapReduce工作任务;每项任务大约会占用4百台服务器,时间大约是5到10分钟。

这是一个有趣的数学计算。假设服务器只完成MapReduce工作,每台服务器一次只完成一项任务,那么大约要耗时24小时,如果这些工作任务每个耗时5分钟,这意味着MapReduce任务要占用大约13.9万台服务器。如果耗时7.5分钟,那么需要的服务器数量增加到20.8万台;如果需要10分钟,服务器的数量增加至27.8万台。#p#分页标题#e#

和Google文件系统一样,MapReduce的设计也要考虑服务器的当机问题。


数据中心内巡逻的保安车

Dean说:“当一台机器当机,主服务器会了解分配给这台机器的任务是什么,然后直接指定其它机器来完成这一任务。”

MapReduce的可靠性曾经在一个由1800台服务器组成的集群进行维护时经受住了严格考验。工作人员将其中80台机器拔掉,其它1720台机器承担起了80台机器的处理任务。Dean说:“它运行有一些慢,但全部完成了任务。”

在2004年,Dean表示,曾经有一个1800台机器组成集群,其中1600台当机了,但整个系统经受住了考验。

尽管Google的数据中心取得了很大的成功,但公司并不满足,他们有很长远的改进发展计划。

对于一般的企业来说,他们只需要考虑将工作任务从一台服务器转移到另外一台,但Google面临的工作量级不同,他们希望能够将工作任务由一个数据中心自动转移到另外一个中心。

Dean说:“我们希望自己的下一代架构是一种能够超越单个机器的系统。”

考虑到Google的业务数量级,这无疑是一个艰巨的挑战。毫无疑问,很多小公司正在羡慕的看着他们。

举报

  • 相关推荐
  • 模型能力卷不过Google、快手,但这家视频生成创企却可能最先赚到钱?

    去年4月,我们曾经在《这个 AI 赛道,一个月内融资4笔,一大半的创始人是华人》选题中观察过 AI 视频赛道,彼时赛道 Top 级玩家还是 Pika、Pixverse、Haiper 等华人创企。

  • 数智加速 华为极简全闪数据中心Pro+暨新品发布会即将举行

    文章指出数据已成为推动社会进步与经济发展的核心要素,预计2030年我国数据产业规模将达7.5万亿元。随着AI技术发展,数据存储面临更高要求。华为作为行业领军者,通过技术创新在医疗、制造、教育等领域实现突破:医疗方面AI辅助诊断将分析时间从15分钟缩短至15秒,准确率达99%;制造业实现99%质检准确率;教育领域简化管理流程。华为将于6月30日发布新一代数据存储解�

  • 刷屏世俱杯的RGB-Mini LED有多能打?央视拆机探秘看球黑科技

    海信在2025世俱杯期间展示了其RGB-Mini LED电视技术,通过红绿蓝三原色独立背光光源实现更纯净色彩和更高能效。相比传统电视需要二次色彩转换,该技术直接呈现原色,解决了拖影、色偏等问题,能效提升20%以上。海信通过自主研发的AI画质芯片和RGB背光芯片,攻克了三原色同步控制等技术难题。该技术已应用于85-116英寸大屏电视,成为行业认可的下一代显示方向,标志着中国显示技术从跟随到引领的跨越。

  • AI驱动全域进化,金仓数据库以“融合”重构数据基座

    7月15日,电科金仓在京举办"融合进化+智领未来"主题产品发布会,推出多款AI时代数据库产品:KES V92025融合数据库具备多语法体系兼容、多集群架构等特性,性能提升30%;KEMCC统一管控平台实现跨云环境数据库管理;云数据库AI版集成高性能硬件与AI大模型;KFS Ultra智能数据集成平台支持百种数据源。中国人民大学教授王珊指出,数据库与AI深度结合已成释放数据价值关�

  • 华为商业市场极简全闪数据中心Pro+暨明星产品发布会成功举办,智能艺术教育空间样板点正式揭幕

    2025年6月30日,华为在北京发布商业市场极简全闪数据中心Pro+解决方案及明星产品。该方案以"闪存普惠、一站购齐、极简易用、数智加速"为主题,通过性能、效率、智能三大维度升级,打造面向AI时代的数据底座。同时,华为与中央戏剧学院联合推出"智能艺术教育空间"样板点,展示AI技术在艺术教育领域的创新应用。华为还发布了AI推理专用存储OceanStor A600,支持大规模模型训练与多轮推理调用。在医疗、制造、教育等行业,华为方案已实现显著效率提升,如医疗影像分析时间从15分钟缩短至15秒。华为宣布将投入40亿产业商机支持合作伙伴,共同拓展百亿级市场空间。

  • 官宣 | 蕾特恩与国家奥林匹克体育中心达成战略合作

    2025年7月9日,蕾特恩集团与国家奥体中心达成战略合作,获授"国家奥体中心供应商"称号。国家奥体中心副主任张红霞、蕾特恩总裁郑金清等出席授牌仪式。此次合作标志着蕾特恩从美容产业向全民健康领域拓展,其系列产品将应用于国家运动员训练及全民健身场景。奥运冠军雷声作为运动员代表发言,强调科学护肤对运动表现的重要性。双方将共同推进"体医融合",助力体育强国与健康中国建设。此次合作既为奥体中心提供专业支持,也为蕾特恩品牌开辟新发展空间。

  • 硬盘丢失了数据怎么恢复?硬盘数据恢复的6种方法

    文章分析了硬盘数据丢失的常见原因及恢复方法。数据丢失主要源于人为误操作、硬件故障、软件系统问题和环境因素四类。针对不同情况,介绍了6种恢复方法:回收站还原、系统版本回退、备份还原、Mac系统的TimeMachine、命令行操作以及专业数据恢复软件。其中专业软件如转转大师能深度扫描硬盘,支持多种文件格式恢复,操作简便且成功率高。文章强调数据丢失后应避免写入操作,根据实际情况选择合适恢复方式,并建议做好日常备份预防数据丢失。

  • 深度评测艾力斯特、荣泰、奥佳华哪个好?专业技术控的终极推荐款

    本文对比分析了奥佳华、艾力斯特和荣泰三大按摩椅品牌的优劣势。艾力斯特作为行业标准制定者,拥有i-OPEN柔性导轨等核心技术,产品性价比高,售后服务完善;荣泰线下渠道强大,产品线丰富,但中端机型配置缩水;奥佳华品牌知名度高,但价格虚高,入门款性价比低。推荐艾力斯特双芯1号V3Max和超凡大师M6两款万元机型,前者适合全家使用,后者融合六感摩享黑科技,提供沉浸式按摩体验。建议消费者根据自身需求到实体店体验后再做选择。

  • AIbase完整评测:20,000+AI工具库深度解析

    AIbase是一个强大的AI工具导航平台,收录超过2万个AI工具并每日更新。它通过智能搜索、精准分类和用户友好界面,帮助开发者、设计师、营销人员和普通用户快速找到适合的AI工具。平台提供写作助手、视频编辑、代码生成等各类工具,并支持多语言访问。AIbase的核心优势在于庞大的数据库和高效更新机制,解决了用户在AI工具海洋中筛选的痛点。虽然存在用户深度评价不足�

  • 青岛首家标准化家电回收分拣中心在海尔投入运营

    7月7日,海尔循环产业家电回收分拣中心在青岛启用,这是青岛首家标准化家电回收分拣中心。该中心通过"渠道回收+区域分拣+配套物流"一体化模式,构建标准化、数字化运营管理体系,有效解决了传统家电回收分散、运输成本高、信息不畅等行业难题。中心前端连接回收渠道,后端直连规范拆解厂,实现从高效回收到规范拆解的完整闭环。通过"一机一码"全程可视化追踪,彻底改变了过去信息不透明的状况。在"家电生产企业回收目标责任制"政策背景下,海尔从源头理顺回收全链条,不仅提升资源利用效率,更为行业规范化发展提供了新范本。