首页 > 动态 > 关键词  > 阿里云最新资讯  > 正文

阿里云林晨曦:飞天是分布式大规模集群计算系统

2011-10-24 15:29 · 稿源:站长之家

站长之家(CHINAZ)10月24日报道:2011年10月24日,“2011中国互联网无线化峰会暨阿里云 开发者大会”在杭州海外海国际会议中心举行。本届大会由阿里巴巴集团、阿里云计算主办,云集全球互联网企业领袖、行业观察家与活动家、知名投资人、云计算 技术达人等各路精英,共同探讨云计算及互联网无线化的新未来。

本次阿里云开发者大会除主会场之外还设立了云计算专场、无线专场和社区电子商务专场,会议邀请了包括阿里巴巴集团董事局主席马云、阿里云计算总裁王坚、phpwind副总裁陈燎罕、易观国际董事长兼首席执行官于扬、DCCI 创始人胡延平、NTA创新传播机构创始人申音、化龙巷总经理钱钰、爱物网CEO王宏达等众多业内嘉宾参与。

以下是林晨曦的演讲稿:

大家下午好!

非常高兴今天有这么多的人一起来到杭州,一起来参加开发者大会。我今天下午会跟大家讲一下阿里云这边怎么看待云计算,我们为云计算做了多少工作?然后我们的题目叫运行千里,始于足下。云计算总没有什么东西出来,到底是不是看得见摸得着的东西。

我想在这里告诉大家云计算真的来了,这是我想讲的第一个含义。第二个含义,其次这样云计算的平台,其实是非常大的工程的东西,我想在这里给大家介绍一下阿里云这三年的时间里面究竟是如何一步一步云计算做出来的过程?这个过程其中一个系统就是我们这个飞天系统,在今天下午给大家介绍一下。

这里我们讲云计算的时代的到来,实际上是有很多的基础。其中最重要的第一个基础是跟互联网相关,实际上我们讲云计算是因为有了互联网这个东西能够成为基础之后的事情,很重要的是说,有了互联网之后人们就可以产生很多很多的数据,而这数据后面又对这个整个社会的改进,起到非常重要的作用。而云计算是在这个基础上延伸出来,如果它跟传统的网格计算去比较,它其实是一个很重要的数据密集型的计算。所以我们认为云计算到来的其中一个很重要的契机,是互联网后面起的作用。

第二,大家都知道人类第一台计算机有房子那么大,而之后有一家很伟大的公司,有一个叫比尔盖茨的人,他告诉我们每个人都可以有一台电脑,现在我们有了互联网,有了海量的数据,我们已经没有办法在个人电脑上去处理的这些数据,所以我们从PC转移到数据中心来,有成千上万的电脑而它成为新的时代下的计算机。这个计算机在整个世界范围内不会有太多台,不要紧,人们依然可以享受计算服务,计算有两个特点:第一是为差别的服务,第二它一定是需计费的,随时可以获取。我们从三年前开始下定决定做云计算事情。

最近大家都知道,苹果的iphone非常好,对于我们互联网不得不被动接受一件事情,就叫移动互联网,移动互联网叫做运营商和手机厂商摆在互联网的机会,云计算实际上一个很重要的技术基础去把互联网移动化。

其次,我们也发现云计算可能最好的生根发芽的地方,是在移动互联网上,于是这两件事情碰到一起,我们更加相信云计算平台马上展现在大家眼前。

因为很多人都在炒作云计算,每个IT公司都在这么说,云计算是什么东西?我想说自己的理解,阿里云的观点。我们觉得云计算本质上解决三个问题:第一是大规模的问题,什么叫大规模?我们先看一个简单的小例子,这是一个很简单的乘法题,基本上每个小学生都能搞明白,如果把ITB存储数据放大10000倍,就有10PB,空间上不可能买下来。如果另外一台电脑1DAY计算乘以10000,是否能解决时间上的问题。

我们要解决大规模的同时,我们要保证低成本,你可能去用一些高端的设备,去买一些集中式的存储来解决这些的问题,这个成本不是我们这个社会能够坚持去做这件事情的存储,1PB在中关村买350元,写每T螭盘阵列的价格超过7000元。一个PC硬盘来做存储要做太多的工作,原因是首先你要把很多硬盘连在一起,还要考虑到这些硬盘可能会坏掉,可能不是350元具体的成本来说。

云计算如果是能够希望成为一种公共服务,它很重要的事情是,它要服务运营。所谓服务运营,我们希望云计算希望水、电、煤提供给大家。这样的方式后面有两个潜在的要求,第一个要求就是这个存储和计算必须是一种无差别的存储和无差别的计算。什么叫无差别的存储?我举个电的例子,大家看电视、看电脑都要用电,你们肯定没有说哪一种电是专门用看电视的,你们家连接220伏的电,计算没有成为公共服务,很重要的基础是计算要变成一种无差别的资源才可以。

另外,它必须要做到按需计算,就像交水、电费用一样,这样才能运营大规模推广的使用,这是服务的问题。阿里云这家公司我们的想法是,我们的云计算将来一定做成一家互联网点COM的公司,换句话说,我们一定不会像某家公司拿到云计算到企业做具体解决方案,这不是我们要做的事情。

我们为了解决这三个问题,我们就做了一个解决,这个系统叫飞天,这是博士三年前起的。主要想每个人还是带着梦想做事情,主要要做什么事情?简单来说还是很简单,我们想把上万PC机最后变成一台计算机,这就是我们要做的事情。这有什么好处?我们可能可以达到大于30PB的硬盘,当然还是很廉价。其次,有这样的硬盘,我们就可以把轻松存放10B的网页。其次一台多于12000核的机器,如果你在单机上跑,实际上跑的时间需要超过600个小时,今天放在这太所谓的超级计算上40分钟就跑完了,这就是我们希望云计算带给大家便利的感觉。

说了那么多,听上去非常美好,实际上大系统听听非常容易做,实际上背后有很多功能的挑战,我也很难在这么段会议里面把所有的内容讲清楚,我想给大家一个很简单的生活化的例子。这是一波人,他们不知天高地厚,他们从第一天开始就想做福布斯的系统,他们玩的系统很简单,他们就想把脚绑带一起,大家一起走路,这也是非常简单的事情。他们觉得这件事情很简单,基本上要做的事情就是单、双报数,唯一的事情就是同时迈,当人数足够多,每个人都觉得自己在迈脚,但实际上不怎么觉得,这其实是分布式系统遇到的第一个问题,就像同时性具有相对性,这是分布式的系统遇到的第一个挑战。

他们发现他们不同时之后,就会导致一个现象,就是有人在迈左脚,有人迈右脚,但有些人两只脚一起迈,就有人摔倒了,一个人正常走路,不可能两只脚一起迈,但是分布式系统里面这个概念很大,这是分布式系统遇到的第二个问题。这个常态有不好的事情,大家看前面的一张图里面,摔倒的人会把边上的人带着摔倒了,这也是分布式系统中间遇到的困难。

还有一个问题是,异构也会带来困难,当你把那么多人带倒了,我们发现有的人长得高,有的人长爹矮,就发现步伐不一样,就会带来困难。后来他们想了一个办法,他们让最高的人站在中间,最矮的人站在旁边,这就能平衡身高带来的问题。

还有很多动态环境下带来的不确定性,走着下面还有石头,或者刮风下雨,最后还是走到了终点。

我大概解释一下系统中间做遇到的问题,我们发现有一些网卡每一万个中间有五个包,到了分布式系统的时候这个事情变得很正常,这也是分布式系统可能会遇到的挑战。

我们做了这个系统,我今天抽最重要的介绍一下。其中就是盘古,我们大规模分布式文件系统,主要提供30PB级别的文件存储。然后有上亿级别统一的目录、文件可以放,然后基于多副本的数据安全性,刚才提到会有一些小概率的事情,我们解决小概率从方法论方法来讲,有两种方法,第一种是多副本,再说简单一点,就是一件事情多个人去做,或者说一个人事情重复去做,但是要保证这个事情最后做得是对的。

然后1000Gbps级别的高病发读写带宽,多用户的访问控制或存储额度管理。

另外简单介绍一下伏羲大规模分布式调度系统,第一是上万个核的并发计算能力;第二是动态环境下的多维度资源调度;第三基于DAG的任务执行框架;第四基于数据分片的在线服务运行框架,这两个框架讲一下,前者做离线状态处理,后者提供在线服务,我等一下讲应用会提到;第五程度运行中的自动故障恢复。

下面让我们看一下整个云计算OS,最底下是我们的数据中心,然后是每台操中系统的Linux,最下面是数据中心。我们在上面做的是搜索应用,google做的应用让全世界人都知道,通过网页存储到索引流程到搜索引擎,然后到飞天大规模分布式计算系统。

所谓的邮箱服务,这个地方非常强调邮箱的可用性,我们今天是把在飞天的计算系统上搭了一个开放存储的服务,以及开放表的服务,大家可以看一下。

所谓的开放数据处理服务,我们能报大量的作业,其中很重要的就是阿里金融的贷款就在这个服务上跑出来,在银行要给一个人贷几十万的人,要做很多人工的工作,我们在这个系统中一秒钟把十几万的贷款给贷出去了,很大程度上提高了计算的成本。

虚拟化服务,等一下陈波会详细介绍。最后一个是比较重要的就是我们的移动互联网,我们把整个云OS,除了在数据中心资源管理起来之外,我们还把它在手机端、移动端管理起来,连成一个整个的总体,然后连成一个框架。

我们回过头来看一,云计算解决三个问题,大规模、服务、运营。

这是飞天发展的历程,刚好是三年前的第一天,那个时候我们开始设计这个系统,10月24日是一个非常美妙的日子,这是2的10次方,我们希望我们不再是以10进制来计算,我们是以K来计算。我们今天终于能够把这个系统放出来,大概有1000万的扣额(恩)。云计算现在已经摆在大家的眼前,通过三年的努力开放出来,我们作出这样的系统最主要的原因还是希望提供给开发者,让他们有新的创新。因为云计算就像电的发明一样,我们在做电厂,电厂本身不重要,重要的是各种各样的电器发明,这才让别人感觉到什么是电。我们今天讲的是非常很烦琐的云计算,实际上是在开发者手里,是你们把云计算呈现大家,谢谢大家!

举报

  • 相关推荐
  • AI落地难?阿里云AI先锋新成员实战证明,对症的场景化方案才是关键

    本文探讨AI技术如何通过精准定位与协同合作破解行业难题。文章指出,AI渗透速度远超传统技术,IDC预测2025年全球AI支出将达3370亿美元。以阿里云为例,其通过算力底座与通用技术链接垂直领域伙伴,提供"技术+场景"一体化方案。文中列举挖地兔、集思科技等6家企业案例,展示AI在量化投资、电商直播等场景的实际应用,强调AI落地需找准对应场景,而阿里云的技术支撑与生态协同正推动千行百业实现数字化转型。

  • 模型即服务,应用即未来:阿里云助力中小企业AI应用规模化落地

    阿里云针对中小企业AI落地“不会用、用不起、用不好”痛点,提出全链路解决方案。数据显示,77%全球中小企业已定期使用AI工具,中国市场需求增长强劲。阿里云通过通义大模型技术迭代、AIStack一体化底座及4R服务框架,降低使用门槛与成本。典型案例如万小智AI员工实现“分钟级交付”,博登智能提升数据处理效率7倍。方案覆盖制造、医疗等12大行业,助力企业从“有算力”到“能落地”,推动AI应用成为行业常态。

  • AI日报:阿里云开源通义DeepResearch;夸克推医师考试大模型

    本期AI日报聚焦多项前沿动态:阿里云开源轻量级AI代理DeepResearch,性能媲美OpenAI;夸克推出国内首个全阶段医师考试大模型测试集;微软Copilot将上线类ChatGPT记忆管理功能;迪士尼等巨头起诉MiniMax侵犯版权;OpenAI提升ChatGPT搜索准确性;Notion推出个性化AI助手;谷歌发布更小巧高效的时间序列预测模型TimesFM-2.5;Figma推出AI设计功能简化创作流程。整体展现AI技术在开源、医疗、�

  • 华为全联接大会2025首发《算力珠玑》十大实战案例助力开发者攻克鲲鹏、昇腾开发难关

    《算力珠玑:鲲鹏昇腾应用开发案例详解》由上海交通大学林新华教授等主编,聚焦鲲鹏与昇腾两大自主计算生态的应用迁移与优化难题。全书通过十个真实场景案例,系统解析从传统平台迁移至自主算力平台的代码移植、性能调优及算子开发等关键技术,涵盖高能计算、AI训练、工业诊断等领域。书中结合理论与实践,提供具体代码与优化策略,旨在帮助开发者降低迁移成本、提升效率,推动自主算力技术在实际场景中“用好用活”,为我国在全球算力竞争中夯实基础。

  • 知名IPv6连接测试网站宣布年底关闭!开发者结束15年“为爱发电”

    知名IPv6测试网站test-ipv6.com宣布将于年底关闭。开发者jfesler表示,自2010年以来已为这个无收入项目投入大量资源,现在决定将精力转向家庭。网站镜像运营商需在12月前停止更新。部分源代码已在GitHub公开,但仍有未公开内容。域名不会转让,可能交由公益组织管理。针对添加广告的建议,开发者明确拒绝,称"世界上广告已经够多了"。

  • 2025 云栖大会|云通信+AI:释放通信新动能

    2025年9月25日,阿里云成功举办“云栖大会云通信分论坛”,聚焦大模型在云通信中的创新应用与全球化实践。论坛汇聚Meta、雨果跨境等生态伙伴,探讨行业趋势,剖析技术机遇与挑战。阿里云发布Chat App AI助理和智能联络中心2.0,展示智能化探索成果,强调合规化与智能化并重,推动通信服务从基础功能向个性化、自动化升级。通过AI与消息引擎结合,助力企业打通公域到私域的全链路增长,实现高效全球化运营与本地化深耕。

  • HC2025丨高校创新力量“花开”开发者日,鲲鹏昇腾使能科研创新

    2025年9月18日至20日,华为全联接大会在上海成功举办。开发者日集中展示了一批基于鲲鹏、昇腾基础软硬件平台的前瞻性创新成果,覆盖AI编程语言、大模型训练加速、多模态模型及科学计算仿真等领域。重点成果包括:北京大学团队研发的DeepFlame燃烧流体仿真工具实现火箭发动机超临界燃烧模拟千倍加速;清华大学团队开源AI量子编程语言TileLang显著提升开发效率;东南大学提出多模态大模型优化方法;魔芯科技构建首个基于昇腾的3D空间智能大模型;趋境科技KTransformers引擎通过异

  • 高德扫街,阿里“成团”

    进入三季度,本地生活的硝烟从到家逐渐向到店蔓延。 9月10日,高德发布扫街榜,从信用资产入手,重新构建点评体系。到9月20日,淘宝、支付宝、高德三端低调上线团购业务。据了解淘宝x饿了么和高德将分别做自己的到店业务,同时业务间又会协同作战。 面对阿里持续加码,美团亦有不少对应动作,包括推出个人AI Agent产品小美。与此同时,日前有行业人士与美团交流,�

  • 阿里、美团和抖音,重划到店新战场

    继外卖大战后,几家头部平台对本地生活业务的竞逐再次掀起波澜,这次,目标对准了到店业务。 9月10日,阿里发布重磅业务,高德地图推出全球首个基于用户行为产生的榜单“高德扫街榜”,不同于此前的各类以用户图文评价为基准的美食榜单,高德扫街榜开创性地将用户真实的导航到店行为与评价反馈相结合,意在避免常规榜单容易被刷分、注水等问题。这一举动被市场

  • 中科天玑成2025云栖大会焦点,凭数据能力出圈!

    2025云栖大会于9月24-26日在杭州举办,以“云智一体·碳硅共生”为主题,聚焦AI技术演进与产业落地。大会汇聚50余国2000多位嘉宾,围绕Agentic AI、Physical AI等前沿话题展开探讨。中科天玑作为数据智能领军企业,展示了数据服务能力与智能产品体系,通过现场演示验证技术实力,吸引互联网、金融等多领域企业关注,成为大会热门展位之一。此次活动彰显了其在数据智能领域的技术引领地位,并为行业数字化注入新动能。

今日大家都在搜的词: