站长之家首页 > 传媒 > 浪潮AIStation最新资讯 > 正文

高效共享GPU!浪潮AIStation突破企业AI计算资源极限

2020-03-20 15:25 · 稿源:站长之家用户投稿

对于AI企业来说,GPU等计算资源昂贵,如何提高资源利用率,保护计算力投资?如何解决资源抢占,保证资源使用公平合理?如何减少等待时间,提高模型训练效率……这些问题都关系着研发创新的进度。且看浪潮AIStation人工智能开发平台用三招“组合拳”打破计算力壁垒,加速企业AI开发进程。

某企业AI开发面临的问题

某企业有四台 8 卡GPU服务器供 50 位开发人员使用,典型的人多资源少。具体来说,有以下几大问题:

人均不足一张GPU卡,GPU使用需要相互协调,开发效率低;每十多人为一个小组共用一个GPU节点,可能使有的小组资源空闲而有的小组却无资源可用,造成资源孤岛;缺乏优先机制,重要任务无法得到及时提交;在白天GPU卡几乎全部用于开发环境创建,开发人员只能在晚上提交训练任务,模型训练数量非常有限。

AIStation三招解决企业算力问题

AIStation是面向AI企业开发场景的人工智能资源平台,可通过资源配额、GPU共享、排队托管三招“组合拳”,智能化分配GPU计算资源,提高资源利用率,帮助用户提高开发效率。

首先,AIStation收拢分散的计算资源,提供集群式的池化管理,并设置资源配额策略,实现多用户公平均衡使用资源。

AIStation将开发用户划分为 5 个用户组,每个用户组 10 人,并根据业务需求设置每组和每个用户的使用配额,如可设置每组使用 6 张GPU卡、 40 个CPU核。并对每个用户的开发环境使用时长、同时提交任务数量进行限制。

其次,AIStation通过GPU共享策略,可以让多人共用一张GPU卡且互不影响。

AIStation统一管理 4 台GPU节点,将其中 2 个节点的 16 张GPU卡设置为开发资源组,用于开发环境创建,剩下 16 张GPU卡为训练资源组,用于模型训练。通过共享策略,AIStation可将开发资源组的每张GPU卡切分为 8 份,每份使用4G显存。这样原来的 16 张GPU卡相当于变为了 128 张卡。并且通过设置CPU超线程策略扩展CPU核数,满足 50 个用户同时创建开发环境的需求。用户也可以根据自己的模型设置batchsize和显存使用的大小。

GPU共享模式

最后,AIStation通过任务排队托管、定义任务优先级,充分利用空闲时间训练任务,并且可根据优先级调度任务排队运行。

用户可同时提交多个训练任务,资源不足时排队等待,一个任务训练结束后自动释放资源给排队等待的任务,从而可以充分利用夜间、周末训练任务,延长GPU的使用时间。同时用户可设置优先级,让重要任务优先训练。

开发用户任务托管

AIStation取得显著效果

GPU使用时间加大近 1 倍。原来单个GPU节点分配给一个用户小组使用,每卡每天的平均使用时间仅为14. 4 小时。AIStation通过GPU共享、任务托管,解决资源孤岛,将每卡每天的平均使用时间提升到22. 8 小时。

一天周期内集群GPU使用情况

GPU利用率提升50%。原来用户在开发阶段独占一张GPU,GPU利用率仅为10%,训练阶段可达90%,每天每卡的平均利用率为30%。使用AIStation后,开发阶段 8 人共用一张GPU卡,GPU利用率可上升为80%,训练阶段为90%,每天每卡的利用率可达到80%。

GPU使用情况对比

每周训练任务的数量增大一倍多。假设提交一个ImageNet数据集和一个ResNet50 模型,使用 1 张Tesla V100 GPU卡训练任务,每个任务的训练时间大概为 12 小时。

原来因为人均不够一张卡, 白天GPU卡用于创建开发环境,晚上才能训练任务,那么一个工作日可以完成的任务数最多为 32 个,即一周可以完成 160 个任务。

而AIStation支持任务排队,可以最大限度的使用GPU资源。一周可以完成 368 个任务数,效率提升2. 3 倍。假设开发团队单个项目平均需要训练的任务数为50,那么每个月的项目完成数从 3 个提升到 7 个。

可以看出,浪潮AIStation通过对计算资源的高效管理、调度,在GPU使用时间、利用率和训练任务数量上,相比原方案均实现了大幅提升,最大化地优化了资源使用。

浪潮AIStation人工智能资源平台面向AI企业开发场景,致力于帮助企业构建一体化的AI开发平台,为AI开发工程师提供高效的计算力支撑、精准的资源管理和调度、敏捷的数据整合及加速、流程化的AI开发业务整合,助力AI企业提高开发效率和产品上市速度,增强企业竞争力。

除了高效的资源管理,AIStation在开发环境创建、数据管理、开发流程管理等方面也表现出色。在后续文章中,我们将结合实际应用场景为大家详细介绍,敬请关注。

网友热搜:

免责声明:“站长之家”的传媒资讯页面文章、图片、音频、视频等稿件均为自媒体人、第三方机构发布或转载。如稿件涉及版权等问题,请与我们联系删除或处理。稿件内容仅为传递更多信息之目的,不代表本网观点,亦不代表本网站赞同其观点或证实其内容的真实性,更不对您的投资构成建议。我们不鼓励任何形式的投资行为、购买使用行为。

  • 大家在看
  • 相关推荐
  • a&s 功能实测 比特大陆AI边缘计算模组算丰SM5

    随着人工智能在安防、泛安防等领域迅速落地和普及,各类图像视觉类AI算法落地的精度和实际效果在提升,获得了更深广的业务价值,如安防领域的人脸布控、人车视频结构化等,泛安防的社区园区通行,新零售的VIP客户识别等,都是AI技术商业化的典型场景。同时,视觉类AI算法的深度学习计算,也逐步从云端部署扩展到边缘部署。边缘的设备比云端多1- 2 个数量级,业内对边缘AI计算硬件的需求快速升温,大家呼唤高算力、低功耗、接口丰富

  • 浪潮建设的交大π2.0超算打破世界纪录

    近日,由浪潮参与建设的上海交通大学π2.0实现天文学N体模拟粒子数新突破,打破世界记录。上海交通大学网络信息中心、天文系联合厦门大学天文系等单位,依托交大超算平台(π2.0集群),成功完成4.4万亿粒子的宇宙大尺度结构N体模拟Cosmo-π测试(使用512节点、20480核心),追踪了137亿年以来的宇宙演化,并打破此前3万亿粒子数的TianNu数值模拟世界纪录(使用13824节点、331776 核心),成为目前世界上完成粒子数目最多的天文学N体模拟

  • 从济南“健康码”防疫,看新基建下的浪潮云海平台担当

    自3月2日起,济南在全市范围全面推广使用“济南云+健康易通行系统”,居民出入社区或公共场所均需出示“身份健康码”,工作人员通过“济南健康易通行”扫码+测温登记,实现快速通行。“身份健康码”是全国首个具有身份信息认证及疫情健康信息的认证码,“易通行系统”与“身份健康码”的有机结合,通过智能管控、健康追踪,最大限度降低感染风险与时间成本。“健康码”模式此前已在浙江、山西、江苏、湖北等地陆续推出,体现了地方

  • 科技战疫!浪潮存储助力天津42家医院“云”上挂号

    近日,在疫情防控期间,天津市基于健康医疗大数据平台,向市民提供 42 家三级医院的“一键登录,统一预约”、“找医院”等便捷化就医服务。浪潮存储为其提供了PB级存储空间,成为健康大数据的汇聚平台。健康天津app,给市民提供三级医院统一挂号服务汇集医疗大数据 构建天津市“健康云”“健康天津”APP这样的互联网工具之所以能够顺利上线运行,在疫情防治中助一臂之力,是得益于天津市近年来推进智慧医疗,技术积累的结果。早在

  • 霍尼韦尔投资量子计算领域 宣布未来3个月内发布全球最强量子计算

    据美通社消息,霍尼韦尔创投(Honeywell Ventures)3月4日对外宣布,已投资剑桥量子计算公司(Cambridge Quantum Computing,简称“CQC”),未来CQC将会成为霍尼韦尔开发的量子计算机的第一个测试版用户。

  • 云上的盐更有味道 浪潮助力中盐集团业务上云

    【导语】结合中盐集团信息化建设的总体情况及规划需求,浪潮助力构建基于云架构的安全可靠、高效弹性云计算平台,作为承载公司信息化的基础设施,满足集团业务的网络资源、计算资源、存储资源、数据库服务、备份服务、安全服务等需求。食盐为维持人体渗透压及酸碱平衡起着重要作用,是人们日常健康生活不可缺少的调味品。中盐集团作为国内盐行业中唯一的央企,如何保障盐业体系平稳发展是集团战略任务的重中之重。集团常见业务应用

  • 浪潮专家解读:HPC如何协助解析新型冠状病毒基因组

    一场新型冠状病毒肺炎疫情,牵动举国上下。在广大的医务人员奋战一线的同时,一大批“科技力量”也加入了抗击疫情的最前线。在未知病毒以“不明原因肺炎”进入公众视野时,科研人员已经开始尝试破译病毒的基因数据。病毒基因组,是病毒的生命密码。借助于分子生物技术,病原学专家通过对病毒标本进行测定,这样的破译,最早在 2020 年 1 月 2 日就已完成。随后,中科院武汉病毒所、中国疾控中心病毒所、上海市公共卫生临床中心分别

  • DNF100版本装备提升率计算器地址 装备提升强度计算器分享

    DNF100级马上就要在国服更新了,最近有大神玩家做了一个100级版本的装备提升率的计算器,还是很实用的功能,下面就来为大家分享一下。

    dnf
  • 玖富数科集团发布AI教育产品 赋能AI人才建设

    在推动教育数字化,智能化转型过程中,玖富数科集团持续发挥集团在AI技术方面的优势,结合目前教育行业的政策指导,充分集合目前的教育场景,开发出了更有针对性的AI教育产品,玖智工场就是其中之一。据悉,该AI教育产品是基于玖富超级大脑推出自主研发的,是玖富数科集团针对AI教育领域推出的智能应用开发平台,作为一个AI商业实战开发平台,玖智工厂可为用户提供基础与核心课程、实训教室、实习与就业机会等资源,用AI赋能数字教

  • 9亿互联网用户,见证了一次新商业浪潮的形成

    2 月 29 日深夜, 300 万人屏气凝神的盯着手机屏幕,他们都在等待一场连接了 9 位顶级音乐人的接力音乐会。在线音乐会开始后,直播屏幕上铺满了粉丝的打赏和老铁们的评论, 300 万观众在此时成了一个共同体,宣泄着疫情下对生活的感悟,次日,关于坂本龙一快手(PREIPO:KWAI)音乐会的相关话题冲上微博热搜,且阅读量破亿。

  • IDC:2019年Q4浪潮存储居中国市场销售额前三

    日前,IDC发布 2019 年第四季度中国存储市场调查数据,本季度中国外部存储市场整体销售额92. 1 亿,同比增长25.2%。浪潮存储销售额同比增长97.2%,市场份额居中国前三。纵观四季度,外部存储整体市场保持两位数增长,其中全闪存储、软件定义存储表现突出。全闪存阵列(AFA)市场销售额增速达58.1%,抵消了纯硬盘阵列市场的下降态势,浪潮存储全闪增速达700%,居全闪市场增速第一。软件定义存储保持高速发展,2018- 2023 年其复合增长

  • 曾掀起“撒币”浪潮,如今公司黯然倒闭:直播答题鼻祖的生死902天

    坚持了 902 天后,第一家在手机上掀起“直播答题”浪潮的公司还是倒下了。2 月 14 日据CNN报道,直播答题鼻祖HQ Trivia宣布公司将关闭,并解雇其 25 名全职员工。成立于 2017 年的他们,用不到一年的时间迅速走红,被无数产品效仿;也因为主持人出走、产品形态缺乏创新而跌入低谷,走向了衰落。

  • 计算需求集中爆发,快快网络业绩井喷

    2020 年的春节在历史上将会留下浓厚的一笔。新冠疫情+春节效应推动“宅居经济”,线下实体业务遭受重创,游戏、视频、线上娱乐、远程办公、在线教育、在线问诊等线上业务的需求集中爆发,疫情所带来的流量红利正在加速释放。近日,智能云安全管理服务商快快网络,通过此前深度布局云服务,全力投入抗击疫情、助力复工复产,充分发挥了“云计算”这一新型的基建设施,迎来销售业绩的井喷。为线上业务提供科技赋能受疫情影响,线下业

  • 浪潮中标某央企智能仓库数据中心硬件采购,助复工保生产

    日前,浪潮成功中标某央企智能化仓库数据中心建设硬件采购项目。该央企采购数十台浪潮的双路服务器NF5280M5 和四路服务器NF8480M5 等设备支持数字化转型,保障智慧仓储、精细管理以及安全生产,用科技手段保障复工复产。为了进一步提高安全管理科学化、信息化、智能化水平,推动安全生产责任制的落实,该央企集中资源对公司进行信息化、智能化改造,以浪潮服务器为支撑,承载企业智能仓库虚拟化管理平台系统、仓库中心集成控制系统

  • 百度推出电子出入证、社区AI测温系统等多款防疫AI产品

    3月6日消息,近日,百度推出电子出入证、社区AI测温系统、“ 8 合1”小程序等多款AI产品。其中,社区防疫电子出入证,只需要用手机百度或者微信扫一扫二维码,填写住户信息后就可以自动生成当天的动态通行证;AI测温系统可以让居民不用停留即走即测;综合性社区防疫小程序,拥有疫情地图、同乘查询、智能自测、发热门诊、心理咨询、防护手册、问题上报、免费问诊等八大模块。

  • 字节跳动入局云计算 To B野心再加码

    种种迹象表明,字节跳动正在向云计算进军。“最近收到了字节跳动的招聘邀请,”一位云计算企业销售向全天候科技表示,“从交流过程和职业描述来看,这不是一个对内项目,是To B的云计算业务。”

  • 谁是中国AI芯片的少林和武当?

    芯片行业的历史上,很少出现创业热潮,但AI再次掀起的热潮不仅吸引了全球多家科技巨头进入了芯片行业,也让我们得以见证了AI芯片的崛起。中国作为全球重要的AI芯片公司聚集地,你应该会好奇到底哪些人加入了AI芯片的大潮?这些人是否又有一些共同的标签?

  • 搜狗AI录音笔S1:行业首创AI降噪功能,可过滤4万余种真实噪音

    2 月 26 日下午 2 点,搜狗召开“同舟共记, 2020 搜狗AI录音笔新品线上发布会”。在会上,搜狗重磅发布了多款搜狗AI录音笔新品,其中最引人瞩目的是首款具有AI降噪功能的AI录音笔S1。业内首创AI降噪功能,强大的软硬件结合能力解决行业难题 便携式录音笔最早出现在上个世纪末,但是十几年来,录音笔产品形态虽然有一些迭代,但是一些痛点始终没有解决。例如录音过程中的噪声问题,在日常使用录音笔的场景中,环境噪声不可避免,?

  • 34万亿投资的新基建 计算力为核心动能

    作者:浪潮服务器产品部副总经理 陈彦灵新冠疫情是一次压力测试,倒逼政府和企业加速数字化转型。而数字化转型的基础,就是“新基建”——以5G、人工智能、数据中心为代表的信息数字化基础设施。有媒体统计,新基建带来的总投资额近 34 万亿。从中长期来看,这一举措将持续转换经济增长方式,经济结构向以数字经济为代表的新兴经济转变。新基建赛道中,作为“云+数+AI”的新型互联网公司,浪潮一直为中国数字经济提供源源不断的计?

  • 霍尼韦尔宣称将推出全球最强大的量子计算

    说到量子计算机,我们倾向于认为像谷歌和IBM这样的公司才会是该领域的大玩家,但这一领域可能很快会有更多的竞争。霍尼韦尔表示,在未来三个月的某个时候,它将推出一款量子计算机,其功能至少是现有设备的两倍。

  • 参与评论
文明上网理性发言,请遵守新闻评论服务协议