首页 > 传媒 > 关键词 > 华为云最新资讯 > 正文

从0到1打造AI应用模型,华为云EI ModelArts实战全记录

2019-01-03 11:39 · 稿源:站长之家用户投稿

现如今 AI 技术、概念火爆、落地应用更是繁多,但开发呢?是否困难?到底有多痛?

据了解,大部分 AI 开发者的工作时间并不长,并且十有八九可能不是“科班出身”。从编写的教材、录制的课程中就可以看出,所有的教学都不可避免地带有很强的的学术性,即便有意避免研究导向,仍然离产业界的需求相去甚远。

并且随着新一波人工智能的热潮,人们发现手里的数据多了,电脑运算的更快了,但实际上,这些 AI 开发者使用的工具并不顺手。

为帮助开发者更深入地了解 AI 开发,快速上手 AI 开发必备技能,12 月 20 日的AIcon活动上,华为云举办了一场以「基于 ModelArts 平台的 AI 开发实战」为主题的现场挑战 Workshop!现场由来自华为云EI深度学习服务团队负责人为开发者讲解了 ModelArts 的 相关技术与应用,帮助开发者学习如何从 0 到 1 打造一款 AI 应用模型。

ModelArts——更快的普惠 AI 开发平台

ModelArts 是面向 AI 开发者的一站式开发平台,提供海量数据预处理及半自动化标注、大规模分布式训练、自动化模型生成,以及端-边-云模型按需部署能力,帮助用户快速创建和部署模型,管理全周期 AI 工作流。

同时,ModelArts 能够在 AI 开发全生命周期中,从原始数据、标注数据、训练作业、算法、模型、推理服务等,提供全流程可视化管理。支持千万级模型、数据集以及服务等对象的管理,无需人工干预,自动生成溯源图,选择任一模型就可以找到对应的数据集、参数、模型部署在哪里。其中最实用的训练断点接续功能、训练结果比对功能,在华为内部开发者中也颇受欢迎。

简单来说,ModelArts 的特点是“四快”:

数据管理快——让数据准备效率百倍提升

想象一下,如果你的老板给了你 10 万张无标签的图片,并要求你为这些数据打上标签。你该怎么办呢?

许多公司都在数据的大海里遨游,不论是交易数据、物联网传感器产生的海量数据、安全日志,还是图像、语音数据等等,这些都是未标注的数据。

正如华为云EI深度学习服务团队负责人所说,“当前做 AI 开发,最让开发者头疼的就是数据的采集和数据的处理。曾有开发者吐槽,光是数据准备就要占掉整体开发时间的 70%。”那么,为什么数据的处理这么难?效率为什么这么低呢?

人工智能界有一个说法:“有多少人工就有多少智能。”因为目前实现人工智能的主要方法是机器学习(目前火热的深度学习也是机器学习的一部分),而机器学习中目前大部分应用都是有监督的学习,即需要大量的 标注样本 去训练人工智能算法模型。

例如图像识别任务中,必须有大量已经标注好的图片,比如一张猫的图片,狗的图片等,你必须明确的告诉 AI 算法,这些图片里面是什么东西,它再从中去学习出相应的“知识”。

所以,AI 并不像传统想象的那样,丢一堆数据给 AI 算法,AI 算法就能够从中学习到各种有用的知识。而是背后有大量的人工在标注数据。

而 ModelArts 在数据管理方面,会将数据进行预处理,用 AI 的数据去标注数据,即自动化标注和半自动化标注。ModelArts 可对数据采样和筛选,预标注,缩减需要标记的数据量,降低工作量。目前, ModelArts 已经在自动驾驶领域有非常多的应用,包括人车模型、信号灯模型等等,这些模型在自动驾驶的场景里面,可以快速地提升数据处理的效率,实时地处理数据。在未来,ModelArts 也将面向通用计算机的其他领域。

训练快——模型训练耗时减低一半

在模型训练部分,ModelArts 通过硬件、软件和算法协同优化来实现训练加速。尤其在深度学习模型训练方面,华为 将分布式加速层抽象出来,形成一套通用框架——MoXing(“模型”的拼音,意味着一切优化都围绕模型展开)。

采用与 fast.ai 一样的硬件、模型和训练数据,ModelArts 可将训练时长可缩短到 10 分钟,创造了新的纪录,为用户节省 44% 的时间。

MoXing 是华为云 ModelArts 团队自研的分布式训练加速框架,它构建于开源的深度学习引擎 TensorFlow、MXNet、PyTorch、Keras 之上,使得这些计算引擎分布式性能更高,同时易用性更好。

MoXing 内置了多种模型参数切分和聚合策略、分布式 SGD 优化算法、级联式混合并行技术、超参数自动调优算法,并且在分布式训练数据切分策略、数据读取和预处理、分布式通信等多个方面做了优化,结合华为云 Atlas 高性能服务器,实现了硬件、软件和算法协同优化的分布式深度学习加速。

有了 MoXing 后,上层开发者可以聚焦业务模型,无需关注下层分布式相关的 API,只用根据实际业务定义输入数据、模型以及相应的优化器即可,训练脚本与运行环境(单机或者分布式)无关,上层业务代码和分布式训练引擎可以做到完全解耦。

另外,衡量分布式深度学习框架加速性能时,主要看吞吐量和收敛时间。在与吞吐量和收敛时间相关的几个关键指标上,华为云 ModelArts 都做了精心处理:

在数据读取和预处理方面,MoXing 通过利用多级并发输入流水线使得数据 IO 不会成为瓶颈;

在模型计算方面,MoXing 对上层模型提供半精度和单精度组成的混合精度计算,通过自适应的尺度缩放减小由于精度计算带来的损失;

在超参调优方面,采用动态超参策略(如 momentum、batch size 等)使得模型收敛所需 epoch 个数降到最低;

在底层优化方面,MoXing 与底层华为自研服务器和通信计算库相结合,使得分布式加速进一步提升

那么,在 MoXing 一系列的优化之后,实际效果如何?以国际权威成绩来参考:

在斯坦福大学发布 DAWNBenchmark 最新成绩中,在图像识别(ResNet50-on-ImageNet,93% 以上精度)的总训练时间上,华为云 ModelArts 排名第一,仅需 10 分 28 秒,比第二名提升近 40%。

在这个汇聚谷歌、亚马逊 AWS、fast.ai 等高水平队伍的国际权威深度学习模型基准平台上,华为云 ModelArts 第一次参加国际排名,便实现了低成本、快速又极致的 AI 开发体验,其海量数据预处理及半自动化标注、大规模分布式训练、自动化模型生成以及端 - 边 - 云模型按需部署能力,更是体现了当前中国业界深度学习平台技术的领先性。

上线快——一键部署到云、端、边,支持各种上线场景

现如今,纵观整个 AI 产业,不仅仅是云,还会有边和端都需要部署的场景。然而,在 AI 规模化落地的场景下,模型部署会非常复杂,需要写代码集成到应用系统,维护、更新。例如在智慧交通领域,更新后的模型,需要一次性同时部署到各种不同规格、不同厂商的摄像头上,这是一项非常耗时、费力的巨大工程。

对于此类场景,ModelArts 可以一键推送模型到所有边缘、端的设备上,云上的部署还支持在线和批量推理,满足大并发和分布式等多种场景需求。

开发者可以在 ModelArts 上获得一些高并发、自动弹性伸缩的特性。能够根据用户制定的策略,自动调整云服务器的计算资源,跟随用户的业务需求变化。在业务需求下降时自动减少云服务器,节约资源和成本;在业务需求高峰时自动增加云服务器,保证业务平稳健康运行。

上手快——自动学习,零 AI 基础构建模型

ModelArts 具备自动学习功能,支持模型的自动设计与自动调参等,能够帮助开发者提升开发效率、快速上手。

为什么需要自动学习?

AI 开发有两大类,第一类为 AI 认知服务,比如图像识别和 OCR 等,这一类门槛很低,但灵活性差,只支持特定类型。当不满足需求时,只能定制一个模型,周期非常长费用也比较高。第二类就是找 AI 的算法工程师、算法专家,去做自己的模型;还有一类就是那些直接用 AI 的框架自己写代码以及自己训练数据,这一类的门槛较高,灵活度也很高。而自动学习就是希望能够打破这两者,既有一定的定制化的能力,又能够降低 AI 定制化模型的门槛,不需要写代码,用户可以定制化自己的模型的特点。

在自动深度学习里面,关键的技术是能够做到多维度下的模型的架构自动设计,包含模型的元学习,涉及一些训练指标,还有推动网络涉及的推理速度和监控等。另外还包括一些元学习的训练参数的自动配置、模型训练的参数配置及搜索等。

另外,由于深度学习向计算机视觉输入原始数据,整个特征工程是在神经网络里面做的,而机器学习需要很多算法工程师去识别哪些特征是对业务是起正向作用的,所以自动机器学习的关键技术,就是高效自动特征工程和自动调参。

除此之外,据华为云EI深度学习服务团队负责人介绍,华为云 ModelArts 还有一个特色,就是面向应用开发者。对于有经验的开发者,可以在 ModelArts 上自行编写并导入算法代码,核心组件 MoXing SDK 支持丰富的模型库、优化算法和各类工具库;支持自动超参数调优;包含训练 - 验证 - 预测 - 模型导出的整套框架;开发者只需要编写一套代码就能自动实现单机及分布式化。

对于编程苦手却想快速生成模型的 AI 初学者,ModelArts 也预置了能够覆盖大部分常用应用场景的算法模型(如 RestNet_50、Faster_RCNN、SegNet_VGG_16 等,未来还将上线更多算法模型),所有预置模型的基于开源数据集训练,模型精度领先。只需配置数据路径 / 日志输出路径和 Hyper Parameter 自动选择设置就可以一键启动训练。

ModelArts 应用实例:金融票据 OCR 识别

金融票据,包括银行承兑票据和商业承兑票据,目前银行承兑票据占了 90% 以上的票据市场份额,金融票据 OCR 识别工作重点在于银行票据的识别。

对于业界普通 OCR 软件,在金融票据领域识别准确率不高,对于现有一些针对金融票据做过优化的 OCR,识别准确率也算达到 90%。由于金融票据金额不低,对于 OCR 识别要求很高,而金融票据难点在于票据格式多样且差别细微等。

另外,票据模型开发训练难点包括数据标注、模型训练、调参和部署上都有较多难点,对于 AI 开发水平要求很高,需要非常资深的 AI 专家进行繁琐和长时间对于票据 AI 进行不断训练。

通过 ModelArts 助力金融票据 OCR 识别的实战。多位 ATN 社区使用者使用后认为:ModelArts 适合 AI 的初学者,通过数据集的分类,可自动学习,无需调参等操作;适用于迁移学习;线上部署便利,逐步集成更多的数据标注工具,扩大应用范围。

后续,华为云 ModelArts 将进一步整合软硬一体化的优势,提供从芯片(Ascend)、服务器(Atlas Server)、计算通信库(CANN)到深度学习引擎(MindSpore)和分布式优化框架(MoXing)全栈优化的深度学习训练平台。

华为云 ModelArts 会逐步集成更多的数据标注工具,扩大应用范围,将继续服务于智慧城市、智能制造、自动驾驶及其它新兴业务场景,在公有云上为用户提供更普惠的 AI 服务。

免责声明:“站长之家”的传媒资讯页面文章、图片、音频、视频等稿件均为自媒体人、第三方机构发布或转载。如稿件涉及版权等问题,请与我们联系删除或处理。稿件内容仅为传递更多信息之目的,不代表本网观点,亦不代表本网站赞同其观点或证实其内容的真实性,更不对您的投资构成建议。我们不鼓励任何形式的投资行为、购买使用行为。

  • 相关推荐
  • 大家在看
  • 华为云优秀伙伴带来公开课,北明软件与泰克教育携手精彩分享

    社会生活中,摩擦纠纷难免发生。但据研究统计,相当部分的矛盾纠纷,根本无需走到诉讼程序,通过协商、调解、仲裁、公证等非讼渠道就能化解。加之信息网络的快速发展,也催化了当事人和相关工作人员通过在线的方式处理问题的需求。如何利用云计算、AI等新技术,在线多元化解纠纷,成了构建新型纠纷治理模式的迫切需求。然而,纠纷处理面临着种类繁多、流程各异、涉及到的部门和人员多等一系列复杂问题。比如纠纷类型,除了刑事犯罪

  • 企业数字化转型关键期,华为云送来了一记助攻

    2020年初的黑天鹅,造成了企业复产复工的难题,与此同时,数字化转型成了逆势中的一道曙光,助力企业快速恢复和崛起。 36氪此前的调查和报道中发现,处于发展不同阶段、规模不一的大中小企业,不管是危机时期,还是正常时期,用数字化方式谋求生存和增长已逐渐成为当下的共识。 大数据、人工智能、云计算、物联网等创新技术和日益数字化的业务流程,让我们看到数字化技术正迅速席卷大多数行业和地域,数字化进程正在被前所未有的?

  • 华为云FusionAccess连续四年中国桌面云市场第一

    IDC最新研究数据显示,华为云FusionAccess桌面云一马当先,又一次斩获中国桌面云市场第一。这已经是自该报告2016年发布以来,华为连续第四年领跑中国桌面云市场,显示了客户对华为在桌面云市场多年来持续投入的认可。 IDC数据显示,华为不仅继续在其耕耘多年的政府市场持续领先,并且在金融、制造、能源等更多的行业也越来越受欢迎。同时期待FusionAccess基于华为鲲鹏生态会有更加优异的表现。 2020年,华为云FusionAccess针对日?

  • 第四届世界智能大会“云上”启幕,华为云与计算破解“新基建”底层密码

    6月24日,由国家发改委、科技部、工信部、国家广电总局、国家网信办、中国工程院、中国科学院、中国科协和天津市政府共同举办的第四届世界智能大会通过“云上”方式启动,行业专家齐聚线上,为智能科技领域的良性发展献言献策,为聚力建设人工智能先锋城市打造“天津智港”贡献力量。华为公司副总裁、华为云与计算中国区总裁史耀宏出席云上会议并发表观点:未来十年将是中国产业升级最关键的十年,尤其是在宏观环境变化的情况下,

  • IDC:华为云容器软件市场份额位居中国第一,全球第二

    近日,全球权威咨询机构IDC发布《PRC SDC Software Market Overview, 2019H2/2019》报告,报告显示,华为云容器软件市场份额排名位居中国厂商第一、全球厂商第二。数据来源:IDC《PRC SDC Software Market Overview, 2019H2/2019》目前,华为云容器已构建起包括八大基础服务、四大解决方案在内的全栈容器产品,广泛服务于泛互联网、金融、政府、制造、生物等行业客户。华为云容器八大基础服务具体包括云容器引擎(CCE)、云容器?

  • 掌门教育携手华为云展开“5G+教育”深度合作 打造更有趣的智慧课堂

    信息技术的进步为千行万业的升级带来变革,4G的诞生改变了我们的生活,5G的落地则将改变世界。5G时代,绝不仅仅是网速和容量的提升,而是将掀起一场颠覆式的产业变革,以及再一次的数字生活大爆炸,每一个垂直行业企业,都将面临一场全新的变局。作为智能化教育的先锋探索者,掌门教育一直坚持创新教学场景应用,促进智能教育的升级发展。近日,掌门教育与华为云“5G+X”联创营展开深度合作,利用5G、AI、云等创新科技持续为教育赋

  • Counterpoint Research:华为云IoT物联网平台竞争力国内排名第一世界第三

    据全球行业分析咨询公司Counterpoint Research最新发布的数据显示,华为云IoT物联网平台在全球 20 家知名厂商竞争力排名中位居国内第一、全球第三。

  • 特斯拉Model Y开启国际交付

    DoNews 6月11日消息(记者 刘文轩)特斯拉(Tesla)周二正式开始首款Model Y车辆国际交付。Teslarati发现,已经有加拿大温哥华的客户在Instagram上展示他们购买的最新款特斯拉全电动汽车。该车主在Instagram分享了一张照片,照片中有一辆深蓝色Model Y被送到加拿大新车主的手中。特斯拉温哥华展厅顾问Charlie Wang也证实了这一消息,Model Y在6月开始在温哥华交货。Model Y长续航版本在加拿大的起步价为75990加元,约59720美元;性

  • 特斯拉弗里蒙特工厂Model 3总装线或有减少 一条改为Model Y总装线

    6月10日消息,据国外媒体报道,特斯拉位于加州弗里蒙特的组装工厂,在今年一季度已开始组装去年3月份推出的跨界运动型多用途汽车Model Y,部分幸运的消费者已经收到了他们此前预订的这一款电动汽车。特斯拉跨界运动型多用途汽车Model Y但从外媒最新的报道来看,弗里蒙特工厂的Model Y总装线,可能是此前用于组装Model 3的生产线。弗里蒙特工厂Model Y总装线此前可能是Model 3总装线,源自外媒获得的特斯拉CEO马斯克的?

  • 特斯拉Model 3国产性能规格公布,Model3高性能全轮驱动版详细介绍

    特斯拉Model3 国产性能规格怎么样?6 月 28 日晚,特斯拉中国在官网发布了Model3 高性能全轮驱动版车辆的国标工况续航里程,续航里程测试结果为635km,百公里加速时间为3. 4 秒,时速可达 261 公里/小时。

  • 马斯克:特斯拉并未开发搭载100kWh电池组的Model 3/Model Y

    6月17日消息,据国外媒体报道,此前,有传闻称,特斯拉正开发一款搭载100kWh电池组的Model 3/Model Y。对此,该公司CEO埃隆·马斯克予以否认。此前,一名叫“Zeus M3”的黑客访问了特斯拉Model 3的“工厂模式”(Factory Mode)。他在推特上分享的截图显示,有一款Model 3或者Model Y似乎搭载100kWh的电池组。这名黑客的爆料引发了许多猜测,其中最有趣的是有关车辆续航里程增加的猜测。目前,Model 3配备的电池组最高

  • 特斯拉Model 3一季度成加州最畅销的汽车

    今年第一季度,特斯拉电动汽车Model3 成为加州最畅销的汽车。根据加州新车经销商协会截至今年 3 月 31 日, Model3车售出了 18856 辆。这个数字超过了任何竞争对手的汽车,甚至超过了大众市场的汽车和跨界车。

  • 特斯拉正式开始Model Y的国际交付 从加拿大开始

    【TechWeb】6月11日消息,据国外媒体报道,当地时间周二,电动汽车制造商特斯拉正式开始了Model Y的国际交付,首先从加拿大开始。特斯拉温哥华门店顾问Charlie Wang表示,该公司将从6月份开始在加拿大温哥华交付Model Y。特斯拉预计,将在2021年上半年的某个时候开始向欧洲和亚洲的主要市场进行Model Y的国际交付。特斯拉是在去年3月份推出Model Y的,这款车是一款跨界运动型多用途汽车,最多可搭载7名乘客,续航里程最高为300英?

  • 马斯克证实:特斯拉正面临提高Model Y产量问题

    【TechWeb】6月9日消息,据国外媒体报道,电动汽车制造商特斯拉的CEO埃隆·马斯克在发给员工的一封电子邮件中证实,特斯拉正面临提高Model Y产量的问题。特斯拉是在去年3月份推出Model Y的,这款车是一款跨界运动型多用途汽车,最多可搭载7名乘客,续航里程最高为300英里(约482公里)。今年1月,特斯拉证实,该公司已开始在弗里蒙特工厂生产Model Y,这距离该公司推出这款车不到一年时间。今年3月,外媒报道称,该公司已经正式开

  • 定位低于Model 3!特斯拉或为中国生产紧凑型新车

    今年早些的时候,特斯拉CEO埃隆·马斯克曾表示,特斯拉计划在中国开设设计中心,生产和销售更符合中国消费者需求的产品。日前,特斯拉(中国)在其官方微信公众号上宣布,正式公开邀请设

  • 特斯拉被车主集体起诉 因Model 3不到一年就掉漆老化

    特斯拉正面临着一项新的集体诉讼,主要原因为,Model3 车辆在寒冷天气中,存在油漆严重受损的问题。这些车主要求特斯拉赔偿,并给出一定的经济补偿。据发起集体诉讼的车主称,他们的Model3 车辆,冬天在洒满盐和沙子除雪的路面上行驶时,车辆的油漆降解速度快的惊人。

  • 连续4年 华为桌面云稳居中国第一!

    据市调机构IDC的最新数据,华为云FusionAccess桌面云斩获2019年度中国桌面云市场第一,份额为24%。这也是该报告2016年首次发布以来,华为连续第四年领跑中国桌面云市场。IDC报告指出,华为

  • 比特斯拉Model S还牛?直接对标奔驰S的美国造车新势力来了

    日前,美国硅谷初创电动车企Lucid宣布旗下首款车型——Lucid Air量产版将于9月9日正式亮相。与此同时,官方还公布了Lucid Air的风阻系数为0.21Cd,已经超过目前很多优秀的纯电动车。

  • 特斯拉Model 3开启Autopilot撞上警车 司机被指控过失驾驶

    【TechWeb】7月1日消息,据国外媒体报道,特斯拉的Autopilot自动辅助驾驶系统,已经开卖多年,虽具备一定的辅助驾驶能力,但仍要求司机注意力高度集中。但即便如此,仍有很多司机在开启Autopilot自动辅助驾驶系统之后,未将注意来集中在道路上,进而导致车祸。去年12月份,美国就有一名特斯拉Model 3的车主,在开启Autopilot自动辅助驾驶系统之后不集中注意力,最终撞上了一辆停在路边的警车,这名司机目前已被指控过失驾驶。被指

  • 特斯拉电动卡车Semi再度现身 已在参与运输Model 3

    6月28日消息,据国外媒体报道,特斯拉在2017年11月份推出了电动卡车Semi,入门版售价15万美元,已获得了来自沃尔玛、快递公司DHL、啤酒生产商百威英博、百事可乐等多家公司的订单。特斯拉电动卡车Semi虽然还未量产并交付,但特斯拉电动卡车Semi的原型车,已多次出现在大众的视野中,2019年的9月份,电动卡车Semi的原型车就曾现身皮克斯总部,当时还有多辆特斯拉电动汽车跟随。而从外媒的报道来看,时隔9个多月之后,特

  • 参与评论
文明上网理性发言,请遵守新闻评论服务协议