首页 > 传媒 > 关键词 > 机器学习最新资讯 > 正文

机器学习在领英的规模化应用

2019-12-06 14:19 · 稿源:站长之家用户投稿

  人工智能和机器学习仍然是全球持续增长的领域之一,近年来涌现出越来越多本科生或者非人工智能专业出身的工程师,他们努力学习和使用技术来改进产品,几乎每天都有新的机器学习技术和框架发布。这篇文章将讨论领英如何规模化利用技术,帮助更多工程师提升机器学习的效率。近日,领英中国机器学习研发经理李子在IEEE数据挖掘国际会议(ICDM)上分享了领英是如何规模化开展机器学习,介绍领英的核心产品以及如何利用技术帮助更多工程师提升机器学习的效率。

  Pro-ML提升机器学习效率

blob.png

  过去 10 年,领英把人工智能技术应用于各个方面来提升用户和客户体验,比如你可能认识的人(People You May Know),可以为你推荐能够给你的职业发展带来价值的人;Feed可以帮你找到最相关的行业信息,比如最新的文章或联系人的最新动态;Recruiter Search可以帮助企业了解趋势,更好地进行招聘;职位推荐系统(Job Recommendations System)可以帮你找到工作或者跳槽到更好的企业。机器学习推动着领英的核心产品。

  但领英发现,过去每个团队用自己的AI技术堆栈开发各自的产品。,这种做法无法有效实现规模化,因为每个团队使用的技术不同,从逻辑回归到深度学习,从Pig 、 Hive、Spark到Scalding等等,团队之间的AI技术堆栈很难共享协作。所以领英希望在招入新的工程师或是开发新功能、使用新技术时,尽可能减少大家的负担。此外,近年来很多人工智能领域的从业者其实并不是人工智能专业出身,领英的AI基础架构对他们来说过于复杂,难以用来构建、迭代模型。

  为了高效地促进机器学习规模化,领英构建了名为“Productive Machine Learning”(高效机器学习)的项目,简称Pro-ML。Pro-ML的目标是将AI工程师的工作效率翻一番,让他们能更轻松、更高效地构建模型。在过去十年里领英发现,模型性能与模型更新速度直接相关。因此,如果能让工程师加快模型迭代速度,那么模型性能也会提高。

  具体来说Pro-ML采用分层解决方案,目标是提高整个模型开发周期的效率,从模型探索和构建(Exploring and Authoring),到模型训练(Training)、模型部署(Deploying)、模型运行(Running),再到持续监控模型状态。领英希望把所有常规工作自动化,这样算法工程师就能更加聚焦于创新。

blob.png

  Pro-ML中有两个工具贯穿刚刚提到的所有阶段:一个是Feature Marketplace,另一个是Health Assurance Layer。在Feature Marketplace,领英使用先进的技术来生成、共享和管理新特征。AI建模的核心是特征工程(Feature Engineering),领英有数百名工程师和数万种正在研究的特征。提高工程师生成、共享和管理特征的效率,对于提高他们的工作效率至关重要。

  而Health Assurance Layer可以在整个开发周期中持续监控模型状态。比如,它确保用于模型训练的离线特征和用于在线推理的在线特征在统计意义上一致或近似,同时确保在线模型的良好性能。比如在预测分数的时候,工程师希望在线打的分与离线训练的分数精度一致。一旦Health Assurance Layer检测到异常,会自动提醒工程师,然后工程师可以介入,进行调试。Health Assurance Layer还提供了很多有用的工具,帮助工程师进一步确认问题所在。是代码出错?还是数据缺失?还是仅仅因为模型老旧,需要重新训练?

  Pro-ML提升效率的第一步——探索与授权

  建模过程实际上始于对问题的探索。目标是什么?目标函数是什么?有什么特征?数据有哪些?对于这些问题,工程师需要做无数个实验来探索数据,进行特征工程,调整模型和超参数。为了提高这一阶段的工作效率,领英构建了集成了 Pro-ML内核的Jupyter Notebook。在Jupyter Notebook的帮助下,工程师可以一步一步地进行数据探索、特征选择和模型绘制,并以交互的方式做实验。Jupyter Notebook由领英的Spark集群提供计算资源,这样工程师就可以在线完成工作而不需要把数据下载到本地,不仅提高了他们的工作效率,同时也保护了用户隐私。

blob.png

  为了定义模型,除了Jupyter Notebook,领英还构建了一种领域特定语言(Domain-specific Language, DSL)叫做Quasar。本质上来说,机器学习模型就是有向无环图(DAG),它定义了输入特征和在这些特征上的转换。Quasar DSL是领英用来定义模型的语言,它为建模者提供了几乎所有常见的特征转换函数。因此AI工程师们可以专注于新特征或者特征组合实验,而不需要书写大量重复代码来做特征转换。Quasar的另一个优势是离线训练出来的模型可以直接部署到线上,大大简化了模型从离线到在线的过渡。

blob.png

  多种工具高效协助模型训练

  众所周知,一个模型实际上有两个关键组成部分,一个是特征,另一个是算法。首先来看一下特征。如前所述,特征工程是AI建模的核心所在。在领英,为了提高学习效率,领英构建的框架Feature Marketplace可以让工程师可以有效地生成、发现、共享和管理特征。工程师可以将特征共享到Feature Marketplace上以便其他人使用,也可以按名称搜索特征,发现该特征并获取关于该特征的所有信息,例如特征的创建者、特征是如何生成的、特征应用在哪些领英的模型中以特征的统计分布等等,所有这些问题都可以在Feature Marketplace找到答案。Feature Marketplace还为工程师提供了诸多切实有用的工具,帮助工程师选择特征以及持续监控和验证特征。通过Feature Marketplace,工程师可以快速找到建模所需的特征。

blob.png

  不过,Feature Marketplace也面临着挑战:如何确保工程师能够得到他们所需要的么,比如在线和离线特征是一致的。如果做了大量离线实验,收集好的特征用于建模,那么这个模型可能会表现得很好,但不能保证在线的时候这个特征是稳定的,如果不稳定,那模型性能可能会下降。事实上,这种事故在过去几年屡见不鲜。为了解决这个问题,领英构建了一个工具称为Frame。Frame是一个基于相同配置和相同公共库离线和在线生成特征的平台,保证了离线和在线的一致性。领英向工程师提供操作细节,工程师只需要在Quasar模型中指定特征的名称,就可以保证在线和离线获取特征的一致性。

  特征集齐后就需要算法。领英支持深度学习、决策树算法、Generalized Linear Mixed Model (GLMix)等多种算法。在深度学习的场景中,领英使用Tensorflow;在决策树算法的场景中使用XGBoost,两者都是第三方库。对于GLMix,领英研发并开源了一个机器学习库叫做Photon。GLMix模型大大提高了职位推荐系统的性能,成功使职位申请数量增加了20%。

  根据特征和算法,领英构建了Photon Connect训练引擎,把上述所有组件连接起来。Photon Connect用Frame来访问特征,并将特征与标签数据连接起来,然后将数据传输至Quasar模型进行特征转换。在这个阶段,Quasar模型的参数是未知的,领英利用Quasar模型进行特征转换,然后使用算法来学习这些参数。学习到的参数会插入到Quasar模型中。这样,一个Quasar模型建模就完成了,它可以直接部署到线上服务中。

blob.png

  Health Assurance Layer保证算法顺利运行

  模型训练和部署完成后,最后一个问题是:当模型实际运行的时候,如何保持它能够正常运行呢?根据过去的经验教训,在开发的早期阶段越重视这个问题,越容易在实际运行时保证模型正常运行。因此,在模型探索和训练等早期阶段,领英的Health Assurance Layer提供了一系列工具,用于持续监控和验证。有人可能会问,在实际运行中,所有在线特征都可用吗?特征更新的速度是否足够快?实际上,如果出现任何异样, Health Assurance Layer 将通知相应的工程师,他们会介入进行调试。Health Assurance Layer为工程师提供了一系列工具,帮助他们快速锁定问题。

blob.png

  领英的机器学习与Pro-ML团队

  经过十年的快速发展和实验后,领英将人工智能团队与产品团队紧密地联系在一起,使机器学习团队能够与致力于解决类似难题的同行专家合作并分享最佳实践。

  类似地,Pro-ML团队围绕五个主要支柱构建,每个支柱都支持模型开发生命周期的一个阶段。通常,每个支柱都有一个负责人(通常是一名工程师)、一个技术负责人和几个工程师。这些工程师也来自各个组织,包括产品工程组织、基础/工具组织和基础架构团队。Pro-ML团队分布在世界各地,包括班加罗尔、欧洲和美国多个地方。领英还拥有一个领导团队,帮助制定项目愿景,并且最重要的是致力于消除摩擦,以便每一个支柱能够独立存在。

  Pro-ML将增加能够利用人工智能的产品数量,并扩大能够培训和部署模型的团队数量。此外,它将减少模型选择、部署等所需的时间,并使Health Assurance等关键领域自动化。领英现在已经花了一年多的时间来改造人工智能,使其能保持快速、高效和可操作性,扩展到所有工程领域。它让工程师有更多的时间去做他们最擅长的事情:利用领英独特的高度结构化的数据集,为棘手的技术问题找到创造性的解决方案。

  从 2014 年进入中国开始,领英不断地探索着中国这片独具特点的市场,在中国北京和美国硅谷从无到有,构建了一支超过100 人的本土研发团队,两地团队以“One Team”的形式协作,利用总部的技术资源优势,希望推动中国市场完成本地化产品与技术创新。未来领英也将进一步依靠 AI 和大数据技术升级优化用户体验。如果你也想加入领英中国这支强大的研发团队,欢迎点击下方链接/扫描二维码,查看并申请职位吧!

免责声明:“站长之家”的传媒资讯页面文章、图片、音频、视频等稿件均为自媒体人、第三方机构发布或转载。如稿件涉及版权等问题,请与我们联系删除或处理。稿件内容仅为传递更多信息之目的,不代表本网观点,亦不代表本网站赞同其观点或证实其内容的真实性,更不对您的投资构成建议。我们不鼓励任何形式的投资行为、购买使用行为。

  • 相关推荐
  • 大家在看
  • 语数英学习有苦难?读书郎网校帮助孩子破解学习困局

    国庆小长假后,十月伴随着飒爽的秋风已悄然过半。新学期开学一月有余,孩子的语数英学习一直是家长最为关注的“心腹大科”。三科不仅仅是小学、初中、高考的主要科目,更是其他学科学习的基础。但是经过这段时间的磨合,有多少孩子始终未能适应新的学习内容,跟不上老师的上课进度?不少家长将目光投向辅导班,希望通过专业的辅导老师帮助孩子高效学习。然而现在市场上的在线辅导班鱼龙混杂,到底什么样的在线辅导班适合孩子,家长?

  • 学习名创优品好榜样?

    ​时隔 2 年,鲜有融资的名创优品再一次宣布融资的消息,只不过这次是IPO。10 月 15 日晚,名创优品正式在美国纽交所上市,IPO发行价 20 美元,开盘报24. 4 美元,较发行价上涨22%。

  • 智慧奶爸孙红雷,今天有了个机器人朋友

    9 月 22 日,国内AI+儿童领域知名品牌阿尔法蛋官宣孙红雷成为其首席智慧体验官,并同步上线孙红雷代言的阿尔法蛋大蛋2. 0 机器人、阿尔法蛋智能故事机联名款产品。阿尔法蛋品牌还表示,即将在旗下相关产品中植入孙红雷的合成语音,用他的声音给更多的孩子讲故事。阿尔法蛋自从 2016 年推出首款产品以来,陆续带来智能机器人、故事机、词典笔、学习手表等一系列儿童智能产品,成为 500 万家庭的选择,收获了市场的肯定与好评。阿尔?

  • 华为任正非:永远不会忌恨美国、向敌人学习

    9月27日,华为心声社区发布了任正非7月底在复旦大学、上海交大、东南大学、南京大学座谈时的发言纪要,主题为——若果有人拧熄了灯塔,我们怎么航行?任正非在谈话中开篇就提问,华

  • 日本1比1还原高达机器人,真的可以行动

    “高达”可以说是日本动画IP中影响力十分巨大的一个品牌,在全球范围内都有着大量的粉丝群体。在今年,日本横滨港即将举办为期一年的大型 “高达” 行走机器人展,这个机器人将是有史以来最先进的1:1全尺寸高达。

  • 掌握英语启蒙关键点,叽里呱啦激发孩子学习兴趣

    英语启蒙是一个分阶段,循序渐进的过程。孩子的年龄不同,接受能力也不同,先从兴趣的培养开始,到自然拼读阶段,再到听说读写全面发展。叽里呱啦专注于0-8岁英语启蒙教育,有专业科学的分龄分级体系,如0-1岁有英语早教课,1-2岁有英语启蒙课,2-8岁有英语体系课。根据孩子的年龄、英语基础来进行科学合理的分级,不仅能让孩子得到适当的语言艺术熏陶,还符合孩子年龄的接受能力,让孩子对英语更感兴趣。0-8岁英语启蒙APP叽里呱啦

  • 开言英语怎么样:成人英语学习的“优质基地”

    据统计开言英语在英语教学APP市场下载量名列前茅,开言英语之所以能够拥有如此高的下载量,都取决于独特的教学方式和教研团队,这款软件主打成人英语口语教学,时间上相当自由,完全可以用琐碎的时间来去学习,这也是它的一大吸引点,而且开言英语还拥有线下活动,这是一大部分教育软件很少能做到的,在线下活动内很多学习者都可以展示自己的学习成就。在购买者的口碑上也可以分析出开言英语的两大亮点,教学团队和教学计划。教学?

  • 张阳德-从接受和学习新事物的过程中获得新生

    华夏上下五千年文明,涌现出一大批宝贵文化与民族智慧,有些或已逐渐失传,有些或发扬光大流传至今,华夏文明是世界古代五大文明之一,它和古巴比伦、古埃及、古希腊、古印度文明并称为五大文明。华夏文明是仅存延续到现在的一支文明,数千年来绳绳为继,哺育了中华民族。华夏文明形成过程中的"华夷之辨",以文化为准则,促进了民族融合与统一,维护并发展了华夏文明,充分体现了古代中华民族的文化自信,对后世有极大的影响与启发

  • 学习苹果好榜样:30%的“谷歌税”到底合不合理?

    谷歌产品管理副总裁萨米尔·萨马特在安卓开发者博客空间上宣布,所有Google Play上的开发者在应用内销售虚拟产品时,都必须使用Google Play的结算系统作为付款方式。并支付一笔交易抽成费,谷歌公司对安卓应用商店的“谷歌税”收取比例为软件购买者的30%。

  • 马云:教育应为数字时代改变 否则孩子将无法与机器竞争

    9月23日,马云在联合国大会上表示,要理解、参与和拥抱数字时代,需要改革教育。他指出:“今天的教育模式是基于工业化时代,几百年来一成不变。而现在,教育模式应该为支持数字时代而设

  • 实力碰撞,奶爸孙红雷代言的机器人朋友是什么来头?

    近日,孙红雷在微博官宣成为阿尔法蛋品牌的智慧体验官,阿尔法蛋官方目前也同步上线了孙红雷代言的阿尔法蛋智能故事机Z1和阿尔法蛋大蛋2.0机器人定制版产品。据悉,定制版产品中将会上线孙红雷的合成语音,用他的声音给更多的孩子带来陪伴。影视剧中的孙红雷惯常以硬汉形象示人,现实中却幽默有趣、萌点多多,如今转型智慧奶爸的实力派演员孙红雷签手儿童人工智能领域领头羊品牌阿尔法蛋,双方实力碰撞出的火花令人期待。不管是明星爸妈还

  • 夸克搜索升级学习频道 近期将上线iPad版

    昨日,智能搜索app夸克全新升级学习频道,面向各年级中小学生定制AI工具,开通家长专属辅导作业入口。此外,夸克搜索还表示近期将上线iPad版。

  • 华尔街英语学员张及东:学习要在潜移默化中收获

    2000年,华尔街英语进驻中国市场,为中国成人英语学习者提供科学的“多元法?”,20年间华尔街英语学员遍布各行各业。在广告业白手起家的张及东是华尔街英语北京国贸学习中心早期学员之一。华尔街英语早期学员张及东一次体验开启一段“旅程”张及东表示,自己的企业合作伙伴来自英国和沙特,虽然日常都配备了专业翻译,但自己总觉得不论是工作还是社交,交流无障碍才有助于建立更紧密的关系,因此提升英语水平一直在自己的“计划表?

  • 拉勾教育:提供全真模拟面试等辅导 可将学习报告直接推送给企业

    9月28日消息,为解决互联网人才培养难题,拉勾旗下的互联网职业教育平台—拉勾教育正式推出,旨在帮助互联网职场人交流和提升技术能力,凭借互联网教育平台开放性、包容性、灵活性和多样性的特点,让“任何人在任何时间和地点都可以开展学习”。摩根士丹利发表职业教育专项研究报告指出,中国服务业的增长和制造业技能升级需求将推动职业教育市场的成长,预计2030年前,中国非正规的职业教育和培训市场每年增长8%,规?

  • 币圈行情下滑,okex徐坤:以学习的态度,接入更多优质项目

    主流币行情低迷,DeFi进入“理智期”这两个月火热的DeFi进入了秋天。本周,比特币、以太坊等主流币币价下跌,截止发稿时间,比特币已从 10983 美元已跌至 10427 美元。以太坊报价 340 美元,对比今年 9 月 1 日的高点的 382 美元,已回撤超30%。伴随着主流货币尤其是ETH币价的下跌,越来越来的用户亲身感受到了DEX(去中心化交易所)的一些劣势,比如“无常损失”带来的损失。很多参与了Uni挖矿的的散户吐槽,在ETH下跌根本不用自己?

  • 斗鱼直播等平台被约谈整改 学习栏目推送游戏等无关内容

    今天上午,网信办公布了近期2020“清朗”专项行动暨网课平台专项整治依法查处的第三批存在问题网站名单。其中,斗鱼直播、PP视频、乐视视频等 3 家网站平台因网课学习栏目推送游戏、直播、影视剧等与学习无关内容被约谈。

  • 大鹏在线教育 打造智能化学习新平台

    随着科技的发展,互联网已经深入融合到各个领域,成为各行业持续发展的重要推动力。大鹏在线教育紧跟时代发展潮流,采用“互联网+教育”的教学模式,深耕教育领域,打造多场景智能化学习新平台,助力在线教育的发展。大鹏在线教育,学我想学,找到生活的热情大鹏在线教育官网定位于社会发展需求,不断发展线上教育,在打破地域教育资源不平衡现状的同时,满足不同年龄段、不同基础学员的学习需求,致力于构建智慧型学习体系,从而?

  • 人人词典团队重磅推出“简单词” 一个堪比出国的英语学习软件

    北京沃得秀教育科技有限公司(以下简称沃得秀),相信对很多人来说比较陌生,其实 2016 年的时候,沃得秀就推出了一款划时代的英语学习工具「人人词典」软件,累计用户已达百万,凭借着创始团队拥有的人人影视字幕组多年积累的原创中英双语字幕资源和技术背景,第一次真正意义的实现了多场景记单词的意义,从此开始了对情景英语教育领域的探索。 继「人人词典」之后,沃得秀又推出了一系列堪比出国的情景单词软件:沃得秀逐步拓宽

  • 叽里呱啦:如何才能使0-8岁孩子英语启蒙学习变得更简单有效?

    孩子的英语语言学习是一个长期的过程,如果家长们能够在语言发展黄金期为孩子规划一个科学、可持续的学习路径,选择一个专业、实用的学习产品,将能为孩子今后的语言能力培养建立一个良好的基础,也能有效缓解家长们的教育焦虑。作为一家“互联网+教育”企业,叽里呱啦专注于0-8岁英语启蒙,通过原创内容,结合AI技术,为0-8岁中国儿童提供科学、趣味、体系化的英语启蒙课程。截至目前,英语启蒙教育品牌叽里呱啦覆盖了中国2600多?

  • 开言英语怎么样——教学与真实场景互动,带来英语学习新方式

    随着英语的普及,生活中需要用英语交流的场景也变得越来越多,想要在短时间内提升自己的英语水平,根本离不开一款好的辅助软件。最近很火的一款主打专为成年人设计的APP——开言英语,点击率一路领先。在不断爆红的背后,也有很多人发表疑问,开言英语到底怎么样?其实,开言英语是一款北美主播情景对话式英语学习APP。采用的都是模拟真实场景对话,提倡场景化的学习,让语言学习在真实的情景下进行。开言英语还会实时更新课程内容

  • 参与评论
文明上网理性发言,请遵守新闻评论服务协议
  • 热门标签