首页 > 传媒 > 关键词 > PaddlePaddle最新资讯 > 正文

百度正式发布PaddlePaddle深度强化学习框架PARL

2019-01-18 16:55 · 稿源:站长之家用户投稿

强化学习作为AI技术发展的重要分支,为各家AI公司高度重视。去年,百度首次参与NeurIPS2018 的强化学习赛事,就击败了多达 400 支来自全球研究机构以及各大公司研究部门的参赛队伍,大比分以绝对优势拿下了冠军,并受邀在加拿大蒙特利尔举办的NeurIPS 2018 Competition Workshop上分享。近日,百度PaddlePaddle正式发布在赛事夺冠中起到关键作用的深度强化学习框架PARL,同时开源了基于该框架的NeurIPS2018 强化学习赛事的完整训练代码。(冠军解决方案见https://github.com/PaddlePaddle/PARL) 

PARL的名字来源于PAddlepaddle Reinfocement Learning,是一款基于百度PaddlePaddle打造的深度强化学习框架。PARL凝聚了百度多年来在强化学习领域的技术深耕和产品应用经验。与现有强化学习工具和平台相比,PARL具有更高的可扩展性、可复现性和可复用性,强大的大规模并行化和稀疏特征的支持能力,以及工业级应用案例的验证。

自 2012 年以来,百度就将在multi-arm bandits问题上的研究成果成功落地到推荐系统中,广泛应用于搜索、对话、推荐等产品,通过点击反馈结合在线训练的方式,动态调整探索(exploration)和收益(exploitation)的平衡点,降低探索风险的同时最大化推荐收益。近年来,百度在工业应用以及学术研究上进一步引入强化学习,落地在不仅限于凤巢,新闻Feed推荐等应用上,并且应用在前沿的学术研究领域例如机器人控制,通用人工智能AGI等。 2018 年,在机器人控制会议CoRL上,百度发表了干预强化学习机制的工作;进而在NeurIPS2018 的强化学习赛事上击败了 400 多个全球研究机构的参赛队伍,首次参赛就拿下了NeurIPS2018 强化学习赛事冠军。参赛队伍中不乏RNN之父创立的公司、卫冕冠军NNAISENSE、阿里、Yandex、Intel等强劲对手。

设计深度强化学习框架是相当具备挑战性的工作。虽然各大公司先后推出了一些强化学习框架,比如Intel的Coach、OpenAI的baseline、Google的Dopamine等,但截止到目前,开源社区中仍没有一个主导的RL框架。这其中主要的一个原因是强化学习近年来发展迅猛,新的研究方向不断涌现。从 15 年Deepmind 发表DQN 算法以来,涌现了大量的DQN算法变种,包括Double DQN、Dueling DQN、Rainbow等,同时在连续控制(continuous control RL),分层控制(hierarchical RL),多机器人控制(multi-agent RL)上涌现出相当多的新技术,甚至和元学习(meta-learning)以及环境建模(model-based)等结合起来。当前社区中存在的开源框架虽然可以支持其中的一部分算法,但是由于技术迭代太快,之前设计的框架难以跟上最新的研究热点。第二个原因是深度强化学习算法和应用,具有方法各异、超参难调、随机性大等特点,即便是针对同一个问题,使用同一种算法,不同的实现方式会带来极大的差异,学术界也一再强调强化学习可复现性问题。综合这些因素,要实现一个统一的模型和计算平台,是相当困难的事情。

PARL在设计之初就考虑了上述提到的扩展性和可复现性的问题。从上图可以看出,PARL通过抽象出Model、Algorithm、Agent等基础类帮助用户快速搭建可以和环境交互的机器人。Model类负责强化学习算法中的网络前向计算(forward)部分,通常嵌套在algorithm中。Algorithm 类则定义了网络的更新方式(backward)部分,通常属于一个agent。Agent类负责和环境进行交互,并且收集数据训练底下的algorithm。通过这样的设计方案,PARL保证了算法扩展性:针对同一个场景,用户想调研不同的网络结构对算法效果影响的时候,比如调研RNN建模或者CNN建模,只需要重写model部分即可;针对不同场景想用同一个算法调研的时候,也只需重写model即可。可复现性主要体现在框架提供的algorithm集合上,在下一段和复用性一起结合理解。

PARL 的这种设计结构的另一个好处是高复用性。仓库内的提供了大量经典算法的例子(algorithms目录内), 包括主流的DQN 、DDQN、Dueling DQN、DDPG、PPO等,这些算法由于和网络结构进行了解耦(网络结构定义在Model类中),因此不针对特定任务,而是一个相当通用的算法抽象。用户通过PARL搭建强化学习算法来解决自己目前遇到的问题时,可以直接import 这些经典算法,然后定义自己的网络前向部分即可短时间内构建出经典的RL算法。这种高复用性不仅极大地降低了用户的开发成本,而且由于PARL提供的算法内部包含完整的超参数列表,确保仓库内模型具备复现论文级别指标的能力。

下图是PARL官方提供的一个构建示例,展示了如何快速构建可以解决Atari游戏的DQN模型。用户只需要定一个前向网络(Model类),然后调用框架算法集合里面的DQN algorithm即可构建一个经典DQN算法了。DQN算法里面的繁琐的构建target 网络,同步target 网络参数等细节,已经包含在构建的algorithm里面,用户无需再特别关注。

百度正式发布PaddlePaddle深度强化学习框架PARL2348.png

PARL基于百度内部的成熟应用开源,因此更能方便地定制大规模并行算法。通过调用简单的函数接口,用户可以将算法从单机版扩展成GA3C、A3C、IMPALA等并行训练架构。PARL对于通讯机制,数据I/O等也有独特的加速处理。此外,基于PaddlePaddle对大规模工业级排序/推荐等稀疏模型的支持能力,PARL也能轻松扩展到百亿级别数据或特征的训练。

PARL的并行能力在开源社区中处于绝对领先地位。根据百度在NeurIPS上做的技术分享,基于PARL最多可以同时通过 8 块GPU来拉动近 20000 个CPU节点运算,完全发挥整个CPU集群的计算潜力,在赛事中成功将需要近 5 个小时迭代一轮的PPO算法加速到了不到 1 分钟,实现了相对单机运算高达几百倍的加速比。这种目前开源社区中框架难以支持的并行提速,是他们拿下本次冠军的关键因素之一。

百度正式发布PaddlePaddle深度强化学习框架PARL2720.png

百度本次正式发布PARL,不仅在学术界引发热议,更是在工业界引起巨大反响。百度拥有国内唯一有影响力的深度学习基础库,并积极推进AI生态战略。随着百度PaddlePaddle在工业界的影响不断深入,一个高性能、高规格的深度强化学习框架,也是满足工业界日趋发展旺盛的强化学习应用需求的必要条件。而这一系列举措,对于百度最终决胜AI时代将是有力的推动。

免责声明:“站长之家”的传媒资讯页面文章、图片、音频、视频等稿件均为自媒体人、第三方机构发布或转载。如稿件涉及版权等问题,请与我们联系删除或处理。稿件内容仅为传递更多信息之目的,不代表本网观点,亦不代表本网站赞同其观点或证实其内容的真实性,更不对您的投资构成建议。我们不鼓励任何形式的投资行为、购买使用行为。

  • 相关推荐
  • 大家在看
  • 墙倒众人推!PayPal和Shopify删除了与特朗普相关的账户

    继Facebook宣布将无限期封禁特朗普的Facebook和Instagram账号之后,电商平台Shopify也宣布其平台撤下与特朗普有关的商店。

  • 无意第一有心革命,明基DLP投影机正青春

    近两年投影机市场不问英雄出处,也不再论资排辈,传统品牌与新兴互联网品牌拉锯混战,构成了一曲激昂的交响乐。梳理那些大浪淘沙的投影机品牌,能在竞争中始终屹立不倒的,明基BenQ是其一。一边打破传统品牌的既有印象,一边牢牢占据全球DLP投影机市占第一的宝座,明基磨砺产品推陈出新,走出了一条独属于自己的道路。回顾:连续11年DLP全球市占第一,屡获佳绩长期以来明基更新技术,打磨产品,完善细分市场布局,在激光、4K、智能

  • 苹果 App Store 和 Apple Pay 即将支持欧盟「强客户认证」

    据9to5mac报道,苹果今天向开发者表示,欧洲经济区用户的在线购买流程将可能会受到欧盟「强客户认证」的影响。

  • 谷歌App商店宣布下架社交平台Parler 苹果商店考虑跟进

    在连续被Facebook和Twitter等主流社交平台封杀之后,谷歌APP商店已在声明中宣布下架聚集了大批特朗普支持者的社交平台Parler,苹果商店也表示考虑是否跟进下架处理。

  • 苹果 Apple Pay 正式上线江苏淮海一卡通交通联合卡

    苹果Apple Pay正式加入了对江苏淮海一卡通的支持,徐州地区用户可以使用Apple Pay快乘坐公交、地铁等公共交通。用户需要使用安装 iOS14 或更新系统的 iPhone6s 或后续机型,或者使用安装 watchOS7 或更新系统的 Apple Watch Series3 或后续表款。

  • 小米11将首发满血版LPDDR5和Wifi6增强版

    即将在12月28日发布的小米11成为了最近数码届最关注的一款数码产品,对于该手机的各种参数配置爆料也不断的出现。在昨天小米的高管们纷纷公布了小米11的多个重要参数性能,提前让粉丝和消费者们了解这款手机的性能。

  • 广东警方:微信电话本、百度地图等38款APP超范围收集用户信息

    今日,广东省公安厅公布了超范围收集用户信息App清理整治专项行动进展。广东省公安厅称,本次共监测发现“万联e万通”“微信电话本”“中国移动”“百度地图(iOS)”等38款App存在超范围收集用户信息违规行为。

  • 供应链消息显示苹果今年初发布首款mini LED显示屏iPad Pro

    据Digitimes报道,新的供应链报告证实了此前的传闻,新款iPad Pro将成为苹果首款使用mini LED显示屏的设备,并将在 2021 年第一季度推出。

  • B站关联公司已完成“bilibilipay.com”“bilibilipay.cn”等域名备案

    B站关联公司上海幻电信息科技有限公司于1月4日完成对“bilibilipay.com”、“bilibilipay.cn”等域名备案。

  • PassMark:AMD在台式机CPU市场份额15年来首次超过英特尔

    在个人PC的处理器市场,英特尔和AMD两家公司占据了几乎所有的市场份额,其中英特尔更是长年压制AMD成为市场的主导者,不过在近几年这一现象出现了巨大的变化。根据PassMark的CPU使用率数据,AMD在台式机CPU使用率总份额上短暂超过了英特尔,不过英特尔在笔记本电脑和服务器领域继续占据主导地位。

  • DataPipeline荣获湾区创见·2020网络安全大会 TECHSPARK 十强奖

    近日,作为湾区创见·网络安全大会的重磅环节,TECHSPARK星星之火IT创新大赛十强决赛在深圳国际会展中心落下帷幕。DataPipeline在10家入围决赛企业中脱颖而出,获得专家评委团一致好评,同时揽获IT创新大赛决赛十强奖。作为湾区创见·网络安全大会的重磅环节,TECHSPARK星星之火IT创新大赛十强决赛为大家呈现了一场思想的碰撞。在本次十强决赛中,参赛公司进行项目路演,由企业服务领域知名投资机构东方富海、红点中国等机构合伙人,及世界

  • 为什么所有的APP都在炫富?

    ​“人在美国,刚下飞机”、“喜提劳斯莱斯幻影”、“妈妈送我40万的床”……你有没有这样一种感觉:无论打开什么APP,都有人在展示自己的富裕生活,营造出一种“众人皆富你独穷”的氛围。

  • 亚马逊停止向社交平台Parler提供网络托管服务

    据BuzzFeed,亚马逊周六将受美国保守派人士欢迎的社交平台Parler移出云计算服务平台(AWS)。

  • 巴克莱:配备 OLED 的苹果 iPad 不会在 2021 年上市

    此前有不少报道指出,苹果有意在iPad Pro使用OLED取代现在使用的LED,而推出时间会在 2021 年下半年。不过现在据巴克莱分析员从苹果供应链的人士得到的消息,iPad OLED版本暂时不会在 2021 年推出。

  • 百瓶APP x 大摩圆满呈现“公路酒吧”深圳站

    将威士忌文化进行到底在刚刚过去的周末,一众酒友期盼的公路酒吧深圳站于12月19日圆满落下帷幕,百瓶与来自苏格兰高地北部的大摩酒厂共同缔造了这一充满乐趣的威士忌活动,吸引了众多威士忌爱好者与带着好奇心的人们,在深圳掀起一阵威士忌浪潮。大摩酒厂成立于1839年,隶属于怀特马凯集团(Whyte & Mackay Ltd.)。该酒厂名字由一半盖尔语和一半挪威语组成,意为“大草地”。作为该酒厂的首席调酒师,Richard Paterson入行已逾50?

  • Huawei Pay交通卡再添六城,元旦限时限量免费领卡福利开启!

    2020年12月30日,Huawei Pay交通卡正式上线6张手机交通卡:岭南通·岭云通、岭南通·潮州通、岭南通·韶州通、岭南通·榕江通、岭南通·河源粤支付及岭南通·茂城通。从此,广东省内的云浮、潮州、韶关、揭阳、河源及茂名的华为/荣耀NFC手机用户在开通交通卡后,即可在全国300余“互联互通城市”刷手机乘公交地铁,并享受本地城市对应的乘车优惠!截止2020年末,Huawei Pay交通卡已支持59张手机交通卡,覆盖全国312个城市。Huawei Pa

  • 柔宇电信版FlexPai 2极速来袭,不到1个月即开启全面发售

    前不久,柔宇科技和中国电信在北京举办了电信版FlexPai 2折叠屏手机新品发布会,共同开启云网端一体化与柔性电子技术的融合之路。这款深度融合了中国电信云网一体服务的产品一经推出,便得到了市场的广泛关注,而刚刚发布才不到一个月的时间,这款强化版的产品就真的来了。据悉,电信版FlexPai 2已经正式在京东商城及电信营业厅等线下渠道全面发售。电信版FlexPai 2即将全面发售高配低价的性价比之王电信版FlexPai 2的配置十分强劲

  • 捷豹将推J-PACE纯电动SUV,对标特斯拉Model X车型

    据外媒报道称,英国汽车制造商捷豹将推出一款纯电动车型J-Pace,该车型将在英国西米德兰兹郡的布罗姆维奇城堡工厂生产,其定位的竞争对手是特斯拉的Model X。

  • 好好学习APP将停运

    昨日,字节跳动旗下知识付费产品“好好学习”发布通知称,因业务调整,好好学习软件及相关服务将于2021年1月20日停止运营,未到期的会员服务/付费内容/未提现余额等事宜及与之相关的权利与义务,将迁移至授权绑定的头条账号。

  • 面具公园停运后,择TA成为替代app了

    社交软件,算是一个陌生人与陌生人一个交流的桥梁,但其实在国内,它的起步时间较晚,有些知名的社交平台通过一些宣传,已经在业内达到一定的成就了,就像面具公园一样,它算是在社交软件中比较有地位的了,有兴趣了解的人大部分都知道这个软件。 但就在近日,被网信办查封了,应用市场也全面下架了,所以导致整个面具公园的软件乱哄哄的,各式各样的广告,v商啥都有,用户们现在不知道该怎么办,有一些开始找一些替代的app,但大

  • 参与评论
文明上网理性发言,请遵守新闻评论服务协议
  • 热门标签