首页 > 传媒 > 关键词  > GoBigger最新资讯  > 正文

快来get你的专属游戏AI智能体!在Go-Bigger中挑战决策AI难题

2021-10-28 16:52 · 稿源:站长之家用户

多智能体对抗作为决策AI中重要的部分,也是强化学习领域的难题之一。为丰富多智能体对抗环境,OpenDILab(开源决策智能平台)开源了一款多智能体对抗竞技游戏环境——Go-Bigger。同时,Go-Bigger还可作为强化学习环境协助多智能体决策AI研究。

与风靡全球的agar.io、球球大作战等游戏类似,在Go-Bigger中,玩家(AI)控制地图中的一个或多个圆形球,通过吃食物球和其他比玩家球小的单位来尽可能获得更多重量,并需避免被更大的球吃掉。每个玩家开始仅有一个球,当球达到足够大时,玩家可使其分裂、吐孢子或融合,和同伴完美配合来输出博弈策略,并通过AI技术来操控智能体由小到大地进化,凭借对团队中多智能体的策略控制来吃掉尽可能多的敌人,从而让己方变得更强大并获得最终胜利。

image001.gif

四类小球,挑战不同决策路径

Go-Bigger采用Free For All(FFA)模式来进行比赛。比赛开始时,每个玩家仅有一个初始球。通过移动该球,玩家可吃掉地图上的其他单位来获取更大的重量。每个队伍都需和其他所有队伍进行对抗,每局比赛持续十分钟。比赛结束后,以每个队伍最终获得的重量来进行排名。

在一局比赛中共有分身球、孢子球、食物球、荆棘球四类球。分身球是玩家在游戏中控制移动或者技能释放的球,可以通过覆盖其他球的中心点来吃掉比自己小的球;孢子球由玩家的分身球发射产生,会留在地图上且可被其他玩家吃掉;食物球是游戏中的中立资源,其数量会保持动态平衡。如玩家的分身球吃了一个食物球,食物球的重量将被传递到分身球;荆棘球也是游戏中的中立资源,其尺寸更大、数量更少。如玩家的分身球吃了一个荆棘球,荆棘球的大小将被传递到分身球,同时分身球会爆炸并分裂成多个分身。此外,荆棘球可通过吃掉孢子球而被玩家移动。

image002.gif

分身球

image003.gif

image004.gif

孢子球 食物球

image005.gif

image006.gif

荆棘球(尖刺)

团队紧密配合,实现合理重量传递

在Go-Bigger中,团队内部的合作和外部的竞技对于最终的成绩至关重要。因此,Go-Bigger设计了一系列的规则来提高团队所能带来的收益。由于玩家的分身球重量越小,移动速度越快,更多的分身可以保证快速发育,但是会面临被其他玩家吃掉的风险。同时,冷却期的存在使得玩家无法靠自身摆脱这样的风险。因此,同一队伍中不同玩家的配合尤为关键。

为便于团队内玩家的配合,Go-Bigger设置了玩家无法被同队伍完全吃掉的规则。Go-Bigger还设置了单个分身球的重量上限和重量衰减,使得单一分身球无法保持过大重量,迫使其分裂以减少重量损失。在游戏后期,团队内部的重量传递会显得至关重要,合理的重量传递可以保证团队在与其他队伍对抗时获得更大的优势。

支持RL环境,提供三种交互模式

此外,为帮助用户在强化学习领域的多智能体策略学习,Go-Bigger也提供了符合gym.Env标准的接口供其使用。在一局游戏中,Go-Bigger默认设置含有 20 个状态帧和 5 个动作帧。每个状态帧都会对当前地图内所有单位进行仿真和状态处理,而动作帧会在此基础上,附加对单位的动作控制,即改变单位的速度、方向等属性,或使单位启用分裂、发射或停止等技能。

为了更方便地对环境进行探索,Go-Bigger还提供了必要的可视化工具。在与环境进行交互的时候,可以直接保存本局包含全局视角及各个玩家视角的录像。此外,Go-Bigger提供了单人全局视野、双人全局视野、单人局部视野三种人机交互模式,使得用户可以快速了解环境规则。

image007.gif

image008.gif

image009.gif

三步走,快速搭建强化学习baseline

算法baseline的目的是验证某个问题环境使用强化学习算法的初步效果,对各个环节的信息做简单梳理和分析,熟悉之后便可轻松上手比赛,在环境、算法、算力上逐步增加复杂度,设计迭代效果更强的智能体。

Go-Bigger环境的强化学习算法baseline主要分为环境瘦身、基础算法选择、定制训练流程三部分。其中,环境瘦身即将原始游戏环境简化成适用于强化学习的标准环境格式;基础算法选择指根据环境的基本信息选择合理的基础RL算法;定制训练流程指根据环境的特殊特征定制训练流程。

1.环境瘦身

A.人类视角的Go-Bigger(左)V.S. 翻译成游戏引擎中的结构化信息(右):

图片1.png

这些人理解起来很简单的数据表示,对计算机和神经网络却非常不友好,因此需要专门对这些信息做一定的加工,并根据强化学习的特性设置成标准的强化学习环境观察空间。

(1)特征工程:

▪ 原始的游戏数据需要表达游戏内容,其数值范围波动便会较大(比如从几十到几万的球体大小),直接将这样的信息输入给神经网络会造成训练的不稳定,所以需要根据信息的具体特征进行一定的处理(比如归一化,离散化,取对数坐标等等)。

▪对于类别信息等特征,不能直接用原始的数值作为输入,常见的做法是将这样的信息进行独热编码,映射到一个两两之间距离相等的表示空间。

▪对于坐标等信息,使用绝对坐标会带来一些映射关系的不一致问题,相对坐标通常是更好的解决方式。

(2)从RGB图像到特征图像层

直接将原始的RGB2D图像信息输入神经网络,尽管结果尚可,但需要更多的数据、更长的训练时间,以及更复杂的训练技巧。更为简明并有效的方式是进行“升维”,即将耦合在一起的图像信息离解成多个分离的特征图像层。最终根据游戏内容定义出具体的特征图像层,并区分各个玩家的局部视野,拼接后构成总体的特征图像层。下图为一玩家视野中食物球的特征图像层:

(3)可变维度

Go-Bigger环境中存在很多可变维度的地方,为了简化,baseline环境中强行截断了单位数量,用统一的方式来规避可变维度问题。

B.设计动作空间

Go-Bigger对于人类来说操作起来十分简单,包括上下左右QWE,这些基本的按键组合起来便可以诞生出许多有趣的操作,如十面埋伏、大快朵颐等。但是,游戏引擎中实际的动作空间是这样的(动作类型 + 动作参数):

游戏引擎的这种形式在强化学习中被称作混合动作空间,也有相应的算法来处理该问题。但基于baseline一切从简这一核心,通过使用比较简单粗暴的离散化处理,将连续的动作参数(x,y坐标)离散化为上下左右四个方向。针对动作类型和动作参数的组合,也简单使用二者的笛卡尔积来表示,最终将环境定义为一个 16 维的离散动作空间。

C.设计奖励函数

奖励函数定义了强化学习优化的目标方向。Go-Bigger是一项关于比谁的队伍更大的对抗游戏,因此奖励函数的定义也非常简单,即相邻两帧整个队伍的大小之差。

如下图所示两张表示相邻两个动作帧,右侧计分板显示各个队伍实时的大小数值,将当前帧的大小减去上一帧的大小,就定义得到了奖励值。而对于整场比赛,则使用每一步奖励的累加和作为最终的评价值。评价值最大的队伍,将赢得本局比赛。此外,在训练时,还通过缩放和截断等手段将奖励值限制在[-1,1]范围内。

图片1.png

2.基础算法选择

在完成对RL环境的魔改之后,会呈现如下基本信息:

▪多模态观察空间:图像信息 + 单位属性信息 + 全局信息

▪离散动作空间: 16 维离散动作

▪奖励函数:稠密的奖励函数,且取值已经处理到[-1,1]

▪终止状态:并无真正意义上的终止状态,仅限制比赛的最长时间

对于这样的环境,可用最经典的DQN算法 + 多模态编码器神经网络来实现。对于各种模态的观察信息,使用数据对应的经典神经网络架构即可。例如,对于图像信息,选择一个带降采样的卷积神经网络将2D图像编码为特征向量;对于单位属性信息,需要建模各个单位之间的联系,获得最终的单位特征向量;对于全局信息,则使用由全连接层构成的多层感知机。在各部分编码完成之后,将三部分的特征拼接在一起,将构成时间步的观察特征向量,以复用最经典的Dueling DQN结构。以特征向量为输入,输出这一步选择 16 个动作的Q值,并使用N-step TD损失函数即可完成相应训练的优化。完整的神经网络结构如下图所示。

3.定制训练流程

DQN通常只用来解决单智能体的问题,而在Go-Bigger中一支队伍会存在多个玩家,且一局比赛为多个队伍混战,因此会涉及多智能体之间合作和对抗等问题。在多智能体强化学习领域,针对该问题可展开诸多的研究方向,但为简化设计Go-Bigger使用了Independent Q-Learning (IQL)+ 自我对战(Self-Play)的方式来实现训练流程。

例如,对于一个队伍中的多个智能体,团队的最终目标是让整个队伍(总体积/总体量/总重量)的大小最大,因此在baseline中可使用IQL算法来实现,以高度并行化地实现整个优化过程;对于实际一局比赛中存在多个智能体的情况,则可使用朴素的自我对战(Self-Play)这一相当简单且非常节省算力的方式来参与比赛。评测时,会将随机机器人和基于规则的机器人作为比赛的对手,测试验证目前智能体的性能。

Tips:

▪使用更高级的自我对战(Self-Play)算法(比如保存智能体的中间历史版本,或使用PFSP算法);

▪构建League Training流程,不同队伍使用不同的策略,不断进化博弈;

▪设计基于规则的辅助机器人参与到训练中,帮助智能体发现弱点,学习新技能,可作为预训练的标签或League Training中的对手,也可构造蒸馏训练方法的老师,请玩家尽情脑洞。

从零开始实现上述算法和训练流程非常复杂,而通过决策智能框架DI-engine可大大简化相应内容。其内部已经集成了支持多智能体的DQN算法实现和一系列相关诀窍,以及玩家自我对战和对抗机器人的训练组件,只需实现相应的环境封装,神经网络模型和训练主函数即可。

几个有意思的发现

通过上述简单基线算法训练出来的初级AI在在发育阶段会将球尽量分开,以增大接触面加快发育;在面对潜在的危险时,会避开比自身大的球,并使用分裂技能加快移动速度,防止被吃掉。这些操作都是在人类玩家的游戏过程中经常用到的小技巧。

图片1.png

为了进一步推动决策智能相关领域的技术人才培养,打造全球领先的原创决策AI开源技术生态,OpenDILab(开源决策智能平台)将发起首届Go-Bigger多智能体决策AI挑战赛(Go-Bigger: Multi-Agent Decision Intelligence Challenge)。本次比赛将于 2021 年 11 月正式启动,使用由OpenDILab开源的Go-Bigger(https://github.com/opendilab/GoBigger)游戏环境。希望集结全球技术开发者和在校学生,共同探索多智能体博弈的研究。欢迎对AI技术抱有浓厚兴趣的选手踊跃参加,和全球的顶尖高手一决胜负!

特别声明:以上内容(如有图片或视频亦包括在内)均为站长传媒平台用户上传并发布,本平台仅提供信息存储服务,对本页面内容所引致的错误、不确或遗漏,概不负任何法律责任,相关信息仅供参考。站长之家将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。任何单位或个人认为本页面内容可能涉嫌侵犯其知识产权或存在不实内容时,应及时向站长之家提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明(点击查看反馈地址)。本网站在收到上述法律文件后,将会依法依规核实信息,沟通删除相关内容或断开相关链接。

  • 相关推荐
  • 大家在看
  • 截图曝光Robinhood黑客扒取了广泛的受害者账户信息

    由 Motherboard 分享的大量被打码的屏幕截图可知,Robinhood 黑客接触到了该交易平台“相当广泛的账户的详细信息”。除了访问标有“禁用 MFA(多因素身份验证)”和“添加到受信任设备邮件代码白名单”的信息,黑客还触及到了有关登录账户的设备和转账记录等细节。(图 via Motherboard)Motherboard 声称从一名与黑客有关联的爆料人那里拿到了这份截图,而 Robinhood 方面在接受 TheVerge 采访时称,其调查未发现黑客有篡改任何内

  • Cobionix开发新机器人 无需使用针头就能提供疫苗

    据BGR报道,对针头的恐惧是困扰至少10%的人的事情,并使接种任何种类的疫苗变得更加可怕。机器人公司Cobionix创造的一种新的机器人可以帮助消除一些恐惧。自主机器人正在迅速变得越来越普遍。大多数机器人是为非常具体的目的而设计的。限制它们的用途使它们变得昂贵,而且很难在那个独特的领域之外使用。Cobionix公司希望制造一个多功能的机器人。Cobionix公司表示,该机器人可以被更新和重新配置,以服务于多种用途。为了展示它的

  • Xbox Design Lab部分定制选项回归 并引入一些新选项和新设计

    今年早些时候伴随着 Xbox Series X 游戏主机的发布,Xbox Design Lab 取消了部分定制选项。现在,这些选项重新回归,此外还引入了一些全新的选项和设计,其灵感来自于四款热门大型游戏。● 橡胶模块Xbox Design Lab 今天回归的选项是允许用户定制手柄的橡胶模块,以及为特定的手柄组件配备金属表面。未来的买家可以选择为他们的手柄在游戏手柄的侧面和背面配备橡胶,尽管这些手柄只有一种颜色(黑色)。● 金属表面D-pad和扳机也可

  • ARGB灯效 德商必酷be quiet!发布Light Wings静音风扇

    2011 年 11 月 10 日,来自德国的高端PC配件制造商德商必酷(be quiet!),刚刚发布了全新Light Wings系列风扇,这也是德商必酷(be quiet!)第一款带有ARGB灯效的风扇产品。除此以外,研发重点还专注于性能、低噪音运行以及be quiet!一贯的高品质。Light Wings系列风扇支持PWM调速,风扇正面有一个LED灯环,反面还单独配备了另一个稍窄些的LED灯环,形成双灯环配置,并且提供120mm和140mm两种尺寸可供选择。动态灯效Light Wings的

  • 英特尔公告称旗下自动驾驶子公司 Mobileye 将于明年上市

    英特尔今天发布公告称,英特尔将在2022年中通过首次公开募股(IPO)将Mobileye在美国上市。同时,英特尔将保持对Mobileye的多数所有权。

  • 柴犬币用户基数接近百万 Robinhood首席运营官仍在观望

    作为狗狗币(DogeCoin)的一款衍生品,柴犬币(Shiba Inu)已于 2021 年内吸引了接近百万的用户。由 CoinMarketCap 分享的最新数据可知,目前持有者的数量在 93 万左右,在过去 3 个月里大涨接近 50% 。与此同时,SHIB 官方 Twitter 账号的粉丝数量也超过了 190 万,将 Cardano、kraken Exchange、Solana 都远远抛在身后。以 0.00005388 美元计价的话,SHIB 今年的收益已超过 7300 万 %,所以投机需求带动的波澜也就不足为奇了。彭

  • Robinhood遭黑客入侵 700万用户数据被泄露

    据国外媒体报道, 美国在线券商Robinhood Markets于美国当地时间周一表示,在11月3日的数据泄露事件中,超过700万用户的个人信息泄露,不过没有消费者因此事件遭受经济损失。

  • PUBGMobile全球总收入超过70亿美元 平均每天810万美元

    据Sensor Tower商店情报数据显示,在2021年第三季度收入创新高之后,腾讯旗下的手游《绝地求生手游》(PUBG Mobile,合并《和平精英》收入)在全球App Store和Google Play的累计收入已超过 70 亿美元。

  • 身价翻三倍:Intel宣布旗下自动驾驶芯片公司Mobileye将IPO上市

    Intel今日(12月7日)宣布,旗下自动驾驶芯片公司Mobileye将IPO,2022年中在美上市,外界预计估值500亿美元(约合3182亿)。

  • 英特尔自动驾驶子公司Mobileye将上市 估值超500亿美元

    凤凰网科技讯 北京时间12月7日消息,知情人士称,英特尔公司计划让其自动驾驶汽车部门Mobileye上市。这是英特尔CEO帕特基辛格(Pat Gelsinger)为重振这家半导体巨头命运而采取的最新举措。知情人士称,英特尔最快将于本周宣布这一消息,对Mobileye的估值超过500亿美元。不过,目前还无法保证英特尔最终会完成这笔上市交易。2017年,英特尔斥资大约150亿美元收购了以色列公司Mobileye,后者擅长开发基于芯片的摄像头系,用于驱动汽

这篇文章对你有价值吗?

  • 热门标签

热文

  • 3 天
  • 7天