人工智能击败电竞选手！DeepMind推AlphaStar Unplugged 通过离线学习掌握《星际争霸 II》玩法

2023-08-15 16:04 · 稿源：站长之家

文章概要:
游戏成为AI评估的试金石: 游戏一直是评估人工智能系统能力的重要场所，星际争霸II作为复杂的实时战略游戏，推动了AI在复杂性应用中的发展。
离线RL方法的革命性引入: AlphaStar Unplugged通过离线RL方法，在固定数据集上进行学习，首次打败顶级职业星际争霸选手，突破了在线RL在复杂游戏中的难题。
建立复杂环境RL基准: 通过AlphaStar Unplugged，构建了一个离线RL基准，使用固定数据集、新颖评估指标和基准代理，推动了大规模离线强化学习的研究，展示了连接模拟和实际应用之间的潜力。

站长之家（ChinaZ.com）8月15日消息:DeepMind的研究人员近期推出了一项具有重大意义的成果:AlphaStar Unplugged。这一创新性研究通过实现离线强化学习，成功解决了星际争霸II这一实时策略游戏的巨大挑战，在人工智能领域迈出了重要一步。

长期以来，游戏一直是评估人工智能系统能力的重要试验场。随着人工智能技术的发展，研究人员开始寻找更复杂的游戏来评估与现实世界挑战相关的智能方面。星际争霸II，作为一款具有复杂性的实时战略游戏，成为了人工智能研究的巨大挑战，同时也促使AI技术在处理复杂问题上迈出更大的一步。

项目地址：https://github.com/deepmind/alphastar

与之前在其他游戏中取得的成就相比，这次的突破是基于离线强化学习（RL）的方法，这意味着AI代理在固定数据集上进行学习，而不需要与环境实时交互。星际争霸的复杂性使得在线RL方法难以应对，但这项研究成功地克服了这个挑战。通过AlphaStar程序，AI代理不仅击败了顶级职业选手，还在游戏玩法上达到了媲美人类的水平。

这一突破的核心在于建立了一个具有挑战性的离线RL基准。通过利用星际争霸II的海量人类玩家回放数据集，代理可以在不直接与游戏环境交互的情况下进行训练和评估。这一基准通过固定数据集和明确规则，引入了新颖的评估指标，为各种方法之间的公平比较提供了平台。研究团队还提供了一系列经过调整的基准代理，作为实验的起点。

通过AlphaStar Unplugged，研究人员不仅提供了这一突破性的方法，还认识到构建有效的星际争霸II代理所需的巨大努力。他们提供了经过精心调整的行为克隆代理，为论文中介绍的所有代理提供了基础。

总体而言，DeepMind的AlphaStar Unplugged引入了一个前所未有的离线RL基准，为解决复杂问题提供了新途径。通过利用星际争霸II这个复杂环境，这项研究为强化学习中的方法改进和性能度量设定了基准，同时也强调了离线RL在模拟与实际应用之间的潜力，为复杂环境下的代理训练提供了更安全、更实际的方法。这一成果将有望推动大规模离线强化学习研究取得更大进展。

（举报）

相关推荐
大家在看

关键词：

DeepMind

【腾讯云】11.11云上盛惠！云服务器首年1.8折起，买1年送3个月！

11.11云上盛惠！海量产品 · 轻松上云！云服务器首年1.8折起，买1年送3个月！超值优惠，性能稳定，让您的云端之旅更加畅享。快来腾讯云选购吧！

Docker容器镜像
去看看

Docker容器镜像 60元/15天

爆款产品组合购
去看看

爆款产品组合购低至1元

腾讯云x NVIDIA加速计划
去看看

腾讯云x NVIDIA加速计划最高获赠10万元扶持基金

2核2G云服务器
去看看

2核2G云服务器 112元/1年

查看更多相关信息>>

腾讯云 12-20

广告
微软任命前 DeepMind 专家负责伦敦人工智能中心

站长之家（ChinaZ.com）4月9日消息:微软宣布在伦敦开设一个以前 Google DeepMind 研究人员领导的人工智能研究和开发中心。该中心将专注于推动这家软件巨头不断增长的机器学习工具组合。微软与 OpenAI 的长期合作已将人工智能整合到各种产品中，包括 Windows、Bing、Github 和 Office365。微软已经投入数十亿美元支持 OpenAI 模型的发展，但据报道，将这些投资转化为盈利仍面临困难，例�

微软 DeepMind AI头条
谷歌DeepMind CEO哈萨比斯因人工智能贡献获英国爵士爵位

英国政府最近宣布，谷歌旗下人工智能子公司DeepMind的首席执行官兼创始人之一德米斯·哈萨比斯因其在人工智能领域的杰出贡献被授予爵士爵位。此举反映了英国对人工智能发展的重视，并表彰了哈萨比斯在推动人工智能技术进步方面所做的努力。随着人工智能在全球范围内的迅速发展，英国政府希望将自己置于该领域的前沿，并表彰那些在推动人工智能技术发展方面做出卓越贡献的人士。

人工智能 DeepMind 英国政府
谷歌整合 AI 重心，DeepMind 和研究团队合并

谷歌在周四宣布将整合旗下专注于构建人工智能模型的两个内部团队。Alphabet和谷歌CEO桑达尔・皮查伊在公司网站上发布了一篇博客文章，解释了将AI模型构建团队整合到谷歌DeepMind团队内的决定，其中包括来自公司研究部门的团队。公司还将其他责任团队划归到其中央信任与安全团队，公司正在加大对AI测试和评估的投资。

DeepMind AI头条
荐「有效上下文」提升20倍！DeepMind发布ReadAgent框架

【新智元导读】模仿人类阅读过程，先分段摘要再回忆，谷歌新框架ReadAgent在三个长文档阅读理解数据集上取得了更强的性能，有效上下文提升了3-20倍。基于Transformer的大语言模型具有很强的语言理解能力，但LLM一次能够读取的文本量仍然受到极大限制。还可以看到ReadAgentS大大优于ReadAgent-P，性能改进的代价是检索阶段的请求数量增加了六倍。

DeepMind ReadAgent
DeepMind发布Gecko:专注于文档检索性能媲美大7倍模型

谷歌DeepMind发布了一种名为Gecko的文本嵌入模型，专注于文档检索、语义相似度和分类等多种任务。文本嵌入模型在自然语言处理中扮演着重要角色，通过将文本转换为高维向量空间中的向量表示，实现捕捉文本的语义信息。Gecko的出现为改善信息检索系统提供了一种强大的替代方案，同时在分类、STS和摘要方面也达到了新的SOTA水平。

Gecko DeepMind AI头条
荐DeepMind终结大模型幻觉？标注事实比人类靠谱、还便宜20倍，全开源

DeepMind这篇论文一出，人类标注者的饭碗也要被砸了吗?大模型的幻觉终于要终结了?今日，社媒平台reddit上的一则帖子引起网友热议。帖子讨论的是谷歌DeepMind昨日提交的一篇论文《Long-formfactualityinlargelanguagemodels》，文中提出的方法和结果让人得出大胆的结论:对于负担得起的人来说，大语言模型幻觉不再是问题了。更多技术细节和实验结果请参阅原论文。

DeepMind 大模型
DeepMind首发游戏AI智能体SIMA！只用自然语言就能玩转「山羊模拟器」

【新智元导读】AI在学会工作之后，终于也能和人一样玩游戏了!DeepMind的SIMA是一个可以感知和理解各种环境的AI代理，能够在多种视频游戏设置中执行任务，未来甚至可能可以与任何虚拟环境进行互动。谷歌DeepMind在AI和游戏方面有着悠久的历史。SIMA只是刚刚开始，我们可以期待在更多的训练环境中继续建立SIMA，并整合更有能力的模型，让它变得更具泛化性和多功能性不仅仅局限于游戏。

DeepMind SIMA
DeepMind CEO称谷歌将在 AI 领域投入超过 1000 亿美元

谷歌的AI业务负责人表示，该公司将在未来投入超过1000亿美元开发人工智能技术，这是硅谷正在进行的投资竞赛的又一迹象。在温哥华举行的TED大会上，谷歌DeepMind首席执行官DemisHassabis被问及有关微软公司和OpenAI正在规划的一台名为“星门”的潜在价值1000亿美元的超级计算机的问题。”OpenAI的ChatGPT引发的全球兴趣表明，公众已经准备接受人工智能系统，即使这些系统仍然存在缺陷和错误。

DeepMind 谷歌AI AI头条
谷歌DeepMind推出“超人类”AI系统SAFE，擅长事实核查，节约成本并提高准确性

谷歌DeepMind的研究团队发布了一项新研究，介绍了一种名为“Search-AugmentedFactualityEvaluator”的人工智能系统。该系统利用大型语言模型将生成的文本分解成个别事实，并利用谷歌搜索结果来确定每个声明的准确性。我们才能评估自动事实检查对打击错误信息的实际影响。

DeepMind AI系统 AI头条
苹果计划与 OpenAI 合作，加强 iPhone 人工智能功能

苹果正与OpenAI合作，旨在为iPhone开发生成式人工智能产品，以提升其人工智能功能。苹果近年来在人工智能领域的野心似乎有所减退。这意味着用户未来可能会在iPhone上看到更加智能、具有创造性的功能和体验。

人工智能 OpenAI AI头条

今日大家都在搜的词：

热文

3 天
7天

人工智能击败电竞选手！DeepMind推AlphaStar Unplugged 通过离线学习掌握《星际争霸 II》玩法

今日大家都在搜的词：

热文

站长商机