首页 > 业界 > 关键词  > DeepMind最新资讯  > 正文

人工智能击败电竞选手!DeepMind推AlphaStar Unplugged 通过离线学习掌握《星际争霸 II》玩法

2023-08-15 16:04 · 稿源:站长之家

文章概要:

  • 游戏成为AI评估的试金石: 游戏一直是评估人工智能系统能力的重要场所,星际争霸II作为复杂的实时战略游戏,推动了AI在复杂性应用中的发展。

  • 离线RL方法的革命性引入: AlphaStar Unplugged通过离线RL方法,在固定数据集上进行学习,首次打败顶级职业星际争霸选手,突破了在线RL在复杂游戏中的难题。

  • 建立复杂环境RL基准: 通过AlphaStar Unplugged,构建了一个离线RL基准,使用固定数据集、新颖评估指标和基准代理,推动了大规模离线强化学习的研究,展示了连接模拟和实际应用之间的潜力。

站长之家(ChinaZ.com)8月15日 消息:DeepMind的研究人员近期推出了一项具有重大意义的成果:AlphaStar Unplugged。这一创新性研究通过实现离线强化学习,成功解决了星际争霸II这一实时策略游戏的巨大挑战,在人工智能领域迈出了重要一步。

长期以来,游戏一直是评估人工智能系统能力的重要试验场。随着人工智能技术的发展,研究人员开始寻找更复杂的游戏来评估与现实世界挑战相关的智能方面。星际争霸II,作为一款具有复杂性的实时战略游戏,成为了人工智能研究的巨大挑战,同时也促使AI技术在处理复杂问题上迈出更大的一步。

image.png

项目地址:https://github.com/deepmind/alphastar

与之前在其他游戏中取得的成就相比,这次的突破是基于离线强化学习(RL)的方法,这意味着AI代理在固定数据集上进行学习,而不需要与环境实时交互。星际争霸的复杂性使得在线RL方法难以应对,但这项研究成功地克服了这个挑战。通过AlphaStar程序,AI代理不仅击败了顶级职业选手,还在游戏玩法上达到了媲美人类的水平。

这一突破的核心在于建立了一个具有挑战性的离线RL基准。通过利用星际争霸II的海量人类玩家回放数据集,代理可以在不直接与游戏环境交互的情况下进行训练和评估。这一基准通过固定数据集和明确规则,引入了新颖的评估指标,为各种方法之间的公平比较提供了平台。研究团队还提供了一系列经过调整的基准代理,作为实验的起点。

image.png

通过AlphaStar Unplugged,研究人员不仅提供了这一突破性的方法,还认识到构建有效的星际争霸II代理所需的巨大努力。他们提供了经过精心调整的行为克隆代理,为论文中介绍的所有代理提供了基础。

总体而言,DeepMind的AlphaStar Unplugged引入了一个前所未有的离线RL基准,为解决复杂问题提供了新途径。通过利用星际争霸II这个复杂环境,这项研究为强化学习中的方法改进和性能度量设定了基准,同时也强调了离线RL在模拟与实际应用之间的潜力,为复杂环境下的代理训练提供了更安全、更实际的方法。这一成果将有望推动大规模离线强化学习研究取得更大进展。

举报

  • 相关推荐
  • 全新开源的DeepSeek-OCR,可能是最近最惊喜的模型。

    ​AI圈虽然天天卷,但是很多的模型,真的越来越无聊了。 每天就是跑分又多了几个点。 直到昨天,DeepSeek久违的发了一个新模型。 DeepSeek-OCR。 这玩意,是真的有点酷。

  • 2025 PMI项目管理大会|多个活动板块首发,早鸟报名通道开启

    自2008年起,PMI项目管理大会汇聚数百位国内外顶尖企业代表、行业领袖与专家,分享洞见与实践,启发数十万参与者。当前,生成式AI、大数据等前沿科技正重塑商业生态与项目管理模式。2025年大会以“智驱万象,项启新篇”为主题,聚焦科技带来的颠覆性变革与机遇,通过行业趋势、跨界交流等多维度活动,打造最具影响力的共创平台,推动合作突破边界。报名已开启,微信搜索“2025PMI项目管理大会”即可参与。

  • DeepSeek开源3B OCR模型:长文本识别达97%精度

    DeepSeek在GitHub开源新一代OCR模型,采用创新光学二维映射压缩技术,在长文本识别场景实现97%准确率。模型通过动态压缩生成最优视觉特征令牌,较传统方法减少60%计算冗余。实验显示在1:20压缩率下仍保持60%以上准确率,显著优于同类模型。该技术路径为OCR系统小型化提供解决方案,其动态压缩策略对大型语言模型的记忆管理机制具有重要启示。

  • 中国AI算力突围:东方超算Deep X算力盒子超国际竞品82%,重新定义行业标准

    中国公司东方超算发布Deep X G20系列AI工作站,在MLPerf测试中性能超越NVIDIA DGX Spark达82%,价格持平,实现性能与性价比"双超越"。产品搭载Intel Ultra 9285处理器和NVIDIA RTX PRO 5000显卡,AI算力达1824 TOPS,体积仅2.7L。通过三大技术创新实现突破:智能异构计算引擎提升资源利用率40%;统一推理运行时支持多框架;深度硬件优化提升关键算子性能50-200%。该产品打破国际巨头垄断,已在量化金融、医疗影像等领域实现显著投资回报,标志着中国AI硬件实现重要突破。

  • 陈奕迅喜提REDMI K90 Pro Max:担任REDMI声学大使

    10月21日,陈奕迅宣布成为Redmi声学大使,并透露Redmi K90 Pro Max将搭载2.1立体声系统,首次在手机中实现低音带。该机配备两颗超线性扬声器及超大独立低音单元,由Redmi与Bose联合调音,实现低音饱满、细节丰富、人声清晰。新品将于10月23日亮相,开启移动声学新时代。

  • REDMI与Bose达成合作:REDMI K90 Pro Max要做行业第一音频

    Redmi与声学巨头Bose达成深度合作,基于Bose 60年声学技术积淀,在K90 Pro+Max机型上实现重大突破:创新集成立体声扬声器系统,通过增大发声单元体积与优化腔体结构,动态范围提升30%,瞬态响应速度提高50%,实现零失真输出。该机还搭载骁龙8 Gen3处理器、7560mAh硅碳负极电池、100W快充及专业影像系统,经2000小时专业调音达到行业领先水准,旨在重新定义移动设备音频标准,即将开启全球预售。

  • 兰博基尼联名!REDMI K90 Pro Max冠军版官宣

    Redmi K90系列将于10月23日19:00发布,推出K90与K90 Pro Max两款机型。其中K90 Pro Max冠军版与兰博基尼SQUADRA CORSE联名,采用白色机身与Y字腰线设计,配备定制壁纸、主题及礼盒(含充电器、取卡针等)。硬件搭载骁龙8至尊版处理器、AI独显芯片D2,主摄为光影猎人950传感器,支持5X光学变焦,内置7560mAh电池与100W有线快充。新机以赛道美学与强劲性能为核心亮点。

  • 卢伟冰晒REDMI K90 Pro Max与iPhone 17 Pro Max屏幕对比:护眼碾压

    REDMI今天宣布,K90 Pro Max搭载6.9英寸超级像素屏幕,采用全RGB排列,与小米17 Pro Max同款。 小米合伙人卢伟冰今晚还晒出了REDMI K90 Pro Max与iPhone 17 Pro Max屏幕对比,K90 Pro Max支持了1nit极暗光护眼,在1nit低亮度下无频闪、显示均匀,护眼效果碾压级领先。 此外还升级了小米青山护眼3.0,支持全亮度DC 圆偏振光2.0。 卢伟冰介绍,这次K90 Pro Max是以上不设限为思路,打造出了一款旗�

  • REDMI史上最精致!K90采用iPhone 17同款一体冷雕工艺打造

    Redmi K90于10月22日公布外观设计,与K90 Pro Max保持一致,但取消2.1立体声系统,整体更常规。采用iPhone 17同款一体冷雕工艺,经41道工序打造,机身一体性强、手感顺滑防尘。外观酷似小米17标准版,新增蓝色配色,屏幕升级至6.59英寸,被网友称为“小米17 Plus”。产品经理表示,该尺寸经调研确定为黄金平衡点,兼顾单手操作与沉浸娱乐,同时具备高性能和大电池,是用户需求的最优选择。

  • REDMI K90 Pro Max搭载2.1立体声系统:双对称双扬设计

    Redmi将于10月23日发布旗舰机型K90 Pro+ Max,最大亮点是与Bose联合开发的2.1立体声系统,创新地将扬声器集成于后摄区域。该机采用对称式双扬声器设计,配备1620超大低音单元,形成三单元声学架构,并具备IP68防尘防水和声波清灰功能。搭载第五代骁龙8处理器,配合AI独显芯片D2和6700mm² 3D冰封散热系统。屏幕采用6.9英寸2K超视网膜屏,功耗降低18%。影像系统升级,主摄采用光影猎人950传感器,潜望式长焦支持5倍光学变焦和10倍无损变焦。内置7560mAh电池,支持100W有线秒充和50W无线快充,23分钟可充满电量。

今日大家都在搜的词: