创新性AI系统SoG: 在各种游戏中击败人类，又能学习玩新游戏

2023-11-26 10:45 · 稿源：站长之家

**划重点:**
1. 🧠 **AI性能新标杆:** 游戏作为AI性能指标的悠久传统，EquiLibre Technologies、Sony AI、Amii和Midjourney等研究团队与Google DeepMind合作推出的“游戏之子”（SoG）算法，通过定向搜索、自我学习和博弈论推理，在完美和非完美信息游戏中取得显著成果，标志着通用算法迈出了重要一步。
2. 🌐 **算法背后:** SoG结合了增长树对策反悔最小化（GT-CFR）技术和声学自我博弈学习，通过单一算法实现了搜索、学习和博弈理论分析的结合。在各种问题领域中表现出色，特别是在完美和非完美信息游戏中，展现了通用算法的潜力。
3. 🚀 **突破性进展:** SoG不仅在国际象棋和围棋等游戏中表现强劲，还在德州扑克等不完美信息游戏中战胜了最强大的AI代理，并击败了Scotland Yard的最新代理。这一突破标志着人工智能取得了显著进展，能够自我学习并在各类游戏中战胜人类。

在人工智能领域，使用游戏作为性能指标的传统悠久而广泛。EquiLibre Technologies、Sony AI、Amii和Midjourney等研究团队与Google DeepMind合作推出的“Student of Games”（SoG）算法，通过结合定向搜索、自我博弈学习和博弈理论，实现了一个通用算法，对早期工作进行了统一。

SoG在完美和非完美信息游戏中取得了高度实证性能，标志着通用算法发展迈出了重要一步。随着计算能力和逼近能力的增加，研究团队展示了SoG的稳健性，并最终实现了无瑕的游戏表现。SoG在国际象棋和围棋中表现出色，在无限制德州扑克中击败了最强大的公开可用代理，并在Scotland Yard中击败了最先进的代理。这一不完美信息游戏展示了引导式搜索、学习和博弈理论的价值。

AI机器人打游戏

图源备注：图片由AI生成，图片授权服务商Midjourney

为了展示人工智能的进展，研究团队教授了一台计算机玩棋盘游戏，并将其改进到可以击败人类的水平。通过这项最新研究，团队在创建人工通用智能方面取得了重大进展，使计算机能够执行以前被认为对机器而言不可能的任务。

与大多数只设计玩一个游戏的棋盘游戏计算机不同，该项目的研究人员开发了一个智能系统，可以参与需要广泛能力的游戏。

SoG，即“Student of Games”，将搜索、学习和博弈理论分析融入一个单一算法中，具有许多实际应用。它包括一种用于学习CVPNs和声学自我博弈的GT-CFR技术。特别是在最优和次优信息游戏中，SoG被保证会在计算资源改进时生成更好的极小极大优化技术近似值。这一发现在Leduc扑克中也在经验证明，在那里额外的搜索导致测试时间近似值的提炼，这与不使用搜索的任何纯RL系统不同。

SoG之所以如此有效，是因为它采用了一种称为增长树对策反悔最小化（GT-CFR）的技术，这是一种可以在任何时候执行的本地搜索，涉及非均匀构建子游戏，以增加与最重要未来状态相关的子游戏的权重。此外，SoG还采用一种称为声学自我博弈的学习技术，该技术基于游戏结果和递归子搜索训练值和策略网络。作为通向可以在任何情境中学习的通用算法的重要一步，SoG在完美和非完美信息的多个问题领域中表现出色。在信息有限的游戏中，标准搜索应用程序面临着众所周知的问题。

SoG方法使用声学自我博弈来指导代理:在做出选择时，每个玩家使用经过良好调整的GT-CFR搜索，结合CVPN生成当前状态的策略，然后用于随机抽样一个动作。GT-CFR是一个两阶段的过程，从当前公共状态开始，最终形成一棵成熟的树。当前公共树的CFR在悔反更新阶段进行更新。在扩展阶段，根据模拟的扩展轨迹，向树中添加新的一般形式。GT-CFR迭代包括一次悔反更新阶段运行和一次扩展阶段运行。

在自我博弈过程中生成值和策略网络的训练数据:搜索查询（在GT-CFR悔反更新阶段由CVPN查询的公共信念状态）和完整的游戏轨迹。必须解决搜索查询以根据反事实值目标更新值网络。可以根据完整游戏轨迹的目标调整策略网络。演员在创建自我博弈数据(并回答问题)的同时，培训者发现并实施新网络，并偶尔刷新演员。

一些局限性包括在德州扑克中使用投注抽象可能会被放弃，以利用对广泛动作空间的通用动作减少政策。在某些游戏中，对公共状态信息进行枚举可能会过于昂贵，而生成模型可以在采样子集上运行，从而近似SoG，这目前在一些游戏中需要枚举每个公共状态的信息，这可能成本过高。

研究团队相信，由于其自学习几乎可以玩任何游戏的能力，SoG具有在其他类型的游戏中取得成功的潜力，并且已经在围棋、国际象棋、Scotland Yard和德州扑克等游戏中击败了竞争对手的AI系统和人类。这一研究的所有荣誉归功于该项目的研究人员。还请不要忘记加入我们的ML SubReddit、Facebook社区、Discord频道和电子邮件通讯，我们在那里分享最新的人工智能研究新闻、酷炫的人工智能项目等。

论文地址:https://www.science.org/doi/10.1126/sciadv.adg3256

（举报）

相关推荐
大家在看

关键词：

【腾讯云】11.11云上盛惠！云服务器首年1.8折起，买1年送3个月！

11.11云上盛惠！海量产品 · 轻松上云！云服务器首年1.8折起，买1年送3个月！超值优惠，性能稳定，让您的云端之旅更加畅享。快来腾讯云选购吧！

Docker容器镜像
去看看

Docker容器镜像 60元/15天

爆款产品组合购
去看看

爆款产品组合购低至1元

腾讯云x NVIDIA加速计划
去看看

腾讯云x NVIDIA加速计划最高获赠10万元扶持基金

2核2G云服务器
去看看

2核2G云服务器 112元/1年

查看更多相关信息>>

腾讯云 12-20

广告
谷歌DeepMind推出“超人类”AI系统SAFE，擅长事实核查，节约成本并提高准确性

谷歌DeepMind的研究团队发布了一项新研究，介绍了一种名为“Search-AugmentedFactualityEvaluator”的人工智能系统。该系统利用大型语言模型将生成的文本分解成个别事实，并利用谷歌搜索结果来确定每个声明的准确性。我们才能评估自动事实检查对打击错误信息的实际影响。

DeepMind AI系统 AI头条
《开心消消乐》探索AI游戏革新，携手英特尔与腾讯云推动创新！

探索科技前沿，重塑游戏未来——这是一份集智慧与技术于一体的白皮书，由《开心消消乐》、英特尔和腾讯云携手呈现。通过第五代英特尔®至强®可扩展处理器以及腾讯云服务器的深度融合，我们得以见证AI推理在游戏体验改变中的重要角色。这份白皮书将为你展示科技与游戏的紧密结合，无论你身处哪个行业，都将从中得到深刻的启发。一起探索科技的边界，感受AI在游戏

科技前沿游戏未来英特尔
AI 新技术 EVI:第一个能听懂人类语气的智能助手引发热议

一款名为EVI的AI智能助手引发了轩然大波。EVI不仅可以听懂用户说话的语气能为每个词增加意义，给出具有情感色彩的回应。除了EVI，HumeAI还推出了其他产品，如ExpressionMeasurementAPI和CustomModels，用于测量人类情感表达和预测人类偏好。

EVI AI头条
科技的副作用：对人类幸福的威胁

作为人类永恒的追求，其定义和实现方式随着时间和社会的变迁不断演变。在现代社会，科技的发展极大地改变了我们的生活方式，同时也给我们的幸福观带来了新的挑战和思考。这意味着政府、企业和个人需要共同努力，以确保科技发展与人类的可持续幸福相协调。

幸福科技人类问题
报告称：OpenAI和Meta即将发布具有人类推理能力的AI模型

OpenAI和Meta据称正在准备发布更先进的AI模型，这些模型将能够帮助解决问题并承担更复杂的任务。OpenAI的首席运营官BradLightcap告诉《金融时报》，公司下一个版本的GPT将在解决"困难问题"方面取得进展，例如推理。马斯克表示，"有感知计算的总量"——这个概念可能指的是AI独立思考和行动——将在五年内超过所有人类。

OpenAI Meta AI模型
美国两CEO赌上千万美元叫板马斯克：AI无法全方位超越人类

对于人工智能领域，马斯克一直持积极的态度，在近日的访谈中，马斯克预测，人工智能可能在明年或2026年之前超过最聪明的人类。马斯克的激进观点，遭到了一些人的反对，当地时间4月10日AI初创公司GeometricIntelligence的CEO加里马库斯称，愿意赌一百万美元，来证明马斯克的预言错误。

人工智能马斯克技术发展
荐一款手游有400+个AI角色！腾讯游戏新系统炸场GDC：训练成本大减90%

你敢信?一款手游里藏着400个AI角色，且各自有各自的性格……这就是腾讯在一年一度的“游戏界春晚”GDC上展示的一场技术肌肉秀——《火影忍者》手游相关负责人介绍了大规模强化学习AI训练系统，该方法的训练成本和时间比传统的训练方案减少90%。移动端光追、144帧渲染、跨平台开发管线管理等技术也都逐一亮相。GDC还有哪些好玩的呢?欢迎有参与到GDC的小伙伴，与我们分�

腾讯游戏
荐对话蚂蚁李建国：当前AI写代码相当于L2.5，实现L3后替代50%人类编程

蚂蚁集团代码大模型CodeFuse负责人李建国说道。AI代码生成领域正在野蛮式生长，巨头涌入，AI员工频频上线企业;首个AI程序员Devin被曝造假……面对风起云涌的代码生成变革，李建国给出了这样一个明确论断。OneMoreThing最后，面对当下大模型发展，李建国博士忍不住感叹:对于接下来的发展，李建国点名最看好具身智能的发展，这将是未来5到10年的研究热点。

AI 代码
饿了么翱象系统上线“AI经营助手”：可生成各类经营关键报表

快科技4月3日消息，据媒体报道，饿了么零售商家SAAS平台翱象”推出的AI经营助手”功能，无疑为零售行业商家提供了一个强大的智能经营工具。这款功能由人工智能技术驱动，集成了自然语言处理、智能决策支持以及深度学习能力，能够为商家提供全方位的经营服务。具体来说，AI经营助手”能够帮助商家智能生成各类经营关键报表和关键数据，包括店铺的有效订单金额、有效订单数、店铺预计毛利等核心指标。这些报表和数据不仅全面反映了商家的经营状况，而且通过人工智能的解读，商家还能获得关于整体经营的建议，从而进一步提升经营能力、把握生

零售商家 SAAS平台 AI经营助手
Midreal.ai官网体验入口 AI文本冒险游戏免费使用地址

Midreal.ai是什么？Midreal.ai是一个基于先进人工智能技术的文本冒险游戏平台。回答：Midreal.ai目前支持英语和简体中文，更多语言将陆续推出。

Midreal.ai

今日大家都在搜的词：

热文

3 天
7天

创新性AI系统SoG: 在各种游戏中击败人类，又能学习玩新游戏

今日大家都在搜的词：

热文

站长商机