Deepmind新AI算法仅用两个小时学习了26个游戏与人类相当

2023-06-20 10:11 · 稿源：站长之家

站长之家（ChinaZ.com）6月20日消息:日前，Deepmind的一个名为 "Bigger， Better， Faster" 的 AI 算法，在只用了两小时的时间内掌握了26个 Atari 游戏，与人类效率水平相当。

强化学习是谷歌深度学习中心研究的核心领域之一，它可能有朝一日用 AI 解决许多现实世界的问题。然而，一个大问题是可能会非常低效:强化学习算法需要大量的训练数据和大量的计算能力。在他们的最新研究中，谷歌深度学习中心和米拉大学和蒙特利尔大学的研究人员展示了另一种可行的方法。

"Bigger， Better， Faster"的模型（简称BBF）在Atari基准测试中平均表现超出了人类的表现水平。这并不是新鲜事，其他强化学习算法也曾在 Atari 游戏中击败了人类。

然而，BBF模型只需要两个小时的游戏时间，这与人类在基准测试中使用的实践时间是相同的。因此，这个不需要预先训练模型的算法达到了人类学习的效率，并且需要的计算能力比旧方法少得多。无模型代理直接从与游戏世界的交互中获得奖励和惩罚的信息，并学习到最佳的策略。

该团队通过使用更大的神经网络、自我监控训练方法和其他方法来提高效率。例如，BBF可以在单个Nvidia A100GPU上进行训练，而其他方法需要更多的计算能力。

虽然还有29个常用于强化学习的游戏尚待测试，但研究团队指出，BBF 还没有能够在所有基准测试游戏中超过人类的表现水平。然而，将 BFF 与其他模型在55个游戏中进行比较，表明这种高效算法在55个游戏中大致与使用500倍更多数据的系统持平。

该团队认为，这还表明 Atari 基准测试仍然是强化学习的好的基准测试，这使得该研究可以为小型研究团队提供资金支持。

过去的高效强化学习算法对扩展方面也显示出了弱点，而 BFF 没有限制，并且继续能够通过更多的训练数据获得更高的性能。

该团队总结道:“总体来说，我们希望我们的工作能够激励其他研究人员继续推进深度强化学习的样本效率前沿，以最终达到人类水平的效率表现在所有任务中。”

更有效率的强化学习算法可能会重新确立目前由自我监督模型主导的 AI 技术的局面。

BBF算法相关论文:https://arxiv.org/pdf/2305.19452.pdf

（举报）

相关推荐

关键词：

AI浪潮下，项目经理如何破局 | 2025 PMI项目管理大会

人工智能正重塑项目管理模式，项目经理需超越传统技能，掌握AI赋能下的效率提升、创新促进与决策优化能力。个人应通过组织平台与业务深度绑定，构建不可替代的核心价值。2025PMI项目管理大会将探讨AI前沿应用，助力从业者系统掌握转型路径，实现个体与组织的双向赋能，在AI时代保持竞争力。

人工智能项目管理 PMO
DeepSeek崩了上热搜页面显示“服务器繁忙”

截至2025年11月3日，大量用户在微博话题#DeepSeek崩了#下集中反馈，DeepSeek平台出现服务异常状况，引发广泛关注。综合各方信息，此次故障呈现多方面表现，对用户使用造成显著影响。众多用户表示遭遇服务全面中断问题，在尝试使用平台

DeepSeek故障服务器异常服务中断
品牌在deepseek、豆包里排第几?免费GEO排名查询工具帮你一键看清

随着AI搜索普及，传统SEO正被GEO（生成式引擎优化）取代。GEO核心是提升品牌在AI生成答案中的可见度，而非获取点击流量。数据显示超60%用户已使用AI搜索，若品牌未被AI提及将失去流量入口。文章推荐免费工具AIBase，支持多平台一键检测品牌在主流AI助手的曝光排名、竞品对比及可视化报告，并提供内容权威性、语义化表达等GEO优化策略，帮助品牌在AI时代建立竞争优势。
荐AI日报：昆仑万维SkyReels V3模型上线；月之暗面推Kimi Linear模型；MiniMax Music 2.0 发布

本期AI日报聚焦多领域创新：昆仑万维推出SkyReels V3模型，整合顶尖视频生成能力；月之暗面Kimi Linear模型处理长文本速度提升2.9倍；MiniMax Music 2.0实现专业级音乐创作；字节跳动启动豆包股权激励计划吸引AI人才；苹果iOS 27将迎AI重大升级，Siri更个性化；Dia浏览器融合Arc设计理念与AI技术；文心魔法漫画工具实现一键生成连载作品；谷歌Gemini Canvas新增PPT自动生成功能，由Gemini 2.5 Pro驱动，提升职场效率。

AI视频生成 SkyReels V3
百度智能云这项开源，让 DeepSeek-V3.2 推理服务吞吐提升 2 倍

10月28日，百度智能云联合SGLang社区开源针对DeepSeek-V3.2优化的多token预测（MTP）技术代码。该技术通过批量生成和集中验证机制，使模型解码吞吐量提升超2倍，突破传统自回归解码的序列化瓶颈。此次开源的MTP方案已完成与DeepSeek-V3.2稀疏注意力架构的深度适配，并经过百度内部业务验证，开发者可"开箱即用"获得稳定可靠的推理加速能力。

百度智能云 DeepSeek-V3.2 MTP技术
荐AI日报：可复刻音色的MiniMax Speech 2.6发布；TikTok推AI剪辑新工具“Smart Split”；Cursor 2.0发布

本期AI日报聚焦多项技术突破：MiniMax发布低延迟语音合成系统Speech 2.6，实现实时交互；蚂蚁数科与宁波银行打造的金融AI方案入选国际标准；智源推出具身操作能力的Emu3.5多模态模型；Cursor 2.0通过自研模型实现多智能体协同编程；xAI升级Grok新增视频生成功能；OpenAI推出可定制安全模型；TikTok推出AI剪辑工具Smart Split；微软发布强化学习框架Agent Lightning提升大模型训练效率。

AI日报 MiniMax Speech
荐MiniMax让AI语音有了新基建

熟悉MiniMax的人都了解这家公司的调性——不鸣则已，一鸣惊人。要么选择低调，要么发动技术连招，其发展路径呈现出鲜明的“技术深潜”与“节点式爆发“的双重特征。十月的最后一周，再次进入MiniMax式技术迭代新周期。MiniMax模型“全家桶”全面向Agent方向进化，基础文本模型M1升级至M2，“专为Agent和代码而生”;视频模型升级至Hailuo2.3，Hailuo Video Agent迭代为“全模态全�

MiniMax 技术迭代 Agent
荐Sora App的AI视频社交，给了百度们新希望

Sora2发布两周后，百度的蒸汽机AI视频模型，和谷歌Veo3.1撞了档期。两家公司选择同期发布并非有多默契，而是Sora2带来的压迫感促使它们不得不加快脚步。奥尔特曼将形容Sora2为“创意领域的ChatGPT3.5时刻”，不仅在物理逻辑、画面连贯性、真实感和音画同步等方面实现了质的飞跃，还把Sora从一个“文本到视频”的工具进化成一个“创意到生态”的平台。这无疑是扔在AI视�

文章搜索核心标签 AI视频模型
现场直击：战略发布，Yoosee Ai 携新使命奔赴下一个十年

10月31日，Yoosee以“AI新生，领航出海”为主题发布AI2.0全球生态战略。面对智能安防全球化竞争从硬件转向平台生态、数据主权与品牌信任的综合较量，Yoosee通过三大升级破局：云边协同AI架构攻克全球连接难题，自研AI灵眸芯片实现毫秒级精准识别；星瀚AI云平台5.0部署多模态大模型，赋能消费级摄像头获得云脑算力；构建去中心化出海模式，联合全球伙伴通过硬件定制、4G流量套餐等五大维度实现持续增长，让中小型企业以“零库存、高分成”轻量化撬动全球市场。
荐OpenAI也来了，巨头为何决战AI浏览器？

AI浏览器赛道再添一位重量级玩家——ChatGPT Atlas，这是OpenAI推出的首款人工智能驱动的网页浏览器。这也被外界认为OpenAI要向谷歌宣战，挑战Chrome一直以来的浏览器霸王地位。ChatGPT Atlas发布当天，谷歌母公司Alphabet股价应声下挫，盘中最大跌幅接近5%，足见市场对这一新品的敏感度。近一年来，AI浏览器的战略价值成为行业共识，从业者更是将其与智能代理（Agent）、搜索引�

AI浏览器 ChatGPT Atlas

今日大家都在搜的词：

热文

3 天
7天

Deepmind新AI算法仅用两个小时学习了26个游戏与人类相当

AI浪潮下，项目经理如何破局 | 2025 PMI项目管理大会

DeepSeek崩了上热搜页面显示“服务器繁忙”

品牌在deepseek、豆包里排第几?免费GEO排名查询工具帮你一键看清

荐AI日报：昆仑万维SkyReels V3模型上线；月之暗面推Kimi Linear模型；MiniMax Music 2.0 发布

百度智能云这项开源，让 DeepSeek-V3.2 推理服务吞吐提升 2 倍

荐AI日报：可复刻音色的MiniMax Speech 2.6发布；TikTok推AI剪辑新工具“Smart Split”；Cursor 2.0发布

荐MiniMax让AI语音有了新基建

荐Sora App的AI视频社交，给了百度们新希望

现场直击：战略发布，Yoosee Ai 携新使命奔赴下一个十年

荐OpenAI也来了，巨头为何决战AI浏览器？

今日大家都在搜的词：

热文

阿里回应饿了么更名：正处于灰度测试阶段

AI日报：昆仑万维SkyReels V3模型上线；月之暗面推Kimi Linear

马斯克称若发现外星人证据就公开

vivo Y500 Pro官宣11月10日发布：同档首发2亿HP5主摄

小鹏机器人会走猫步太像人了！小鹏发布新一代人形机器人IRON

小米YU7全网首拆上热搜雷军回应：欢迎同行和专家指点

鸿蒙智行新款享界S9官宣11月7日开订

B站回应拉黑指定用户可屏蔽开屏广告：不实信息

AI日报：Sora正式登陆Android；网易云音乐推AI调音大师；谷歌将

问界M7提车关爱计划发布：等车超10周最高可补贴10000元

鸿蒙HarmonyOS 6与iOS数据互传功能预计12月上线

AI日报：美团LongCat-Flash-Omni发布；Qwen3-Max上线深度思考功

DeepSeek崩了上热搜页面显示“服务器繁忙”

特斯拉Cybercab不配备方向盘和踏板预计2026年二季度下线

阿里回应饿了么更名：正处于灰度测试阶段

OPPO ColorOS 16正式版11月升级机型公布：支持23款机型

AI日报：昆仑万维SkyReels V3模型上线；月之暗面推Kimi Linear

马斯克称若发现外星人证据就公开

何小鹏：小鹏X9超级增程是全球续航最长的大七座车

vivo Y500 Pro官宣11月10日发布：同档首发2亿HP5主摄

站长商机

Deepmind新AI算法仅用两个小时学习了26个游戏 与人类相当

今日大家都在搜的词：

热文

站长商机

Deepmind新AI算法仅用两个小时学习了26个游戏与人类相当