首页 > 业界 > 关键词  > Deepmind最新资讯  > 正文

Deepmind新AI算法仅用两个小时学习了26个游戏 与人类相当

2023-06-20 10:11 · 稿源:站长之家

站长之家(ChinaZ.com)6月20日 消息:日前,Deepmind的一个名为 "Bigger, Better, Faster" 的 AI 算法,在只用了两小时的时间内掌握了26个 Atari 游戏,与人类效率水平相当。

强化学习是谷歌深度学习中心研究的核心领域之一,它可能有朝一日用 AI 解决许多现实世界的问题。然而,一个大问题是可能会非常低效:强化学习算法需要大量的训练数据和大量的计算能力。在他们的最新研究中,谷歌深度学习中心和米拉大学和蒙特利尔大学的研究人员展示了另一种可行的方法。

"Bigger, Better, Faster"的模型(简称BBF)在Atari基准测试中平均表现超出了人类的表现水平。这并不是新鲜事,其他强化学习算法也曾在 Atari 游戏中击败了人类。

然而,BBF模型只需要两个小时的游戏时间,这与人类在基准测试中使用的实践时间是相同的。因此,这个不需要预先训练模型的算法达到了人类学习的效率,并且需要的计算能力比旧方法少得多。无模型代理直接从与游戏世界的交互中获得奖励和惩罚的信息,并学习到最佳的策略。

该团队通过使用更大的神经网络、自我监控训练方法和其他方法来提高效率。例如,BBF可以在单个Nvidia A100GPU上进行训练,而其他方法需要更多的计算能力。

虽然还有29个常用于强化学习的游戏尚待测试,但研究团队指出,BBF 还没有能够在所有基准测试游戏中超过人类的表现水平。然而,将 BFF 与其他模型在55个游戏中进行比较,表明这种高效算法在55个游戏中大致与使用500倍更多数据的系统持平。

image.png

该团队认为,这还表明 Atari 基准测试仍然是强化学习的好的基准测试,这使得该研究可以为小型研究团队提供资金支持。

过去的高效强化学习算法对扩展方面也显示出了弱点,而 BFF 没有限制,并且继续能够通过更多的训练数据获得更高的性能。

该团队总结道:“总体来说,我们希望我们的工作能够激励其他研究人员继续推进深度强化学习的样本效率前沿,以最终达到人类水平的效率表现在所有任务中。”

更有效率的强化学习算法可能会重新确立目前由自我监督模型主导的 AI 技术的局面。

BBF算法相关论文:https://arxiv.org/pdf/2305.19452.pdf

举报

  • 相关推荐
  • DeepSeek上新!开源发布DeepSeek-Prover-V2-671B新模型

    快科技4月30日消息,今日,DeepSeek 今日在 AI 开源社区 Hugging Face 发布了一个名为 DeepSeek-Prover-V2-671B 的新模型。据介绍,DeepSeek-Prover-V2-671B 其参数量达到6710亿,使用了更高效的 safetensors 文件格式,并支持 BF16、FP8、F32 等多种计算精度,方便模型更快、更省资源地训练和部署。在模型架构上,该模型使用了DeepSeek-V3架构,采用MoE(混合专家)模式,具有61层Transformer层,7168维隐藏层。同时支持超长上下文,最大位置嵌入达163840,使其能处理复杂的数学证明,并且采用了FP8量化,可通过量化技术减小模型大小,提

  • 初中老师如何用deepseek 和 Kimi无痛做课件

    本教程指导初中教师如何利用Deepseek和Kimi两款AI工具高效完成备课全流程。Deepseek用于生成教学设计方案和PPT大纲,Kimi则根据大纲快速生成精美课件。操作步骤:1)在Deepseek输入教学需求生成教学设计;2)用Deepseek生成PPT大纲;3)将大纲粘贴至Kimi PPT助手一键生成课件。该方法特别适合日常备课、临时调课需求,能大幅提升备课效率,让教师既省时又高效。

  • AI简历教程!用 deepseek 一键生成高质量简历

    本文介绍如何利用AI工具Deepseek快速制作专业简历。传统简历制作依赖WPS模板或作图软件,过程繁琐。现在通过Deepseek平台,只需输入自然语言指令(如工作经验、技能等关键信息),系统即可自动生成排版精美的HTML版简历,还能转换为PDF格式。操作流程分三步:1.访问官网输入需求指令;2.查看并运行生成的HTML代码;3.保存文件或转为PDF。该工具特别适合求职者快速制作突出个人优势的专业简历,大幅提升求职效率。

  • DeepSeek + Kimi一键生成高质量PPT

    文章介绍如何用两个免费AI工具快速制作PPT:先用微信版DeepSeek生成大纲,再用Kimi智能助手一键生成PPT。操作步骤包括:1)在微信搜索DeepSeek,输入需求生成结构化大纲;2)访问Kimi网页版,将大纲粘贴至PPT助手功能;3)选择模板样式,一键生成PPT。该方法适用于教师备课、学生汇报、职场报告等多种场景,能自动完成从构思到排版的全部流程,高效且效果惊艳。

  • 宝马中国将接入DeepSeek!爆新世代车型搭载AI智能体

    宝马中国4月27日宣布接入深度求索(DeepSeek)AI大模型,深化本土AI生态布局。这是继宝马与阿里巴巴达成AI大语言模型合作后,再次联手中国科技企业。从今年三季度起,搭载第九代宝马操作系统的多款国产新车将率先应用该技术,通过智能个人助理提升人机交互体验。宝马还计划将DeepSeek功能应用于新一代国产车型。此前3月,宝马已与阿里云合作开发车载AI引擎,双方在上海车展展示了识别率达99%的智能语音交互系统。此次合作将突破车载场景限制,实现车辆与外部世界的智能连接,为用户提供个性化出行体验。

  • DeepSeek带飞寒武纪

    寒武纪凭借AI芯片业务实现扭亏为盈,2024年首次实现上市后盈利,2025年Q1营收11.11亿元同比暴增4230%,净利润3.55亿元。这家曾连亏8年、累计亏损54亿元的"中国版英伟达",因美国对H20芯片出口管制获得市场红利,但客户集中度过高(前五大客户贡献94.63%营收)和现金流波动仍是隐忧。当前国产芯片迎来发展机遇,华为昇腾、壁仞等企业纷纷抢占市场,行业竞争日趋激烈。

  • Flyme AIOS 2发布:魅族Note 16首发 接入DeepSeek

    在智能交互方面,Flyme AIOS2接入DeepSeek R1满血版,具备深度思考能力,并提供三种模式供用户选择。此外,星纪魅族成为首家接入阿里云首个端到端全模态大模型通义千问Qwen - Omni的厂商,这使得系统能带来更敏捷聪明、更具拟人情感的超自然语音对话体验,正式

  • IQ 过百的 AI 模型名单发布:ChatGPT、Deepseek等上榜

    人工智能IQ哪家强?o3 智商高达 132、Gemini 2.5 Pro Exp. 拿下 128 分、Claude 凭借 3.7 Sonnet Extended 位列第四、Deepsee R 1……

  • 超越DeepSeek-R1,英伟达开源王登顶,14万H100小时训练细节全曝光

    英伟达发布开源Llama-Nemotron系列模型,性能超越DeepSeek-R1。该系列包含三个版本:8B、49B和253B参数模型,其中253B的Ultra版本在推理吞吐量和内存效率上表现突出。关键技术包括:1)采用神经架构搜索优化模型结构;2)通过知识蒸馏和持续预训练提升性能;3)结合合成数据监督微调;4)在STEM领域进行大规模强化学习训练。Ultra版本在GPQA基准测试中达到开源模型最高水平,单节点8xH100即可高效运行。模型创新性支持"推理开关"功能,通过指令动态切换推理模式。训练流程包含五阶段优化,最终模型在数学推理和通用任务上均表现优异,部分基准超越专有模型。

  • 全网最大的“AI色情网站”MrDeepfakes宣布永久关闭

    “Mr. Deepfakes” 的非法交易最早始于 Reddit,但在 2018 年被封禁后,就转移到了他自己的平台上。在那里,数千名深度伪造创作者分享技术知识,研究人员去年指出,“Mr. Deepfakes” 网站的论坛最终成为了 “制作深度伪造色情内容的唯一可行的技术支持来源”。