首页 > 业界 > 关键词  > GPT最新资讯  > 正文

人工智能的新进展:GPT-4 Reflexion 准确度提高 30%

2023-04-04 15:08 · 稿源:站长之家

站长之家(ChinaZ.com) 4月4日消息:即使不太可能会暂停六个月的人工智能研究,但似乎 GPT-4 也有能力实现巨大的飞跃,只要它认真审视一下自己。研究人员已经让 GPT 对自己的工作进行「反思(Reflexion)」,使其性能提高了 30%。

ChatGPT plugins,人工智能,AI,插件

研究人员 Noah Shinn 和 Ashwin Gopinath 写道:「人类并非每天都在使用曾经被认为是人类智能独有的决策过程来开发新技术来达到最先进的标准。但是,这正是我们所做的。」

「反思」技术采用了 GPT-4 已经令人印象深刻的执行各种测试的能力,并引入了「一个框架,允许人工智能代理模仿人类一样的自我反思并评估其性能」。它引入了额外的步骤,让 GPT-4 设计测试来批判自己的答案,寻找错误和误区,然后根据它发现的情况重写其解决方案。

该团队将其技术用于一些不同的性能测试。在由模型从未见过的 164 个 Python 编程问题组成的 HumanEval 测试中,GPT-4 得分达到创纪录的 67%,但在 Reflexion 技术的帮助下,其得分跃升至令人印象深刻的 88%。

在 Alfworld 测试中,该测试挑战人工智能通过在各种交互环境中执行几种不同的允许行动来做出决定和解决多步骤任务的能力,Reflexion 技术将 GPT-4 的表现从 73% 左右提升到接近完美的 97%,在 134 项任务中只有 4 项失败。

在另一项名为 HotPotQA 的测试中,语言模型被赋予了对维基百科的访问权,然后在可能的 13,000 个问题/答案对中给出 100 个,「挑战代理人解析内容并推理多个支持文档」。在这项测试中,GPT-4 的准确率只有 34%,但带有 Reflexion 的 GPT-4 成功地做得更好,达到 54%。

越来越多的时候,解决人工智能问题的方法似乎是更多的人工智能。在某些方面,这感觉有点像生成式对抗网络,其中两个人工智能互相磨练技能,例如,一个试图生成无法与「真实」图像区分的图像,而另一个试图区分假的和真的。但在这种情况下,GPT 既是作者又是编辑,致力于努力改善自己的输出。

举报

  • 相关推荐
  • “人工智能强化学习可持续发展计划”发布,“教育普惠+标准共建”助力全球人工智能体系构建

    6月11日,第二届"一带一路"科技交流大会人工智能赋能可持续发展论坛在成都举行。腾讯联合多家机构发起"人工智能强化学习可持续发展计划",包含AI教育普惠和强化学习标准共建两大板块。该计划将面向全球高校开放《人工智能通识课》和《人工智能强化学习专业课》教学资源,助力构建高质量AI教学体系。同时,腾讯开悟人工智能全球公开赛颁奖典礼作为"学赛研产"联动的重要环节,吸引了19个国家和地区的近400所高校队伍参赛。2025年赛事将首次联合全国高校计算机能力挑战赛,围绕AI前沿产业真实场景设置赛题。腾讯还通过"青云计划"为全球顶尖AI人才提供就业机会,推动人才与产业高质量发展。北京大学等机构牵头制定了强化学习系统系列技术标准,填补了领域内标准空白。

  • 极光GPTBots成功完成“生成式人工智能服务登记”

    极光旗下AI开发平台GPTBots.ai近日在广东省网信部门完成生成式人工智能服务登记,成为合规经营的AI服务提供商。该平台严格遵循国家《互联网信息服务深度合成管理规定》和《生成式人工智能服务管理暂行办法》等法规要求,标志着其在技术创新、服务模式和数据安全等方面获得关键合规认可。此次登记体现了极光对法律法规的严格遵守和对安全责任的高度重视,为区域AI生态发展注入新活力。未来,极光将继续优化技术与服务,保障用户权益,推动生成式AI技术的健康规范发展。

  • 师出有名:华城瑞讯首创人工智能平台 共建数智企服生态

    华城瑞讯创始人高瑞先拜访中国中小企业协会,双方围绕小微企业数智化服务、企服咨询师行业标准建设等议题展开交流。协会成立于2006年,致力于服务中小企业发展。华城瑞讯自主研发的"22°智·企服"Agents系统获高度认可,其融资服务模块可将融资周期缩短60%,成本降低50%。公司计划推出企服咨询师培训计划,建立OMO服务模式,整合银行、律所等专业资源。目前"22°智·融资"Agent已促成近20个千万级融资项目落地,覆盖智能制造、数字科技等领域。未来将共建数智企服新生态,在全国重点城市增设服务空间,助力小微企业在数字经济浪潮中实现跨越式发展。

  • 寒武纪荣获2025人工智能领域金牛上市公司科创奖

    2025科创金牛奖获奖名单揭晓,寒武纪凭借在人工智能芯片领域的卓越表现,荣获人工智能领域金牛奖。该奖项由中国证券报打造,是中国资本市场最具影响力的奖项之一。寒武纪专注AI芯片研发,提供云边端一体化智能芯片产品和平台化基础系统软件,其通用型智能芯片产品技术壁垒高、应用场景广。2024年公司研发投入达10.72亿元,新增专利授权314项。此次获奖既是对其科技创新成果的肯定,也是对其推动AI技术产业化应用的认可。未来寒武纪将加速产品迭代升级,为我国人工智能产业发展筑牢技术根基。

  • 广东省人工智能与机器人产业联盟成立大会启幕:九四智能等共筑全球产业创新引擎

    广东省人工智能与机器人产业联盟于6月6日在广州成立,旨在落实国家发展战略,整合产业链资源,构建产学研协同创新平台。联盟将聚焦核心技术攻关、高端人才培养、应用场景拓展及产业生态完善,推动AI与机器人技术在制造、医疗、教育等领域的深度融合。通过政策咨询、标准制定和国际合作,助力广东建设科技强省、数字经济强省和制造强省。首批成员单位包括政府、高校、科研机构及行业领军企业,将共同破解产业"卡脖子"难题,打造具有全球竞争力的人工智能与机器人产业集群。

  • 微算法科技(NASDAQ:MLGO)将人工智能驱动的任务调度策略与边缘计算区块链集成,增强物联网系统稳定性

    物联网(IoT)技术快速发展,边缘计算成为解决海量数据处理的关键方案。微算法科技(NASDAQ:MLGO)创新性地将AI驱动的CO-ETS任务调度策略与区块链技术结合,构建了智能、安全、高效的物联网任务调度系统。该系统通过模拟棕熊觅食行为的优化算法,动态调整任务分配,最小化能耗并最大化执行效率;同时利用区块链技术确保任务调度的透明性和不可篡改性。该方案可广泛应用于智慧城市、工业物联网和智能家居等领域,显著提升系统性能和安全性,为物联网发展带来革命性突破。

  • 微算法科技(NASDAQ:MLGO)基于可解释的人工智能技术XAI,增强区块链网络威胁检测的决策能力

    微算科技(NASDAQ:MLGO)创新性地将可解释人工智能(XAI)技术应用于区块链网络安全领域,开发出智能威胁检测系统。该系统通过深度学习模型识别攻击模式,并利用可解释性模块清晰展示决策依据,显著提升了检测准确率和可信度。目前已成功应用于异常交易识别、恶意节点检测和智能合约审计等多个场景,帮助区块链网络实现更高效、透明的安全防护。该技术不仅提高了威胁检测能力,也为后续模型优化提供了依据,未来将在更广泛领域推动构建更安全的网络空间。

  • GAITC2025全球人工智能技术大会 | 每日互动方毅:开源大模型+闭源小数据是AI时代的重要路径

    文章探讨了"人工智能"更应称为"人造智能",对应"神造智能"的概念。作者指出AI模拟了神造智慧过程中的规律,人类可从AI身上重新学习"神"的智慧。通过三种棋类游戏分析AI发展:五子棋代表专注规则,深蓝代表深度思考,AlphaGo代表强化学习。数据是AI的重要命脉,需通过可信数据空间转化使用。AI已在交通安全、医疗健康、反诈宣传等领域带来改变,如高速视觉AI检测、脑卒中早筛模型等。未来最重要的是个人知识库和提问能力,人类需学会驾驭AI而非被其取代,2%的人将成为定义问题的深度思考者,98%则是幸福生活者。技术应成为托举大众的方舟而非割裂世界的鸿沟。

  • vivo出席博鳌亚洲论坛国际科技与创新论坛2025年香港会议,让人工智能赋能全民福祉

    6月6日至7日,博鳌亚洲论坛国际科技与创新论坛2025年香港会议在香港会议展览中心举行。vivo副总裁周围出席"从互联网+到人工智能+"分论坛,探讨AI智能化变革趋势。周围指出,AI将成为世界级基础设施,手机作为AI应用的重要载体,是连接技术与普通人的桥梁。vivo将持续深耕手机智能领域,构建大语言模型等核心能力,并推动AI在影像、办公等场景的应用落地。同时vivo将联合汽车、医疗等行业构建智能生态,特别关注无障碍领域的技术普惠。作为论坛战略合作伙伴,vivo将持续分享创新成果,展现中国科技实力与人文温度。

  • 倍孜网络CEO聂子尧主持虎啸盛典AI论坛并发布《2025中国数字营销行业人工智能应用趋势研究报告》

    本文聚焦AI营销创新,重点呈现了2025虎啸盛典上发布的《中国数字营销行业人工智能应用趋势研究报告》核心内容。报告指出AI营销正从效率工具向价值引擎跃迁,倍孜网络CEO聂子尧提出AI应释放人类潜能而非替代创造力。报告展示了三大趋势:1)技术融合:AIGC+元宇宙+Web3协同创新;2)行业重构:AI深度赋能金融、零售、快消领域;3)战略升级:数据资产化与算法进化。典型案例包括12306智能投放系统提升触达精准度,可口可乐"未来3000年"跨模态营销实现189万次用户互动。报告强调AI营销需警惕"幻觉效应",应通过"模法"建立可持续的智能营销生态。