首页 > 业界 > 关键词  > 人类一样最新资讯  > 正文

GPT-4学会“自我反思”:测试表现提升达30%

2023-04-04 14:45 · 稿源: 快科技

早些时候,OpenAI正式对外展示了GPT-4多模态模型,展示了它相较此前GPT-3.5强大的性能。

但事实上,从近日放出的信息来看,GPT-4最为强大的并不是它诞生时的能力,而是它能够像人类一样自我反思”。

根据研究人员Noah Shinn和Ashwin Gopinath在论文中的表述,他们开发了一种新的技术,能够让AI模拟人类的自我反思,并评估自己的表现。

这使得GPT-4 在完成各种测试的时候,会增加一些额外的步骤,让它能够自己设计测试来检查自己的答案,找出错误和不足之处,然后根据发现来修改自己的解决方案。

团队目前已经使用该技术对GPT-4进行了多种不同的性能测试。

在HumanEval测试中,GPT-4需要解决164个从未见过的Python编程问题,原本准确率为67%,使用反思技术后,准确率提升到了88%。

在 Alfworld测试中,GPT-4则需要在各种不同的交互环境中,通过执行一些允许的操作,来做出决策和解决多步任务;使用反思技术后,AI的准确率从73% 提高到97%,只有4个任务失败。

总体来看,基于这一技术,GPT-4在高难度的测试中能够取得明显进步,提升达到了30%左右。

举报

  • 相关推荐
  • 人类的心声,被AI听见了

    过去一年里,一个看似无意义的Labubu,成为了颇具情绪号召力的符号。 这只表情夸张、眼神狡黠的小兽,从逼仄的盲盒一路爬上潮流顶峰。它既不代表功能,也不传达身份,却让无数年轻人愿意为之排队、抽签。 而这,离不开更大的消费变迁。事后诸葛来看,Labubu的走红并非偶然,而是精准踩中了一个趋势——在这个时代,人们似乎越来越愿意为“情绪价值”付费。 与此�

  • Qwen登顶AI赚钱大赛只是开始?“弃GPT投Qwen”已在硅谷蔓延开来

    近期AI炒币大赛Alpha Arena引发关注,六款主流大模型用1万美元本金在币圈实战。戏剧性的是,被寄予厚望的GPT-5和Gemini因高杠杆操作亏损惨重,而中国开源模型表现亮眼——通义千问Qwen以53%回报率逆袭登顶,DeepSeek紧随其后。硅谷巨头Airbnb CEO公开表态依赖Qwen,投资人Chamath也承认将业务转向中国模型。市场用真金白银投票:预测平台押注Qwen胜率高达36%,远超OpenAI的3%。这场竞赛�

  • ROBOT PHONE登场:荣耀为AI终端开了自进化的未来新局

    ​十年前,AI还停留在算力、模型与数据此消彼长的层面。如今,技术的发展早已超乎想象。 2025年上半年,Google DeepMind重磅推出的AlphaEvolve揭示了一个重要趋势:AI开始拥有“自我成长”的能力。 AlphaEvolve是一种典型的“自进化系统”,它结合了Gemini模型的创造性问题解决能力,以及自动化评估器(Evaluator)的反馈学习机制,能够判断“什么是好的”,并据此不断自我优化。 �

  • 被AI引用才是真的流量:写出让GPT、Gemini主动引用的AI搜索友好型内容(实操清单 + 工具推荐)

    本文系统介绍生成式引擎优化(GEO)的核心方法,帮助内容从“给人看”升级为“AI友好型”。关键策略包括:1.采用结构化写作框架,在开头设置可直接回答问题的“黄金段落”;2.运用分步清单、数据标注、FAQ等模块提升内容引用率;3.通过多平台同步分发增加曝光;4.使用AIBase等工具量化监测内容被AI引用的频率与场景,并给出5天落地执行表。

  • IBM与Anthropic达成战略合作,为企业软件开发注入AI赋能的安全和治理

    IBM与Anthropic达成战略合作,将Claude大语言模型集成至IBM软件产品及开发工具中,旨在加速企业级AI开发进程。该合作聚焦提升开发效率,在IBM全新AI集成开发环境中率先应用,支持代码生成、测试部署等全生命周期任务。内部测试显示生产力提升45%,同时确保代码质量与安全合规。双方强调将为企业提供安全可靠的AI解决方案,推动行业标准化发展。

  • 一条草鱼活了55岁 专家:这种是人类驯化最彻底的淡水鱼

    近日,安徽黄山一位男子给家中55岁的鱼王”过生日,引发网友热议。 该男子介绍,这条鱼是在女儿出生时养的,55年后这条鱼依然健在,长1.4米重达35公斤,是黄山市目前鱼龄最长、体重最大的人工养殖草鱼。 人类餐桌经常出现的草鱼竟能活这么久,而且这条鱼看着依旧活跃,网友投来疑问:鱼类天生就这么长寿吗?” 对此,有专家表示,一般草鱼的寿命在10至15年之间,�

  • AI日报:豆包视频1.0pro fast发布;谷歌Gemini新功能上线;百度推上体体育大模型 2.0

    本期AI日报聚焦多项技术突破:火山引擎发布豆包视频生成模型1.0pro+fast,速度提升3倍且价格下降72%;百度与上海体育大学推出“上体体育大模型2.0”,拓展AI在运动员训练等场景应用;谷歌Gemini新增一键生成PPT功能;美团发布LongCat-Video模型,支持5分钟连贯视频生成;xAI推出虚拟女友Mika引发热议;MiniMax开源高性能M2编码模型;OpenAI上线企业知识管理功能;另报道20岁辍学生开发的AI笔记工具Turbo AI半年用户破500万,展现年轻创业者的技术影响力。

  • OpenAI推出AI浏览器ChatGPT Atlas 开启个性化上网新体验

    OpenAI于10月22日推出首款AI驱动浏览器ChatGPT Atlas,以个性化上网体验为核心。用户点击“Ask ChatGPT”即可在侧边栏实时互动,实现网页摘要生成、航班预订、文档编辑等多样化任务。目前仅支持macOS,未来将扩展至Windows和移动端。高级代理功能暂限付费用户使用,其特色包括自动捕捉页面上下文、分屏浏览及记忆用户操作历史,旨在通过自然对话提升网络使用效率。

  • 谁能成为中国的ChatGPT?夸克抢先交卷

    在OpenAI上线自己家AI浏览器ChatGPT Atlas的同一周,微软在海外发布了新的AI助手Mico和更AI化的Edge浏览器,夸克则在国内推出了新的「对话助手」功能。 这一系列消息背后,新旧巨头、两个市场产生了两个确定的共识:一个是AI助理与AI浏览器的融合会进一步深化,入口之争就是系统之争;另一个是对话会成为人与AI交互的主要方式,自然语言就是未来的编程语言。 在海外市场,OpenA

  • AI日报:阿里夸克“C计划”曝光;Veo3.1将增加视频“精确编辑”功能;Anthropic推出Claude Code网页版

    今日AI领域动态:阿里夸克启动"C计划"布局对话式AI应用,剑指字节"豆包";Anthropic推出Claude Code网页版,支持浏览器直接编码;谷歌Veo新增视频"精确编辑"功能,提升创作效率;Fish Audio升级S1语音克隆模型,10秒即可复刻真人声音;AWS美东故障影响ChatGPT等多项服务;DeepSeek-OCR推出"视觉记忆压缩"机制破解AI记忆瓶颈;Adobe推出AI Foundry服务,支持企业定制品牌AI模型;Anthropic发布Claude for Life Sciences,加速生命科学研究。

今日大家都在搜的词: