GPT-4学会“自我反思”：测试表现提升达30%

2023-04-04 14:45 · 稿源：快科技

早些时候，OpenAI正式对外展示了GPT-4多模态模型，展示了它相较此前GPT-3.5强大的性能。

但事实上，从近日放出的信息来看，GPT-4最为强大的并不是它诞生时的能力，而是它能够像人类一样自我反思”。

根据研究人员Noah Shinn和Ashwin Gopinath在论文中的表述，他们开发了一种新的技术，能够让AI模拟人类的自我反思，并评估自己的表现。

这使得GPT-4 在完成各种测试的时候，会增加一些额外的步骤，让它能够自己设计测试来检查自己的答案，找出错误和不足之处，然后根据发现来修改自己的解决方案。

团队目前已经使用该技术对GPT-4进行了多种不同的性能测试。

在HumanEval测试中，GPT-4需要解决164个从未见过的Python编程问题，原本准确率为67%，使用反思技术后，准确率提升到了88%。

在 Alfworld测试中，GPT-4则需要在各种不同的交互环境中，通过执行一些允许的操作，来做出决策和解决多步任务；使用反思技术后，AI的准确率从73% 提高到97%，只有4个任务失败。

总体来看，基于这一技术，GPT-4在高难度的测试中能够取得明显进步，提升达到了30%左右。

（举报）

相关推荐

关键词：

人类的心声，被AI听见了

过去一年里，一个看似无意义的Labubu，成为了颇具情绪号召力的符号。这只表情夸张、眼神狡黠的小兽，从逼仄的盲盒一路爬上潮流顶峰。它既不代表功能，也不传达身份，却让无数年轻人愿意为之排队、抽签。而这，离不开更大的消费变迁。事后诸葛来看，Labubu的走红并非偶然，而是精准踩中了一个趋势——在这个时代，人们似乎越来越愿意为“情绪价值”付费。与此�

文章搜索核心标签情绪价值
荐Qwen登顶AI赚钱大赛只是开始？“弃GPT投Qwen”已在硅谷蔓延开来

近期AI炒币大赛Alpha Arena引发关注，六款主流大模型用1万美元本金在币圈实战。戏剧性的是，被寄予厚望的GPT-5和Gemini因高杠杆操作亏损惨重，而中国开源模型表现亮眼——通义千问Qwen以53%回报率逆袭登顶，DeepSeek紧随其后。硅谷巨头Airbnb CEO公开表态依赖Qwen，投资人Chamath也承认将业务转向中国模型。市场用真金白银投票：预测平台押注Qwen胜率高达36%，远超OpenAI的3%。这场竞赛�

AI炒币大赛 Alpha Arena
荐ROBOT PHONE登场：荣耀为AI终端开了自进化的未来新局

十年前，AI还停留在算力、模型与数据此消彼长的层面。如今，技术的发展早已超乎想象。 2025年上半年，Google DeepMind重磅推出的AlphaEvolve揭示了一个重要趋势:AI开始拥有“自我成长”的能力。 AlphaEvolve是一种典型的“自进化系统”，它结合了Gemini模型的创造性问题解决能力，以及自动化评估器（Evaluator）的反馈学习机制，能够判断“什么是好的”，并据此不断自我优化。 �

AI 自进化系统 Google
被AI引用才是真的流量：写出让GPT、Gemini主动引用的AI搜索友好型内容（实操清单 + 工具推荐）

本文系统介绍生成式引擎优化(GEO)的核心方法，帮助内容从“给人看”升级为“AI友好型”。关键策略包括：1.采用结构化写作框架，在开头设置可直接回答问题的“黄金段落”；2.运用分步清单、数据标注、FAQ等模块提升内容引用率；3.通过多平台同步分发增加曝光；4.使用AIBase等工具量化监测内容被AI引用的频率与场景，并给出5天落地执行表。

AI搜索友好型内容创作 GEO Generative
IBM与Anthropic达成战略合作，为企业软件开发注入AI赋能的安全和治理

IBM与Anthropic达成战略合作，将Claude大语言模型集成至IBM软件产品及开发工具中，旨在加速企业级AI开发进程。该合作聚焦提升开发效率，在IBM全新AI集成开发环境中率先应用，支持代码生成、测试部署等全生命周期任务。内部测试显示生产力提升45%，同时确保代码质量与安全合规。双方强调将为企业提供安全可靠的AI解决方案，推动行业标准化发展。

IBM Claude大语言模型企业级AI
一条草鱼活了55岁专家：这种是人类驯化最彻底的淡水鱼

近日，安徽黄山一位男子给家中55岁的鱼王”过生日，引发网友热议。该男子介绍，这条鱼是在女儿出生时养的，55年后这条鱼依然健在，长1.4米重达35公斤，是黄山市目前鱼龄最长、体重最大的人工养殖草鱼。人类餐桌经常出现的草鱼竟能活这么久，而且这条鱼看着依旧活跃，网友投来疑问：鱼类天生就这么长寿吗？” 对此，有专家表示，一般草鱼的寿命在10至15年之间，�

鱼王草鱼寿命人工养殖
荐AI日报：豆包视频1.0pro fast发布；谷歌Gemini新功能上线；百度推上体体育大模型 2.0

本期AI日报聚焦多项技术突破：火山引擎发布豆包视频生成模型1.0pro+fast，速度提升3倍且价格下降72%；百度与上海体育大学推出“上体体育大模型2.0”，拓展AI在运动员训练等场景应用；谷歌Gemini新增一键生成PPT功能；美团发布LongCat-Video模型，支持5分钟连贯视频生成；xAI推出虚拟女友Mika引发热议；MiniMax开源高性能M2编码模型；OpenAI上线企业知识管理功能；另报道20岁辍学生开发的AI笔记工具Turbo AI半年用户破500万，展现年轻创业者的技术影响力。

AI 视频生成火山引擎
OpenAI推出AI浏览器ChatGPT Atlas 开启个性化上网新体验

OpenAI于10月22日推出首款AI驱动浏览器ChatGPT Atlas，以个性化上网体验为核心。用户点击“Ask ChatGPT”即可在侧边栏实时互动，实现网页摘要生成、航班预订、文档编辑等多样化任务。目前仅支持macOS，未来将扩展至Windows和移动端。高级代理功能暂限付费用户使用，其特色包括自动捕捉页面上下文、分屏浏览及记忆用户操作历史，旨在通过自然对话提升网络使用效率。

ChatGPT Atlas 人工智能浏览器
谁能成为中国的ChatGPT？夸克抢先交卷

在OpenAI上线自己家AI浏览器ChatGPT Atlas的同一周，微软在海外发布了新的AI助手Mico和更AI化的Edge浏览器，夸克则在国内推出了新的「对话助手」功能。这一系列消息背后，新旧巨头、两个市场产生了两个确定的共识:一个是AI助理与AI浏览器的融合会进一步深化，入口之争就是系统之争;另一个是对话会成为人与AI交互的主要方式，自然语言就是未来的编程语言。在海外市场，OpenA

AI浏览器 ChatGPT Atlas
AI日报：阿里夸克“C计划”曝光；Veo3.1将增加视频“精确编辑”功能；Anthropic推出Claude Code网页版

今日AI领域动态：阿里夸克启动"C计划"布局对话式AI应用，剑指字节"豆包"；Anthropic推出Claude Code网页版，支持浏览器直接编码；谷歌Veo新增视频"精确编辑"功能，提升创作效率；Fish Audio升级S1语音克隆模型，10秒即可复刻真人声音；AWS美东故障影响ChatGPT等多项服务；DeepSeek-OCR推出"视觉记忆压缩"机制破解AI记忆瓶颈；Adobe推出AI Foundry服务，支持企业定制品牌AI模型；Anthropic发布Claude for Life Sciences，加速生命科学研究。

AI 对话式AI 阿里巴巴

今日大家都在搜的词：

热文

3 天
7天

GPT-4学会“自我反思”：测试表现提升达30%

人类的心声，被AI听见了

荐Qwen登顶AI赚钱大赛只是开始？“弃GPT投Qwen”已在硅谷蔓延开来

荐ROBOT PHONE登场：荣耀为AI终端开了自进化的未来新局

被AI引用才是真的流量：写出让GPT、Gemini主动引用的AI搜索友好型内容（实操清单 + 工具推荐）

IBM与Anthropic达成战略合作，为企业软件开发注入AI赋能的安全和治理

一条草鱼活了55岁专家：这种是人类驯化最彻底的淡水鱼

荐AI日报：豆包视频1.0pro fast发布；谷歌Gemini新功能上线；百度推上体体育大模型 2.0

OpenAI推出AI浏览器ChatGPT Atlas 开启个性化上网新体验

谁能成为中国的ChatGPT？夸克抢先交卷

AI日报：阿里夸克“C计划”曝光；Veo3.1将增加视频“精确编辑”功能；Anthropic推出Claude Code网页版

今日大家都在搜的词：

热文

一加15今晚发布定位全能水桶机

AI日报：豆包视频1.0pro fast发布；谷歌Gemini新功能上线；百度

红米REDMI K90全方位提升雷军：是不是越来越有旗舰气质

余承东曝鸿蒙智行新款享界S9将于11月上市

iPhone18发布或推迟苹果明年9月只发Pro系列和Fold折叠屏

华为MatePad Pro流金典藏版开卖：售价7799元

华为MatePad Mini典藏版今日开售：售价5999元起

一加Ace 6开启预售：售价2599元起

一加15今日开售：售价3999元起

20周年款iPhone将配自研相机并搭载自研定制LOFIC传感器

华为nova Flip S小折叠开售：首发3388元起

兰博基尼联名！REDMI K90 Pro Max冠军版官宣

雷军回应K90定价：最近内存涨价太多希望大家理解这份诚意

苹果首款2nm手机芯片上热搜 A20由iPhone 18系列首发

REDMI K90标准版12+512GB降价300元小米回应：可退差价

一加15今晚发布定位全能水桶机

AI日报：豆包视频1.0pro fast发布；谷歌Gemini新功能上线；百度

小米汽车发布跨年购置税补贴方案至高不超15000元

红米REDMI K90全方位提升雷军：是不是越来越有旗舰气质

余承东曝鸿蒙智行新款享界S9将于11月上市

站长商机