人工智能的新进展：GPT-4 Reflexion 准确度提高 30%

2023-04-04 15:08 · 稿源：站长之家

站长之家(ChinaZ.com) 4月4日消息:即使不太可能会暂停六个月的人工智能研究，但似乎 GPT-4 也有能力实现巨大的飞跃，只要它认真审视一下自己。研究人员已经让 GPT 对自己的工作进行「反思（Reflexion）」，使其性能提高了 30%。

ChatGPT plugins，人工智能，AI，插件

研究人员 Noah Shinn 和 Ashwin Gopinath 写道：「人类并非每天都在使用曾经被认为是人类智能独有的决策过程来开发新技术来达到最先进的标准。但是，这正是我们所做的。」

「反思」技术采用了 GPT-4 已经令人印象深刻的执行各种测试的能力，并引入了「一个框架，允许人工智能代理模仿人类一样的自我反思并评估其性能」。它引入了额外的步骤，让 GPT-4 设计测试来批判自己的答案，寻找错误和误区，然后根据它发现的情况重写其解决方案。

该团队将其技术用于一些不同的性能测试。在由模型从未见过的 164 个 Python 编程问题组成的 HumanEval 测试中，GPT-4 得分达到创纪录的 67%，但在 Reflexion 技术的帮助下，其得分跃升至令人印象深刻的 88%。

在 Alfworld 测试中，该测试挑战人工智能通过在各种交互环境中执行几种不同的允许行动来做出决定和解决多步骤任务的能力，Reflexion 技术将 GPT-4 的表现从 73% 左右提升到接近完美的 97%，在 134 项任务中只有 4 项失败。

在另一项名为 HotPotQA 的测试中，语言模型被赋予了对维基百科的访问权，然后在可能的 13，000 个问题/答案对中给出 100 个，「挑战代理人解析内容并推理多个支持文档」。在这项测试中，GPT-4 的准确率只有 34%，但带有 Reflexion 的 GPT-4 成功地做得更好，达到 54%。

越来越多的时候，解决人工智能问题的方法似乎是更多的人工智能。在某些方面，这感觉有点像生成式对抗网络，其中两个人工智能互相磨练技能，例如，一个试图生成无法与「真实」图像区分的图像，而另一个试图区分假的和真的。但在这种情况下，GPT 既是作者又是编辑，致力于努力改善自己的输出。

（举报）

相关推荐

关键词：

美团发布高效推理模型LongCat-Flash-Thinking：部分性能接近GPT5

9月23日，美团LongCat团队发布全新高效推理模型LongCat-Flash-Thinking。该模型在保持极致速度的同时，性能更强大、更专业，在逻辑、数学、代码、智能体等多个领域的推理任务中达到全球开源模型最先进水平（SOTA），部分任务性能接近闭源模型GPT5-Thinking。它增强了智能体自主调用工具能力，扩展了形式化定理证明能力，成为国内首个结合深度思考、工具调用与非形式化、形式化推理的大语言模型。在数学、代码、智能体等高复杂度任务上表现尤为突出，多项基准测试成绩领先开源及闭源顶尖模型，已在HuggingFace、Github全面开源。

高效推理模型 LongCat-Flash-Thinking 开源模型
OpenAI发布GPT-5-Codex：可完成7小时单次编程任务

OpenAI宣布推出新一代AI编程模型GPT-5-Codex，其最大亮点是创新的动态时间分配系统。不同于传统AI追求秒级响应”，该模型可根据任务复杂度灵活调整处理时长，从数秒到7小时不等，以更接近人类专家的决策方式优化代码质量。 GPT-5-Codex产品负责人亚历山大恩比里科斯解释称，传统模型在任务初期即固定计算资源，而GPT-5-Codex能实时评估需求：动态决定加速推进、暂停语法核�

GPT-5-Codex 动态时间分配 AI编程模型
荐AI日报：美团发布推理大模型LongCat-Flash-Thinking；阿里Wan-Animate开源；字节推豆包翻译大模型

AI日报栏目聚焦人工智能领域最新动态。美团推出高性能推理大模型LongCat-Flash-Thinking；阿里开源Wan-Animate模型革新AI视频生成；字节跳动发布豆包翻译模型，支持28种语言互译；华为与浙大联合推出安全大模型DeepSeek-R1-Safe；阿里云即将发布跨模态模型Qwen3-Omni；xAI推出计算成本降低98%的Grok4Fast模型；YouTube发布多项AI创作辅助功能；IBM推出轻量级文档处理模型Granite-Docling-258M；中科院发布类脑大模型SpikingBrain实现百倍速度突破；OpenAI将推出仅限Pro用户的计算密集型新功能。

AI日报美团大模型 LongCat-Flash-Thinking
Qwen3-Max成阿里通义“地表最强”：性能超GPT5 数学推理直接满分

9月24日，2025云栖大会开幕，阿里通义千问旗舰模型Qwen3-Max重磅亮相，性能超越GPT-5、Claude+Opus 4等，跻身全球前三。该模型包含指令和推理两大版本，预训练数据量达36T tokens，总参数超万亿，具备极强编程和工具调用能力。在SWE-Bench测试中，指令版斩获69.6分全球第一；Tau2-Bench工具调用测试达74.8分，超越同类模型。推理增强版Qwen3-Max-Thinking在数学推理测试中获满分，国内首次突破。通义千问系列已实现全尺寸覆盖，包含三百多个模型。即日起，用户可在QwenChat免费体验Qwen3-Max，或通过阿里云百炼平台调用API服务。

云栖大会 Qwen3-Max 通义千问
性能超越GPT-4o及Qwen2.5-VL，百度超轻量小模型PP-OCRv5 Blog持续登顶Hugging Face热度第一

百度发布超轻量级文字识别模型PP-OCRv5，仅0.07B参数却实现媲美700亿参数大模型的OCR精度。在多项测试中超越GPT-4o等通用视觉大模型，尤其在文本定位和边界框精度上表现优异。该模型支持5种文字类型识别，适用于教育、医疗、法律等多行业数字化需求，累计下载量超900万，是GitHub上唯一Star数超5万的中国OCR项目。

PP-OCRv5 轻量级OCR 文字识别模型
荐AI日报：接入MJ！夸克发布造点AI；Wan2.5-Preview发布；可灵推最新视频生成模型可灵2.5Turbo

近日AI领域迎来多项重要更新：阿里夸克发布AI创作平台“造点”，整合通义万相Wan2.5与Midjourney V7，支持音画同步视频生成；Wan2.5-Preview实现多模态输入与电影级视频同步生成，提升视觉创作能力；可灵AI推出视频生成模型2.5Turbo并降价30%，降低使用门槛；阿里通义推出Qwen3-ASR-Toolkit，实现小时级音视频转录；谷歌相册AI编辑功能扩展至安卓用户，支持语音修图；谷歌Mixboard工具助力创意设计，生成情绪板；Qwen发布Qwen3-Max模型，在代码生成与智能体能力表现突出；Figma推出MCP服务器，实现设计到代码的一键转换，提升开发效率。

AI创作平台通义万相音画同步
荐AI日报：快手推出AI视频制作助手Kwali；字节跳动推出USO模型；OpenAI推出ChatGPT开发者模式

本文介绍了AI日报栏目，聚焦AI领域最新动态。快手推出Kwali视频助手，简化视频制作流程；字节跳动发布USO模型，解决图像生成中风格与主题的矛盾；微软推出Copilot Audio音频模式，提供个性化语音交互；Stability AI升级Stable Audio 2.5，支持高质量音频生成；阿联酋推出开源大模型K2 Think，拥有320亿参数；微信上线智能回复功能，提升公众号运营效率；OpenAI推出ChatGPT开发者模式，支持AI控制外部工具；字节跳动Seed团队发布AgentGym-RL框架，提升语言模型决策能力；月之暗面开源Checkpoint Engine中间件，优化LLM推理效率；B站开源IndexTTS-2.0文本转语音系统，支持情感与时长控制；Replit推出Agent 3编程助手，自主性提升10倍。

AI视频制作快手Kwali 多Agent框架
女子用ChatGPT选号中百万大奖全部捐出帮助有需要的人

美国弗吉尼亚州女子卡丽爱德华为非经常购彩者，近日通过手机向ChatGPT询问彩票号码建议，AI提供几组数字供参考。她购买后幸运中得15万美元（约106万元人民币）大奖。领奖时她当场宣布将全部奖金捐出，帮助有需要的人，并表示自己已足够幸运，希望以此鼓励其他中奖者回馈社会。

ChatGPT 彩票中奖 AI推荐
VTN平台：向TRUTH原则致敬，携手消费者重识健康真相

在信息过载的大健康消费市场，VTN平台以“TRUTH原则”为核心，通过全面、实际、有用、信任与和谐五个维度，为消费者构建科学健康认知体系。平台甄选全球优质健康品牌，依托前沿科技与深度服务，提供个性化健康方案，致力于推动健康消费从交易型向价值型跃迁，实现个体与社会的健康和谐。

健康消费 TRUTH原则 VTN平台
OPPO Watch S官宣：轻薄表皇

OPPO宣布将于10月16日推出OPPO Watch S智能手表，主打“轻薄表皇”设计，厚度不足9mm，号称目前市面上最薄的智能圆表。搭载全新智能手表系统，操作体验媲美手机，健康配置亦有惊喜。同时具备“健身教练”功能，可自动识别运动并提供超100种运动模式，专业记录数据。此外，发布会还将推出OPPO Find X9和X9 Pro旗舰手机，首批搭载联发科天玑9500平台，出厂预装全新ColorOS 16系统。

OPPO Watch S

今日大家都在搜的词：

热文

3 天
7天

人工智能的新进展：GPT-4 Reflexion 准确度提高 30%

美团发布高效推理模型LongCat-Flash-Thinking：部分性能接近GPT5

OpenAI发布GPT-5-Codex：可完成7小时单次编程任务

荐AI日报：美团发布推理大模型LongCat-Flash-Thinking；阿里Wan-Animate开源；字节推豆包翻译大模型

Qwen3-Max成阿里通义“地表最强”：性能超GPT5 数学推理直接满分

性能超越GPT-4o及Qwen2.5-VL，百度超轻量小模型PP-OCRv5 Blog持续登顶Hugging Face热度第一

荐AI日报：接入MJ！夸克发布造点AI；Wan2.5-Preview发布；可灵推最新视频生成模型可灵2.5Turbo

荐AI日报：快手推出AI视频制作助手Kwali；字节跳动推出USO模型；OpenAI推出ChatGPT开发者模式

女子用ChatGPT选号中百万大奖全部捐出帮助有需要的人

VTN平台：向TRUTH原则致敬，携手消费者重识健康真相

OPPO Watch S官宣：轻薄表皇

今日大家都在搜的词：

热文

AI日报：阿里推多模态模型Qwen3-Omni；谷歌推出AP2协议；百度推

AI日报：接入MJ！夸克发布造点AI；Wan2.5-Preview发布；可灵推

华为WATCH GT 6/Pro系列手表发布售价1488元起

小米SU7 Ultra原型车1:43合金车模发布：售价149元

499元！小米手环10耀影金特别版发布

雷军称最关键的改变发生在2020年都是被巨大挑战逼出来的

雷军：小米17 Pro Max屏幕采用超级像素技术功耗降低26%

雷军谈人能不能改变命运：不断尝试努力就有机会

小米17全系搭载全新M10屏幕发光技术

雷军自曝压力巨大：造车造芯把家底全押上了

雷军公布小米17标准版外观：1.18mm窄边框、6.3英寸直屏

全新问界M7小订破22万：将于明晚上市公布价格

AI日报：美团发布推理大模型LongCat-Flash-Thinking；阿里Wan-

折叠屏iPhone细节曝光采用超薄钛合金：预计售价2000美元起

AI日报：阿里推多模态模型Qwen3-Omni；谷歌推出AP2协议；百度推

ColorOS 16将于10月15日发布 Find X9系列全球首发搭载

iPhone17遭首批用户吐槽客服回应：建议新机带壳

小米平板8系列搭载11.2英寸3.2K旗舰屏

雷军演讲主题《改变》官宣：聊玄戒芯片和小米汽车背后的故事

鸿蒙智行尚界H5小订破15万台：明晚上市

站长商机