MIT微软证实GPT-4具备自我纠错能力较弱的模型则没有这种能力

2023-07-05 11:17 · 稿源：站长之家

站长之家（ChinaZ.com）7月5日消息:最近，麻省理工学院（MIT）和微软的研究学者发现，GPT-4在自修复方面表现出了有效能力，而GPT-3.5则没有。此外，GPT-4还能够对GPT-3.5生成的代码提供反馈。

大型语言模型（LLM）已经被证明可以从自然语言中生成代码片段，但在应对复杂的编码挑战，例如专业竞赛和软件工程专业面试时，仍然面临巨大挑战。最近的研究试图通过自修复来提高模型的编码性能，自修复是指模型反思并纠正自身代码中的错误。

论文地址：https://arxiv.org/pdf/2306.09896.pdf

从本研究的实验中，研究者得出以下发现:

考虑到检查和修复的成本，只有GPT-4的自修复能力能够提供性能收益;对于GPT-3.5，在所有配置下，修复的通过率低于或等于基线模型或无修复方法的通过率。

即使对于GPT-4，性能提升也是适度的（从66%提升到71%的通过率），而且取决于初始程序是否具有足够的多样性。实验的预算是使用7000个标记，约45个独立同分布(i.i.d.)的GPT-4样本。

使用GPT-4生成的反馈替代GPT-3.5对错误的解释，可以获得更好的自修复性能，甚至超过了基线的无修复GPT-3.5方法（从50%提升到使用7000个标记时的54%）。

使用人类的解释代替GPT-4自身的解释可以显著改善修复结果，从而使通过测试的修复程序数量增加57%。

爱丁堡大学的博士生符尧表示:“只有GPT-4具备自我改进的能力，而较弱的模型则没有，这一发现非常有趣，表明大型模型可能具有一种新型的涌现能力，即通过改进自然语言反馈来实现，这种能力可能只存在于模型足够成熟（大而整齐）的情况下。类似的能力在论文《Improving Language Model Negotiation with Self-Play and In-Context Learning from AI Feedback》中也有提及。”

（举报）

相关推荐
大家在看

关键词：

【腾讯云】11.11云上盛惠！云服务器首年1.8折起，买1年送3个月！

11.11云上盛惠！海量产品 · 轻松上云！云服务器首年1.8折起，买1年送3个月！超值优惠，性能稳定，让您的云端之旅更加畅享。快来腾讯云选购吧！

Docker容器镜像
去看看

Docker容器镜像 60元/15天

爆款产品组合购
去看看

爆款产品组合购低至1元

腾讯云x NVIDIA加速计划
去看看

腾讯云x NVIDIA加速计划最高获赠10万元扶持基金

2核2G云服务器
去看看

2核2G云服务器 112元/1年

查看更多相关信息>>

腾讯云 12-20

广告
对标GPT-4代码解释器！港中大让模型写代码解决数学难题，得分超越GPT-4

对标GPT-4代码解释器，港中大最新研究放了个“大招”:他们开发了一个叫做MathCoder的大模型，数学能力直接在竞赛级“题库”Math上超过GPT-4。做到这一点靠的就是无缝集成代码的能力——在遇到数学问题时，它不仅能用自然语言推理能自动编写和执行代码来建模、推导公式与方程。通讯作者为李鸿升，为港中大电子工程系副教授，同时也就职于上海人工智能研究室。

GPT-4 MathCoder
「字少信息量大」，Salesforce、MIT 研究者手把手教 GPT-4「改稿」，数据集已开源

自动摘要技术取得了长足的进步，这主要归功于范式的转变——从在标注数据集上进行有监督微调转变为使用大语言模型进行零样本prompt，例如GPT-4。不需要额外的训练，细致的prompt就能实现对摘要长度、主题、风格等方面特征的精细控制。更多论文细节，可参考原论文。

GPT-4 数据集
谷歌让大模型更具“心智”，GPT-4任务准确率大增

谷歌联合多所高校的一项最新研究，让大模型开始拥有了人类的“心智”。在新的提示策略下，大模型不仅能推测出人类所面临的问题学会了用推测的结论调整自己的行为。来自谷歌、卡耐基梅隆大学和的芝加哥大学的学者也参与了本项目。

GPT-4 大模型
智谱AI发布MathGLM数学模型算术任务性能优于GPT-4

智谱AI发布MathGLM数学模型，旨在增强大模型在数学推理方面的性能。它能够精确计算算术运算，包括基础算术运算和复杂混合运算，并提升模型的中文数学解决能力。MathGLM还在解决不同年级数学问题和数学应用题上进行了实验，取得了较好的结果。
荐GPT-4就是AGI，谷歌斯坦福科学家揭秘大模型如何超智能

【新智元导读】谷歌研究院和斯坦福HAI的两位专家发文称，现在最前沿的AI模型，未来将会被认为是第一代AGI。最前沿的LLM已经用强大的能力证明，AGI即将到来!通用人工智能，其实已经实现了?最近，来自谷歌研究院和斯坦福HAI的大佬发文称，现在的大预言模型就是通向AGI的正确方向现在最前沿的模型，已经拥有AGI的能力了!这两位作者都是AI业界大佬，BlaiseAgüerayArcas现在是Google

GPT-4
DeepMind让大模型学会归纳和演绎，GPT-4准确率提升13.7%

大型语言模型在推理任务上表现出令人惊艳的能力，特别是在给出一些样例和中间步骤时。prompt方法往往依赖于LLM中的隐性知识，当隐性知识存在错误或者与任务不一致时，LLM就会给出错误的回答。对于GPT3.5来说，这种改进并不显著，因为在处理文本输入时，它经常产生除规则幻觉以外的错误。

DeepMind AI头条
荐大模型总结摘要靠谱吗？比人类写的流畅，用GPT-4幻觉还少

作为自然语言生成中的一项任务，主要用来将一大段长文本压缩为简短的摘要，例如新闻文章、源代码和跨语言文本等多种内容都能用到。随着大模型的出现，传统的在特定数据集上进行微调的方法已经不在适用。本文还发现微调模型生成的摘要往往具有固定且严格的长度LLM能够根据输入信息调整输出长度。

大模型
荐GPT-4太烧钱，微软想甩掉OpenAI？曝出Plan B：千块GPU专训「小模型」，开启必应内测

GPT-4太吃算力，微软被爆内部制定了PlanB，训练更小、成本更低的模型，进摆脱OpenAI。GPT-4太吃算力，连微软也顶不住了!今年，无数场微软AI大会上，CEO纳德拉台前激动地官宣，将GPT-4、DALL·E3整合到微软「全家桶」。毕竟后者对哪些公司可以将其开源LLM进行商业化是有所限制的。

GPT-4
荐国产大模型推理能力已超GPT-3.5！冲进OpenAI评测榜第一梯队

OpenAI开源的数学数据集，中国厂商新成绩一举冲到最前列!就在9月16日，国产大模型在权威推理评测集GSM8K中，首次达到了80%正确率，大幅领先GPT-3.5和LLaMA2-70B。且这家厂商在大模型榜单上刷新全球纪录，已经不是第一次了。可以不夸张地说一句，昆仑万维和它家的天工大模型，已经是大模型江湖中，一个绕不过去的狠角色了。

国产大模型 GPT-3.5 OpenAI
荐ChatGPT/GPT-4/Llama电车难题大PK！小模型道德感反而更高？

微软对大语言模型的道德推理能力进行了测试，但在电车问题中大尺寸的模型表现反比小模型差。但最强大语言模型GPT-4的道德得分依旧是最高的。这与研究最初的假设:大型模型总是比小型模型具有更强的能力相反，说明利用这些较小的模型开发道德系统具有很大的潜力。

ChatGPT GPT-4

今日大家都在搜的词：

热文

3 天
7天

MIT微软证实GPT-4具备自我纠错能力 较弱的模型则没有这种能力

今日大家都在搜的词：

热文

站长商机

MIT微软证实GPT-4具备自我纠错能力较弱的模型则没有这种能力