左脚踩右脚上天！OpenAI全新模型让GPT-4训练GPT-4

2024-06-28 17:00 · 稿源：快科技

GPT-4辅助模型提升训练师错误发现能力

为了解决 ChatGPT 代码输出中的错误问题，OpenAI 推出了 CriticGPT 模型。该模型基于 GPT-4 训练，能够审查代码并提供改进建议。

提升训练师效率

通过 CriticGPT，训练师可以利用 GPT-4 发现和纠正自身不足。实验表明，该模型能够将训练师发现错误的能力提高 60%。

工作原理

CriticGPT 通过评审 ChatGPT 提供的代码并提出改进建议来发挥作用。虽然其建议并不总是完美，但它极大地提升了训练师识别模型问题的效率。

评估 AI 输出的进步

OpenAI 承认，在缺乏更好的工具的情况下，评估高级 AI 的表现具有挑战性。CriticGPT 的引入表明 OpenAI 朝着评估高级 AI 系统输出的目标迈出了一步。

局限性

OpenAI 也指出了 CriticGPT 的局限性，包括理解长任务的不足、产生幻觉错误、识别分散错误的困难以及评估极端复杂任务的局限性。

行业反应

CriticGPT 的发布引起了热烈的讨论。一些评论家将该自我改进过程比作“用左脚踩右脚上天”。

（举报）

相关推荐

关键词：

OpenAI发布GPT-5.1：情商大涨本周开始推送

OpenAI正式推出GPT-5.1模型，以“智商与情商深度融合”为核心亮点。新模型优化推理能力，强化情绪价值与个性化交互，包含Instant与Thinking两大核心版本：Instant首次引入自适应推理功能，针对复杂任务延长思考时间，简单问题保持极速响应；Thinking版本智能分配思考时长，提升回答透彻度与通俗性。新增Auto功能自动匹配最佳模型，支持六种官方预设风格及精准微调。安全评估首次纳入心理健康与情感依赖维度，防范拟人化风险。付费用户可保留旧版三个月过渡期。

GPT-5.1模型智商与情商自适应推理
Qwen用开源逆袭GPT的故事，千问APP要再干一遍

Qwen模型逆袭GPT的策略，阿里准备再用一次。 2018年，OpenAI发布了自己的第一个模型GPT1，占据了技术先机，随后变得越来越封闭。在大洋彼岸，阿里几乎同一时间着手大模型研究，到2023年推出“通义千问”时，则选择了一条完全不同的路径:直接开源模型，允许开发者免费使用、改进和集成。这个策略让Qwen逐步积累起规模，做到了如今全球开发者基于它发布了17万个衍生模型�
荐AI日报：月之暗面开源AI新框架Kosong；百度发布新模型ERNIE-4.5-VL；GPT-5.1“隐身”登场

本期AI日报聚焦多项技术突破：月之暗面开源AI代理框架Kosong，支持异步编排与插件化设计；Replit推出AI集成功能，可一键调用300+模型；商汤发布空间智能模型SenseNova-SI，性能超越GPT-5；百度推出多模态模型ERNIE-4.5-VL，新增图像思考能力；谷歌地图全面AI化，集成Gemini实现智能交互；ChatTutor上线可视化教学系统，覆盖多学科实时推演；新版Google Finance引入AI深度搜索与财报追踪；OpenAI低调上线Polaris Alpha模型，支持256K上下文并更新知识库至2024年10月。

AI代理开源框架异步编排
荐AI日报：李飞飞Marble 3D世界模型公测；OpenAI首次推出ChatGPT群聊功能；百度发布多模态 AI助手超能小度

本期AI日报聚焦多项技术突破：World Labs推出Marble 3D模型，实现多模态生成可交互虚拟世界；OpenAI在韩新试点ChatGPT群聊功能，支持多人协作互动；苹果更新隐私政策，要求第三方AI调用需明示授权；百度发布多模态助手“超能小度”，支持空间感知与设备免费升级；LinkedIn推出AI人脉搜索，通过自然语言精准匹配专业人士；Cursor完成23亿美元融资，估值达293亿；Character AI与耶鲁合作实现音画同步技术Ovi；Google NotebookLM上线深度研究工具，支持多格式文件分析与知识库构建。

AI 3D虚拟世界多模态输入
AI全面落地双11，淘宝走出一条和OpenAI不同的路

今年的双11已经进入最后阶段，消费者和商家都有一个明显的感受是，AI的浓度真的很高，并且AI的全面落地应用，真的在改变传统用户购物、商家经营的链路。消费者能感受到两个比较明显的变化:一个是AI导购开始走进真实的购物场景。淘宝为双11投入了六款AI导购类产品，其公布的数据显示，AI万能搜已经帮助消费者解决了5000万个消费需求。另一个则是平台推荐的商品越

AI导购双11购物淘宝AI
荐OpenAI和微软的关系没那么糟，跟英伟达也没那么好

OpenAI的动作比所有人想象的都要快。上周二，OpenAI完成重组。其中一个重要变化是:彻底取消了与微软的排他性协议，结束了Azure长达六年的云服务独占模式。此前，OpenAI所有模型的训练、推理与部署都必须优先选择Azure，微软还享有优先购买权。宣布与Azure“分手”后不到一周，OpenAI便火速宣布了与AWS的战略合作——双方达成一项价值380亿美元的云计算协议，OpenAI将全面接入

OpenAI 云计算战略合作
荐OpenAI也来了，巨头为何决战AI浏览器？

AI浏览器赛道再添一位重量级玩家——ChatGPT Atlas，这是OpenAI推出的首款人工智能驱动的网页浏览器。这也被外界认为OpenAI要向谷歌宣战，挑战Chrome一直以来的浏览器霸王地位。ChatGPT Atlas发布当天，谷歌母公司Alphabet股价应声下挫，盘中最大跌幅接近5%，足见市场对这一新品的敏感度。近一年来，AI浏览器的战略价值成为行业共识，从业者更是将其与智能代理（Agent）、搜索引�

AI浏览器 ChatGPT Atlas
第49家零售店来了！苹果北京大兴Apple Store官宣12月6日开业

今日，苹果宣布，北京荟聚Apple Store将于12月6日上午10:00开业。新店位于北京市大兴区欣宁街15号北京荟聚一层，是苹果在北京的第6家、中国大陆第49家零售店。

苹果零售店北京荟聚 Apple
华为Mate 80/Pro/Pro Max/RS开启预约：全系直屏设计

华为Mate80系列今日开启预约，四款机型亮相官网。全系延续星环设计语言，采用直边直屏方案，配备3D人脸识别技术。核心搭载新一代麒麟9030处理器，性能强劲。配色与存储选择丰富：Mate80提供四色及三种存储组合；Mate80 Pro增加16GB+1TB选项；Mate80 Pro+Max以四款独特配色亮相；顶配Mate80 RS大师版则带来三款高端配色及独家20GB定制内存方案，彰显技术实力。

华为Mate80 新机预约华为商城
双11洗衣机：海尔云溪4.0居行业销额TOP1

双十一期间，海尔云溪4.0洗衣机凭借AI直驱洁净科技和AI双擎热泵技术，精准解决顽固污渍难洗净、娇贵面料易损伤、烘干缠绕打结等用户痛点，实现15分钟洗净81种污渍、1.28超高洗净比及透干不伤衣效果，以技术升级推动行业从“洗净”向“洗好护好”转型，稳居行业销额榜首。

双十一家电竞争海尔洗衣机

今日大家都在搜的词：

热文

3 天
7天

左脚踩右脚上天！OpenAI全新模型让GPT-4训练GPT-4

OpenAI发布GPT-5.1：情商大涨本周开始推送

Qwen用开源逆袭GPT的故事，千问APP要再干一遍

荐AI日报：月之暗面开源AI新框架Kosong；百度发布新模型ERNIE-4.5-VL；GPT-5.1“隐身”登场

荐AI日报：李飞飞Marble 3D世界模型公测；OpenAI首次推出ChatGPT群聊功能；百度发布多模态 AI助手超能小度

AI全面落地双11，淘宝走出一条和OpenAI不同的路

荐OpenAI和微软的关系没那么糟，跟英伟达也没那么好

荐OpenAI也来了，巨头为何决战AI浏览器？

第49家零售店来了！苹果北京大兴Apple Store官宣12月6日开业

华为Mate 80/Pro/Pro Max/RS开启预约：全系直屏设计

双11洗衣机：海尔云溪4.0居行业销额TOP1

今日大家都在搜的词：

热文

华为Mate 80系列已在华为商城开启预约

华为Mate 80 Pro Max外观公布：采用双圆环设计

华为Mate 80/Pro/Pro Max/RS开启预约：全系直屏设计

AI日报：阿里千问APP公测；Veo 3.1上线多图参考；超级小爱AI大

一加Ace 6T官宣将于本月发布：首发骁龙8 Gen5

荣耀500系列官宣将于11月24日发布

小米超级小爱AI大模型推出随心修图功能

阿里巴巴回应千问崩了：状态良好欢迎来问

参与开发iPhoneAir设计师离职转投AI初创公司

影视飓风CEO在相亲角被大妈吐槽网友：大妈不识货

腾讯发布2025第三季度财报：营收1928.69亿元同比增长 15%

小米澎湃OS 3第三批正式版推送：支持小米14、K70系列等

华为Mate 80系列已在华为商城开启预约

AI日报：百度发布文心5.0；可灵2.5Turbo模型上线“首尾帧”功能

华为Mate 80 Pro Max外观公布：采用双圆环设计

AI日报：李飞飞Marble 3D世界模型公测；OpenAI首次推出ChatGPT

荣耀500系列开启预约：Pro版外观首次亮相

1899元苹果手机包卖完了！iPhone Pocket在吐槽声中销售火爆

iPhone Pocket正式开售：联名三宅一生售价1299元起

站长商机