首页 > 业界 > 关键词  > 正文

左脚踩右脚上天!OpenAI全新模型让GPT-4训练GPT-4

2024-06-28 17:00 · 稿源: 快科技

GPT-4辅助模型提升训练师错误发现能力

为了解决 ChatGPT 代码输出中的错误问题,OpenAI 推出了 CriticGPT 模型。该模型基于 GPT-4 训练,能够审查代码并提供改进建议。

提升训练师效率

通过 CriticGPT,训练师可以利用 GPT-4 发现和纠正自身不足。实验表明,该模型能够将训练师发现错误的能力提高 60%。

工作原理

CriticGPT 通过评审 ChatGPT 提供的代码并提出改进建议来发挥作用。虽然其建议并不总是完美,但它极大地提升了训练师识别模型问题的效率。

评估 AI 输出的进步

OpenAI 承认,在缺乏更好的工具的情况下,评估高级 AI 的表现具有挑战性。CriticGPT 的引入表明 OpenAI 朝着评估高级 AI 系统输出的目标迈出了一步。

局限性

OpenAI 也指出了 CriticGPT 的局限性,包括理解长任务的不足、产生幻觉错误、识别分散错误的困难以及评估极端复杂任务的局限性。

行业反应

CriticGPT 的发布引起了热烈的讨论。一些评论家将该自我改进过程比作“用左脚踩右脚上天”。

举报

  • 相关推荐
  • OpenAI最强模型GPT-5.4重磅发布 首次支持原生操控电脑 超越人类

    今日,OpenAI正式发布全新大模型GPT-5.4,号称目前能力最强、效率最高的专业工作前沿模型。 相比此前的GPT-5.2,GPT-5.4在推理能力、编程能力以及处理专业办公任务方面都有明显提升,尤其是在电子表格、PPT等复杂办公场景中的表现更加出色。 此次更新带来了两个版本:更擅长复杂推理任务的GPT-5.4 Thinking,以及性能更强、面向企业高端需求的GPT-5.4 Pro。 其中,GPT-5.4 Thinking主�

  • GPT-5.4:OpenAI做了个Kimi K2.5 +MiniMax M2.5?

    为了更好的追赶Claude,OpenAI带来了能力“N合1”的统一模型GPT-5.4,而看完这个模型的各种介绍和能力展示,你会发现它满满都是Kimi K2.5和MiniMax M2.5这两个在agent上卷到疯的开源模型的影子。 融合了多种agent能力的all in one模型 3月5日,OpenAI 正式发布 GPT-5.4。和过去那种“模型更强一点”的更新不同,这次发布的重点非常明确:把 AI 从聊天助手,进一步推向真正能交付专业工作的�

  • AI日报:小米发布Agent产品Xiaomi miclaw;OpenAI 发布 GPT-5.4系列;微软宣布必应视频全面接入Sora2模型

    本期AI日报涵盖多项重要动态:小米发布首款移动端Agent产品Xiaomi miclaw,基于自研MiMo大模型,旨在实现智能终端自动化交互。OpenAI推出GPT-5.4系列模型,包括标准版、推理版和高性能版,上下文窗口达百万级,在金融和法律领域表现优异。微软宣布必应视频创作者全面接入Sora2模型,提供免费高质量视频生成服务。Roblox推出AI实时改写功能,将违规内容自动转为礼貌合规语言。3D生成模型公司VAST获5000万美元融资,由阿里巴巴领投,将用于构建UGC互动生态。携程下线自动调价工具,推动酒店行业转向服务竞争。陈天桥九年后首度露面,透露正投入20亿美元研发“发现式AI”。阿里巴巴澄清千问团队集体离职传闻,称团队稳定,服务正常。

  • OpenAI开发双向语音模型:被打断也能秒回 让通话更自然顺畅

    OpenAI正研发新型双向语音模型BiDi,旨在让用户与ChatGPT的对话更自然流畅。其核心突破在于,当用户在AI发言过程中打断时,AI能实时调整回应,而非突然停止。目前ChatGPT的高级语音模式采用回合制对话机制,用户需先说完话,AI才会处理语音并生成回答。BiDi模型能持续处理说话者的语音输入,因此在被打断时可以立即调整响应。相比之下,现有的语音模型一旦开始生成回答,输出内容就基本固定,无法再根据新的输入进行变化。这项技术目前仍处于开发阶段,原计划今年第一季度发布,但最新发布时间可能推迟到第二季度或更晚。

  • AI日报:腾讯内测QClaw一键启动包;小红书新款AI编辑模型开源;OpenClaw正式支持 GPT-5.4

    本期AI日报聚焦多项AI领域新动态:腾讯内测QClaw一键启动包,降低开源智能体使用门槛;火山引擎发布ArkClaw云平台,优化AI Agent应用痛点;小红书开源FireRed-Image-Edit v1.1图像编辑模型,性能显著提升;AI技能qiaomu-mondo-poster-design可一键生成大师级海报;阿里达摩院发布MAOSS模型,利用AI筛查脂肪肝,检出率翻倍;OpenClaw发布重大更新,全面支持GPT-5.4;OpenAI再次推迟“成人模式”上线,优先提升AI智能水平;OpenClaw“小龙虾”能力排行榜出炉,展示各大模型真实编码战力。

  • AI日报:OpenAI上线 GPT-5.3 Instant;通义千问负责人林俊旸宣布离职;谷歌发布 Gemini 3.1 Flash-Lite

    本期AI日报聚焦行业动态:OpenAI紧急上线GPT-5.3 Instant,重点解决“爹味说教”问题;Anthropic推出Claude Code语音编程模式,提升开发效率。马云带领阿里与蚂蚁核心层访问云谷学校,探讨AI浪潮下的教育变革。AReaL v1.0框架发布,降低智能体强化学习开发门槛。阶跃星辰开源Step3.5Flash模型,参数达1960亿。阿里通义千问负责人林俊旸离职,反映大模型人才高频流动趋势。谷歌发布Gemini

  • 谷歌Nano Banana 2图像模型正式发布:4K生图 速度更快 成本砍半

    今日,谷歌正式发布新一代图像生成模型Nano Banana 2,主打更快、更便宜、更易用的高质量图像生成能力。 据了解,Nano Banana 2将陆续接入Gemini、Google搜索、AI Studio、Flow、付费API以及Google Ads等平台,并逐步全面替代旧版模型。 官方介绍称,该模型基于Gemini 3.1 Flash Image构建,融合了Nano Banana Pro级别的图像生成质量、推理能力与世界知识,同时继承Flash系列模型的高速生成优势,

  • OpenAI获1100亿美元投资 亚马逊为最大金主

    OpenAI完成新一轮融资,估值达7300亿美元,成功筹集1100亿美元资金。亚马逊以500亿美元投资额跃居首位,软银与英伟达分别出资300亿美元。双方还达成重要战略合作,OpenAI将采购AWS约2GW的Trainium芯片算力,并为亚马逊开发定制大模型。

  • AI日报:谷歌Nano Banana 2正式上线;可灵3.0全球视频模型第一;周鸿祎直言AI眼镜难做

    本期AI日报聚焦多领域进展:谷歌Gemini App更新,图像生成模型Nano Banana 2上线,支持2K分辨率与文字渲染;快手可灵3.0在视频生成基准测试中表现优异,彰显中国AI技术领先地位;周鸿祎指出AI眼镜硬件门槛高,未来应聚焦智能体技术;阿里巴巴推出千问AI眼镜,整合生态提供智能生活体验;xAI联合创始人离职引发核心团队变动关注;豆包手机助手回应安全争议,称未收到漏洞报�

  • AI日报:OpenAI测试ChatGPT写作模板功能;番茄、拼多多密测AI互动剧;Canvas 正式全美公测

    本期AI日报涵盖多项AI领域动态:OpenAI正测试ChatGPT写作模板功能,支持用户上传个人文档以生成匹配其风格的模板;Google推出Canvas功能,将搜索工具转型为全能创作平台,支持文档深度加工与长文本处理;字节跳动与拼多多开启AI互动剧测试,标志互联网内容生产向“可计算的树状叙事”转型;华为全新AI眼镜曝光,支持拍摄与同声传译,预计4月与Pura90同步发布;阿里确认通义千问负责人林俊旸离职,CEO吴泳铭牵头成立基础模型支持小组;宇树科技开源人形机器人架构OmniXreme,解决高动态动作难题;苹果发布M5系列芯片,AI性能大幅提升,新款MacBook Pro续航超24小时;Google NotebookLM推出“电影级视频概览”新功能,提供沉浸式定制视频以辅助学习。

今日大家都在搜的词: