首页 > 业界 > 关键词  > 正文

左脚踩右脚上天!OpenAI全新模型让GPT-4训练GPT-4

2024-06-28 17:00 · 稿源: 快科技

GPT-4辅助模型提升训练师错误发现能力

为了解决 ChatGPT 代码输出中的错误问题,OpenAI 推出了 CriticGPT 模型。该模型基于 GPT-4 训练,能够审查代码并提供改进建议。

提升训练师效率

通过 CriticGPT,训练师可以利用 GPT-4 发现和纠正自身不足。实验表明,该模型能够将训练师发现错误的能力提高 60%。

工作原理

CriticGPT 通过评审 ChatGPT 提供的代码并提出改进建议来发挥作用。虽然其建议并不总是完美,但它极大地提升了训练师识别模型问题的效率。

评估 AI 输出的进步

OpenAI 承认,在缺乏更好的工具的情况下,评估高级 AI 的表现具有挑战性。CriticGPT 的引入表明 OpenAI 朝着评估高级 AI 系统输出的目标迈出了一步。

局限性

OpenAI 也指出了 CriticGPT 的局限性,包括理解长任务的不足、产生幻觉错误、识别分散错误的困难以及评估极端复杂任务的局限性。

行业反应

CriticGPT 的发布引起了热烈的讨论。一些评论家将该自我改进过程比作“用左脚踩右脚上天”。

举报

  • 相关推荐
  • OpenAI发布GPT-5-Codex:可完成7小时单次编程任务

    OpenAI宣布推出新一代AI编程模型GPT-5-Codex,其最大亮点是创新的动态时间分配系统。 不同于传统AI追求秒级响应”,该模型可根据任务复杂度灵活调整处理时长,从数秒到7小时不等,以更接近人类专家的决策方式优化代码质量。 GPT-5-Codex产品负责人亚历山大恩比里科斯解释称,传统模型在任务初期即固定计算资源,而GPT-5-Codex能实时评估需求:动态决定加速推进、暂停语法核�

  • 美团发布高效推理模型LongCat-Flash-Thinking:部分性能接近GPT5

    9月23日,美团LongCat团队发布全新高效推理模型LongCat-Flash-Thinking。该模型在保持极致速度的同时,性能更强大、更专业,在逻辑、数学、代码、智能体等多个领域的推理任务中达到全球开源模型最先进水平(SOTA),部分任务性能接近闭源模型GPT5-Thinking。它增强了智能体自主调用工具能力,扩展了形式化定理证明能力,成为国内首个结合深度思考、工具调用与非形式化、形式化推理的大语言模型。在数学、代码、智能体等高复杂度任务上表现尤为突出,多项基准测试成绩领先开源及闭源顶尖模型,已在HuggingFace、Github全面开源。

  • 性能超越GPT-4o及Qwen2.5-VL,百度超轻量小模型PP-OCRv5 Blog持续登顶Hugging Face热度第一

    百度发布超轻量级文字识别模型PP-OCRv5,仅0.07B参数却实现媲美700亿参数大模型的OCR精度。在多项测试中超越GPT-4o等通用视觉大模型,尤其在文本定位和边界框精度上表现优异。该模型支持5种文字类型识别,适用于教育、医疗、法律等多行业数字化需求,累计下载量超900万,是GitHub上唯一Star数超5万的中国OCR项目。

  • 百度文心大模型X1.1正式发布:超越DeepSeek R1、打平GPT-5

    今天,在WAVE SUMMIT深度学习开发者大会2025上,百度文心大模型X1.1正式发布,在事实性、指令遵循、智能体等能力上均提升显著。 百度王海峰介绍,文心大模型X1是基于文心大模型4.5训练而来的深度思考模型,升级后的X1.1主要采用了迭代式混合强化学习训练框架。 一方面通过混合强化学习,同时提升通用任务和智能体任务的效果;另一方面通过自蒸馏数据的迭代式生产及训练

  • AI日报:快手推出AI视频制作助手Kwali;字节跳动推出USO模型;OpenAI推出ChatGPT开发者模式

    本文介绍了AI日报栏目,聚焦AI领域最新动态。快手推出Kwali视频助手,简化视频制作流程;字节跳动发布USO模型,解决图像生成中风格与主题的矛盾;微软推出Copilot Audio音频模式,提供个性化语音交互;Stability AI升级Stable Audio 2.5,支持高质量音频生成;阿联酋推出开源大模型K2 Think,拥有320亿参数;微信上线智能回复功能,提升公众号运营效率;OpenAI推出ChatGPT开发者模式,支持AI控制外部工具;字节跳动Seed团队发布AgentGym-RL框架,提升语言模型决策能力;月之暗面开源Checkpoint Engine中间件,优化LLM推理效率;B站开源IndexTTS-2.0文本转语音系统,支持情感与时长控制;Replit推出Agent 3编程助手,自主性提升10倍。

  • OPPO Find X9系列外观公布:共有4款配色

    9月23日,OPPO正式揭晓Find X9系列外观设计,采用独特小矩阵相机DECO,推出绒砂钛、绒光钛、霜白、雾黑四款配色。该系列工艺精湛,绒砂钛版实现镜组与机身一体感,正面配备极窄四等边直屏与金属直角边框。核心配置搭载联发科天玑9500平台,采用第三代3纳米工艺,集成全新CPU、GPU G1-Ultra及Imagiq 1190影像处理器,性能、功耗、影像和AI能力显著提升,GeekBench单核跑分达4007,多核11217。此外,首发搭载全场景真1nit明眸护眼屏,从材料到算法均由OPPO深度定制,实现端到端显示素质把控,提升视觉舒适度。

  • 赫力昂联合Springer Nature旗下自然定制揭秘大脑抗衰

    全球老龄化加速,大脑健康成为焦点。9月16日是中国脑健康日,9月21日是世界阿尔茨海默病日。数据显示,2020至2023年全球60岁以上人口增长40%,达14亿;中国60岁以上人口超3亿,占比22%。阿尔茨海默病带来的经济负担约占GDP的1.47%。科学界正探索维持大脑年轻态的机制,企业合作举办高峰论坛,专家分享前沿研究成果,强调40-60岁是干预黄金窗口期。复合维生素矿物质等营养干预手段显示认知改善潜力,未来需跨学科协作推动大脑抗衰研究普及。

  • 目标安卓最强平板!荣耀MagicPad3 Pro全面对标iPad Pro、小米平板Ultra

    荣耀MagicPad3+Pro平板即将发布,将搭载第五代骁龙8至尊版芯片,配备13.3英寸超高刷大屏,首发MagicOS 10系统,支持PC级交互能力。对标iPad Pro和小米平板Ultra,目标成为安卓阵营最强平板。预计售价约5000元,因旗舰芯片成本较高。作为参考,荣耀MagicPad 3售价2999元起。

  • 六项第一!百度文库再获国家工信安全中心认证,持续领跑智能PPT行业

    国家工信安全中心发布《大模型赋能智慧办公评测报告》,对8款主流AI生成PPT产品进行综合评估。百度文库在生成质量、排版美化等六项指标中全部位列第一,持续领跑智能PPT行业。报告显示当前产品已基本满足日常需求,但专业度和时效性仍有提升空间。百度文库依托海量专业文档资源,在产业研究、教育培训等场景表现突出,月活用户超9700万,智能PPT功能月访问量全球第一。

  • 字节跳动发布 Seedream 4.0 图像创作模型,豆包App可免费体验

    字节跳动Seed团队推出豆包图像创作模型Seedream4.0,支持文生图、图像编辑及多图参考等功能,在专业评测中达到业界领先水平。该模型已上线豆包App、即梦AI等平台供用户免费体验,并通过火山引擎开放给企业客户。Seedream4.0具备多模态创意能力,可生成4K分辨率商用图像,适用于教育、电商、广告设计等场景。团队表示将持续探索实时交互生成体验,深度融合多模态推理与世界知识。

今日大家都在搜的词: