OpenAI承认GPT-4变懒，即将发布修复方案提升性能

2023-12-11 14:23 · 稿源：站长之家

**划重点:**
1. 🤯 用户反馈:GPT-4使用者抱怨OpenAI破坏了体验，称模型几乎“害怕”提供答案。
2. 🕵️‍♂️ 问题认知:OpenAI承认性能问题，归因于模型训练数据变化，试图提高准确性却导致意外的懒散行为。
3. ⏳ 修复时间表:OpenAI未明确发布修复计划的确切时间，但强调高度重视，并将密切关注竞争对手，如Google的Gemini1.0。

站长之家（ChinaZ.com）12月11日消息:近期，OpenAI的GPT-4引起了广泛关注，使用者纷纷抱怨模型变得“懒散”且不愿提供答案。OpenAI在社交平台X上承认了这一问题，表示模型自11月11日以来未进行更新，并强调这并非故意设计。

针对用户的批评，OpenAI承认了GPT-4的性能问题，并将其归因于对模型微调所用训练数据的变更。尽管这一变更旨在提高准确性和减少偏见，但却不慎导致了观察到的懒散现象。一些使用者表示，模型似乎变得几乎“害怕”提供答案，而其他人则表示现在需要更精确的提示，而这在以前是可选的。

AI chatGPT 人工智能

图源备注:图片由AI生成，图片授权服务商Midjourney

OpenAI为其立场辩护，声称模型自11月12日以来未发生变化，但问题在于“模型行为的差异可能很微妙”，只有特定的提示可能会“退化”。尽管进行了这些修改，但OpenAI警告称使用者和员工可能需要一些时间才能识别这些模式。

至于修复的时间表，OpenAI尚未提供确切的实施计划，但他们强调这是一个高优先级的任务，并正在努力解决问题。OpenAI没有为新的更新模型指定发布日期，但肯定会密切关注竞争对手，特别是Google推出Gemini1.0系列的情况。

GPT-4所面临的挑战突显了开发和部署大型语言模型的复杂性。OpenAI对解决问题的透明度和承诺为未来AI发展提供了宝贵的见解。

（举报）

相关推荐

关键词：

全球首个！OpenAI将推“AI版抖音”：禁止上传实拍内容视频100%由AI生成

国庆假期前夕，OpenAI发布了Sora 2，一款旗舰视频和音频生成模型。据介绍，Sora 2可以完成以前的视频生成模型难以完成的事情，比如运动员的奥林匹克体动作、桨板上的后空翻，准确模拟浮力和刚度的动态等等，并擅长现实主义、电影和动漫风格。一则来自《连线》杂志的重磅爆料更是指出，OpenAI的下一步棋，并非简单升级一个模型，而是要亲自下场，推出一个独立的AI影�

OpenAI Sora 2
OpenAI发布GPT-5-Codex：可完成7小时单次编程任务

OpenAI宣布推出新一代AI编程模型GPT-5-Codex，其最大亮点是创新的动态时间分配系统。不同于传统AI追求秒级响应”，该模型可根据任务复杂度灵活调整处理时长，从数秒到7小时不等，以更接近人类专家的决策方式优化代码质量。 GPT-5-Codex产品负责人亚历山大恩比里科斯解释称，传统模型在任务初期即固定计算资源，而GPT-5-Codex能实时评估需求：动态决定加速推进、暂停语法核�

GPT-5-Codex 动态时间分配 AI编程模型
美团发布高效推理模型LongCat-Flash-Thinking：部分性能接近GPT5

9月23日，美团LongCat团队发布全新高效推理模型LongCat-Flash-Thinking。该模型在保持极致速度的同时，性能更强大、更专业，在逻辑、数学、代码、智能体等多个领域的推理任务中达到全球开源模型最先进水平（SOTA），部分任务性能接近闭源模型GPT5-Thinking。它增强了智能体自主调用工具能力，扩展了形式化定理证明能力，成为国内首个结合深度思考、工具调用与非形式化、形式化推理的大语言模型。在数学、代码、智能体等高复杂度任务上表现尤为突出，多项基准测试成绩领先开源及闭源顶尖模型，已在HuggingFace、Github全面开源。

高效推理模型 LongCat-Flash-Thinking 开源模型
Qwen3-Max成阿里通义“地表最强”：性能超GPT5 数学推理直接满分

9月24日，2025云栖大会开幕，阿里通义千问旗舰模型Qwen3-Max重磅亮相，性能超越GPT-5、Claude+Opus 4等，跻身全球前三。该模型包含指令和推理两大版本，预训练数据量达36T tokens，总参数超万亿，具备极强编程和工具调用能力。在SWE-Bench测试中，指令版斩获69.6分全球第一；Tau2-Bench工具调用测试达74.8分，超越同类模型。推理增强版Qwen3-Max-Thinking在数学推理测试中获满分，国内首次突破。通义千问系列已实现全尺寸覆盖，包含三百多个模型。即日起，用户可在QwenChat免费体验Qwen3-Max，或通过阿里云百炼平台调用API服务。

云栖大会 Qwen3-Max 通义千问
荐AI日报：豆包大模型1.6-vision发布；DeepSeek发布V3.2-exp模型；Claude Sonnet4.5发布

本期AI日报聚焦多项技术突破：DeepSeek发布V3.2-exp模型，通过稀疏注意力机制降低API成本50%；Anthropic推出Claude Sonnet 4.5，在编码任务表现卓越；ChatGPT新增即时结账功能，实现对话界面直接购物；OpenAI将推出AI版TikTok，所有内容由Sora2模型生成；百度地图升级小度想想2.0，提供智能出行服务；蚂蚁集团开源万亿参数模型Ring-1T-preview；DeepMind提出“帧链”概念，推动视频模型实现全面�

AI DeepSeek 稀疏注意力
真我GT8 Pro正面首曝：2K 144Hz视觉四等边直屏

真我GT8+ Pro曝光，采用视觉四等边2K直屏，为业内首款2K+144Hz屏幕，搭载BOE Q10+发光材料，峰值亮度达7000nit。配备第五代骁龙8至尊版芯片，采用台积电3nm工艺，搭配电竞独显芯片R1优化性能。影像方面搭载2亿像素潜望长焦，支持3倍光学变焦和120倍数码变焦，摄像头模组采用独特机器人形状设计。此外配备对称式双扬声器、120W快充、7K大电池及X轴线性马达等。真我高管称其为同价位最佳屏幕之一，预计节后公布更多信息。

真我GT8 Pro 2K直屏
Matrixport 于 Token2049 新加坡期间举办 DAT 高峰论坛，聚焦下一轮市场周期话语权

在2025年TOKEN2049新加坡峰会期间，Matrixport举办闭门论坛探讨数字资产财库战略。与会专家一致认为，DAT正从风控工具升级为机构战略核心，预计将形成寡头主导格局。Matrixport通过一站式解决方案推动行业标准化，其管理的DATCO持仓规模突破千亿美元。论坛凸显DAT作为华尔街资本入局加密市场的重要通道，未来将在全球金融体系中扮演关键角色。

数字资产加密市场财库管理
京东推出AI购物APP京犀：帮你选出最心仪商品

9月25日，2025京东全球科技探索大会在京开幕。京东宣布未来三年将持续加大投入，推动人工智能技术与实体产业深度融合，目标构建覆盖全产业链的万亿级AI生态体系。作为战略落地的关键一步，京东正式推出新一代购物与生活服务超级入口“京犀”App，通过AI技术重构消费体验，引发行业高度关注。该应用将AI深度嵌入购物全流程，基于用户行为与商品特征精准理解需求，智能推荐商品并优化结算路径，实现“无感式”顺畅下单。平台整合餐饮、票务、住宿等高频生活服务场景，用户通过语音指令即可完成全流程操作。此次将AI能力全面开放至消费端，标志着京东从“供应链技术提供商”向“生活服务生态构建者”的角色升级。

京东科技 AI生态京犀App
性能超越GPT-4o及Qwen2.5-VL，百度超轻量小模型PP-OCRv5 Blog持续登顶Hugging Face热度第一

百度发布超轻量级文字识别模型PP-OCRv5，仅0.07B参数却实现媲美700亿参数大模型的OCR精度。在多项测试中超越GPT-4o等通用视觉大模型，尤其在文本定位和边界框精度上表现优异。该模型支持5种文字类型识别，适用于教育、医疗、法律等多行业数字化需求，累计下载量超900万，是GitHub上唯一Star数超5万的中国OCR项目。

PP-OCRv5 轻量级OCR 文字识别模型
一图读懂真我GT8 Pro 2K 144Hz苍穹屏：为玩家打造神级好屏

真我GT8+ Pro屏幕参数全面曝光，搭载2K 144Hz“苍穹屏”，行业首发4000nit阳光显示，峰值亮度达7000nit。采用京东方Q10+发光材料，支持360Hz四指触控采样率与3200Hz瞬时触控，响应更快。首发1nit极暗护眼技术，支持全应用适配，并引入真彩护眼低蓝光方案，色彩准确度提升64.8%。全亮度DC调光默认开启，SVM频闪指标低至0.07。真我中国区总裁徐起表示，随着电池容量升级至7K mAh级别，2K屏功耗问题得到平衡，这将是同价位最佳屏幕之一。新机预计十月发布。

真我GT8 Pro 2K

今日大家都在搜的词：

热文

3 天
7天

OpenAI承认GPT-4变懒，即将发布修复方案提升性能

全球首个！OpenAI将推“AI版抖音”：禁止上传实拍内容视频100%由AI生成

OpenAI发布GPT-5-Codex：可完成7小时单次编程任务

美团发布高效推理模型LongCat-Flash-Thinking：部分性能接近GPT5

Qwen3-Max成阿里通义“地表最强”：性能超GPT5 数学推理直接满分

荐AI日报：豆包大模型1.6-vision发布；DeepSeek发布V3.2-exp模型；Claude Sonnet4.5发布

真我GT8 Pro正面首曝：2K 144Hz视觉四等边直屏

Matrixport 于 Token2049 新加坡期间举办 DAT 高峰论坛，聚焦下一轮市场周期话语权

京东推出AI购物APP京犀：帮你选出最心仪商品

性能超越GPT-4o及Qwen2.5-VL，百度超轻量小模型PP-OCRv5 Blog持续登顶Hugging Face热度第一

一图读懂真我GT8 Pro 2K 144Hz苍穹屏：为玩家打造神级好屏

今日大家都在搜的词：

热文

比特币价格突破12.5万美元刷新历史最高纪录

腾讯混元图像3.0登顶LMArena榜一

乔布斯逝世14周年库克发文缅怀：我们深切怀念你

小米 17 标准版1TB版本 5299 元开售全系列销量同比增超20%

雷军：小米17系列开售仅5天销量破100万台

理想汽车推出焕新版L系限时优惠 10 月 8 日前享1.5万置换补贴

小米回应“小米汽车突然自己开走”：排除车辆质量问题

马斯克个人财富达5000亿美元特斯拉市值飙升助力

鸿蒙智行9月交付新车52916台：全系累计交付突破95万台

比特币价格突破12.5万美元刷新历史最高纪录

小米17 1TB版明日开售售价5299元

乔布斯逝世14周年库克发文缅怀：我们深切怀念你

腾讯混元图像3.0登顶LMArena榜一

小米 17 标准版1TB版本 5299 元开售全系列销量同比增超20%

雷军：小米17系列开售仅5天销量破100万台

站长商机