GPT-4懒癌爆发!代码比较任务中完成率降低近1/4

2024-02-05 14:22 · 稿源：站长之家

划重点:
1. 😟 网友实测发现，GPT-4在代码比较任务中表现下滑，完成率降低了近四分之一。
2. 🔄 有网友指出，新版本的ChatGPT回复虽然长度增加，但很多内容都是车轱辘话，干正事仍然摆烂。
3. 💡 尽管奥特曼表示GPT-4在新的一年应该改进，但网友对其变懒的原因及采用的优化策略仍感困惑。

站长之家（ChinaZ.com）2月5日消息:近期，GPT-4的“懒惰”现象再度成为热议话题。网友们通过实际测试发现，GPT-4在代码比较任务中的表现下降显著，完成率降低了近四分之一。一些用户反馈称，完成度不仅不高，而且生成的文本还会被分割成小块，使用时需要逐一复制，给用户带来不便。

尽管有博主表示在尝试给一年级孩子做学习用的小游戏时效果不错，但仍有人质疑ChatGPT的实际应用价值。有网友指出，尽管回复长度增加，但很多内容都是车轱辘话，干正事依旧摆烂。有用户甚至让ChatGPT进行文本翻译测试，结果却叽里呱啦说了一堆却不翻译。

针对这一发现，有人使用GitHub上开源的“lazy benchmark”对比了GPT-4的新旧版本，结果显示新版的完成率较旧版降低了近四分之一。具体而言，在代码比较任务中，旧版能完成的比例为57%，而新版仅为44%。

对于GPT-4变懒的原因，奥特曼并未做进一步说明，仅表示新的一年应该有所改进。之前的研究表明，GPT-4的惰性可能与时间相关，但这并不能完全解释表现不升反降的现象。

不过，网友们总结了一些“土办法”以降低ChatGPT的惰性。例如，告诉它“我没有手指”就能得到相对完整的代码，而不是一段段碎片。另外，告诉ChatGPT自己会“给小费”也能激发其工作动力，其中10美元的小费金额被发现是最能提高性价比的。

GPT-4的“懒惰”问题引起了广泛关注。虽然奥特曼表态在新的一年应该有所改进，但网友们仍对其实际表现及优化策略感到困扰。这一现象或许会在新年伊始有所缓解，但具体的改进措施仍有待进一步揭示。

（举报）

相关推荐

关键词：

2025年大模型选型核心指南：Beyond GPT-4，如何理性评估Qwen、DeepSeek等强者？

大模型选择能力已成为AI时代企业核心竞争力。文章提出“能力-成本-场景”三维评估框架，强调需超越单一指标崇拜，基于客观数据和实际需求进行理性选择。通过Qwen2-Plus与DeepSeek-V3的对比分析，展示不同模型在特定场景下的差异化优势。建议企业建立科学选型流程，采用专业工具进行多维度评估，通过三阶段验证策略确保决策既数据驱动又经实践检验。最终目标是选择最适合业务场景的模型，而非盲目追求流行模型。
荐AI日报：海螺AI首尾帧功能上线；元石科技发布问小白5；OpenAI发布全新语音模型GPT-Realtime

AI日报栏目每日提供人工智能领域热点内容，聚焦开发者，帮助洞悉技术趋势、了解创新AI产品应用。最新动态包括：MiniMax海螺AI首尾帧功能上线；元石科技发布问小白5挑战GPT-5；OpenAI推出语音模型GPT-Realtime；谷歌Gemini AI优化表格处理；腾讯黑科技实现AI配音；百度计划培养千万AI人才；MathGPT.ai反作弊功能推广；苹果Xcode集成Claude Sonnet4；微软发布自研AI模型MAI系列；xAI推出高效编码模型Grok Code Fast1；SuperCLUE多模态评测Gemini-2.5-Pro居首；9月1日起AI内容标识新规实施，违规将承担法律风险。

AI 人工智能技术趋势
OpenAI发布语音模型GPT-realtim：具备情感感知能力多语言无缝切换

OpenAI正式发布语音模型GPT-realtime。据介绍，GPT-realtime是一款专注于语音AI Agent的多模态模型，能够生成高度自然流畅的语音，精准还原人类语调、情感和语速的丰富变化。该模型支持图像理解，并可结合语音或文本对话使用，非常适合应用于客服、教育、金融、医疗等领域，用于构建高质量的语音智能体。官方表示，新模型在复杂指令遵循、工具精确调用以及生成更自然、�

语音模型 GPT-realtime 多模态模型
从1920TPS到2400TPS，华为云Tokens服务全面接入384超节点

华为云在2025年8月27日宣布其Tokens服务全面接入CloudMatrix384超节点，通过xDeepServe架构创新，实现单芯片最高2400TPS吞吐量和50ms低延迟，性能超越业界水平。该服务基于MaaS模式，提供多种规格选择，支持大模型和AI工具，助力企业快速开发AI应用。同时，华为云与超100家伙伴合作，深入行业场景，共建智能生态，加速各行业AI落地。

华为云 Tokens服务 CloudMatrix384
当GPT-5遇上Gemini 2.5，谁更适合你的业务？这份对比报告说了算

某跨境电商CTO复盘会上展示：GPT-5 Standard处理百万级商品描述时，费用比Gemini 2.5 Flash-Lite高35%，响应速度慢0.8秒。大模型选型面临参数迷雾、场景错配、隐藏成本三重困境。AIbase选型对比平台通过真实数据测试，提供透明价格拆解和性能雷达图，帮助规避预算陷阱。实测显示GPT-5在合同逻辑分析准确率高3.2%，而Gemini表格解析速度快40%、月总成本低26%。工具可动态追踪官方调价，生成定制化决策报告，用数据替代经验主义，提升技术选型效率。

大模型选型参数迷雾场景错配
中国品牌TOP1！海尔壁挂炉逆势增长43%

2025年上半年中国壁挂炉行业整体销量下滑3.6%，市场趋冷。然而海尔壁挂炉逆势增长43.29%，凭借“双冷凝”节能科技获评“国际领先”技术，解决传统产品高能耗、水温不稳、预热时间长等痛点。其AI智能算法精准控温，配合水联网平台提供全流程解决方案，实现从产品制造到场景服务的跨越，为行业指明节能化、智能化、用户需求导向的发展方向。

壁挂炉销量海尔增长双冷凝技术
荐AI日报：苹果明年推出SiriAI搜索；OpenAI放开ChatGPT Projects功能；Kimi K2-0905 上线 Discord

本文汇总了AI领域最新动态：苹果与谷歌合作，计划在Siri中引入Gemini AI技术；OpenAI向免费用户开放Projects功能，提升任务管理效率；谷歌推出免费Gemini CLI工具，集成GitHub提升开发效率；OpenAI估值飙升至5000亿美元，二级股票售出103亿美元；苹果自研AI搜索引擎“世界知识问答”计划2026年上线；月之暗面发布Kimi K2-0905模型，提升编程与创意写作能力；Raycast推出Cursor Agent插件优化代码编辑；谷歌发布nano banana官方Prompt模板，助力创意设计。

AI Siri Gemini
荐AI日报：抖音打击AI技术滥用行为；OpenAI 收购开发数据分析平台 Statsig；ElevenLabs 音效模型更新

抖音打击AI技术滥用行为，对违规商家和达人采取下架、清退等措施。ElevenLabs音效模型升级至版本2，支持长音频和无缝循环。OpenAI收购数据分析平台Statsig，增强产品迭代能力。亚马逊推出Lens Live AI功能，实时扫描购物。谷歌AI推出Stax工具，帮助开发者评估大语言模型。WordPress推出AI工具Telex简化网站构建。Liquid AI发布LFM2-VL模型，提升手机视觉语言处理。苹果开源FastVLM与MobileCLIP2模型，优化边缘设备AI应用。MetaGPT推出自动化测试工具RealDevWorld，精准率达92%。瑞士发布开源大模型Apertus，提供多语言处理能力。

AI技术滥用抖音公告虚假商品展示
中国冰箱业TOP5型号4款是海尔

2025年7月冰箱行业零售额、零售量增速放缓，环比下降34.5%和29.1%。行业承压加剧，多数品牌负增长，仅海尔冰箱逆势增长9.1%。海尔凭借爆款产品带动增长，TOP5型号中占4款，均为主打高端十字门冰箱。其磁控全空间保鲜技术获国家科技奖，显著延长食材保鲜期。通过全流程数字化升级，海尔实现运营效率提升，以科技驱动和用户体验赢得市场，为行业提供增长启示。

冰箱行业零售额零售量
微软发布AI截图工具，截图一键转PPT

微软电脑管家推出全新“智能圈选”功能，通过AI技术实现截图内容的智能识别与重构。用户只需圈选截图区域，即可一键完成文字提取、多语言翻译及PPT转换等操作，大幅提升办公和学习效率。该功能支持100多种语言，保留原始格式，并能智能修复遮挡内容，彻底改变了传统截图处理方式。

微软电脑管家智能圈选截图处理

今日大家都在搜的词：

热文

3 天
7天

GPT-4懒癌爆发!代码比较任务中完成率降低近1/4

2025年大模型选型核心指南：Beyond GPT-4，如何理性评估Qwen、DeepSeek等强者？

荐AI日报：海螺AI首尾帧功能上线；元石科技发布问小白5；OpenAI发布全新语音模型GPT-Realtime

OpenAI发布语音模型GPT-realtim：具备情感感知能力多语言无缝切换

从1920TPS到2400TPS，华为云Tokens服务全面接入384超节点

当GPT-5遇上Gemini 2.5，谁更适合你的业务？这份对比报告说了算

中国品牌TOP1！海尔壁挂炉逆势增长43%

荐AI日报：苹果明年推出SiriAI搜索；OpenAI放开ChatGPT Projects功能；Kimi K2-0905 上线 Discord

荐AI日报：抖音打击AI技术滥用行为；OpenAI 收购开发数据分析平台 Statsig；ElevenLabs 音效模型更新

中国冰箱业TOP5型号4款是海尔

微软发布AI截图工具，截图一键转PPT

今日大家都在搜的词：

热文

雷军凌晨3点就奔赴阅兵观礼台佩戴小米AI眼镜前往

小米澎湃OS 3首批Beta版更新“3.0.0.24”发布

华为发布首款MateTV：超薄设计搭载旗舰性能 8999元起预售

三大运营商回应是否支持eSIM版iPhone：需等待通知

OPPO A6 Pro定档 9 月 9 日发布：开启手机六年耐用新时代

AI日报：抖音打击AI技术滥用行为；OpenAI 收购开发数据分析平台

AI日报：苹果明年推出SiriAI搜索；OpenAI放开ChatGPT Projects

尊界S800选配星空顶涨价3万：价格上调至 8 万元

苹果折叠屏iPhone或将采用真全面屏形态：告别刘海与挖孔

华为FreeBuds 7i无线耳机开售：首发价499元

雷军凌晨3点就奔赴阅兵观礼台佩戴小米AI眼镜前往

AI日报：腾讯开源3D世界模型HunyuanWorld-Voyager；即梦AI系列

小米澎湃OS 3首批Beta版更新“3.0.0.24”发布

华为发布首款MateTV：超薄设计搭载旗舰性能 8999元起预售

华为MatePad Mini外观公布支持蜂窝网络通话功能

AI日报：AI内容新规正式生效；美团推出开源大模型LongCat；阶跃

人去世了朋友圈会消失？微信客服回应：建议保持账号活跃

腾讯回应被米哈游起诉：没正式程序不能违规提供QQ用户资料

三大运营商回应是否支持eSIM版iPhone：需等待通知

苹果新增三款过时产品 iPhone 8 Plus被列为复古产品

站长商机

​GPT-4懒癌爆发!代码比较任务中完成率降低近1/4

今日大家都在搜的词：

热文

站长商机

GPT-4懒癌爆发!代码比较任务中完成率降低近1/4