OpenAI开启调查：GPT-4o及4o-mini模型性能下降

2025-01-20 16:11 · 稿源：快科技

据报道，OpenAI发布事故报告，指出其GPT-4o和4o-mini模型当前遇到性能下降问题，正在进行调查，将尽快公布最新进展。

科研人员最近推出名为LONGPROC的基准测试工具，用于评估模型处理长上下文复杂信息并生成相应响应的能力。

测试结果令人惊讶：尽管GPT-4o等知名模型在常规长上下文回忆基准测试中表现出色，但它们在处理复杂的长文本生成任务方面仍有明显的改进空间。

OpenAI ChatGPT，人工智能，AI

具体来说，所有参测模型声称其上下文窗口大小超过 32K tokens，但实际情况却不同。开源模型在处理仅 2K tokens的任务时就表现不佳，而闭源模型（例如 GPT-4o）在处理 8K tokens任务时性能也明显下降。

以 GPT-4o为例，当要求它生成详细的行程计划时，即使提供了明确的时间节点和直飞航班信息，模型的输出结果中仍出现了不存在的航班信息，即出现了“幻觉”现象。

测试还表明，即使是最先进的模型在生成连贯且冗长的内容方面仍有很大的提升空间。尤其是在需要输出 8k tokens的任务中，即使是参数庞大的先进模型也无法避免出现问题，这可能预示着大型语言模型（LLM）研究未来的一个有潜力的方向。

（举报）

相关推荐

关键词：

性能超OpenAI、Gemini！月之暗面发布首个自主强化学习Agent

月之暗面（Moonshot AI）正式推出其首款Agent产品Kimi-Researcher（深度研究），并已启动小范围灰度测试。该产品基于端到端自主强化学习（end-to-end agentic RL）技术打造，在HLE测试中表现优异，性能超越Claude 4 Opus、Gemini 2.5 Pro及OpenAI Deep Research，并与Gemini-Pro的Deep Research Agent持平。 Kimi-Researcher 是一款高度自主的智能研究助手，能够独立规划任务流程并交付完整结果。与其他Agent不�

月之暗面 Kimi-Researcher 智能研究助手
荐AI日报：豆包大模型1.6发布；OpenAI推o3-pro模型、o3价格暴降80%；Figma官方MCP重磅上线

【AI日报】今日AI领域重要动态：1)火山引擎发布豆包大模型1.6和视频生成模型Seedance1.0pro，性能显著提升；2)OpenAI推出o3-pro模型，专注可靠性但响应较慢；3)Figma推出Dev Mode MCP服务，实现设计到代码一键转换；4)Krea AI发布图像生成模型Krea1，解决传统AI绘图问题；5)火山引擎豆包日调用量突破16.4万亿次；6)法国Mistral发布推理模型Magistral；7)苹果系统整合ChatGPT图像生成功能；8)OpenAI大幅下调o3价格80%并推出o3-pro；9)Hugging Face开源榜单显示中国团队Qwen与DeepSeek进入全球前15；10)阿里开源MaskSearch框架，提升AI解决复杂问题能力。

人工智能 AI产品视频生成
OpenAI奥特曼：GPT5预计今年夏季发布

OpenAI创始人奥特曼在最新播客中透露，GPT-5预计今夏发布，具体日期未定。 GPT-5将是生成式AI能力的重大升级，《商业内幕》称其远超GPT-4，早期测试者认可进步显著。 GPT-4于2023年3月发布，较上一代GPT-3.5有了显著提升。上月初，奥特曼发文向GPT-4告别。目前GPT-4o已经完全替代了GPT-4，前者于2024年5月14日发布，其中o”代表omni”，意为全能”。

GPT-5发布生成式AI升级奥特曼播客
OpenAI 提升o3多模态模型推理实力，微美全息（WIMI.US）加速引领产业新变革征程

OpenAI推出突破性的o3推理模型，首次实现图像直接融入推理过程，在多模态基准测试V* Bench上准确率达95.7%。DeepSeek完成R1模型升级，上下文窗口从12K扩展至23K，幻觉率降低45%-50%。行业呈现开源趋势，DeepSeek开源策略促使多家企业跟进，OpenAI也考虑开源。微美全息加速布局多模态大模型，计划提供实时多模态AI体验。专家指出AI发展重心正从大模型向智能体演进，开源技术显著降低训练门槛，提升泛化能力，为多模态智能探索开辟新路径。企业需紧跟趋势把握机遇，在大模型驱动的新时代找准定位。

OpenAI o3模型多模态推理
OpenAI披露GPT系列新进展，微美全息（WIMI.US）正加速AI技术融合与产业变革

OpenAI创始人Sam Altman宣布将推出开源大模型，性能远超业界预期，其强大的本地运行能力将极大推动AI技术普及。同时透露GPT-5将于今夏面世，支持语音、图像、代码等多模态输入。AI模型成本持续下降，微美全息等企业加速布局"AI+大模型"创新应用。中金指出，未来AI发展将呈现两大趋势：垂直领域定制化Agent需求增长，以及高质量场景数据价值凸显。2025年被视为AI应用大规模落地元年，但技术发展需兼顾创新与安全。

OpenAI GPT大模型 AI技术
荐AI日报：Midjourney重磅推出视频生成模型V1；OpenAI将在今年夏季发布GPT-5；谷歌推Search Live语音搜索功能

本期AI日报聚焦多项AI领域重要进展：1) Midjourney推出首款视频生成模型V1，支持21秒视频生成；2) OpenAI CEO确认GPT-5将于今夏发布；3) Google上线语音对话搜索功能Search Live；4) OpenAI开源客户服务代理框架；5) MiniMax发布智能代理Agent；6) 恶意工具WormGPT出现新变种；7) OpenAI推出企业版ChatGPT折扣；8) DeepSite V2支持3D网页动画生成；9) AI工具可秒变PPT；10) 比亚迪与字节跳动合作开发动力电池技术；11) 马斯克否认xAI巨额亏损传闻。

AI日报 Midjourney 视频生成模型
自研大模型遥遥无期！苹果Siri考虑用外援：转向OpenAI合作

据媒体报道，知名爆料人马克古尔曼透露，苹果正重新评估其人工智能发展策略，考虑放弃自研大语言模型（LLM）计划，转而与OpenAI展开合作谈判。若合作达成，苹果原定于2026年推出的基于自研Apple Foundation Models”的Siri升级计划可能被搁置，这一变动或引发行业广泛关注。目前，由苹果AI负责人约翰詹南德雷亚（John Giannandrea）主导的LLM Siri”项目仍在进行中，但进展不及预�

苹果人工智能 Siri
卢伟冰：REDMI K Pad对标iPad mini

REDMI正式官宣其首款旗舰小平板——REDMI K Pad，该产品将于近期发布。与此同时，小米集团合伙人、总裁，国际部总裁，Redmi品牌总经理卢伟冰发文透露，今年堪称小米平板业务的爆发之年，小米平板销量首次跻身全球前三，产品阵容完成换新，全面对标苹果iPad系列产品。卢伟冰强调，5月发布的小米平板7Ultra直接对标苹果最高端的iPad Pro，而接下来即将发布的新品中，有两款�

REDMI K Pad
OpenAI 说要“誓死”捍卫数亿 ChatGPT 用户的隐私

OpenAI 强烈反对法院命令保存所有 ChatGPT 日志，包括已删除的聊天记录……

OpenAI 用户隐私纽约时报
荐AI日报：MiniMax推视频生成模型Hailuo 02；Cursor Pro取消500次请求限制；谷歌发布AI模型 Gemini 2.5 Flash-Lite

本文汇总了AI领域最新动态：1)Cursor Pro取消500次请求限制；2)稀宇科技推出视频生成模型Hailuo02；3)谷歌发布轻量级AI模型Gemini2.5Flash-Lite；4)科大讯飞星火X1升级版7月上线；5)腾讯元宝推出AI编程模式；6)OpenAI将下架GPT-4.5 API；7)苹果Speech API转录速度超Whisper 55%；8)百度推出数字人互动直播间；9)Meta曾试图高薪挖角OpenAI人才；10)Krea1公测开放，解决"AI感"问题；11)特斯拉Grok车载AI助手即将上线；12)谷歌Gemini新增视频分析功能。

人工智能开发者技术趋势

热文

3 天
7天

OpenAI开启调查：GPT-4o及4o-mini模型性能下降

性能超OpenAI、Gemini！月之暗面发布首个自主强化学习Agent

荐AI日报：豆包大模型1.6发布；OpenAI推o3-pro模型、o3价格暴降80%；Figma官方MCP重磅上线

OpenAI奥特曼：GPT5预计今年夏季发布

OpenAI 提升o3多模态模型推理实力，微美全息（WIMI.US）加速引领产业新变革征程

OpenAI披露GPT系列新进展，微美全息（WIMI.US）正加速AI技术融合与产业变革

荐AI日报：Midjourney重磅推出视频生成模型V1；OpenAI将在今年夏季发布GPT-5；谷歌推Search Live语音搜索功能

自研大模型遥遥无期！苹果Siri考虑用外援：转向OpenAI合作

卢伟冰：REDMI K Pad对标iPad mini

OpenAI 说要“誓死”捍卫数亿 ChatGPT 用户的隐私

荐AI日报：MiniMax推视频生成模型Hailuo 02；Cursor Pro取消500次请求限制；谷歌发布AI模型 Gemini 2.5 Flash-Lite

热文

小米汽车回应YU7是否难破窗：无需担心随车赠送破窗锤

特斯拉中国宣布Model 3/Y长续航版续航提升

小鹏G7官宣7月3日发布全球首款L3级算力车型

董明珠说自己尽量少说话让年轻管理团队走向台前

安克修改召回方案充电宝泡盐水处理后可获赔

小米YU7将开启限时改配非准现车锁单用户可参与

站长商机