首页 > 业界 > 关键词  > OpenAI最新资讯  > 正文

OpenAI开启调查:GPT-4o及4o-mini模型性能下降

2025-01-20 16:11 · 稿源: 快科技

据报道,OpenAI发布事故报告,指出其GPT-4o和4o-mini模型当前遇到性能下降问题,正在进行调查,将尽快公布最新进展。

科研人员最近推出名为LONGPROC的基准测试工具,用于评估模型处理长上下文复杂信息并生成相应响应的能力。

测试结果令人惊讶:尽管GPT-4o等知名模型在常规长上下文回忆基准测试中表现出色,但它们在处理复杂的长文本生成任务方面仍有明显的改进空间。

OpenAI ChatGPT,人工智能,AI

具体来说,所有参测模型声称其上下文窗口大小超过 32K tokens,但实际情况却不同。开源模型在处理仅 2K tokens的任务时就表现不佳,而闭源模型(例如 GPT-4o)在处理 8K tokens任务时性能也明显下降。

以 GPT-4o为例,当要求它生成详细的行程计划时,即使提供了明确的时间节点和直飞航班信息,模型的输出结果中仍出现了不存在的航班信息,即出现了“幻觉”现象。

测试还表明,即使是最先进的模型在生成连贯且冗长的内容方面仍有很大的提升空间。尤其是在需要输出 8k tokens的任务中,即使是参数庞大的先进模型也无法避免出现问题,这可能预示着大型语言模型(LLM)研究未来的一个有潜力的方向。

举报

  • 相关推荐
  • OpenAI发布语音模型GPT-realtim:具备情感感知能力 多语言无缝切换

    OpenAI正式发布语音模型GPT-realtime。 据介绍,GPT-realtime是一款专注于语音AI Agent的多模态模型,能够生成高度自然流畅的语音,精准还原人类语调、情感和语速的丰富变化。该模型支持图像理解,并可结合语音或文本对话使用,非常适合应用于客服、教育、金融、医疗等领域,用于构建高质量的语音智能体。 官方表示,新模型在复杂指令遵循、工具精确调用以及生成更自然、�

  • AI日报:快手推出AI视频制作助手Kwali;字节跳动推出USO模型;OpenAI推出ChatGPT开发者模式

    本文介绍了AI日报栏目,聚焦AI领域最新动态。快手推出Kwali视频助手,简化视频制作流程;字节跳动发布USO模型,解决图像生成中风格与主题的矛盾;微软推出Copilot Audio音频模式,提供个性化语音交互;Stability AI升级Stable Audio 2.5,支持高质量音频生成;阿联酋推出开源大模型K2 Think,拥有320亿参数;微信上线智能回复功能,提升公众号运营效率;OpenAI推出ChatGPT开发者模式,支持AI控制外部工具;字节跳动Seed团队发布AgentGym-RL框架,提升语言模型决策能力;月之暗面开源Checkpoint Engine中间件,优化LLM推理效率;B站开源IndexTTS-2.0文本转语音系统,支持情感与时长控制;Replit推出Agent 3编程助手,自主性提升10倍。

  • 百度文心大模型X1.1正式发布:超越DeepSeek R1、打平GPT-5

    今天,在WAVE SUMMIT深度学习开发者大会2025上,百度文心大模型X1.1正式发布,在事实性、指令遵循、智能体等能力上均提升显著。 百度王海峰介绍,文心大模型X1是基于文心大模型4.5训练而来的深度思考模型,升级后的X1.1主要采用了迭代式混合强化学习训练框架。 一方面通过混合强化学习,同时提升通用任务和智能体任务的效果;另一方面通过自蒸馏数据的迭代式生产及训练

  • AI日报:海螺AI首尾帧功能上线;元石科技发布问小白5;OpenAI发布全新语音模型GPT-Realtime

    AI日报栏目每日提供人工智能领域热点内容,聚焦开发者,帮助洞悉技术趋势、了解创新AI产品应用。最新动态包括:MiniMax海螺AI首尾帧功能上线;元石科技发布问小白5挑战GPT-5;OpenAI推出语音模型GPT-Realtime;谷歌Gemini AI优化表格处理;腾讯黑科技实现AI配音;百度计划培养千万AI人才;MathGPT.ai反作弊功能推广;苹果Xcode集成Claude Sonnet4;微软发布自研AI模型MAI系列;xAI推出高效编码模型Grok Code Fast1;SuperCLUE多模态评测Gemini-2.5-Pro居首;9月1日起AI内容标识新规实施,违规将承担法律风险。

  • iPhone 17 Pro搭载满血版A19 Pro处理器 性能比iPhone 16 Pro提升40%

    今天凌晨,苹果召开秋季发布会,正式发布了iPhone 17系列。 全新发布的iPhone 17 Pro,凭借满血版A19 Pro处理器等亮点,再次成为行业焦点。 A19 Pro采用6核CPU、6核GPU架构,神经网络加速器的峰值算力是A18 Pro的4倍。 与iPhone 16 Pro所搭载的A18 Pro处理器相比,A19 Pro拥有更大的缓存和内存。更大的缓存意味着数据读取速度更快,能够让应用程序的启动和运行更加流畅;而更大的内存,�

  • AI日报:AI内容新规正式生效;美团推出开源大模型LongCat;阶跃发布语音大模型Step-Audio 2 mini

    AI日报栏目每日更新AI领域热点内容,聚焦开发者需求。本期重点包括:阶跃星辰发布端到端语音大模型Step-Audio2 mini,在多项基准测试中表现优异;9月1日起AI生成内容需强制标识;美团推出开源大模型LongCat;上海AI实验室发布多模态大模型InternVL3.5;腾讯ARC团队推出音频生成模型AudioStory;OpenAI发布实时语音模型GPT-realtime;Meta与UCSD合作推出DeepConf技术;xAI代码库遭窃事件;阿里巴巴Qwen团队发布GUI自动化框架;微软推出Copilot Labs实验中心;小红书自动化工具xiaohongshu-mcp上线。

  • AI日报:苹果明年推出SiriAI搜索;OpenAI放开ChatGPT Projects功能;Kimi K2-0905 上线 Discord

    本文汇总了AI领域最新动态:苹果与谷歌合作,计划在Siri中引入Gemini AI技术;OpenAI向免费用户开放Projects功能,提升任务管理效率;谷歌推出免费Gemini CLI工具,集成GitHub提升开发效率;OpenAI估值飙升至5000亿美元,二级股票售出103亿美元;苹果自研AI搜索引擎“世界知识问答”计划2026年上线;月之暗面发布Kimi K2-0905模型,提升编程与创意写作能力;Raycast推出Cursor Agent插件优化代码编辑;谷歌发布nano banana官方Prompt模板,助力创意设计。

  • 字节跳动发布 Seedream 4.0 图像创作模型,豆包App可免费体验

    字节跳动Seed团队推出豆包图像创作模型Seedream4.0,支持文生图、图像编辑及多图参考等功能,在专业评测中达到业界领先水平。该模型已上线豆包App、即梦AI等平台供用户免费体验,并通过火山引擎开放给企业客户。Seedream4.0具备多模态创意能力,可生成4K分辨率商用图像,适用于教育、电商、广告设计等场景。团队表示将持续探索实时交互生成体验,深度融合多模态推理与世界知识。

  • 2025年大模型选型核心指南:Beyond GPT-4,如何理性评估Qwen、DeepSeek等强者?

    大模型选择能力已成为AI时代企业核心竞争力。文章提出“能力-成本-场景”三维评估框架,强调需超越单一指标崇拜,基于客观数据和实际需求进行理性选择。通过Qwen2-Plus与DeepSeek-V3的对比分析,展示不同模型在特定场景下的差异化优势。建议企业建立科学选型流程,采用专业工具进行多维度评估,通过三阶段验证策略确保决策既数据驱动又经实践检验。最终目标是选择最适合业务场景的模型,而非盲目追求流行模型。

  • 苹果发布AirPods Pro 3 售价249美元:支持实时翻译、心率监测

    今日,苹果公司正式发布全新无线耳机AirPods Pro3,凭借其卓越的主动降噪能力、创新的实时翻译功能以及贴心的健康监测特性,一经亮相便吸引了众多消费者的目光。 在主动降噪方面,AirPods Pro3堪称行业翘楚。苹果宣称,其主动降噪能力是前代产品的两倍,更是初代效果的四倍,为用户营造出极致静谧的聆听环境,无论是身处嘈杂的街头,还是喧闹的公共交通场所,都能让用

今日大家都在搜的词: