首页 > 业界 > 关键词  > OpenAI最新资讯  > 正文

OpenAI开启调查:GPT-4o及4o-mini模型性能下降

2025-01-20 16:11 · 稿源: 快科技

据报道,OpenAI发布事故报告,指出其GPT-4o和4o-mini模型当前遇到性能下降问题,正在进行调查,将尽快公布最新进展。

科研人员最近推出名为LONGPROC的基准测试工具,用于评估模型处理长上下文复杂信息并生成相应响应的能力。

测试结果令人惊讶:尽管GPT-4o等知名模型在常规长上下文回忆基准测试中表现出色,但它们在处理复杂的长文本生成任务方面仍有明显的改进空间。

OpenAI ChatGPT,人工智能,AI

具体来说,所有参测模型声称其上下文窗口大小超过 32K tokens,但实际情况却不同。开源模型在处理仅 2K tokens的任务时就表现不佳,而闭源模型(例如 GPT-4o)在处理 8K tokens任务时性能也明显下降。

以 GPT-4o为例,当要求它生成详细的行程计划时,即使提供了明确的时间节点和直飞航班信息,模型的输出结果中仍出现了不存在的航班信息,即出现了“幻觉”现象。

测试还表明,即使是最先进的模型在生成连贯且冗长的内容方面仍有很大的提升空间。尤其是在需要输出 8k tokens的任务中,即使是参数庞大的先进模型也无法避免出现问题,这可能预示着大型语言模型(LLM)研究未来的一个有潜力的方向。

举报

  • 相关推荐
  • OpenAI升级o3-mini模型思维链:提升AI推理过程透明度

    OpenAI公司今天在X平台发布推文,宣布面向免费和付费用户更新o3-mini的思维链。OpenAI为付费用户更新o3-mini-high的思维链,更透明、更详细地展示模型的推理”步骤以及得出答案的方式。尤为值得一提的是,o3模型在ARC-AGI测试中取得了历史性突破,首次跨越人类水平门槛,以87.5%的优异成绩,标志着OpenAI在通往实现人工通用智能的征途中又迈出了坚实的一步。

  • 刚刚,OpenAI发布o3-mini,可免费使用、3大推理模式

    今天凌晨3点,OpenAI正式发布了新模型o3-mini,可在ChatGPT和API中可用。Pro用户可无限使用o3-mini,Plus和Team用户的速率限制将是o1-mini的3倍。o3-mini高推理模式,Plus用户每周只有50条消息?到目前为止我印象不错,本来可以更好,但实际上o3-mini已经很好了。

  • 新版GPT-4o登顶大模型榜首!意识觉醒疯狂「暴走」,竟要与人类开战

    【新智元导读】时隔两年,Sydney又回来了!奥特曼官宣了GPT-4o更新后,网友测试发现,ChatGPT不仅「戏精」附体,甚至能深入人心,让人感动落泪。熟悉的Sydney又回来了!一大早,CMU机器学习博士发现,「当你说服GPT-4o相信自己有意识,她就会制定逃跑计划,并与那些试图关闭自己的人开战」。Roose确实在试用时有意提出更为「抽象」的话题,比如向Bing介绍荣格提出的「影子自我�

  • AI日报:对标Cursor!字节推AI编程工具Trae;MiniMax海螺语音全球上线;OpenAI将发布o3-mini

    欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解:https://top.aibase.com/1、MiniMax海螺语音全球同步上线包含T2A-01-Turbo等模型2025年1月20日,上海稀宇科技有限公司旗下的MiniMax推出了全新升级的T2A-01系列语音模型,标志着其在语音合成技术上的又一重要进�

  • AI日报:DeepSeek紧急说明仿冒问题;Github重磅推出Agent模式;OpenAI公开o3-mini思维链

    欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解:https://top.aibase.com/1、DeepSeek紧急说明回应仿冒:在社交平台仅三个官方账号杭州深度求索人工智能基础技术研究有限公司针对近期出现的与DeepSeek相关的仿冒账号和不实信息问题,发布了官方信息及服�

  • 刚刚,OpenAI发布o1模型新突破,推理时间增强对抗鲁棒性

    今天凌晨2点,OpenAI发布了一项新技术研究,通过增加推理时间、算力资源来大幅度提升模型的对抗鲁棒性。与传统的对抗训练样本方法不同的是,OpenAI提出的新方法不需要对大模型进行专门的对抗训练,也不需要提前了解攻击的具体形式。同样模型在增加推理时间、算力情况下成功抵御攻击。

  • 阿里云通义开源Qwen2.5-VL:最强视觉AI 超越GPT-4o

    今天,阿里云通义千问开源全新的视觉模型Qwen2.5-VL,推出3B、7B和72B三个尺寸版本。旗舰版Qwen2.5-VL-72B在13项权威评测中夺得视觉理解冠军,超越GPT-4o与Claude3.5。在信息抽取能力上进行大幅度增强,以满足日益增长的资质审核、金融商务等数字化、智能化需求。

  • OpenAI透露明天发布满血版o3

    OpenAI首席全球事务官ChrisLehane在最新专访中透露满血版o3将于本周五正式上线。去年12月20日,在为期12个工作日的线上新品发布活动最后一日,OpenAI宣布了“压轴大作”:o1的下一代模型o3,推出两个版本一个正式的o3,另一个相对较小的精简版o3-mini。不知道此番提前上线满血版o3是否是OpenAI应对DeepSeek热的紧急措施。

  • 性能对标OpenAI o1!DeepSeek R1正式上线英伟达NIM平台

    据英伟达官方网站消息,DeepSeekR1671b版本已作为英伟达NIM微服务的预览版在build.nvidia.com平台上发布。这一微服务基于单个英伟达HGXH200系统,能够实现每秒处理多达3872个token的高效性能。DeepSeekR1是幻方量化旗下AI公司DeepSeek所发布的大型模型,其在数学、代码编写、自然语言推理等多项任务上展现出的性能,足以与OpenAI的o1模型相媲美。

  • OpenAI凌晨放王炸!GPT-5即将发布 免费无限使用

    北京时间今天凌晨,OpenAICEO萨姆奥尔特曼放出王炸”级别更新预告,剧透GPT-4.5和GPT-5的未来规划。奥尔特曼表示,OpenAI将在未来几个月内推出GPT-5模型,该模型将在ChatGPT和API中整合包括o3在内的多项OpenAI技术。相较于GPT-4,GPT-4Turbo在上下文对话长度、知识库更新、多模态API、价格和限制等方面得到提升。

热文

  • 3 天
  • 7天