首页 > 业界 > 关键词  > 正文

AI前哨|法拉利变成旧皮卡,AI大模型真的会“变笨”!

2023-07-21 07:52 · 稿源: 凤凰网科技

凤凰网科技讯 《AI前哨》北京时间7月21日消息,最近有用户抱怨称,ChatGPT背后的大语言模型GPT-4和之前的迭代相比正变得“更笨”、“更懒”。ChatGPT开发商OpenAI周四承认,新版GPT-4在某些任务上的性能表现可能会变差。

最近几周,GPT-4用户对于该模型性能的下降感到困惑。一些人跑到推特和OpenAI在线开发者论坛上表达不满,他们抱怨的问题包括GPT-4的逻辑变弱,回答的错误越来越多,无法跟踪提供的信息,难以遵循指令,忘记在基本软件代码中添加括号,以及只记得最近的提示。

“现在的GPT-4令人失望。这种感觉就像你开了一个月的法拉利,突然它变成了一辆破旧的皮卡。我不确定我是否还愿意为它付费。”一位使用GPT-4协助为其网站进行功能编程的网友写道。

OpenAI显然意识到了这一点。周四,该公司在宣布新的功能更新时回应了这个问题,承认GPT-4在某些任务上的性能可能会变差,“当我们发布新模型版本时,我们的首要任务是让新模型整体上变得更聪明。我们的目标是在很多方面进行改进,比如指令遵循、事实准确性和拒绝行为。例如,上个月推出的GPT-4-0613模型在调用函数方面有了显著改进”。

不过,OpenAI话锋一转,开始谈及GPT-4的不足。“我们会查看大量评估指标来确定是否应该发布一个新模型。虽然大多数指标都得到了改进,但在一些任务的性能可能会变差。这就是为什么我们允许API用户锁定某一模型版本的原因。例如,你可以使用GPT-4-0314版本,而不是通用的GPT-4,因为后者会指向最新模型版本。每个单独锁定的模型都是稳定的,这意味着我们不会做出影响输出的更改。”OpenAI表示。凤凰网科技《AI前哨》对此将持续关注。

举报

  • 相关推荐
  • 如何科学比价AI大模型?一文教你用好这个AI大模型比价免费计算工具

    本文探讨了当前AI大模型调用成本计算的重要性,介绍了AIbase费用计算器的实用功能。主要内容包括:1)不同厂商计费方式差异大,存在token/字符/调用次数等不同标准;2)AIbase工具支持主流模型费用对比,实时更新官方价格;3)提供输入输出分开计费模拟,支持自定义参数和结果排序;4)完全免费无需登录,适合快速查询。文章还给出选型建议:轻量任务选Claude Instant等低成本模�

  • AI大模型那么多,该如何科学对比选型?

    文章探讨了当前AI大模型选择的困境,指出随着国内外模型数量激增,用户面临选择难题。作者提出应从实际需求出发,考虑模型能力、成本、使用方式、中文支持等核心维度,避免只看参数规模或流行度的误区。特别推荐使用AIbase模型广场等对比工具,可快速比较多个模型的详细参数、调用方式和价格差异。文章以中文写作为例,对比了通义千问、月之暗面、文心一言和GPT-4�

  • AI大模型对比完全指南:如何选择最适合你的大模型?

    文章探讨了当前AI大模型市场众多选择带来的选择困难问题。面对GPT-4、Claude、文心一言等各具特色的模型,普通用户和企业难以科学评估和选择。文章提出了一套完整的评估体系,包括基础能力、技术性能、应用场景和商业考量四个维度,并建议采用标准化测试和实际场景验证相结合的方法。同时介绍了2025年主流AI模型的特点:GPT-4o在多模态交互领先,Claude3在编程和逻辑分析突出,Gemini2.5擅长长文本处理,国产DeepSeek则以高性价比见长。最后强调选择AI模型应基于具体需求,而非简单追求性能排名,建议通过专业对比平台和实际测试来验证。

  • 2025年国内AI大模型哪家强?上AI大模型选型对比工具,用数据说话!

    文章分析了国内AI大模型市场竞争格局,指出百度、阿里、腾讯、字节等科技巨头与初创公司纷纷布局,呈现繁荣景象。针对用户选型难题,提出需综合考虑参数规模、场景适配、成本效益等关键因素,并介绍了AIbase推出的AI大模型选型对比工具。该工具汇集主流模型最新数据,支持多维度能力对比和场景化筛选,帮助用户快速定位最适合自身需求的模型。最后强调没有"最强"的通用模型,只有最匹配特定场景的解决方案。

  • 调动不同AI大模型费用怎么算?AI模型费用计算神器算清每一分投入!

    本文探讨了企业在调用不同AI大模型时的费用计算问题。随着GPT-4、Claude、文心一言等模型广泛应用,各厂商的计费规则差异显著:有的按Token收费,有的按调用次数,还有地区定价差异。相同任务在不同模型上的成本可能相差10倍。文章推荐使用AIbase费用计算器(https://model.aibase.com/zh/calculator),该工具覆盖主流模型,支持自定义参数,能快速对比不同模型的调用成本,帮助企业实现精准预算控制,选择最具性价比的AI服务方案。

  • 猿辅导AI大模型:技术深融与场景革新,重构学习体验

    2025年教育科技领域迎来智能化新浪潮。猿辅导集团通过自主研发的"猿力大模型"与开源推理大模型DeepSeek深度融合,构建覆盖"数据-场景-交互"全链路的AI教育生态。其技术方案已获信通院"模型开发5级"认证,成为教育行业首个获此最高评级的大模型。硬件方面推出"小猿学练机"和"小猿AI学习机",实现学习平板与智能基座结合,支持打印、情感交互等功能。校园端覆盖25省市超1000所学校,通过"AI安全驾驶模拟"等项目培养学生计算思维。编程教育领域推出支持代码实时监测的AI-Agent工具。凭借300亿条学情数据和15亿题库构建的高质量素材库,显著降低"幻觉"风险68%。目前旗下出海产品已服务100多个国家,推动中国教育科技走向国际。

  • 男子编造2岁女儿被抱走遭处罚:为博关注 由AI大模型生成

    近日,一则细节详尽的“2岁女儿王喵喵被抱走”的寻人启事在网络上疯狂传播,引发超百万次点击与大量转发,众多网友纷纷加入转发助力寻找的行列。 启事中描述走失者王喵喵为2岁女性,眼睛大大的,笑时会露出两颗小虎牙,在嘉兴市南湖区新丰镇乌桥超市被一大妈抱走,还附上了“父亲”与“母亲”的联系电话,字里行间满是焦灼,让人感觉是心急如焚的家长发出的求�

  • 如何精准锁定高性价比的AI大模型?AIbase AI模型费用计算器助力开发者省心省钱选模型

    文章探讨了在预算有限的情况下如何选择合适的大模型API。面对GPT-4、Claude2、Llama2等数十种模型,开发者常陷入选择困境:既要考虑性能,又要兼顾成本。不同厂商的计费机制复杂多样(按Token、请求次数或时间),手动计算耗时且容易出错。文章推荐使用AIbase的AI模型费用计算器,该工具聚合主流模型定价数据,支持可视化交互计算,能快速比较不同场景下的使用成本,帮助�

  • AI大模型调用费用到底有多贵?一键测算让你不再“踩坑”

    随着ChatGPT等AI大模型普及,用户常忽视其高昂使用成本。文章指出两大误区:1)仅关注token单价而忽略输入输出比例,长文本输出会显著增加费用;2)忽略中文字符与token的转换差异,1个汉字可能对应多个token。通过对比GPT-4、Claude3等模型生成1万字文章的成本,价差可达2倍以上。为解决成本估算难题,AIbase推出费用计算器,支持主流模型价格对比、自定义字数转换和多种调用方�

  • GPT-5和Claude 4 Opus谁更强?用这个AI大模型对比工具一眼明了

    OpenAI正式发布GPT-5,与Claude4Opus和Gemini2.5Pro进行对比测试。GPT-5在编程能力(SWE-bench测试74.9%)和数学推理(AIME2025测试94.6%)表现突出;Claude4Opus编程优异(72.5%)但数学较弱(33.9%);Gemini2.5Pro擅长长文本处理(100万token窗口)和多模态应用。价格方面,GPT-5和Gemini2.5Pro定价相近($1.25-$10),Claude4Opus较高($15-$75)。建议根据需求选择:GPT-5适合综合应用,Claude4Opus适合专业编程,Gemini2.5Pro适合长文档�