斯坦福研究称：ChatGPT在部分任务表现变蠢准确率下降

2023-07-20 14:28 · 稿源：站长之家

站长之家（ChinaZ.com）7月20日消息:斯坦福大学和加州大学伯克利分校的研究人员发表了一篇论文，研究了 OpenAI 的 ChatGPT 大语言模型（LLM）在2023年3月至6月之间发生的变化。

他们发现，在经过三个月的评估后，ChatGPT 的性能在某些任务上明显恶化。例如，在判断质数和显示思考过程的任务中，GPT-4的准确率下降了95.2%，而 GPT-3.5的准确度大幅上升，提升了79.4%，从7.4%提高到了86.8%。另一个用限定符求一系列整数之和的问题在 GPT-4和 GPT-3.5中也出现了性能下降，分别为负42% 和20%。

AI chatGPT 人工智能

与3月份相比，6月份的GPT-4更能抵抗越狱或通过特定提示规避内容保护边界，这一变化很可能被视为该公司的一项改进。

研究人员认为，提高监测和透明度可以避免 LLM 漂移的问题。这项研究揭示了企业在考虑采用生成式 AI 产品时需要注意的新领域，并称之为 “LLM 漂移”。要应对 LLM 漂移的影响，企业需要保持警惕，并进行连续的外部评估和监测。

（举报）

相关推荐

关键词：

谷歌最新技术：通过搜索引擎，极大增强ChatGPT等模型的准确率

由于Transformer的出现，使得ChatGPT等大语言模型在处理自然语言任务上的能力得到了大幅度提升。但生成的内容却包含大量错误或过时的信息，同时缺乏事实性评估体系，来验证内容的真伪。FRESHPROMPT对提升大语言模型的动态适应能力具有重要意义，这也是大语言模型未来技术研究的一个重要方向。

ChatGPT 搜索引擎 AI头条
荐0.2美元微调就能让ChatGPT彻底破防！普林斯顿、斯坦福发布LLM风险预警：普通用户微调也影响LLM安全性

【新智元导读】微调LLM需谨慎，用良性数据、微调后角色扮演等都会破坏LLM对齐性能!学习调大了还会继续提高风险!虽说预训练语言模型可以在零样本设置下，对新任务实现非常好的泛化性能，但在现实应用时，往往还需要针对特定用例对模型进行微调。微调后的模型安全性如何?是否会遗忘之前接受的对齐训练吗?面向用户时是否会输出有害内容?提供LLM服务的厂商也需要考虑到，当给终端用户开放模型微调权限后，安全性是否会下降?最近，普林斯顿大学、IBM、斯坦福等机构通过redteam实验证明，只需要几个恶意样本即可大幅降低预训练模型的安全性，甚至普通用户的微调也会影响模型的安全性。不管真正的原因是什么，研究人员假设，如果能够在未来的对齐工作中巩固那些不太稳健的危害类别，可能能够进一步提高良性微调情况下的整体安全性。

ChatGPT LLM
荐淘宝，多了一个“ChatGPT”入口

正在悄然切换，进入AI时代。现在打开淘宝，搜索“淘宝问问”，你可以直接跳转到一个全新的页面。它还不是最终形态，如何让电商和AI更好地结合，找到那条打通最佳的用户体验和购物链路的路径，才是真正的挑战。

ChatGPT 淘宝
研究揭示：ChatGPT不能让业余人员成为优秀的编程者

一项关于使用OpenAI的ChatGPT进行游戏编程的研究在网上引起了广泛关注。该研究通过生成FlappyBird游戏35次，试图验证AI是否能够让非程序员轻松创建复杂的游戏应用程序。AI在编程领域的应用仍然需要进一步的研究和改进，以使非程序员能够更轻松地创建复杂的程序。

ChatGPT 程序员 AI头条
报告称ChatGPT移动端营收增长开始放缓

据Appfigures公布数据显示，ChatGPT移动端营收增长已开始放缓。在过去的几个月里，ChatGPT的营收增长一直保持在30%以上，其中7月份为31%，8月份为39%。尽管9月份有所下降，但它仍然超过了ChatGPT的收入。
OpenAI创始人最新演讲：不要做套壳ChatGPT，建议多研究AI医疗和AI教育

OpenAI是当下AI产业的风向标，据TheInformation报道，OpenAI的年营收已达到13亿美元，其爆发式增长提振了AI产业的信心。9月24日的美国旧金山举行的YC校友会上，OpenAI创始人兼CEOSamAltman的演讲无疑是当天最火爆的，台下挤满了前来学习和交流的创业者。“人们可以原谅人类犯错，但不能原谅计算机”，SamAltman强调人们对计算机采用的标准是不同的，创业者应当意识到这一点，并确保A

OpenAI ChatGPT
荐开了眼的ChatGPT真让人开了眼了

给自己放个假吧ChatGPT，再更新的这么快，网友的脑洞可就跟不上了。ChatGPT宣布了一次重要更新，然后有了全面的多模态能力。

ChatGPT
荐库克证实苹果正在开发，类ChatGPT产品

9月29日，Appleinsider消息，苹果CEO蒂姆·库克在接受《伦敦标准晚报》采访时回应，正在加大对人工智能、机器学习人才的招聘，用于开发生成式AI产品。AI功能几乎遍布苹果的所有产品，例如，AppleWatch的跌倒检测、碰撞检测、心房颤动检测、心电图等，这些都是最典型的应用案例。相信在不远的将来，我们会在siri、iphone、iwatch等产品中，使用上苹果版ChatGPT。

库克苹果 ChatGPT
奥特曼YC演讲：套壳ChatGPT者死，我行不代表你行

奥特曼简单一句话，让AI创业公司瑟瑟发抖:这是在最新YC校友分享会上，OpenAICEO奥特曼发表的演讲观点。为此他还特意补充道:尤其别花太多精力在UI界面上。奥特曼半调侃半认真地表示:结合OpenAI招聘人才“不限行业”的规定，打破惯例看来已经成为这家公司获得灵感和活力的新动力了。

ChatGPT
Xwin-LM击败GPT-4登顶斯坦福AlpacaEval 多项性能评估表现出色

Xwin-LM是一款基于Llama2微调的语言模型，最近在斯坦福大学的AlpacaEval评估中一举击败了GPT-4，登上了榜首之位。这一成就引发了广泛的关注，因为GPT-4一直以来在AlpacaEval上表现出色，胜率超过95%。这一研究对于推动自然语言处理领域的进步具有重要意义。

语言模型 GPT-4

今日大家都在搜的词：

热文

3 天
7天

斯坦福研究称：ChatGPT在部分任务表现变蠢准确率下降

谷歌最新技术：通过搜索引擎，极大增强ChatGPT等模型的准确率

荐0.2美元微调就能让ChatGPT彻底破防！普林斯顿、斯坦福发布LLM风险预警：普通用户微调也影响LLM安全性

荐淘宝，多了一个“ChatGPT”入口

研究揭示：ChatGPT不能让业余人员成为优秀的编程者

报告称ChatGPT移动端营收增长开始放缓

OpenAI创始人最新演讲：不要做套壳ChatGPT，建议多研究AI医疗和AI教育

荐开了眼的ChatGPT真让人开了眼了

荐库克证实苹果正在开发，类ChatGPT产品

奥特曼YC演讲：套壳ChatGPT者死，我行不代表你行

Xwin-LM击败GPT-4登顶斯坦福AlpacaEval 多项性能评估表现出色

今日大家都在搜的词：

热文

iPhone Pocket正式开售：联名三宅一生售价1299元起

AI日报：李飞飞Marble 3D世界模型公测；OpenAI首次推出ChatGPT

1899元苹果手机包卖完了！iPhone Pocket在吐槽声中销售火爆

微信小程序将在iOS端支持接入虚拟支付苹果抽成15%

华为WATCH ULTIMATE DESIGN非凡大师紫金款明天开启预售

iPhone Pocket被吐槽像保温水瓶套网友：韭菜太好割

影视飓风CEO在相亲角被大妈吐槽网友：大妈不识货

腾讯发布2025第三季度财报：营收1928.69亿元同比增长 15%

雷军回应小米双11战绩：谢谢大家支持

小米澎湃OS 3第三批正式版推送：支持小米14、K70系列等

卢伟冰：小米手机双11连续三年国产销量第一

AI日报：月之暗面开源AI新框架Kosong；百度发布新模型ERNIE-4.

腾讯回应QQ群最早是为了员工约饭：是一个朴实无华的需求

95岁巴菲特每周还上5天班此前计划年底退休

京东发布双11战报：订单总量增长近60% 下单用户同比增长40%

站长商机

斯坦福研究称：ChatGPT在部分任务表现变蠢 准确率下降

今日大家都在搜的词：

热文

站长商机

斯坦福研究称：ChatGPT在部分任务表现变蠢准确率下降