首页 > 业界 > 关键词  > 斯坦福最新资讯  > 正文

斯坦福研究称:ChatGPT在部分任务表现变蠢 准确率下降

2023-07-20 14:28 · 稿源:站长之家

站长之家(ChinaZ.com)7月20日 消息:斯坦福大学和加州大学伯克利分校的研究人员发表了一篇论文,研究了 OpenAI 的 ChatGPT 大语言模型(LLM)在2023年3月至6月之间发生的变化。

他们发现,在经过三个月的评估后,ChatGPT 的性能在某些任务上明显恶化。例如,在判断质数和显示思考过程的任务中,GPT-4的准确率下降了95.2%,而 GPT-3.5的准确度大幅上升,提升了79.4%,从7.4%提高到了86.8%。另一个用限定符求一系列整数之和的问题在 GPT-4和 GPT-3.5中也出现了性能下降,分别为负42% 和20%。

AI chatGPT 人工智能

与3月份相比,6月份的GPT-4更能抵抗越狱或通过特定提示规避内容保护边界,这一变化很可能被视为该公司的一项改进。

研究人员认为,提高监测和透明度可以避免 LLM 漂移的问题。这项研究揭示了企业在考虑采用生成式 AI 产品时需要注意的新领域,并称之为 “LLM 漂移”。要应对 LLM 漂移的影响,企业需要保持警惕,并进行连续的外部评估和监测。

举报

  • 相关推荐
  • 谷歌最新技术:通过搜索引擎,极大增强ChatGPT等模型的准确率

    由于Transformer的出现,使得ChatGPT等大语言模型在处理自然语言任务上的能力得到了大幅度提升。但生成的内容却包含大量错误或过时的信息,同时缺乏事实性评估体系,来验证内容的真伪。FRESHPROMPT对提升大语言模型的动态适应能力具有重要意义,这也是大语言模型未来技术研究的一个重要方向。

  • 0.2美元微调就能让ChatGPT彻底破防!普林斯顿、斯坦福发布LLM风险预警:普通用户微调也影响LLM安全性

    【新智元导读】微调LLM需谨慎,用良性数据、微调后角色扮演等都会破坏LLM对齐性能!学习调大了还会继续提高风险!虽说预训练语言模型可以在零样本设置下,对新任务实现非常好的泛化性能,但在现实应用时,往往还需要针对特定用例对模型进行微调。微调后的模型安全性如何?是否会遗忘之前接受的对齐训练吗?面向用户时是否会输出有害内容?提供LLM服务的厂商也需要考虑到,当给终端用户开放模型微调权限后,安全性是否会下降?最近,普林斯顿大学、IBM、斯坦福等机构通过redteam实验证明,只需要几个恶意样本即可大幅降低预训练模型的安全性,甚至普通用户的微调也会影响模型的安全性。不管真正的原因是什么,研究人员假设,如果能够在未来的对齐工作中巩固那些不太稳健的危害类别,可能能够进一步提高良性微调情况下的整体安全性。

  • 淘宝,多了一个“ChatGPT”入口

    正在悄然切换,进入AI时代。现在打开淘宝,搜索“淘宝问问”,你可以直接跳转到一个全新的页面。它还不是最终形态,如何让电商和AI更好地结合,找到那条打通最佳的用户体验和购物链路的路径,才是真正的挑战。

  • 研究揭示:ChatGPT不能让业余人员成为优秀的编程者

    一项关于使用OpenAI的ChatGPT进行游戏编程的研究在网上引起了广泛关注。该研究通过生成FlappyBird游戏35次,试图验证AI是否能够让非程序员轻松创建复杂的游戏应用程序。AI在编程领域的应用仍然需要进一步的研究和改进,以使非程序员能够更轻松地创建复杂的程序。

  • 报告ChatGPT移动端营收增长开始放缓

    据Appfigures公布数据显示,ChatGPT移动端营收增长已开始放缓。在过去的几个月里,ChatGPT的营收增长一直保持在30%以上,其中7月份为31%,8月份为39%。尽管9月份有所下降,但它仍然超过了ChatGPT的收入。

  • OpenAI创始人最新演讲:不要做套壳ChatGPT,建议多研究AI医疗和AI教育

    OpenAI是当下AI产业的风向标,据TheInformation报道,OpenAI的年营收已达到13亿美元,其爆发式增长提振了AI产业的信心。9月24日的美国旧金山举行的YC校友会上,OpenAI创始人兼CEOSamAltman的演讲无疑是当天最火爆的,台下挤满了前来学习和交流的创业者。“人们可以原谅人类犯错,但不能原谅计算机”,SamAltman强调人们对计算机采用的标准是不同的,创业者应当意识到这一点,并确保A

  • 开了眼的ChatGPT真让人开了眼了

    给自己放个假吧ChatGPT,再更新的这么快,网友的脑洞可就跟不上了。ChatGPT宣布了一次重要更新,然后有了全面的多模态能力。

  • 库克证实苹果正在开发,类ChatGPT产品

    9月29日,Appleinsider消息,苹果CEO蒂姆·库克在接受《伦敦标准晚报》采访时回应,正在加大对人工智能、机器学习人才的招聘,用于开发生成式AI产品。AI功能几乎遍布苹果的所有产品,例如,AppleWatch的跌倒检测、碰撞检测、心房颤动检测、心电图等,这些都是最典型的应用案例。相信在不远的将来,我们会在siri、iphone、iwatch等产品中,使用上苹果版ChatGPT。

  • 奥特曼YC演讲:套壳ChatGPT者死,我行不代你行

    奥特曼简单一句话,让AI创业公司瑟瑟发抖:这是在最新YC校友分享会上,OpenAICEO奥特曼发表的演讲观点。为此他还特意补充道:尤其别花太多精力在UI界面上。奥特曼半调侃半认真地表示:结合OpenAI招聘人才“不限行业”的规定,打破惯例看来已经成为这家公司获得灵感和活力的新动力了。

  • Xwin-LM击败GPT-4登顶斯坦福AlpacaEval 多项性能评估表现出色

    Xwin-LM是一款基于Llama2微调的语言模型,最近在斯坦福大学的AlpacaEval评估中一举击败了GPT-4,登上了榜首之位。这一成就引发了广泛的关注,因为GPT-4一直以来在AlpacaEval上表现出色,胜率超过95%。这一研究对于推动自然语言处理领域的进步具有重要意义。

今日大家都在搜的词: