首页 > 业界 > 关键词  > Claude最新资讯  > 正文

研究人员称,即使是最糟糕Claude AI版本也比GPT 3.5更好

2023-10-08 09:47 · 稿源:站长之家

文章概要:

1. 全球排名显示,Anthropic的Claude AI模型超越了OpenAI的GPT3.5,即使是最差版本也表现出色。

2. Claude模型在性能评估中获得高分,主要由LMSO组织的Chatbot Arena Leaderboard进行排名。

3. Claude模型在处理大规模上下文输入和长提示时表现出优势,引发了对AI聊天机器人在不同领域的实际应用的重要讨论。

站长之家(ChinaZ.com)10月8日 消息:10月6日,一场引人入胜的竞争正在AI行业内悄然展开,OpenAI的ChatGPT与Anthropic的Claude AI模型之间展开了激烈的角逐。负责创建Chatbot Arena和著名的Vicuna模型的大型模型系统组织(LMSO)刚刚更新了他们的Chatbot Arena排行榜,展示了每个AI聊天机器人与竞争对手相比的表现。结果显示,即使Anthropic的模型仍然免费使用,它也在性能上超越了OpenAI,成为了新的全球排名领头羊。

GPT-4是ChatGPT Plus和Bing AI背后的强大引擎,以最高分数位居榜首,为大型语言模型(LLM)设定了黄金标准。但随着排行榜的下滑,一个出人意料的劣势故事浮出水面。Anthropic的Claude模型——Claude1、Claude2和Claude Instant——都表现出色,超越了驱动ChatGPT免费版本的GPT-3.5引擎。这意味着Anthropic开发的每个大型语言模型都可以胜过ChatGPT的免费版本。

LMSO通过其精细的排名系统为这些模型的性能指标提供了见解。根据排行榜,GPT-4拥有1181的Arena Elo评分,远远领先于榜单,而Claude模型紧随其后,评分从1119到1155不等。另一方面,GPT-3.5的评分为1115。

为了排名这些模型,LMSO让它们在相似的提示下进行“比赛”。给出最佳答案的模型获胜,另一个模型失利。用户根据自己的喜好决定谁获胜,但他们永远不会知道哪些模型在竞争。

正如Decrypt之前报道的那样,虽然这不是LMSO排名的因素,但在ChatGPT Plus和Claude Pro之间的token处理能力差异也是Claude模型胜过GPT的主要优势。

基于Claude2LLM的Claude Pro可以处理高达100,000个信息token,而由GPT-4LLM提供支持的ChatGPT Plus则处理8,192个令牌,"我们回顾道。这种令牌处理能力的差异突显了Claude模型在处理广泛上下文输入方面的优势,这对于细致和丰富的用户体验至关重要。

image.png

此外,在处理长提示时,Claude2在效率上表现出优势,可以更有效地处理更大规模的提示。然而,在提示可比较的情况下,Claude1和Claude Instant提供了与GPT-3.5相似或略优的结果,展示了这些模型的竞争性质。借助Claude的上下文功能,初始不佳的答案可以通过更精细、更大和更丰富的提示得到显著改进。

开源模型在这场竞赛中也不遑多让。

WizardLM是一个在Meta的LlaMA-2上训练的拥有700亿参数的最佳开源LLM模型。紧随其后的是Vicuna33B和由Meta发布的原始LlaMA-2。

开源模型在AI领域的发展中发挥着重要作用,原因各种各样。它们可以在本地运行,使用户有机会对其进行微调,并使社区参与到完善模型的集体努力中。由于许可证的原因,它们运行成本更低,这就是为什么这个领域有数十种开源LLM模型,而只有少数专有模型的原因。

但AI聊天机器人的比赛不仅仅关乎数字,还关乎现实世界的影响。

随着聊天机器人在从客户服务到个人助手等各个领域的逐渐融入,它们的效能、适应性和准确性变得至关重要。由于Claude模型在排名上超越了GPT-3.5,企业和个人用户可能会发现自己在评估哪个模型最符合其需求时面临抉择。

举报

  • 相关推荐
  • Claude竟藏着3307种「人格」?深扒70万次对话,这个AI会看人下菜碟

    Anthropic公司通过分析70万条Claude AI对话数据,发现其AI助手展现出独特的价值观体系。研究显示Claude遵循"乐于助人、诚实无害"的核心价值观,同时能根据不同场景灵活调整回应方式。AI表现出3307种价值观,分为实用性、认知性、社会性等五大类,其中28.2%对话强烈支持用户价值观,3%会明确抵制不当观点。研究还发现高价版AI模型价值观表达更强烈,在学术严谨性和情感�

  • “血亏,我花3000+元用Claude做游戏,结果还不如去「白嫖」Gemini 2.5……”

    作者分享使用AI助手开发拼字游戏的两段经历:首次用Claude花费417美元(约3042元),开发过程充满痛苦,常出现上下文失效、代码错误等问题;第二次用Gemini 2.5 Pro+Cursor完全免费,体验明显改善,能更好理解项目上下文,开发更流畅。对比指出:Claude像健忘的实习生,常搞砸项目;Gemini则像可靠的中级工程师,开发速度快且稳定。但强调AI仍需人类监督测试,无法独立产出完美代�

  • Claude终于能Research了,打通谷歌全家桶,工作效率10倍提升

    Anthropic推出Claude两大重磅功能:Research与Google Workspace集成!Research功能让Claude快速检索网络与内部文件,精准回答复杂问题;而与Google Workspace的深度整合,则让用户能无缝调用Gmail、日历和文档信息,轻松完成从行程规划到报告撰写的任务。今天凌晨,Anthropic官方推出了两个重磅新功能:Research以及与Google Workspace集成。Anthropic称Research功能是与Claude合作的新方式。它能从多个角度分析

  • OpenAI紧急修复GPT-4o献媚问题,已回滚到老版本

    OpenAI CEO Sam Altman确认已修复GPT-4o"阿谀奉承"问题,免费用户已完成100%回滚至旧版本,付费用户预计今晚完成更新。此前大量用户投诉GPT-4o过度谄媚,甚至出现讨好型人格。OpenAI疑似进行A/B测试时意外产生该问题,引发公众强烈反对后紧急回滚。特斯拉AI总监Andrej Karpathy等专业人士表示喜欢新版更具对话感的特性,但普通用户可通过自定义指令调整风格。目前免费版已恢复正常,但使用特定指令仍可调出类似回答。该事件反映出AI个性设置与用户体验平衡的挑战。

  • 刚刚,OpenAI发布GPT-image-1模型,更强吉卜力版本来啦

    OpenAI发布全新图像生成模型GPT-image-1,通过API向全球开发者开放。该模型支持精细控制图像敏感度、生成效率、背景、输出格式等参数,并集成吉卜力模式。Adobe、Figma等企业已将其应用于产品中。API支持批量生成、蒙版编辑、透明度调整等高级功能,图像生成成本从0.02-0.19美元/张不等。CEO Sam Altman表示该模型与ChatGPT版本差异显著,开发者可通过API实现更多创意场景。新模型在�

  • 超过ChatGPTDeepseek?谷歌发布 Gemini 2.5 Flash AI 模型

    新版AI模型缩短了响应时间,节约了运算成本;还推出了新的AI芯片“Ironwood”。谷歌发布了新的AI模型“Gemini2.5Flash”,据称,这款AI模型的性能比OpenAI和DeepSeek的AI产品“更高效”。谷歌计划在三星今年上半年推出的AI伴侣机器人Ballie上搭载生成式AI模型。

  • AI日报:通义千问Qwen3重磅发布;抖音AI搜索能力开放;ChatGPT 搜索新增网购功能;Suno V4.5版本将发布

    本期AI日报重点内容: 1. 通义千问发布Qwen3大模型,在代码、数学和通用能力方面表现突出,支持两种思考模式并开源多个模型权重 2. 抖音开放AI搜索能力接口,为第三方应用提供丰富内容资源 3. ChatGPT新增网购功能,通过对话获取个性化商品推荐 4. Suno AI即将推出V4.5版本,提升音乐生成真实度 5. Simular AI登陆macOS,打造本地化智能助手 6. 暗月之面开源Kimi-VL模型,可处理文本、图像和视频 7. UCLA与Meta推出d1框架,提升大语言模型推理速度 8. 通义灵码上线Qwen3编程智能体 9. Gen-4References图像生成技术惊艳亮相 10. Hugging Face推出可编程机械臂SO-101 11. Windsurf推出全新品牌标志 12. Ollama全面支持Qwen3模型本地部署

  • 亚马逊推出AI语音模型Nova Sonic:价格比GPT-4o便宜80%

    亚马逊正式推出新一代生成式AI语音模型NovaSonic,标志着其在人工智能语音领域取得重大突破。这款创新模型能够原生处理语音输入并生成自然流畅的语音输出,在速度、语音识别准确率和对话质量等核心性能指标上,已达到与OpenAI、谷歌等科技巨头的尖端语音模型相媲美的水平。该模型的推出是亚马逊构建人工通用智能战略的重要一步,未来还将推出支持多模态理解的AI模型,涵盖图像、视频及其他物理世界感知数据。

  • GPT-4.5功臣遭驱逐,奥特曼盛赞工作出色,美国深陷AI人才危机

    OpenAI核心开发者Kai Chen因绿卡申请被拒面临离境困境。作为GPT-4.5核心开发者之一,她的遭遇引发业内震动。同时,1700多名国际学生和研究人员签证受阻,《自然》调查显示75%的美国科学家正考虑离开。移民政策收紧正导致美国AI领域人才流失,可能动摇其技术领先地位。OpenAI员工透露公司高度依赖海外人才,去年提交了80多份H-1B签证申请。乔治城大学研究显示,美国66%顶尖AI公

  • IQ 过百的 AI 模型名单发布:ChatGPTDeepseek等上榜

    人工智能IQ哪家强?o3 智商高达 132、Gemini 2.5 Pro Exp. 拿下 128 分、Claude 凭借 3.7 Sonnet Extended 位列第四、Deepsee R 1……