研究人员称，即使是最糟糕Claude AI版本也比GPT 3.5更好

2023-10-08 09:47 · 稿源：站长之家

文章概要:
1. 全球排名显示，Anthropic的Claude AI模型超越了OpenAI的GPT3.5，即使是最差版本也表现出色。
2. Claude模型在性能评估中获得高分，主要由LMSO组织的Chatbot Arena Leaderboard进行排名。
3. Claude模型在处理大规模上下文输入和长提示时表现出优势，引发了对AI聊天机器人在不同领域的实际应用的重要讨论。

站长之家（ChinaZ.com）10月8日消息:10月6日，一场引人入胜的竞争正在AI行业内悄然展开，OpenAI的ChatGPT与Anthropic的Claude AI模型之间展开了激烈的角逐。负责创建Chatbot Arena和著名的Vicuna模型的大型模型系统组织（LMSO）刚刚更新了他们的Chatbot Arena排行榜，展示了每个AI聊天机器人与竞争对手相比的表现。结果显示，即使Anthropic的模型仍然免费使用，它也在性能上超越了OpenAI，成为了新的全球排名领头羊。

GPT-4是ChatGPT Plus和Bing AI背后的强大引擎，以最高分数位居榜首，为大型语言模型（LLM）设定了黄金标准。但随着排行榜的下滑，一个出人意料的劣势故事浮出水面。Anthropic的Claude模型——Claude1、Claude2和Claude Instant——都表现出色，超越了驱动ChatGPT免费版本的GPT-3.5引擎。这意味着Anthropic开发的每个大型语言模型都可以胜过ChatGPT的免费版本。

LMSO通过其精细的排名系统为这些模型的性能指标提供了见解。根据排行榜，GPT-4拥有1181的Arena Elo评分，远远领先于榜单，而Claude模型紧随其后，评分从1119到1155不等。另一方面，GPT-3.5的评分为1115。

为了排名这些模型，LMSO让它们在相似的提示下进行“比赛”。给出最佳答案的模型获胜，另一个模型失利。用户根据自己的喜好决定谁获胜，但他们永远不会知道哪些模型在竞争。

正如Decrypt之前报道的那样，虽然这不是LMSO排名的因素，但在ChatGPT Plus和Claude Pro之间的token处理能力差异也是Claude模型胜过GPT的主要优势。

基于Claude2LLM的Claude Pro可以处理高达100，000个信息token，而由GPT-4LLM提供支持的ChatGPT Plus则处理8，192个令牌，"我们回顾道。这种令牌处理能力的差异突显了Claude模型在处理广泛上下文输入方面的优势，这对于细致和丰富的用户体验至关重要。

此外，在处理长提示时，Claude2在效率上表现出优势，可以更有效地处理更大规模的提示。然而，在提示可比较的情况下，Claude1和Claude Instant提供了与GPT-3.5相似或略优的结果，展示了这些模型的竞争性质。借助Claude的上下文功能，初始不佳的答案可以通过更精细、更大和更丰富的提示得到显著改进。

开源模型在这场竞赛中也不遑多让。

WizardLM是一个在Meta的LlaMA-2上训练的拥有700亿参数的最佳开源LLM模型。紧随其后的是Vicuna33B和由Meta发布的原始LlaMA-2。

开源模型在AI领域的发展中发挥着重要作用，原因各种各样。它们可以在本地运行，使用户有机会对其进行微调，并使社区参与到完善模型的集体努力中。由于许可证的原因，它们运行成本更低，这就是为什么这个领域有数十种开源LLM模型，而只有少数专有模型的原因。

但AI聊天机器人的比赛不仅仅关乎数字，还关乎现实世界的影响。

随着聊天机器人在从客户服务到个人助手等各个领域的逐渐融入，它们的效能、适应性和准确性变得至关重要。由于Claude模型在排名上超越了GPT-3.5，企业和个人用户可能会发现自己在评估哪个模型最符合其需求时面临抉择。

（举报）

相关推荐

关键词：

AI日报：阿里夸克“C计划”曝光；Veo3.1将增加视频“精确编辑”功能；Anthropic推出Claude Code网页版

今日AI领域动态：阿里夸克启动"C计划"布局对话式AI应用，剑指字节"豆包"；Anthropic推出Claude Code网页版，支持浏览器直接编码；谷歌Veo新增视频"精确编辑"功能，提升创作效率；Fish Audio升级S1语音克隆模型，10秒即可复刻真人声音；AWS美东故障影响ChatGPT等多项服务；DeepSeek-OCR推出"视觉记忆压缩"机制破解AI记忆瓶颈；Adobe推出AI Foundry服务，支持企业定制品牌AI模型；Anthropic发布Claude for Life Sciences，加速生命科学研究。

AI 对话式AI 阿里巴巴
荐AI日报：美团LongCat-Flash-Omni发布；Qwen3-Max上线深度思考功能；百度“文心”5.0重磅回归

本期AI日报聚焦多领域技术突破：美团发布全模态交互模型LongCat-Flash-Omni；阿里通义千问Qwen3-Max上线深度思考功能；百度文心5.0升级多模态生成能力；谷歌确认Gemini3年内发布并整合至苹果Siri；OpenAI向多国开放Sora2视频工具；云存储与AI开发工具持续优化，展现行业加速迭代态势。

AI 多模态实时交互
荐Qwen登顶AI赚钱大赛只是开始？“弃GPT投Qwen”已在硅谷蔓延开来

近期AI炒币大赛Alpha Arena引发关注，六款主流大模型用1万美元本金在币圈实战。戏剧性的是，被寄予厚望的GPT-5和Gemini因高杠杆操作亏损惨重，而中国开源模型表现亮眼——通义千问Qwen以53%回报率逆袭登顶，DeepSeek紧随其后。硅谷巨头Airbnb CEO公开表态依赖Qwen，投资人Chamath也承认将业务转向中国模型。市场用真金白银投票：预测平台押注Qwen胜率高达36%，远超OpenAI的3%。这场竞赛�

AI炒币大赛 Alpha Arena
Soul App开源模型SoulX-Podcast登顶Hugging Face TTS趋势榜,AI语音对话再升级

SoulX-Podcast语音生成模型在开源社区Hugging Face发布次日登顶TTS趋势榜。该模型由Soul AI Lab联合高校团队开发，专为多轮对话场景设计，支持中英川粤等多语言/方言与副语言风格，能生成超60分钟流畅自然、角色切换准确、韵律丰富的语音。它解决了传统语音系统在多轮对话中上下文衔接不自然、缺乏副语言控制能力等痛点，在播客、语音合成等场景表现突出，获开发者广泛关注。Hugging Face CEO也转发相关内容，团队未来将持续优化语音对话、拟人化表达等核心交互能力，深化开源生态建设。

SoulX-Podcast TTS 语音生成模型
荐AI日报：可复刻音色的MiniMax Speech 2.6发布；TikTok推AI剪辑新工具“Smart Split”；Cursor 2.0发布

本期AI日报聚焦多项技术突破：MiniMax发布低延迟语音合成系统Speech 2.6，实现实时交互；蚂蚁数科与宁波银行打造的金融AI方案入选国际标准；智源推出具身操作能力的Emu3.5多模态模型；Cursor 2.0通过自研模型实现多智能体协同编程；xAI升级Grok新增视频生成功能；OpenAI推出可定制安全模型；TikTok推出AI剪辑工具Smart Split；微软发布强化学习框架Agent Lightning提升大模型训练效率。

AI日报 MiniMax Speech
AI日报：OpenAI发布浏览器Atlas；通义Qwen3-VL新增2B、32B两个模型尺寸；百川发布循环证据增强大模型

本文汇总AI领域最新动态：OpenAI推出集成ChatGPT的Atlas浏览器，实现多任务自主处理；阿里通义千问新增2B/32B视觉语言模型，手机可流畅运行；谷歌AI Studio升级Vibe Coding功能，简化应用开发流程；百川发布医疗大模型M2Plus，通过循证推理降低误诊率；奇瑞墨甲机器人实现L3级技术突破，计划多行业应用；YouTube推出AI肖像识别工具，打击虚假内容；三星宣布2026年推出AI眼镜，融合AR与语音助手；Claude客户端更新，支持截图分析和语音交互功能。

AI OpenAI ChatGPT
EUDR认证大概需要多少钱？绿舟为您带来费用详解

欧盟《零毁林法案》(EUDR)将于2025年底实施，中国出口企业面临合规挑战。认证成本因企业规模、供应链复杂度而异，中小型企业费用约数万元，大型企业可达数十万元。核心支出包括供应链追溯、风险评估及第三方审核。案例显示认证橡胶原料溢价达200美元/吨，但长期可通过价格溢价抵消部分成本。建议企业提前规划，采用区块链等技术提升追溯效率，并争取将中国列为低风险国家以简化流程。合规虽增加短期成本，却是提升国际竞争力和供应链转型的契机。

EUDR认证欧盟零毁林法案绿色通行证
双十一智能手表怎么选？这几款三星Galaxy Watch千万别错过

双十一选购智能手表时，三星Galaxy Watch系列提供多样选择：Galaxy Watch8设计轻盈简约，适合日常佩戴；Watch8 Classic采用经典旋转表圈，风格优雅百搭；Watch Ultra则主打坚固耐用，专为户外运动设计。三款均搭载全面健康监测功能，包括睡眠分析、跑步教练指导及身体成分测量，帮助用户提升生活质量。根据个人审美与需求，可轻松挑选心仪款式。

智能手表三星Galaxy Watch
AI焕新生活三星Galaxy S25系列双11惊喜福利放送中

双11是换机良机，三星Galaxy S25系列以旗舰性能与Galaxy AI赋能成为优选。该系列提供三款机型：S25主打轻巧便携，S25+兼顾大屏与均衡配置，S25 Ultra专注专业影像与强悍性能。全系搭载专业影像系统，支持AI编辑工具；集成实时简报、Bixby跨应用执行及多场景翻译等智能功能，搭配双11专属优惠，助力高效生活与创作体验。

双11优惠三星Galaxy S25
OpenAI推出AI浏览器ChatGPT Atlas 开启个性化上网新体验

OpenAI于10月22日推出首款AI驱动浏览器ChatGPT Atlas，以个性化上网体验为核心。用户点击“Ask ChatGPT”即可在侧边栏实时互动，实现网页摘要生成、航班预订、文档编辑等多样化任务。目前仅支持macOS，未来将扩展至Windows和移动端。高级代理功能暂限付费用户使用，其特色包括自动捕捉页面上下文、分屏浏览及记忆用户操作历史，旨在通过自然对话提升网络使用效率。

ChatGPT Atlas 人工智能浏览器

今日大家都在搜的词：

热文

3 天
7天

研究人员称，即使是最糟糕Claude AI版本也比GPT 3.5更好

AI日报：阿里夸克“C计划”曝光；Veo3.1将增加视频“精确编辑”功能；Anthropic推出Claude Code网页版

荐AI日报：美团LongCat-Flash-Omni发布；Qwen3-Max上线深度思考功能；百度“文心”5.0重磅回归

荐Qwen登顶AI赚钱大赛只是开始？“弃GPT投Qwen”已在硅谷蔓延开来

Soul App开源模型SoulX-Podcast登顶Hugging Face TTS趋势榜,AI语音对话再升级

荐AI日报：可复刻音色的MiniMax Speech 2.6发布；TikTok推AI剪辑新工具“Smart Split”；Cursor 2.0发布

AI日报：OpenAI发布浏览器Atlas；通义Qwen3-VL新增2B、32B两个模型尺寸；百川发布循环证据增强大模型

EUDR认证大概需要多少钱？绿舟为您带来费用详解

双十一智能手表怎么选？这几款三星Galaxy Watch千万别错过

AI焕新生活三星Galaxy S25系列双11惊喜福利放送中

OpenAI推出AI浏览器ChatGPT Atlas 开启个性化上网新体验

今日大家都在搜的词：

热文

鸿蒙HarmonyOS 6与iOS数据互传功能预计12月上线

AI日报：美团LongCat-Flash-Omni发布；Qwen3-Max上线深度思考功

DeepSeek崩了上热搜页面显示“服务器繁忙”

特斯拉Cybercab不配备方向盘和踏板预计2026年二季度下线

阿里回应饿了么更名：正处于灰度测试阶段

OPPO ColorOS 16正式版11月升级机型公布：支持23款机型

何小鹏：小鹏X9超级增程是全球续航最长的大七座车

AI日报：昆仑万维SkyReels V3模型上线；月之暗面推Kimi Linear

马斯克称若发现外星人证据就公开

vivo Y500 Pro官宣11月10日发布：同档首发2亿HP5主摄

鸿蒙HarmonyOS 6与iOS数据互传功能预计12月上线

AI日报：Sora免费额度要缩水；月之暗面发布Kimi Linear架构；C

苹果客服回应iPhone或自动拨号：设置或其他问题

小米随身蓝牙音箱曜石黑配色版本开售：售价299元

AI日报：美团LongCat-Flash-Omni发布；Qwen3-Max上线深度思考功

DeepSeek崩了上热搜页面显示“服务器繁忙”

iQOO Neo11开售2小时销量超前代全天

特斯拉Cybercab不配备方向盘和踏板预计2026年二季度下线

iQOO 15旷野配色今日开售：售价4999元首发2K三星珠峰屏

vivo WATCH GT 2已支持开通移动/联通eSIM服务

站长商机