首页 > 业界 > 关键词  > Claude最新资讯  > 正文

研究人员称,即使是最糟糕Claude AI版本也比GPT 3.5更好

2023-10-08 09:47 · 稿源:站长之家

文章概要:

1. 全球排名显示,Anthropic的Claude AI模型超越了OpenAI的GPT3.5,即使是最差版本也表现出色。

2. Claude模型在性能评估中获得高分,主要由LMSO组织的Chatbot Arena Leaderboard进行排名。

3. Claude模型在处理大规模上下文输入和长提示时表现出优势,引发了对AI聊天机器人在不同领域的实际应用的重要讨论。

站长之家(ChinaZ.com)10月8日 消息:10月6日,一场引人入胜的竞争正在AI行业内悄然展开,OpenAI的ChatGPT与Anthropic的Claude AI模型之间展开了激烈的角逐。负责创建Chatbot Arena和著名的Vicuna模型的大型模型系统组织(LMSO)刚刚更新了他们的Chatbot Arena排行榜,展示了每个AI聊天机器人与竞争对手相比的表现。结果显示,即使Anthropic的模型仍然免费使用,它也在性能上超越了OpenAI,成为了新的全球排名领头羊。

GPT-4是ChatGPT Plus和Bing AI背后的强大引擎,以最高分数位居榜首,为大型语言模型(LLM)设定了黄金标准。但随着排行榜的下滑,一个出人意料的劣势故事浮出水面。Anthropic的Claude模型——Claude1、Claude2和Claude Instant——都表现出色,超越了驱动ChatGPT免费版本的GPT-3.5引擎。这意味着Anthropic开发的每个大型语言模型都可以胜过ChatGPT的免费版本。

LMSO通过其精细的排名系统为这些模型的性能指标提供了见解。根据排行榜,GPT-4拥有1181的Arena Elo评分,远远领先于榜单,而Claude模型紧随其后,评分从1119到1155不等。另一方面,GPT-3.5的评分为1115。

为了排名这些模型,LMSO让它们在相似的提示下进行“比赛”。给出最佳答案的模型获胜,另一个模型失利。用户根据自己的喜好决定谁获胜,但他们永远不会知道哪些模型在竞争。

正如Decrypt之前报道的那样,虽然这不是LMSO排名的因素,但在ChatGPT Plus和Claude Pro之间的token处理能力差异也是Claude模型胜过GPT的主要优势。

基于Claude2LLM的Claude Pro可以处理高达100,000个信息token,而由GPT-4LLM提供支持的ChatGPT Plus则处理8,192个令牌,"我们回顾道。这种令牌处理能力的差异突显了Claude模型在处理广泛上下文输入方面的优势,这对于细致和丰富的用户体验至关重要。

image.png

此外,在处理长提示时,Claude2在效率上表现出优势,可以更有效地处理更大规模的提示。然而,在提示可比较的情况下,Claude1和Claude Instant提供了与GPT-3.5相似或略优的结果,展示了这些模型的竞争性质。借助Claude的上下文功能,初始不佳的答案可以通过更精细、更大和更丰富的提示得到显著改进。

开源模型在这场竞赛中也不遑多让。

WizardLM是一个在Meta的LlaMA-2上训练的拥有700亿参数的最佳开源LLM模型。紧随其后的是Vicuna33B和由Meta发布的原始LlaMA-2。

开源模型在AI领域的发展中发挥着重要作用,原因各种各样。它们可以在本地运行,使用户有机会对其进行微调,并使社区参与到完善模型的集体努力中。由于许可证的原因,它们运行成本更低,这就是为什么这个领域有数十种开源LLM模型,而只有少数专有模型的原因。

但AI聊天机器人的比赛不仅仅关乎数字,还关乎现实世界的影响。

随着聊天机器人在从客户服务到个人助手等各个领域的逐渐融入,它们的效能、适应性和准确性变得至关重要。由于Claude模型在排名上超越了GPT-3.5,企业和个人用户可能会发现自己在评估哪个模型最符合其需求时面临抉择。

举报

  • 相关推荐
  • AI日报:蚂蚁百灵发布 Ling Studio;飞书联手安克创新推AI录音豆;ChatGPT 官宣引入广告

    本文汇总了AI领域的最新动态:蚂蚁百灵推出Ling Studio平台,提供每日50万免费Token及多模型切换;飞书与安克创新合作发布AI录音豆,实现实时字幕与会议纪要生成;ChatGPT将引入广告,免费版用户优先体验;谷歌扩大AI视频工具Flow访问权限,支持竖屏与8秒4K生成;英伟达发布PersonaPlex-7B-v1模型,重塑实时语音交互;国内首款AI原生游戏《超自然行动组》上线,玩家可与AI共演剧情;OpenAI正测试网页版重大升级,代号Salute;同时推出平价订阅计划ChatGPT Go,每月8美元即可畅享高级AI功能。

  • 京东京造第二批AI玩具全新上线:全年龄段覆盖 搭载JoyInside大模型

    京东京造1月19日上线第二批自研AI玩具,覆盖全年龄段用户需求。接入JoyInside智能系统的硬件产品,平均对话轮次增长超120%。多款产品上线后迅速售罄且退货率极低,市场反响热烈。在原有儿童陪伴玩具基础上,此次拓展了产品线,推出针对年轻人和老年人的AI玩具,包括专为银发人群设计的“唠唠鹦”,以及面向年轻人的“球球”和“墨墨”。“唠唠鹦”内置方言、养生知识、戏曲、评书等内容,并提供紧急呼救、健康服务联动、子女日志同步等守护功能。针对年轻人的产品则以情绪感知和善解人意为特点,能主动提供安慰与陪伴。

  • CertiK联合YZi Labs设立100万美元安全审计资金,支持EASY Residency孵化项目

    全球最大Web3安全公司CertiK与投资机构YZi Labs(原币安实验室)达成战略合作,将共同提升其孵化计划EASY Residency参与项目的安全架构。CertiK将设立100万美元专项安全审计资金,并提供形式化验证、AI扫描等服务支持。双方合作旨在将安全从“可选项”升级为创业初期的“必选项”,推动Web3行业从追求速度向保障安全的根本性转变。

  • 从功能到场景 三星Galaxy手机为AI体验注入创新动能

    随着AI成为智能手机体验的核心,用户期待已从单一功能转向其能否真正融入日常流程。三星Galaxy手机正推动AI从“功能展示”走向“场景驱动”,通过系统级融合,让AI成为底层能力,在后台无缝参与信息处理与任务执行。多模态理解能力支撑场景化体验落地,用户无需刻意调用,AI便能在适当时机提供协助。这种设计使AI从附加功能转变为基础设施,让操作更顺畅连贯,为智能体验注入持续创新动能。

  • 联想YOGA Air 14 Ultra Aura AI元启版发布:仅970g塞下75Wh大电池

    在CES2026上,联想推出YOGA Air 14 Ultra Aura AI元启版超轻薄本(海外名称:Yoga Slim 7i Ultra Aura Edition)。 这款笔记本采用高强度镁铝合金半固态压铸工艺,重量仅970g,不足两瓶矿泉水重量,单手托举或塞进随身包毫无压力。 更令人惊叹的是,其在如此紧凑的机身内嵌入75Wh高密度电池,搭配Intel Panther Lake平台酷睿Ultra X9 388H处理器与YOGA灵境引擎智能调度,实现约18小时办公续航。 �

  • REDMI Buds 8 Pro官宣:智能无级降噪、三频声临其境

    小米手机部总裁卢伟冰宣布,Redmi Buds 8 Pro耳机将于1月16日晚发布。新品主打旗舰级听觉体验与智能降噪,搭载环境声识别算法,可根据场景自动调节降噪深度,实现自适应体验。耳机采用入耳式设计,提供黑、白、灰三色可选。

  • 从多任务到跨应用协同 三星Galaxy Z Fold7释放AI生产力

    文章指出,随着移动办公与内容创作需求增长,智能手机正从信息接收终端转变为生产力工具。三星Galaxy Z Fold7通过折叠形态提供8英寸大屏,优化多任务处理,结合仅215克的机身重量与4.2毫米展开厚度,兼顾便携性。其搭载的One UI系统针对折叠屏深度优化,提升多窗口操作与跨应用协同效率。Galaxy AI的融入进一步强化智能协作,例如在信息整合、创意编辑与沟通场景提供辅助。该设备通过硬件形态、系统交互与AI能力的协同设计,旨在为追求高效的用户提供完整的移动生产力解决方案。

  • AI日报:Meta宣布收购Manus;腾讯混元发布1.5版开源翻译模型;OpenAI更新手机版ChatGPT

    本期AI日报聚焦行业动态与产品更新。Meta以数十亿美元收购AI初创公司Manus,强化通用AI代理技术。腾讯混元发布1.5版开源翻译模型,端侧部署性能提升。上海16部门联合发文推动“AI+消费”,将发放算力券、模型券等支持工具。微软Copilot全线升级GPT-5.2,免费开启“专家级”工作流。Zara利用AI技术数字化编辑模特照片以削减成本,引发行业讨论。Plaud Note Pro AI录音笔凭借超薄离线和隐私保护设计,成为专业用户首选。OpenAI更新手机版ChatGPT,用户可调节AI思考深度。Claude Code可视化工作流编辑器发布,通过拖拽节点即可构建AI自动化流程。

  • “星春妙会”开启新年礼遇 选购三星Galaxy手机好礼加“马”

    冬季出行,三星Galaxy系列手机通过多形态产品布局与智能能力,提升体验。折叠屏旗舰兼顾便携与效率,Z Fold7轻巧机身与大屏适合多任务处理;Z Flip7小巧易携,外屏支持常用操作。三折叠新品Z TriFold拓展显示空间。直板旗舰S25 Ultra影像系统强大,适应复杂光线;S25与S25+分别侧重便携与续航。A56 5G则提供高性价比与实用AI功能。三星商城同步推出购机优惠,让冬季换机更从容。

  • AI日报:DeepSeek V4或于2月发布;Midjourney Niji 7发布;AI聊天App涉黄案二审在即

    本期AI日报聚焦多领域进展:DeepSeek V4或春节发布,主打AI编程能力;Midjourney推出Niji 7模型,显著提升动漫风格生成质量;Mugen3D实现单图生成高保真3D模型;Lightricks开源视频模型LTX-2,支持20秒音视频一体化合成。同时,抖音科技内容年观看量达1.4万亿次,成为科普新渠道;国内首例AI聊天App涉黄案二审在即,凸显合规重要性;谷歌AI健康搜索因误导性内容遭质疑并下线部分功能;此外,谷歌联合零售巨头推出UCP协议,旨在通过AI代理实现全链路无缝购物体验。

今日大家都在搜的词: