研究人员称，即使是最糟糕Claude AI版本也比GPT 3.5更好

2023-10-08 09:47 · 稿源：站长之家

文章概要:
1. 全球排名显示，Anthropic的Claude AI模型超越了OpenAI的GPT3.5，即使是最差版本也表现出色。
2. Claude模型在性能评估中获得高分，主要由LMSO组织的Chatbot Arena Leaderboard进行排名。
3. Claude模型在处理大规模上下文输入和长提示时表现出优势，引发了对AI聊天机器人在不同领域的实际应用的重要讨论。

站长之家（ChinaZ.com）10月8日消息:10月6日，一场引人入胜的竞争正在AI行业内悄然展开，OpenAI的ChatGPT与Anthropic的Claude AI模型之间展开了激烈的角逐。负责创建Chatbot Arena和著名的Vicuna模型的大型模型系统组织（LMSO）刚刚更新了他们的Chatbot Arena排行榜，展示了每个AI聊天机器人与竞争对手相比的表现。结果显示，即使Anthropic的模型仍然免费使用，它也在性能上超越了OpenAI，成为了新的全球排名领头羊。

GPT-4是ChatGPT Plus和Bing AI背后的强大引擎，以最高分数位居榜首，为大型语言模型（LLM）设定了黄金标准。但随着排行榜的下滑，一个出人意料的劣势故事浮出水面。Anthropic的Claude模型——Claude1、Claude2和Claude Instant——都表现出色，超越了驱动ChatGPT免费版本的GPT-3.5引擎。这意味着Anthropic开发的每个大型语言模型都可以胜过ChatGPT的免费版本。

LMSO通过其精细的排名系统为这些模型的性能指标提供了见解。根据排行榜，GPT-4拥有1181的Arena Elo评分，远远领先于榜单，而Claude模型紧随其后，评分从1119到1155不等。另一方面，GPT-3.5的评分为1115。

为了排名这些模型，LMSO让它们在相似的提示下进行“比赛”。给出最佳答案的模型获胜，另一个模型失利。用户根据自己的喜好决定谁获胜，但他们永远不会知道哪些模型在竞争。

正如Decrypt之前报道的那样，虽然这不是LMSO排名的因素，但在ChatGPT Plus和Claude Pro之间的token处理能力差异也是Claude模型胜过GPT的主要优势。

基于Claude2LLM的Claude Pro可以处理高达100，000个信息token，而由GPT-4LLM提供支持的ChatGPT Plus则处理8，192个令牌，"我们回顾道。这种令牌处理能力的差异突显了Claude模型在处理广泛上下文输入方面的优势，这对于细致和丰富的用户体验至关重要。

此外，在处理长提示时，Claude2在效率上表现出优势，可以更有效地处理更大规模的提示。然而，在提示可比较的情况下，Claude1和Claude Instant提供了与GPT-3.5相似或略优的结果，展示了这些模型的竞争性质。借助Claude的上下文功能，初始不佳的答案可以通过更精细、更大和更丰富的提示得到显著改进。

开源模型在这场竞赛中也不遑多让。

WizardLM是一个在Meta的LlaMA-2上训练的拥有700亿参数的最佳开源LLM模型。紧随其后的是Vicuna33B和由Meta发布的原始LlaMA-2。

开源模型在AI领域的发展中发挥着重要作用，原因各种各样。它们可以在本地运行，使用户有机会对其进行微调，并使社区参与到完善模型的集体努力中。由于许可证的原因，它们运行成本更低，这就是为什么这个领域有数十种开源LLM模型，而只有少数专有模型的原因。

但AI聊天机器人的比赛不仅仅关乎数字，还关乎现实世界的影响。

随着聊天机器人在从客户服务到个人助手等各个领域的逐渐融入，它们的效能、适应性和准确性变得至关重要。由于Claude模型在排名上超越了GPT-3.5，企业和个人用户可能会发现自己在评估哪个模型最符合其需求时面临抉择。

（举报）

相关推荐
大家在看

关键词：

【腾讯云】11.11云上盛惠！云服务器首年1.8折起，买1年送3个月！

11.11云上盛惠！海量产品 · 轻松上云！云服务器首年1.8折起，买1年送3个月！超值优惠，性能稳定，让您的云端之旅更加畅享。快来腾讯云选购吧！

Docker容器镜像
去看看

Docker容器镜像 60元/15天

爆款产品组合购
去看看

爆款产品组合购低至1元

腾讯云x NVIDIA加速计划
去看看

腾讯云x NVIDIA加速计划最高获赠10万元扶持基金

2核2G云服务器
去看看

2核2G云服务器 112元/1年

查看更多相关信息>>

腾讯云 12-20

广告
Claude 3模型家族详细介绍 Claude 3 Sonnet、Opus官网体验入口

Claude3模型家族是Anthropic推出的下一代AI模型，包括Claude3Haiku、Claude3Sonnet和Claude3Opus三个不同能力的模型。这些模型在多种认知任务上设立了新的行业基准，提供从即时响应到复杂任务处理的不同选择。要了解更多关于Claude3的信息，欢迎访问官方网站。

Claude3
GPT-4 Turbo 击败 Claude 3，重新夺回 “最佳AI模型” 称号

OpenAI最新推出的更新版GPT-4Turbo上周已经面向开发人员和付费ChatGPT订阅者提供。当推出这一模型时，OpenAI表示新的GPT-4Turbo从前作中进行了多项改进用户们也发现这一点确实如此。如果您想要跳过测试，直接使用gpt-4-turbo-2024-04-09在ChatGPT中，需要成为ChatGPTPlus订阅者，费用为每月20美元。

GPT-4 Claude3 AI头条
看懂网飞版「三体」！Reka Core登场：挑战GPT-4、Claude 3

【新智元导读】AI初创公司Reka最新推出的多模态语言模型RekaCore具备理解图像、音频和视频等多种模式数据内容的惊人能力，是继谷歌的GeminiUltra之后的又一个令人瞩目的作品，性能上与GPT-4不相上下!多模态语言模型又双叒叕上新了!近日，由DeepMind、谷歌和Meta的研究人员创立的AI初创公司Reka，推出了他们最新的多模态语言模型——RekaCore。它被誉为该公司「最大、最有能力」的模型，在性能上与GPT-4和Claude3Opus不相上下!Reka的首席科学家兼联合创始人YiTay兴奋地表示，过去几个月，该公司使用了「数千台H100」来开发RekaCore。6.部署灵活性与Reka其他型号的模型一样，Core可通过API、本地或设备部署，以满足客户和合作伙伴的部署限制。

RekaCore GPT-4 Claude3
Claude 3再次登顶！化学专业一骑绝尘，全面碾压GPT-4

【新智元导读】Claude3在通用任务上是全球最强已经毋庸置疑。更令人惊叹的是，它在专业领域的表现，比如化学任务，也能远远领先GPT-4。可以预想到，作为通用模型来设计的LLM，会在专业领域逐渐爆发。

Claude3
多忽悠几次AI全招了！Anthropic警告：长上下文成越狱突破口，GPT羊驼Claude无一幸免

大模型厂商在上下文长度上卷的不可开交之际，一项最新研究泼来了一盆冷水——Claude背后厂商Anthropic发现，随着窗口长度的不断增加，大模型的“越狱”现象开始死灰复燃。无论是闭源的GPT-4和Claude2是开源的Llama2和Mistral，都未能幸免。目前尚未找到既能完美解决问题又不显著影响模型效果的办法，Anthropic选择发布通告将这项研究公之于众，也是为了让整个业界都能关注这个�

Anthropic GPT AI
荐Claude 3说服力堪比人类！Anthropic最新研究揭秘LLM惊人能力

【新智元导读】Anthropic发布最新研究，发现Claude3Opus的说服力与人类大致相当，该成果在评估语言模型说服力方面迈出了重要的一步。人工智能模型在对话说服力方面表现如何?对这一问题大家可能都心存疑惑。Anthropic也表示，他们已经采取了一系列措施来降低Claude被用于破坏性事件的风险。

Claude3
Small AI 开放无限制使用GPT全系列、Claude全系列等市面100款AI模型

🌍大模型全链路API聚合品牌:全网最稳定的Enterprise企业级2000Mbps带宽中转，100%全部使用官方企业高速渠道非低价普通或逆向渠道，已触达中国、美国、日本、韩国、英国、新加坡、香港、菲律宾、俄罗斯等8个地区共计7千客户，网站已稳定运行11个月，承诺永久运营!⭐按量计费，无需承担额度过期或者封号风险，MySQL8.2超高并发不限速，超强自研能力，基于渠道RPM和TPM的智能负�

API AI头条
Claude发布函数调用工具Tool use 允许模型与外部数据交互

Claude最近发布了一项名为"Tooluse"的新功能，这个功能允许模型与外部系统和数据进行交互。Claude不再仅仅是一个文本生成或问题回答的工具，它现在能够实际调用外部定义的函数或工具来执行特定操作，比如获取当前的天气信息、执行数学计算等。Claude发布的"Tooluse"功能，使其在与外部系统和数据的交互上有了更大的突破，使得其在处理各种复杂任务时更加灵活和高效。

Claude AI头条
竞争升温！ChatGPT增长疲软3月全球访问量17.7亿次，Claude逐渐崛起

ChatGPT，作为最大的AI聊天平台，近期增长速度明显放缓。据Similarweb估计，2024年3月，ChatGPT的全球访问量达到17.7亿次，略低于2023年5月创下的18.1亿次访问记录。如果OpenAI想要触发另一波显著增长并确认其高估值，那么在GPT-5上就会面临压力。

ChatGPT Claude AI头条
免费使用Claude 3！这个平台集成了所有主流的AI聊天机器人！Small AI 2024最新版教程

这是一款我很久之前就想介绍的AI平台，在我之前的一篇AI对话工具排行的文章里出现过它的身影，它是一个交互式AI对话工具，它更是一个LLM大语言模型的搬运工。在这个平台上，有着几乎所有主流的大语言模型，包括GPT系列、Claude3系列和GeminiPro等。跨平台兼容性:SmallAI不仅提供网页版服务推出了iOS和Android的适配版，使得用户可以随时随地跨平台使用。

AI平台交互式对话工具 LLM大语言模型

今日大家都在搜的词：

热文

3 天
7天

研究人员称，即使是最糟糕Claude AI版本也比GPT 3.5更好

今日大家都在搜的词：

热文

站长商机