首页 > 业界 > 关键词  > Claude最新资讯  > 正文

研究人员称,即使是最糟糕Claude AI版本也比GPT 3.5更好

2023-10-08 09:47 · 稿源:站长之家

文章概要:

1. 全球排名显示,Anthropic的Claude AI模型超越了OpenAI的GPT3.5,即使是最差版本也表现出色。

2. Claude模型在性能评估中获得高分,主要由LMSO组织的Chatbot Arena Leaderboard进行排名。

3. Claude模型在处理大规模上下文输入和长提示时表现出优势,引发了对AI聊天机器人在不同领域的实际应用的重要讨论。

站长之家(ChinaZ.com)10月8日 消息:10月6日,一场引人入胜的竞争正在AI行业内悄然展开,OpenAI的ChatGPT与Anthropic的Claude AI模型之间展开了激烈的角逐。负责创建Chatbot Arena和著名的Vicuna模型的大型模型系统组织(LMSO)刚刚更新了他们的Chatbot Arena排行榜,展示了每个AI聊天机器人与竞争对手相比的表现。结果显示,即使Anthropic的模型仍然免费使用,它也在性能上超越了OpenAI,成为了新的全球排名领头羊。

GPT-4是ChatGPT Plus和Bing AI背后的强大引擎,以最高分数位居榜首,为大型语言模型(LLM)设定了黄金标准。但随着排行榜的下滑,一个出人意料的劣势故事浮出水面。Anthropic的Claude模型——Claude1、Claude2和Claude Instant——都表现出色,超越了驱动ChatGPT免费版本的GPT-3.5引擎。这意味着Anthropic开发的每个大型语言模型都可以胜过ChatGPT的免费版本。

LMSO通过其精细的排名系统为这些模型的性能指标提供了见解。根据排行榜,GPT-4拥有1181的Arena Elo评分,远远领先于榜单,而Claude模型紧随其后,评分从1119到1155不等。另一方面,GPT-3.5的评分为1115。

为了排名这些模型,LMSO让它们在相似的提示下进行“比赛”。给出最佳答案的模型获胜,另一个模型失利。用户根据自己的喜好决定谁获胜,但他们永远不会知道哪些模型在竞争。

正如Decrypt之前报道的那样,虽然这不是LMSO排名的因素,但在ChatGPT Plus和Claude Pro之间的token处理能力差异也是Claude模型胜过GPT的主要优势。

基于Claude2LLM的Claude Pro可以处理高达100,000个信息token,而由GPT-4LLM提供支持的ChatGPT Plus则处理8,192个令牌,"我们回顾道。这种令牌处理能力的差异突显了Claude模型在处理广泛上下文输入方面的优势,这对于细致和丰富的用户体验至关重要。

image.png

此外,在处理长提示时,Claude2在效率上表现出优势,可以更有效地处理更大规模的提示。然而,在提示可比较的情况下,Claude1和Claude Instant提供了与GPT-3.5相似或略优的结果,展示了这些模型的竞争性质。借助Claude的上下文功能,初始不佳的答案可以通过更精细、更大和更丰富的提示得到显著改进。

开源模型在这场竞赛中也不遑多让。

WizardLM是一个在Meta的LlaMA-2上训练的拥有700亿参数的最佳开源LLM模型。紧随其后的是Vicuna33B和由Meta发布的原始LlaMA-2。

开源模型在AI领域的发展中发挥着重要作用,原因各种各样。它们可以在本地运行,使用户有机会对其进行微调,并使社区参与到完善模型的集体努力中。由于许可证的原因,它们运行成本更低,这就是为什么这个领域有数十种开源LLM模型,而只有少数专有模型的原因。

但AI聊天机器人的比赛不仅仅关乎数字,还关乎现实世界的影响。

随着聊天机器人在从客户服务到个人助手等各个领域的逐渐融入,它们的效能、适应性和准确性变得至关重要。由于Claude模型在排名上超越了GPT-3.5,企业和个人用户可能会发现自己在评估哪个模型最符合其需求时面临抉择。

举报

  • 相关推荐
  • 你的隐私 由你掌控:三星Knox Vault为Galaxy AI构建隐私防护堡垒

    三星Galaxy AI通过本地化处理保护用户隐私,采用Knox Vault硬件级安全方案隔离敏感数据。该方案配备专属处理器和内存,加密存储生物识别、金融信息等关键数据,防止物理篡改和远程攻击。AI功能如音频橡皮擦、通话转文字均在设备端处理,避免云端传输风险。随着AI应用场景扩展,三星将持续强化隐私保护,确保个性化体验与数据安全并重。

  • AI日报:智谱上线PPT生成功能AI Slides;可灵 AI 发布可图2.1模型

    本文介绍了AI日报栏目及近期AI领域多项突破性进展:1)智谱推出免费AI Slides工具,基于GLM模型快速生成高质量PPT;2)可灵AI发布可图2.1模型,支持180多种风格图像生成;3)NVIDIA推出DiffusionRenderer技术,实现视频到可编辑3D场景转换;4)墨刀AI新增30秒生成高保真原型功能;5)Higgsfield推出Soul ID工具,10张照片即可生成虚拟形象;6)谷歌DeepMind开源GenAI Processors工具库;7)谷歌Veo新增图像转视频功能;8)Mistral AI发布专为代码建模的Devstral2507系列模型。这些创新展示了AI在内容生成、3D建模、产品设计等领域的快速发展。

  • 小米15迎来首个安卓大版本更新:安卓16 Beta版上线

    今天,小米15迎来安卓首个大版本更新,基于安卓16定制的澎湃OS 2定向内测版正式上线,版本号为OS2.0.230.6.WOCCNXM Beta,安装包大小是7.3GB。 新版澎湃OS优化了部分场景动效策略,提升系统流畅度;同时新增双指上滑唤起自定义无障碍功能的快捷方式。 需要注意的是,这次更新是安卓跨版本升级,建议用户提前备份个人数据,部分第三方应用可能没有适配安卓16,这一点需要注�

  • AI日报:xAI 震撼发布Grok4;微软开源全新Phi-4-mini版本;上海累计82款大模型通过备案

    AI日报栏目聚焦人工智能领域最新动态:1)xAI发布旗舰模型Grok4,在数学推理和代码生成表现突出,同时推出开发者专用Grok4Code;2)微软开源Phi-4-mini模型,推理效率提升10倍,适合边缘设备;3)上海82款大模型完成备案,垂直领域应用取得突破;4)Hugging Face推出开源桌面机器人Reachy Mini,支持Python编程;5)Perplexity发布AI浏览器Comet挑战Chrome;6)OpenAI将首次发布开放权重模型,打破闭源惯例;7)谷歌医疗AI模型MedGemma系列上新,单个GPU即可运行;8)OpenAI以约65亿美元收购AI硬件公司io Products,正式进军硬件市场。

  • 目标超越iOS!鸿蒙版微信1.0.8.37版本开启公测:支持修改微信号等新功能

    鸿蒙版微信1.0.8.37版本今天正式开启公测,新增了一批新功能。 具体特性如下: 1、支持转发视频及多张图片到微信 2、多选消息支持批量选中 3、支持扫码登录文件传输助手网页版

  • 一个月更新4次 鸿蒙版微信再推新版本:四大新功能

    鸿蒙版微信凭借高频次的更新优化,持续为用户带来惊喜。近一个月内,鸿蒙版微信已正式上架4个新版本。 如今,其又马不停蹄推出全新版本,带来四项实用新功能。 此次更新后,图库操作便利性大幅提升。用户如今可直接在图库中选中视频及多张图片,一键转发至微信。 消息管理也变得更加高效。多选消息功能上线后,用户能对多条消息进行批量选中,无论是清理无用�

  • 2299元起!三星Galaxy Watch 8/Classic/Ultra智能手表发布

    三星今晚除了三款折叠屏手机之外,还推出了三款Galaxy Watch 8系列智能手表。 具体型号分别是Galaxy Watch 8、Galaxy Watch 8 Classic、Galaxy Watch 8 Ultra,起售价2299元。 三款产品统一采用了天圆地方”的设计语言,表壳为圆角矩形,表盘则是传统圆形。 三星Galaxy Watch 8 提供慕岩灰、星辉银两种配色,有44mm和40mm两种尺寸。 内部结构重新设计,组件集成度提升30%,整体厚度较上代减少1

  • 31.6万起!蔚来新ET5/新ET5T 新EC6冠军纪念版上市:专属外观设计

    早在2015年,蔚来夺得FE电动方程式首个年度车手总冠军,在这十年间,蔚来将在赛道上验证过的技术,逐步下放至旗下量产车中,保证蔚来高端技术的品牌属性。 同时,为延续冠军精神,蔚来今日又推出了新ET5、新ET5T、新EC6冠军纪念版车型。 其中,蔚来新ET5/ET5T冠军纪念版,整车购买方案均为31.6万起,电池租赁方案为24.6万起。

  • Perplexity推出AI浏览器Comet:想用得开1400元/月的订阅

    由英伟达支持的Perplexity AI推出了一款名为Comet的AI驱动网络浏览器。 Comet浏览器的核心卖点是其AI驱动的交互体验,公司表示它将整个浏览会话转变为单一、无缝的交互,将复杂的工作流程简化为流畅的对话。

  • 英伟达Blackwell Ultra芯片商用落地,微美全息以“算力+开源”领航AI科技新程

    英伟达与CoreWeave合作推出新一代AI芯片Blackwell Ultra,该芯片已实现商业部署,采用液冷技术,包含72个GPU和36个CPU。Blackwell Ultra的AI内容生成能力是前代产品的50倍,预计今年批量出货。英伟达凭借高性能AI芯片近乎垄断市场,年利润超5000亿元,市值逼近4万亿美元,有望成为全球市值最高公司。微软推迟自研AI芯片发布,转向过渡性设计方案。微美全息专注AI芯片技术布局,构建多元化技术生态,推动产业协同,成为全球AI芯片竞赛重要参与者。当前AI产业进入大规模商业化关键阶段,算力需求持续高涨,推动企业向算力数智化迁移。消费电子领域,AI赋能传统智能终端,新型智能硬件结合AI创造增量需求,关注算力产业链技术创新配套机遇。