首页 > 业界 > 关键词  > Claude最新资讯  > 正文

研究人员称,即使是最糟糕Claude AI版本也比GPT 3.5更好

2023-10-08 09:47 · 稿源:站长之家

文章概要:

1. 全球排名显示,Anthropic的Claude AI模型超越了OpenAI的GPT3.5,即使是最差版本也表现出色。

2. Claude模型在性能评估中获得高分,主要由LMSO组织的Chatbot Arena Leaderboard进行排名。

3. Claude模型在处理大规模上下文输入和长提示时表现出优势,引发了对AI聊天机器人在不同领域的实际应用的重要讨论。

站长之家(ChinaZ.com)10月8日 消息:10月6日,一场引人入胜的竞争正在AI行业内悄然展开,OpenAI的ChatGPT与Anthropic的Claude AI模型之间展开了激烈的角逐。负责创建Chatbot Arena和著名的Vicuna模型的大型模型系统组织(LMSO)刚刚更新了他们的Chatbot Arena排行榜,展示了每个AI聊天机器人与竞争对手相比的表现。结果显示,即使Anthropic的模型仍然免费使用,它也在性能上超越了OpenAI,成为了新的全球排名领头羊。

GPT-4是ChatGPT Plus和Bing AI背后的强大引擎,以最高分数位居榜首,为大型语言模型(LLM)设定了黄金标准。但随着排行榜的下滑,一个出人意料的劣势故事浮出水面。Anthropic的Claude模型——Claude1、Claude2和Claude Instant——都表现出色,超越了驱动ChatGPT免费版本的GPT-3.5引擎。这意味着Anthropic开发的每个大型语言模型都可以胜过ChatGPT的免费版本。

LMSO通过其精细的排名系统为这些模型的性能指标提供了见解。根据排行榜,GPT-4拥有1181的Arena Elo评分,远远领先于榜单,而Claude模型紧随其后,评分从1119到1155不等。另一方面,GPT-3.5的评分为1115。

为了排名这些模型,LMSO让它们在相似的提示下进行“比赛”。给出最佳答案的模型获胜,另一个模型失利。用户根据自己的喜好决定谁获胜,但他们永远不会知道哪些模型在竞争。

正如Decrypt之前报道的那样,虽然这不是LMSO排名的因素,但在ChatGPT Plus和Claude Pro之间的token处理能力差异也是Claude模型胜过GPT的主要优势。

基于Claude2LLM的Claude Pro可以处理高达100,000个信息token,而由GPT-4LLM提供支持的ChatGPT Plus则处理8,192个令牌,"我们回顾道。这种令牌处理能力的差异突显了Claude模型在处理广泛上下文输入方面的优势,这对于细致和丰富的用户体验至关重要。

image.png

此外,在处理长提示时,Claude2在效率上表现出优势,可以更有效地处理更大规模的提示。然而,在提示可比较的情况下,Claude1和Claude Instant提供了与GPT-3.5相似或略优的结果,展示了这些模型的竞争性质。借助Claude的上下文功能,初始不佳的答案可以通过更精细、更大和更丰富的提示得到显著改进。

开源模型在这场竞赛中也不遑多让。

WizardLM是一个在Meta的LlaMA-2上训练的拥有700亿参数的最佳开源LLM模型。紧随其后的是Vicuna33B和由Meta发布的原始LlaMA-2。

开源模型在AI领域的发展中发挥着重要作用,原因各种各样。它们可以在本地运行,使用户有机会对其进行微调,并使社区参与到完善模型的集体努力中。由于许可证的原因,它们运行成本更低,这就是为什么这个领域有数十种开源LLM模型,而只有少数专有模型的原因。

但AI聊天机器人的比赛不仅仅关乎数字,还关乎现实世界的影响。

随着聊天机器人在从客户服务到个人助手等各个领域的逐渐融入,它们的效能、适应性和准确性变得至关重要。由于Claude模型在排名上超越了GPT-3.5,企业和个人用户可能会发现自己在评估哪个模型最符合其需求时面临抉择。

举报

  • 相关推荐
  • 大家在看
  • Devika AI:开源AI软件工程师

    Devika AI是一个开源的AI软件工程师,可以理解高级人类指令,将其分解为步骤,研究相关信息并生成相应代码。它使用Claude 3、GPT 4、GPT 3.5和Local LLMs via Ollama。

  • Voxal.AI:提升销售和支持,无代码AI Chatbot

    Voxal AI是一款强大的AI Chatbot,通过展示产品、回答问题、生成潜在客户等方式,提升销售和支持。使用最新的AI技术,包括GPT 3、GPT 4和Mixtral,无需编码即可快速创建定制的Chatbot。适用于SaaS、Shopify、WordPress等平台,支持产品推荐和销售增长。提供高级分析功能,支持95种语言。快速部署,定制个性化外观和交互,轻松集成到网站中。

  • TTSVox:免费的在线文字转语音工具

    TTSVox是一款免费的在线文字转语音工具。它提供高质量、自然流畅的声音,适用于教育、专业和无障碍等各种场景。现在就来试试,让您的文字变得生动起来!

  • AI Elon:与世界上最伟大的AI创业者交谈

    AI Elon是与世界上最伟大的AI创业者对话的平台。用户可以获取关于任何想了解的事情的意见、建议、想法、反馈等等。

  • Resume Photo AI:AI生成专业人像照片

    专为职场人士打造的AI生成的专业人像照片。使用我们的AI技术,轻松获得专业人像照片,非常适合LinkedIn个人资料、简历或任何职业用途。

  • DeepAI:智能工具,激发创意无限

    DeepAI是一个提供多种人工智能工具的网站,包括AI视频生成器、AI图像生成器、AI图像编辑器和AI角色聊天等。用户可以利用这些工具将静态图片和文本提示转换成简短的视频动画,或者通过输入提示来生成图像。DeepAI的AI图像编辑器允许用户快速编辑图片,而AI角色聊天则可以与各种角色进行互动。此外,还有去除背景和给黑白照片上色的功能。DeepAI提供PRO会员服务,享受无广告体验、私有图片存储和API访问等特权。

  • tawk.to:100%免费的网站在线聊天软件

    tawk.to是一款完全免费的在线聊天软件,它允许网站所有者监控并与访问者进行实时聊天,响应支持票据,使用CRM组织联系人,并创建帮助中心以增强客户自助服务的能力。tawk.to的主要优势在于其易用性、安全性以及无需任何费用即可使用。此外,它还提供了AI Assist功能,允许用户训练一个完全自动化的AI驱动聊天机器人。

  • WaveAI:AI驱动的高级照片编辑器

    Wave AI是一款AI驱动的高级照片编辑器,可轻松编辑照片和图像。它具有背景更改、物体移除和定制广告等高级功能。通过简单的点击,无需设计技能,轻松提升您的图像。

  • NovelAI.Dev:AI 绘画兴趣站

    NovelAI.Dev 是一个以技术宅为核心的 AI 绘画爱好者群体网站,提供多种与绘画相关的 AI 技术应用和工具。

  • AI SEO Service in Australia | Optidan:AI数字营销和SEO服务

    Optidan AI是澳大利亚顶级AI数字营销机构,提供AI SEO服务、Shopify SEO服务、去抄袭和内容创作服务。我们通过性能管理、Web诊断和战略优化提升SEO卓越,快速增长您的在线业务。

  • AskJack:让你的AI助手回答HR问题

    AskJack通过为频繁的HR咨询提供自动化响应,提高了工作效率,让你能够专注于战略性事务。它使用AI技术将助手带到你团队最常用的工作场所。通过AskJack,你可以减少重复的HR咨询,让你和团队能够专注于战略性事务。它还可以简化员工入职流程,提供即时访问所需的文件、指南和资源,并在入职后全年无休地提供相同的信息。AskJack还能帮助你了解员工的需求,提供数据驱动的见解。

  • OPS 提示词工作室:可视化编辑提示词工具

    OPS 提示词工作室是一款可视化编辑工具,支持一键翻译 AIGC 提示词,提供 Midjourney 提示词库,让用户轻松管理和使用提示词,助力提升生产力。该工具还提供简洁清晰的界面,方便用户快速复制、导出和翻译提示词。

  • imiprompt:Midjourney v5 艺术生成器

    IMI Prompt Builder 是一款全面的 Midjourney v5 提示生成器,拥有数千种选项可在 Web、Android 和 iOS 上使用。用户只需点击几下,即可创建反映其个人风格和艺术愿景的独特 Midjourney v5 艺术作品。

  • Ai 画廊:Ai 关键词生成器

    Ai 画廊是一款提供 Ai 关键词生成器的网站,展示人工智能作品和生成关键词描述,帮助用户更好地了解和分享 Ai 作品。用户可以浏览不同风格的 Ai 作品,获取灵感和创意。

  • KALOS.art:AI 艺术风格库

    KALOS.art 是世界上最大的 AI 艺术风格库,提供超过 1300 位艺术家和 292 种风格 / 媒介。用户可以浏览不同艺术家和风格,创建收藏并探索 AI 艺术创作。价格取决于会员级别。

  • ClickPrompt:优化 Prompt 设计,多种 AI 应用支持

    ClickPrompt 是一款专为 Prompt 编写者设计的工具,支持 Stable Diffusion、ChatGPT 和 GitHub Copilot 等多种 AI 应用。用户可轻松查看、分享、一键运行模型,并使用在线 Prompt 生成器创建符合需求的 Prompt。

  • 词魂:AI 提示词工具,提升工作效率

    词魂是一款提供 AI 提示词(promt)和咒语服务的工具,用户可以在这里快速找到各类高质量提示词和咒语,帮助 AI 绘画、midjourney、stable diffusion 等工具用户提升工作效率。定位于提供优质的提示词服务。

  • Replit AI:AI 驱动的软件创作平台

    Replit 是一个 AI 驱动的软件创作平台,让每个人能快速构建、共享和发布软件。它可以将自然语言转换为代码,帮助用户自动化编码中的重复部分,并提供个性化的辅助,包括多文件代码上下文、协作式 AI 聊天等功能。Replit 还提供对特定代码库的上下文 AI 支持,帮助用户解释复杂代码、生成测试用例、撰写文档、设计应用程序等。用户可以快速将创意转化为软件,节省时间并提高效率。

  • 天工智码 SkyCode:AI 代码生成工具,助力编程。

    天工智码 SkyCode 是一款 AI 代码生成工具,支持各种主流编程语言,助力开发人员更快更好的编码。其功能包括二分查找、排序算法实现、代码优化等,优势在于提高编码效率,定位于提供智能编程辅助。目前提供免费试用服务,用户可以根据实际需求选择付费套餐。

  • CodyAI:sourcegraph旗下的是 AI 编码助手

    Cody 是一款强大而准确的 AI 编码助手,可帮助编写、修复和维护代码。它利用人工智能和对代码库的深入理解,帮助用户更快地编写和理解代码。

今日大家都在搜的词: