首页 > 业界 > 关键词  > Bard最新资讯  > 正文

谷歌的Bard在聊天机器人排名中击败了GPT-4

2024-02-01 11:47 · 稿源:站长之家

**划重点:**

1. 🚀 Bard的Gemini Pro版本在LMSYS聊天机器人榜上超越了GPT-4,标志着聊天机器人领域的重大变革。

2. 📈 Bard现在是LMSYS榜上第二高分的聊天机器人,正在迎头赶上保持冠军的GPT-4Turbo。

3. 💡 Bard的崛起得益于搭载谷歌最新的Gemini Pro大型多模态模型,成为该榜上第二个获得超过1200分的模型。

站长之家(ChinaZ.com)2月1日 消息:谷歌的Bard最近通过其Gemini Pro版本在LMSYS聊天机器人榜上超越了OpenAI的GPT-4,标志着聊天机器人领域的一次显著变革。这款更新使得Bard成为LMSYS榜上第二高分的聊天机器人,逐渐摆脱了OpenAI在聊天机器人领域的主导地位。

image.png

在LMSYS Chatbot Arena Leaderboard上,Bard成功超越了GPT-4,目前正迅速追赶保持冠军的GPT-4Turbo。长期以来,GPT-4Turbo和GPT-4一直紧握榜单前两名,而Bard的崛起得益于其搭载谷歌新的Gemini Pro大型多模态模型。

LMSYS Org创建了Chatbot Arena Leaderboard,该组织是由加州大学伯克利分校与加州大学圣迭戈分校以及卡内基梅隆大学合作成立的大型模型系统组织。他们表示,Bard在排行榜上的飙升是一个“显著的成就”。

Chatbot Arena是一个用于大型语言模型的基准平台,采用“匿名、随机的众包方式进行战斗”。排名基于Elo评分系统,这在国际象棋和其他竞技游戏中被广泛使用。

由Gemini Pro驱动的Bard是该榜上第二个达到1200分以上的模型。Bard的崛起是谷歌更新了支持聊天机器人的基础模型的结果。去年12月,谷歌推出了Gemini,并为Bard推出了初始版本Gemini Pro,预计将很快发布更大规模的版本Gemini Ultra。

Bard还成功击败了Claude的所有版本,Gemini Pro Dev API版本的排名甚至超过了Anthropic的Claude2.1和GPT3.5Turbo。LMSYS表示:“比赛变得前所未有地激烈!非常期待看到Bard + Gemini Ultra版本的未来。”

对于谷歌而言,这次在榜单上的崛起是一个受欢迎的喘息。在经历了起伏不定的开始后,Bard通过定期更新不断增强,现在已经整合到其他谷歌应用程序,如YouTube和Docs中。

最近,Reddit用户告诉谷歌,他们希望Bard更像ChatGPT,谷歌产品经理询问了他们的愿望清单。用户要求有专门的移动应用程序、自定义指令和图像生成,其中一些建议已经在实施中。

OpenAI的GPT-4一直在模型榜单上居高不下,牢牢占据斯坦福大学HELM Leaderboard的第一名,而GPT-4Turbo则居于第二位。曾经为Bard提供动力的PaLM2在HELM排行榜上表现不佳,被来自AI初创公司Writer的Palmyra X V3超越,成为排行榜上最高得分的非OpenAI模型。

举报

  • 相关推荐
  • 2025年大模型选型核心指南:Beyond GPT-4,如何理性评估Qwen、DeepSeek等强者?

    大模型选择能力已成为AI时代企业核心竞争力。文章提出“能力-成本-场景”三维评估框架,强调需超越单一指标崇拜,基于客观数据和实际需求进行理性选择。通过Qwen2-Plus与DeepSeek-V3的对比分析,展示不同模型在特定场景下的差异化优势。建议企业建立科学选型流程,采用专业工具进行多维度评估,通过三阶段验证策略确保决策既数据驱动又经实践检验。最终目标是选择最适合业务场景的模型,而非盲目追求流行模型。

  • OpenAI发布语音模型GPT-realtim:具备情感感知能力 多语言无缝切换

    OpenAI正式发布语音模型GPT-realtime。 据介绍,GPT-realtime是一款专注于语音AI Agent的多模态模型,能够生成高度自然流畅的语音,精准还原人类语调、情感和语速的丰富变化。该模型支持图像理解,并可结合语音或文本对话使用,非常适合应用于客服、教育、金融、医疗等领域,用于构建高质量的语音智能体。 官方表示,新模型在复杂指令遵循、工具精确调用以及生成更自然、�

  • AI日报:抖音打击AI技术滥用行为;OpenAI 收购开发数据分析平台 Statsig;ElevenLabs 音效模型更新

    抖音打击AI技术滥用行为,对违规商家和达人采取下架、清退等措施。ElevenLabs音效模型升级至版本2,支持长音频和无缝循环。OpenAI收购数据分析平台Statsig,增强产品迭代能力。亚马逊推出Lens Live AI功能,实时扫描购物。谷歌AI推出Stax工具,帮助开发者评估大语言模型。WordPress推出AI工具Telex简化网站构建。Liquid AI发布LFM2-VL模型,提升手机视觉语言处理。苹果开源FastVLM与MobileCLIP2模型,优化边缘设备AI应用。MetaGPT推出自动化测试工具RealDevWorld,精准率达92%。瑞士发布开源大模型Apertus,提供多语言处理能力。

  • AI日报:海螺AI首尾帧功能上线;元石科技发布问小白5;OpenAI发布全新语音模型GPT-Realtime

    AI日报栏目每日提供人工智能领域热点内容,聚焦开发者,帮助洞悉技术趋势、了解创新AI产品应用。最新动态包括:MiniMax海螺AI首尾帧功能上线;元石科技发布问小白5挑战GPT-5;OpenAI推出语音模型GPT-Realtime;谷歌Gemini AI优化表格处理;腾讯黑科技实现AI配音;百度计划培养千万AI人才;MathGPT.ai反作弊功能推广;苹果Xcode集成Claude Sonnet4;微软发布自研AI模型MAI系列;xAI推出高效编码模型Grok Code Fast1;SuperCLUE多模态评测Gemini-2.5-Pro居首;9月1日起AI内容标识新规实施,违规将承担法律风险。

  • 中国UP主成为不了MrBeast

    影视飓风创始人Tim刚刚结束的“100小时荒岛直播挑战”,无疑是一次B站在这个夏天难得的现象级事件——B站累计超过四千万观众进入直播间,全平台总观看量超过两亿,弹幕数以百万计,甚至带动了直播带货的即时转化。 从数据到热搜,此次直播堪称完美演绎了“爆款”的逻辑。 质疑声同样随之而来:这场直播与其说是“荒岛生存”,不如说是“带电度假”;也评论认为,它

  • OpenAI的开源模型现已在IBM watsonx.ai上提供

    OpenAI发布两款开源AI模型GPT-OSS-120B和GPT-OSS-20B,允许开发者自由下载、运行和定制。其中120B模型已部署在IBM Watsonx.ai平台,采用专家混合架构,支持本地或云端部署,不受商业用途限制。模型具备高透明度,输出完整推理链,在多项基准测试中表现优异。此次发布标志着OpenAI首次加入开源生态,IBM强调其开放战略,为企业提供灵活、安全的AI开发选择。

  • 酒店对账熬到凌晨?用友BIP收入云8.0:4步搞定,效率翻 10 倍

    连锁酒店行业进入精细化运营阶段,面临收入管理难题:多平台数据分散、财务对账复杂、人工核算易错、数据滞后影响决策。用友BIP收入云8.0通过AI自动取数、对账、生单和智能分析,实现全流程自动化,提升60%效率,让营收可管、可算、可追,帮助酒店精准把控利润增长点。

  • 从1920TPS到2400TPS,华为云Tokens服务全面接入384超节点

    华为云在2025年8月27日宣布其Tokens服务全面接入CloudMatrix384超节点,通过xDeepServe架构创新,实现单芯片最高2400TPS吞吐量和50ms低延迟,性能超越业界水平。该服务基于MaaS模式,提供多种规格选择,支持大模型和AI工具,助力企业快速开发AI应用。同时,华为云与超100家伙伴合作,深入行业场景,共建智能生态,加速各行业AI落地。

  • B站要变成AI站

    互联网平台都在跟AI结合,B站没有成为例外。从新一季度财报来看,B站的AI味儿也越来越浓了。 8月21日,B站公布第二季度业绩,总营收达73.4亿元人民币,同比增长20%。其中,游戏业务收入为16.1亿元,同比增长60%,广告业务收入为24.5亿元,同比增长20%。由此推动B站毛利率从去年同期的29.9%提升至36.5%,调整后净利润达到5.6亿元,创下历史最好成绩。 从整体来看,B站生态集聚

  • 豆包1.5 Vision Lite 对比 GPT-5-min,谁更适合你?实测AI模型选型利器|AIBase

    文章探讨了企业选择AI大模型时面临的实际决策难题,指出单纯比较学术参数无法满足业务需求。AIBase模型对比平台(https://model.aibase.cn/compare)通过三大核心价值解决痛点:1)聚焦业务场景而非参数堆砌,突出价格、语言支持、上下文长度等实用维度;2)透明化成本计算,标注长文本溢价规则和多模态附加费;3)一键生成对比报告。平台特别强调中文场景的特殊性(如豆包1.5在中文处理成本的优势),并揭示厂商宣传中容易忽略的隐藏成本(如GPT-5-min超5000字符的30%溢价)。典型电商客服案例显示,需综合中文理解、多模态、性价比等维度决策,最终选择取决于具体业务需求而非绝对性能排名。

今日大家都在搜的词: