研究揭示：谷歌Gemini Pro在基准测试中落后于免费ChatGPT

2023-12-22 12:00 · 稿源：站长之家

**划重点:**
1. 📉 卡内基梅隆大学研究指出，Gemini Pro在基准测试中不如GPT-3.5，远远落后于GPT-4。
2. 🔄 与谷歌在Gemini发布会上提供的信息相矛盾，强调了中立基准测试机构或流程的必要性。
3. 🧐 研究发现Gemini Pro在数学推理和多选题方面表现不佳，对自身基准的依赖不足以可靠衡量语言模型性能。

站长之家(ChinaZ.com) 12月22日消息:根据卡内基梅隆大学的最新研究报告，谷歌最新推出的大型语言模型Gemini Pro在基准测试中未能达到预期水平，不仅落后于GPT-3.5，还远远不及GPT-4。

Gemini Pro的研究结果与谷歌在Gemini发布会上所提供的信息相矛盾，凸显了对中立基准测试机构或流程的迫切需求。Gemini团队声称即将推出的"Ultra"版本将在各种任务上超越GPT-4，但谷歌已经对Ultra的基准结果进行了操纵。

Bard，Gemini Pro，Google DeepMind，人工智能，AI

尽管谷歌声称Gemini Pro在性能上可与或优于OpenAI的GPT-3.5，但卡内基梅隆大学的研究显示，在研究时Gemini Pro在所有基准测试中都不如OpenAI的GPT-3.5Turbo。

研究还发现，Gemini Pro在基本数学推理方面表现不佳，这是形式逻辑和初等数学任务所需的能力。在主题类别方面，Gemini Pro只在安全研究和高中微观经济学方面优于GPT-3.5，而在其他所有类别中都落后。

一些基准测试差异可能是由于谷歌的保护机制导致模型在MMLU评估中无法回答一些问题。然而，研究人员还发现，Gemini Pro在多选题、大数字数学推理、任务提前终止以及侵略性内容过滤导致的失败响应方面表现不佳。

Gemini Pro模型的准确性与GPT3.5Turbo相当，但略逊一筹，并且远不如GPT-4。然而，在某些长而复杂的推理任务中，Gemini表现优于GPT3.5Turbo，并在无过滤响应的多语境任务中表现出色。

这项研究也可能是GPT-4Turbo的第一个MMLU基准测试。根据这个基准测试，最新的OpenAI模型在重要的语言理解基准测试中明显落后于原始的GPT-4。尽管有这些结果，GPT-4Turbo目前在聊天机器人领域评分最高，显示基准测试的价值有限。

这一研究结果强调了仅仅依赖大公司自我报告的基准测试并不是衡量巨型语言模型性能的可靠手段。同时，它也表明，尽管谷歌竭尽全力，但其在追赶OpenAI方面仍然表现不佳，对整个AI行业而言并非好消息。

（举报）

相关推荐

关键词：

荐AI日报：苹果明年推出SiriAI搜索；OpenAI放开ChatGPT Projects功能；Kimi K2-0905 上线 Discord

本文汇总了AI领域最新动态：苹果与谷歌合作，计划在Siri中引入Gemini AI技术；OpenAI向免费用户开放Projects功能，提升任务管理效率；谷歌推出免费Gemini CLI工具，集成GitHub提升开发效率；OpenAI估值飙升至5000亿美元，二级股票售出103亿美元；苹果自研AI搜索引擎“世界知识问答”计划2026年上线；月之暗面发布Kimi K2-0905模型，提升编程与创意写作能力；Raycast推出Cursor Agent插件优化代码编辑；谷歌发布nano banana官方Prompt模板，助力创意设计。

AI Siri Gemini
荐AI日报：快手推出AI视频制作助手Kwali；字节跳动推出USO模型；OpenAI推出ChatGPT开发者模式

本文介绍了AI日报栏目，聚焦AI领域最新动态。快手推出Kwali视频助手，简化视频制作流程；字节跳动发布USO模型，解决图像生成中风格与主题的矛盾；微软推出Copilot Audio音频模式，提供个性化语音交互；Stability AI升级Stable Audio 2.5，支持高质量音频生成；阿联酋推出开源大模型K2 Think，拥有320亿参数；微信上线智能回复功能，提升公众号运营效率；OpenAI推出ChatGPT开发者模式，支持AI控制外部工具；字节跳动Seed团队发布AgentGym-RL框架，提升语言模型决策能力；月之暗面开源Checkpoint Engine中间件，优化LLM推理效率；B站开源IndexTTS-2.0文本转语音系统，支持情感与时长控制；Replit推出Agent 3编程助手，自主性提升10倍。

AI视频制作快手Kwali 多Agent框架
荐小平板元年，华为MatePad Mini创出一片蓝海

2012年，天才乔布斯去世一年后，接任苹果CEO的库克捧出了两款“很不乔布斯”的产品——大屏手机iPhone6和7英寸的iPad mini。这两款差异化的产品形态，都是库克希望弥补的市场空白。比如，虽然乔布斯认为10英寸就是平板电脑尺寸的下限，更小的屏幕会让用户难以操控。但库克却觉得，小尺寸平板不仅在硬件配置上超越手机，它还具备易于携带的特点，将成为移动办公的利器�

小尺寸平板移动办公
比iPad mini更胜一筹！华为MatePad Mini包装盒曝光：8.8寸屏的手机或卖4K起

明天除了Mate XTs亮相外，还有MatePad Mini，而它到底算是平板还是手机呢？现在有博主晒出了MatePad Mini外包装盒，从产品名称上看，华为给它定位是手机（数字移动电话机）。对于这款新机，今天我们也报道了相关内容，比如曝光的价格是：12GB 256GB售价为3999元；12GB 512GB售价为4499元；12GB 512GB柔光版售价为4999元。

华为MatePad Mini 平板手机
iPad mini对比完败！华为MatePad Mini明天发布价格曝光或3999元起

明天华为要举行新品发布会，除了新的三折叠屏手机外，还有MatePad Mini。现在，有博主曝光了华为MatePad Mini不同内存版本的价格，具体来说：12GB 256GB售价为3999元；12GB 512GB售价为4499元；12GB 512GB柔光版售价为4999元。汇总之前曝光的消息，华为MatePad Mini将推出多个版本，包括标准版、柔光版（配备防眩光屏幕，适合手写笔创作）、插卡版（支持5G网络和通话功能）、read版”（�

华为MatePad Mini 三折叠屏手机
华为MatePad mini今日首销：3299元起

今日上午10:08，华为年度旗舰平板MatePad Mini正式开启首销，起售价定为3299元。这款被誉为“大手机小平板”的8.8英寸设备，凭借其独特定位与全能配置，成为今年平板市场中最受瞩目的新品之一。 MatePad Mini的最大亮点在于其突破性支持5G插卡功能，并内置听筒可实现通话，官方在发布会上直言其“手机平板二合一”的跨界属性。整机厚度仅5.1毫米，重量仅255克，轻薄设计便于

华为MatePad Mini 平板电脑
8.8英寸“大手机”！华为MatePad mini全系支持插卡

在三折叠登场厚，华为小尺寸平板MatePad mini正式登场。之前官方在预热时候就表示小平板大手机”，发布会上何刚终于揭晓其特性全系支持插卡。甚至华为还为MatePad mini配备了听筒结构，8.8英寸超窄边框的设计，可以一手掌握，轻松接打电话。

华为MatePad mini 三折叠平板
荐AI日报：MiniMax Music 1.5上线；腾讯会议上线AI托管；蚂蚁外滩大会发布AI眼镜可信连接技术框架gPass

本文介绍了AI领域的最新动态：MiniMax推出Music 1.5模型，支持4分钟高质量音乐生成；腾讯会议AI托管功能提供会议分身服务；蚂蚁集团发布AI眼镜连接框架gPass；Anthropic为Claude新增自动记忆聊天功能；苹果AI功能在欧盟受限；AI首次担任职业球队教练获胜；谷歌推出离线AI应用Edge Gallery；企业应用AI成熟度模型发布；Claude新增网页与PDF抓取功能；FTC启动对AI聊天机器人安全性的调查。

AI音乐 MiniMax 音乐生成
轻巧新境界，智慧随心至——华为MatePad Mini 8.8英寸正式发布

华为于2025年9月4日发布全新HUAWEI MatePad Mini平板，主打8.8英寸轻薄设计，仅重255g、厚5.1mm。搭载鸿蒙5.1系统，支持插卡通话和蜂窝网络，配备柔性OLED全面屏，峰值亮度达1800nits。内置6400mAh电池，支持66W快充。提供办公、阅读、创作等多场景体验，售价3999元起，9月12日正式开售。

华为MatePad Mini 小尺寸平板
华为MatePad mini亮相：8.8英寸一手掌握 5.1mm超薄

在今天下午的华为新品发布会上，华为MatePad mini惊艳亮相。这款平板最直观的优势便是极致的便携性。它配备一块8.8英寸的屏幕，尺寸恰到好处，能轻松被用户一手掌握。机身四款配色：曜石黑、雪域白、云杉绿、寰宇红。更令人惊喜的是其轻薄程度，机身厚度仅为5.1mm，重量仅255g，让它拿在手中几乎没有负重感，能轻松放入各种尺寸的包袋。为实现如此轻薄的机身，华�

华为MatePad mini 极致便携性

今日大家都在搜的词：

热文

3 天
7天

研究揭示：谷歌Gemini Pro在基准测试中落后于免费ChatGPT

荐AI日报：苹果明年推出SiriAI搜索；OpenAI放开ChatGPT Projects功能；Kimi K2-0905 上线 Discord

荐AI日报：快手推出AI视频制作助手Kwali；字节跳动推出USO模型；OpenAI推出ChatGPT开发者模式

荐小平板元年，华为MatePad Mini创出一片蓝海

比iPad mini更胜一筹！华为MatePad Mini包装盒曝光：8.8寸屏的手机或卖4K起

iPad mini对比完败！华为MatePad Mini明天发布价格曝光或3999元起

华为MatePad mini今日首销：3299元起

8.8英寸“大手机”！华为MatePad mini全系支持插卡

荐AI日报：MiniMax Music 1.5上线；腾讯会议上线AI托管；蚂蚁外滩大会发布AI眼镜可信连接技术框架gPass

轻巧新境界，智慧随心至——华为MatePad Mini 8.8英寸正式发布

华为MatePad mini亮相：8.8英寸一手掌握 5.1mm超薄

今日大家都在搜的词：

热文

上市没几天iPhone 17已跌破发售价部分机型降幅高达千元

小米17 Pro Max官宣雷军：全面对标iPhone 正面迎战

小米16改名小米17 本月发布：现已上架开启预约

小米17 Pro系列外观公布：搭载“妙享背屏”

小米手机官博头像上热搜：泄密17 Pro系列或配备背屏

AI日报：小红书发布对话合成模型 FireRedTTS-2；百度文心新模型

小米17官宣本月发布卢伟冰称有信心直面iPhone17

尚界H5小订突破10万台预售16.98万起

魅族22今日发布：小屏影像旗舰、行业唯一白面板

西贝致歉上热搜：启动全国门店透明化改造

上市没几天iPhone 17已跌破发售价部分机型降幅高达千元

华为MatePad mini今日首销：3299元起

罗永浩悬赏10万征集西贝预制菜线索还送iPhone17

小米17 Pro Max官宣雷军：全面对标iPhone 正面迎战

小米16改名小米17 本月发布：现已上架开启预约

小米17 Pro系列外观公布：搭载“妙享背屏”

华为Mate XTs三折叠今天首销：售价17999元起

小米手机官博头像上热搜：泄密17 Pro系列或配备背屏

AI日报：小红书发布对话合成模型 FireRedTTS-2；百度文心新模型

AI日报：MiniMax Music 1.5上线；腾讯会议上线AI托管；蚂蚁外滩

站长商机

​ 研究揭示：谷歌Gemini Pro在基准测试中落后于免费ChatGPT

今日大家都在搜的词：

热文

站长商机

研究揭示：谷歌Gemini Pro在基准测试中落后于免费ChatGPT