ChatGPT 还是谷歌 Gemini 更好？新 AI 模型尽管性能卓越但面临现实应用的挑战

2023-12-12 11:39 · 稿源：站长之家

站长之家(ChinaZ.com) 12 月 12 日消息:谷歌最近推出了一款名为 Gemini 的新型人工智能模型，并试图通过一份报告证明其优于 OpenAI 的 GPT-4。根据谷歌首席执行官 Sundar Pichai 联合撰写的一篇博客文章，Gemini 在 32 项学术基准测试中的 30 项中表现优于 GPT-4，包括数学、阅读、编程和推理测试。

谷歌大模型Gemini

尽管 Gemini 相较于今年年初谷歌的 AI 发展有了巨大提升，但在许多测试中仅以微弱优势领先 OpenAI 的模型，这让其自夸显得有些迫切。

真的有人会因为 Google 在代数技能评估中得分高出 0.3% 而从 ChatGPT 转向 Bard 吗？

这些测试成绩是否真的能促使用户从 ChatGPT 转向 Bard 还是个疑问。随着众多 AI 产品试图区分自己，比较点变得越来越抽象，以至于几乎毫无意义。例如，百度和 Meta 平台等科技巨头强调他们的大型语言模型拥有数十亿甚至数万亿的参数，而初创公司则夸耀其系统摄取了数以百万计的内容。

即便是领域专家对这类评估也持谨慎态度。OpenAI 研究员 Rowan Zellers 在社交网络 X 上发文称，对于目前十多个文本基准的信任程度并没有很好的判断。

Gemini 在实际应用中的表现比这些测试成绩更重要，用户迅速指出该系统仍容易出错，看起来并不比 OpenAI 的产品更好。谷歌自己在解释 Gemini 成绩对公众意味着什么时也遇到困难，最大」的模型">称该模型是其迄今为止「最灵活」、「最有能力」和「最大」的模型。

Gemini 有三个不同的版本——Ultra、Pro 和 Nano——甚至谷歌的 Bard 也难以识别。当用户询问聊天机器人有关新的 Gemini 模型时，它将其引向了各种名为 Gemini Pro 的产品，包括高光地板涂料、便携式 PA 系统和压花机。

过度的基准测试有点像 PC 时代的规格战争。数十年前，计算机制造商通过处理器速度和内存大小等技术指标来推广其硬件。苹果公司被认为是将焦点转移到展示产品如何改善日常生活的新颖特性上。当史蒂夫·乔布斯首次推出 iPod 时，其千兆字节存储空间不如「1，000 首歌在你口袋里」的承诺重要。

AI 公司的问题在于，由于他们的软件声称几乎可以做任何事情，因此很难确切地区分特定产品的特点。例如，埃隆·马斯克将 xAI 的 Grok 定位为 anti-woke 的替代品，而 X 公司 CEO Linda Yaccarino 称其为「终极挚友」（不管这意味着什么）。

谷歌最明确的差异化特征在于其 Bard 的「多模态」功能演示中展示，即用户可以通过文本输入之外的方式与机器交互。在一个示例中，Bard 看到了一张分叉道路的图片，路线通向一只鸭子或熊的涂鸦。当被问及路口另一只鸭子应该走哪个方向时，Bard 正确猜测最安全的路径是朝向同类。

但谷歌后来承认，该演示有些作假，基于尚未发布的 Gemini 版本。当用户在 Bard 上进行相同测试时，它奇怪地建议鸭子应该骑自行车向南行驶 100 英里到罗德岛州。另一方面，ChatGPT 则完美地回答了这个提示。

对于这个问题，谷歌需要更加努力才能获得及格分数。

（举报）

相关推荐

关键词：

荐实测Gemini 3 Pro - 此即未来。

经过238天等待，Gemini 3 Pro正式上线。在多项基准测试中表现惊人：Humanity's Last Exam测试达45.8%，Math Arena Apex获23.4分，ScreenSpot-Pro界面识别达72.7%。其前端代码能力尤为突出，仅用几十秒就能生成完整网页音乐播放器、像素画板，甚至成功复刻出可运行的Web OS系统。目前该模型在各大竞技场排行榜均位列第一，堪称2025年最具突破性的大模型。

Gemini3Pro 大模型竞技场数字生命卡兹克
谷歌发布Gemini 3 数学能力堪称全球最强

谷歌正式推出新一代推理模型Gemini 3.0 Pro，在各大评测榜单表现优异：LMArena竞技场以1501分登顶，数学基准测试达23.4%远超同行，编程能力稳居第一梯队，视觉理解准确率高达72.7%达现有水平两倍。该模型基于自研TPU训练，配套发布Agentic编程平台Antigravity，支持多步骤复杂流程自主执行（如智能整理收件箱）。目前通过Gemini应用、AI Studio及API向各类用户开放。

Gemini3.0Pro Google AI
跨境支付的未来：人工智能、嵌入式金融和即时结算

本文系统分析了人工智能、嵌入式金融与即时结算三大技术趋势如何重构跨境支付体系。人工智能通过智能填单、动态风控和预测性维护显著提升支付效率与安全性；嵌入式金融将支付功能无缝融入电商平台与供应链，实现“无跳转支付”；即时结算技术将跨境支付时间从数日缩短至秒级，并优化现金流。三大技术深度融合形成协同效应，推动跨境支付向更智能、高效、无缝�

全球支付生态数字化浪潮跨境支付体系
人工智能落地“最后一公里”，戴尔工作站助力AI应用提速

AI应用落地面临“最后一公里”部署难题：传统流程繁琐耗时，从模型开发到上线需数周。英特尔携手戴尔与零克云打造“工作站-AI PC-云端”协同生态，通过本地工作站进行小规模测试验证，降低试错成本与数据泄露风险，再通过“一键部署”快速扩展至云端规模化落地。这种“先本地验证、后云端放大”的路径显著提升开发效率，释放团队创造力，让有价值的AI想法快速照进现实。

AI部署模型上线服务器配置
品牌AI搜索监控实战手册:你的企业在ChatGPT眼中是什么样子?

某互联网大厂品牌总监分享：投入200万SEO使"企业级CRM"关键词在Google排名第一，但用户用ChatGPT询问"推荐适合中国企业的CRM系统"时，AI回答中根本没有该品牌。更值得警惕的是，竞品不仅被提及，还被AI用"性价比高""用户体验好"等正面词汇描述。这揭示2025年品牌营销最大盲区：企业不知道AI如何"看待"自身品牌。数据显示超40%年轻用户开始使用AI搜索作为主要信息渠道，而绝大多数企业对自己在AI平台的"形象"一无所知。文章提出GEO品牌监控概念，通过覆盖度、推荐强度、信息质量三个维度量化品牌在AI搜索中的影响力，并给出五步实施流程：建立监控基线、竞品对标分析、设置持续机制、深度洞察挖掘、数据驱动优化。通过真实案例说明，系统化GEO优化能在3个月内提升品牌提及率33个百分点，证明AI搜索时代的品牌竞争已从"被看见"升级为"被AI信任"。
荐AI日报：谷歌Gemini 3 Pro Preview模型上线；Cloudflare文件异常致全球宕机；百度Q3 AI收入96亿元

谷歌发布Gemini 3大模型及Antigravity AI开发平台，支持参数灵活调整；Cloudflare因配置异常致全球服务中断6小时；微软测试AI文件连接器，允许Claude直接读取本地文件；百度Q3 AI收入96亿元，萝卜快跑订单激增；小米AI眼镜新增直播与语音控制功能；TikTok推出AI内容推荐调节选项；微软将Copilot全面集成至Office应用；谷歌推出实时生成交互界面的Generative UI技术；Manus发布Browser Operator，将浏览器升级为全功能AI代理。

AI Gemini 3
新Siri或明年春季发布苹果公司或引入谷歌Gemini大模型 AI技术

苹果因自研大模型项目遇瓶颈，决定引入谷歌Gemini大模型升级Siri，计划每年支付约10亿美元获取定制化Gemini 2.5 Pro使用权。该模型拥有1.2万亿参数，将全面负责Siri的信息摘要、任务规划及复杂指令执行等核心功能，支持多模态交互和超长文本处理。升级版Siri预计2026年春季随iOS 26.4推送，后续将在WWDC大会展示进一步整合。苹果选择谷歌主要因成本优势、长期合作基础及Gemini领先性能。

苹果谷歌Gemini Siri升级
简知科技“简智AI大模型”通过国家生成式人工智能服务备案，助力兴趣教育迈向智能化新阶段

广州简知科技自主研发的“简智AI大模型”通过国家生成式人工智能服务备案，标志着该模型在安全性、合规性与可靠性方面达到国家级标准。作为兴趣教育领域AI应用的重要里程碑，该模型围绕用户兴趣成长周期设计，提供个性化学习支持：可为未明确兴趣方向的用户智能推荐内容，为入门用户规划学习路径，为基础扎实用户提供进阶训练与智能反馈。其技术能力在旗下“简小知”等品牌中已实现“学—练—评—测”全流程覆盖，并通过社群互动增强学习动力。公司未来将持续优化模型能力，联合行业伙伴构建完整培养体系，推动兴趣教育向个性化、高质量方向发展。

简智AI大模型生成式人工智能兴趣教育
荐AI日报：李飞飞Marble 3D世界模型公测；OpenAI首次推出ChatGPT群聊功能；百度发布多模态 AI助手超能小度

本期AI日报聚焦多项技术突破：World Labs推出Marble 3D模型，实现多模态生成可交互虚拟世界；OpenAI在韩新试点ChatGPT群聊功能，支持多人协作互动；苹果更新隐私政策，要求第三方AI调用需明示授权；百度发布多模态助手“超能小度”，支持空间感知与设备免费升级；LinkedIn推出AI人脉搜索，通过自然语言精准匹配专业人士；Cursor完成23亿美元融资，估值达293亿；Character AI与耶鲁合作实现音画同步技术Ovi；Google NotebookLM上线深度研究工具，支持多格式文件分析与知识库构建。

AI 3D虚拟世界多模态输入
共建·共智·共享--新一代AtomGit平台暨人工智能开源社区发布

10月28日，AtomGit平台在北京国家会议中心举行升级发布会，正式推出"开源+AI"一体化平台及人工智能开源社区。工信部副部长熊继军出席并致辞，强调建设AI开源社区对汇聚创新资源、把握科技革命机遇的重要意义。平台将整合开源模型、数据集及算力资源，打造开放中立的基础设施，计划于11月21日正式上线。华为、百度等企业代表分享了开源实践，多所高校签署了共建AI生态倡议。此举标志着我国开源生态迈向智能化时代的重要一步。

开源社区人工智能 AtomGit

今日大家都在搜的词：

热文

3 天
7天

ChatGPT 还是谷歌 Gemini 更好？新 AI 模型尽管性能卓越但面临现实应用的挑战

荐实测Gemini 3 Pro - 此即未来。

谷歌发布Gemini 3 数学能力堪称全球最强

跨境支付的未来：人工智能、嵌入式金融和即时结算

人工智能落地“最后一公里”，戴尔工作站助力AI应用提速

品牌AI搜索监控实战手册:你的企业在ChatGPT眼中是什么样子?

荐AI日报：谷歌Gemini 3 Pro Preview模型上线；Cloudflare文件异常致全球宕机；百度Q3 AI收入96亿元

新Siri或明年春季发布苹果公司或引入谷歌Gemini大模型 AI技术

简知科技“简智AI大模型”通过国家生成式人工智能服务备案，助力兴趣教育迈向智能化新阶段

荐AI日报：李飞飞Marble 3D世界模型公测；OpenAI首次推出ChatGPT群聊功能；百度发布多模态 AI助手超能小度

共建·共智·共享--新一代AtomGit平台暨人工智能开源社区发布

今日大家都在搜的词：

热文

华为Mate X7外观公布搭载全新折叠玄武架构

AI日报：xAI推出Grok 4.1；OceanBase发布首款AI数据库seekdb；

董明珠再回应玫瑰空调：创新尝试打造家电艺术品

华为Mate X7今日开启预订搭载第二代红枫影像等配置

苹果回应iPhone17PM被湿巾擦掉色：高浓度酒精或是诱因

参与开发iPhoneAir设计师离职转投AI初创公司

AI日报：谷歌Gemini 3 Pro Preview模型上线；Cloudflare文件异

华为FreeBuds Pro 5悦彰耳机价格公布：1449元支持星闪音频

小米端到端辅助驾驶“Xiaomi HAD增强版”将于11月12日发布

小米AI眼镜推出1.4.16.0固件版本支持英语口语陪练

华为Mate 80系列已在华为商城开启预约

华为Mate 80 Pro Max外观公布：采用双圆环设计

华为Mate 80/Pro/Pro Max/RS开启预约：全系直屏设计

AI日报：阿里千问APP公测；Veo 3.1上线多图参考；超级小爱AI大

华为Mate X7外观公布搭载全新折叠玄武架构

阿里巴巴回应千问崩了：状态良好欢迎来问

AI日报：xAI推出Grok 4.1；OceanBase发布首款AI数据库seekdb；

荣耀500系列官宣将于11月24日发布

一加Ace 6T官宣将于本月发布：首发骁龙8 Gen5

小米超级小爱AI大模型推出随心修图功能

站长商机