首页 > 业界 > 关键词  > Gemini最新资讯  > 正文

ChatGPT 还是谷歌 Gemini 更好?新 AI 模型尽管性能卓越但面临现实应用的挑战

2023-12-12 11:39 · 稿源:站长之家

站长之家(ChinaZ.com) 12 月 12 日消息:谷歌最近推出了一款名为 Gemini 的新型人工智能模型,并试图通过一份报告证明其优于 OpenAI 的 GPT-4。根据谷歌首席执行官 Sundar Pichai 联合撰写的一篇博客文章,Gemini 在 32 项学术基准测试中的 30 项中表现优于 GPT-4,包括数学、阅读、编程和推理测试。

谷歌大模型Gemini

尽管 Gemini 相较于今年年初谷歌的 AI 发展有了巨大提升,但在许多测试中仅以微弱优势领先 OpenAI 的模型,这让其自夸显得有些迫切。

真的有人会因为 Google 在代数技能评估中得分高出 0.3% 而从 ChatGPT 转向 Bard 吗?

这些测试成绩是否真的能促使用户从 ChatGPT 转向 Bard 还是个疑问。随着众多 AI 产品试图区分自己,比较点变得越来越抽象,以至于几乎毫无意义。例如,百度和 Meta 平台等科技巨头强调他们的大型语言模型拥有数十亿甚至数万亿的参数,而初创公司则夸耀其系统摄取了数以百万计的内容。

即便是领域专家对这类评估也持谨慎态度。OpenAI 研究员 Rowan Zellers 在社交网络 X 上发文称,对于目前十多个文本基准的信任程度并没有很好的判断。

Gemini 在实际应用中的表现比这些测试成绩更重要,用户迅速指出该系统仍容易出错,看起来并不比 OpenAI 的产品更好。谷歌自己在解释 Gemini 成绩对公众意味着什么时也遇到困难,最大」的模型">称该模型是其迄今为止「最灵活」、「最有能力」和「最大」的模型

Gemini 有三个不同的版本——Ultra、Pro 和 Nano——甚至谷歌的 Bard 也难以识别。当用户询问聊天机器人有关新的 Gemini 模型时,它将其引向了各种名为 Gemini Pro 的产品,包括高光地板涂料、便携式 PA 系统和压花机。

过度的基准测试有点像 PC 时代的规格战争。数十年前,计算机制造商通过处理器速度和内存大小等技术指标来推广其硬件。苹果公司被认为是将焦点转移到展示产品如何改善日常生活的新颖特性上。当史蒂夫·乔布斯首次推出 iPod 时,其千兆字节存储空间不如「1,000 首歌在你口袋里」的承诺重要

AI 公司的问题在于,由于他们的软件声称几乎可以做任何事情,因此很难确切地区分特定产品的特点。例如,埃隆·马斯克将 xAI 的 Grok 定位为 anti-woke 的替代品,而 X 公司 CEO Linda Yaccarino 称其为「终极挚友」(不管这意味着什么)。

谷歌最明确的差异化特征在于其 Bard 的「多模态」功能演示中展示,即用户可以通过文本输入之外的方式与机器交互。在一个示例中,Bard 看到了一张分叉道路的图片,路线通向一只鸭子或熊的涂鸦。当被问及路口另一只鸭子应该走哪个方向时,Bard 正确猜测最安全的路径是朝向同类。

但谷歌后来承认,该演示有些作假,基于尚未发布的 Gemini 版本。当用户在 Bard 上进行相同测试时,它奇怪地建议鸭子应该骑自行车向南行驶 100 英里到罗德岛州。另一方面,ChatGPT 则完美地回答了这个提示。

对于这个问题,谷歌需要更加努力才能获得及格分数。

举报

  • 相关推荐
  • 政策引领人工智能教育全面启动,猿力科技人工智能通识课覆盖千校

    国务院推动“人工智能+”行动,北京中小学新学期首次系统开设人工智能通识课程,每学年不少于8课时。猿力科技旗下飞象星球成为重要推动力量,其课程覆盖小学至初中全学段,包含10门课程、160节课,实践导向突出。该课程已服务北京298所学校、9.8万名学生,并推广至全国25个省市超1000所学校,覆盖15万学生,成为国内覆盖最广的人工智能通识课程之一。

  • 深入实施“人工智能+”,伊顿助力皓扬数据打造 AI 算力中心标杆

    近日,备受瞩目的《关于深入实施“人工智能+”行动的意见》正式发布,提出六大行动覆盖科技、产业、全球合作等领域。到2030年,新一代智能终端、智能体等应用普及率超90%,为数字基础设施建设勾勒出了宏大版图。北京皓扬云数据科技有限公司(以下简称:皓扬数据)作为国内 AI 算力中心开拓先锋,以覆盖全国的超大规模交付能力服务于数百家头部企业。两位创始人已在�

  • 三旺通信入选大湾区人工智能+重点企业榜单TOP50

    8月27日,三旺通信在2025深圳国际通用人工智能大会上荣登“2025粤港澳大湾区人工智能+重点企业TOP50”榜单。该公司深耕工业互联领域二十余年,凭借在工业通信、边缘计算等领域的技术积累,积极布局AI应用,将人工智能能力融入智能制造、智慧交通等重点场景,推动产业实现更高效、更安全的数字化升级。未来,三旺通信将继续依托深圳及大湾区创新沃土,以开放姿态拥抱AI产业生态,携手产业链上下游共同推动人工智能与工业互联网的深度融合。

  • AI日报:苹果明年推出SiriAI搜索;OpenAI放开ChatGPT Projects功能;Kimi K2-0905 上线 Discord

    本文汇总了AI领域最新动态:苹果与谷歌合作,计划在Siri中引入Gemini AI技术;OpenAI向免费用户开放Projects功能,提升任务管理效率;谷歌推出免费Gemini CLI工具,集成GitHub提升开发效率;OpenAI估值飙升至5000亿美元,二级股票售出103亿美元;苹果自研AI搜索引擎“世界知识问答”计划2026年上线;月之暗面发布Kimi K2-0905模型,提升编程与创意写作能力;Raycast推出Cursor Agent插件优化代码编辑;谷歌发布nano banana官方Prompt模板,助力创意设计。

  • 迎“人工智能+”政策东风!2025中国智能产业大会&吴文俊人工智能创新大会即将落地常州

    在全球AI竞争加剧背景下,国务院印发《关于深入实施“人工智能+”行动的意见》,推动AI与经济社会深度融合。中国人工智能学会主办的“2025第十四届中国智能产业大会暨吴文俊人工智能创新大会”将于8月30-31日在常州举行,聚焦破解AI产业“卡脖子”难题。大会设置15场专题会议和3场特色活动,覆盖基础技术突破、核心应用落地、交叉学科融合等领域,为产学研各界搭建高

  • 自研遇阻!苹果考虑用谷歌Gemini升级Siri

    苹果正与谷歌就使用Gemini AI引擎为新一代Siri提供技术支持进行初步谈判,这一动向表明苹果可能进一步将人工智能能力外包,成为其AI战略的关键一步。 据知情人士透露,这家iPhone制造商近期已与Alphabet旗下谷歌接触,商讨合作构建一款定制化AI模型,以用于明年预计推出的新版本Siri。 谷歌目前已开始训练一款可在苹果服务器上运行的模型。苹果在生成式人工智能领域起步�

  • 当GPT-5遇上Gemini 2.5,谁更适合你的业务?这份对比报告说了算

    某跨境电商CTO复盘会上展示:GPT-5 Standard处理百万级商品描述时,费用比Gemini 2.5 Flash-Lite高35%,响应速度慢0.8秒。大模型选型面临参数迷雾、场景错配、隐藏成本三重困境。AIbase选型对比平台通过真实数据测试,提供透明价格拆解和性能雷达图,帮助规避预算陷阱。实测显示GPT-5在合同逻辑分析准确率高3.2%,而Gemini表格解析速度快40%、月总成本低26%。工具可动态追踪官方调价,生成定制化决策报告,用数据替代经验主义,提升技术选型效率。

  • 北电数智亮相世界人工智能大会,“四链融合”推动AI产业落地

    2025世界人工智能大会“人工智能+”战略领军人才与创新发展论坛圆满落幕。论坛聚焦“人才领航智启未来”主题,汇聚中科院、社科院专家及中国联通、腾讯云等机构代表,围绕“人工智能+”行动分享经验,为AI高质量发展筑牢人才根基、激发创新动能。北电数智CMO杨震出席并发表演讲,分享AI行业落地实践,强调紧跟国家战略,推进产业、创新、人才、资本四链融合,打造面向不同场景的AI解决方案,全方位助力AI产业发展。

  • Gemini 2.5 Flash-Lite与 DeepSeek-V3 深度对比:谁在性价比上更胜一筹?

    面对琳琅满目的大模型API,开发团队常陷入选择困境。文章指出,2024年既是机遇也是挑战的时代,闭源模型选择丰富但性能与成本平衡复杂。通过AIbase等数据驱动平台进行客观对比至关重要。以Gemini 2.5 Flash-Lite和DeepSeek-V3为例,前者综合能力强适合多语言场景,后者在代码生成和成本控制上优势明显。建议开发者明确需求,通过实际测试验证模型表现,理性选择最适合的方案。

  • 别再猜了!手把手教你用数据选择AI模型,我的Gemini 2.5 Flash-Lite vs DeepSeek选型心得

    开发者分享模型选择心路历程:从盲目试错到数据驱动。曾因追求低价模型导致成本飙升,后通过AIbase平台对比Gemini 2.5 Flash-Lite和DeepSeek-V3,基于价格、上下文长度和代码能力等数据,最终选择更适合代码生成任务的DeepSeek-V3。强调没有“最好”的模型,只有“最适合”的模型,建议开发者善用专业工具进行数据驱动决策,避免隐性成本。

今日大家都在搜的词: