首页 > AI头条  > 正文

Reddit用户实测:GTP-4o在国际象棋上击败Gemini 1.5 pro

2024-08-08 09:18 · 来源: AIbase基地

最近,Reddit用户用户@zefman进行了一项有趣的实验,搭建了一个平台,让不同的语言模型(LLM)实时对战国际象棋,目的是用户有趣且轻松的方式来评估这些模型的表现。

image.png

众所周知,这些模型在下棋方面并不出色,但即使如此,他觉得这个实验中还是能从中发现一些值得关注的亮点。

在这个实验中,@zefman特别关注了几款最新的模型,其中 GPT-4o 的表现最为突出,毫无疑问成为了最强的选手。与此同时,@zefman也将它与 Claude、Gemini 等其他模型进行了对比,观察它们的表现差异,发现每个模型的思考和推理过程都非常有趣。通过这个平台,大家可以看到每一步的决策背后,模型是如何分析棋局的。

@zefman设计的棋局展示方式相当简单,每个模型在面临同样的棋盘状态时,会给出相同的提示,包括当前的棋局状态、FEN(棋局表示法)以及它们之前的两步走法。这种方法确保了每个模型的决策是基于相同的信息,以便更公平地进行比较。

每个模型都使用完全相同的提示,该提示会随着 ASCI、FEN 中的电路板状态以及它们前两次的移动和思考而更新。下面是一个示例:

image.png

此外,@zefman还注意到,在某些情况下,尤其是对于一些性能较弱的模型,它们可能会多次选择错误的走法。为了解决这个问题,他给这些模型提供了5次重新选择的机会,如果它们依然无法选出有效的走法,就会随机选择一个有效的走法,这样可以保持游戏的进行。

他得出的结论是:GTP-4o仍是最强者, 在国际象棋上击败 Gemini1.5pro。

划重点:

🌟 GPT-4o 表现出色,成为实验中最强的语言模型。

♟️ 实验允许不同模型实时对弈,分析其思考过程。

🔄 性能较弱模型有时会选择错误的走法,提供了有趣的互动体验。

  • 相关推荐
  • 全球优质AI语音大模型盘点:Whisper、Gemini Speech

    本文分析了当前主流AI语音大模型的核心优势与应用场景。全球顶尖模型包括:OpenAI Whisper(多语言识别与翻译)、Google Gemini(情感化语音生成)、Meta AudioCraft(音乐创作与风格转换)。国内讯飞星火(方言识别)、阿里通义(电商客服)、百度文心(车载场景)表现突出。技术突破点在于云端协同架构、零样本克隆和情感语音合成。选择模型需考虑语言支持、场景适配、部署

  • 王腾:REDMI Turbo 4 Pro非常成功 很多友商都在关注

    REDMI总经理王腾发文表示,REDMI上半年发布的Turbo 4 Pro非常成功,受到了广大用户的喜爱,也收到了很多友商的关注。 据悉,REDMI Turbo 4 Pro于4月份发布,首发起售价是1999元,该机上市不到一个月累计销量突破100万台,成为行业内最火的Turbo手机。 随着REDMI Turbo系列的热销,各大品牌纷纷推出Turbo系列手机,主打高性能,对此王腾表示,领先的一种体现就是被模仿,说明REDMI这几�

  • A日报:Kimi开放平台上线Kimi Playground;OpenAI重磅发布ChatGPT Agent;Suno推人声替换功能

    【AI日报】汇总了近期AI领域重要进展:1)月之暗面推出Kimi Playground平台,实现从对话助手到智能助理的转变;2)OpenAI发布ChatGPT Agent,支持自主执行浏览、购物等任务;3)Suno发布v4.5+版本,新增人声替换等音乐创作功能;4)谷歌Veo3视频生成模型上线,支持文本转视频;5)全球首个直播流扩散模型MirageLSD发布,实现实时视频转换;6)VSCode编程助手Traycer提升大型代码库处理效率;7)ART框架支持Python一键训练AI Agent;8)NVIDIA语音识别模型Canary-Qwen-2.5B词错率创新低;9)Mistral AI推出Le Chat挑战ChatGPT;10)百度小度上线首个支持物理交互的MCP Server;11)Lightricks的LTXV模型实现60秒高质量视频生成;12)开源模型LTX-Video13B支持30倍速高清视频生成。

  • 华为 MatePad Pro 12.2 英寸 2025 官宣 7 月 24 日发布

    华为将于7月24日发布三款平板新品:旗舰款MatePad Pro 12.2英寸配备全新PaperMatte显示屏,采用Tandem OLED技术,功耗降低30%,支持144Hz刷新率、2000尼特峰值亮度,搭载麒麟9020A处理器,内置10100mAh电池和100W快充;MatePad 11.5 2025采用11.5英寸LCD屏,搭载麒麟8020处理器;MatePad Air 12 2025配备12英寸LCD屏,预计搭载麒麟9系新处理器。三款产品均主打高性能和长续航,满足不同用户需求。

  • Mistplay发布iPhone版手游忠诚度应用及LoyaltyPlay变现方案

    2025年7月15日,全球手游忠诚度应用Mistplay在成立十周年之际推出两款新产品:iPhone版应用和变现方案LoyaltyPlay。Mistplay通过"玩赚"模式连接玩家与发行商,安卓版已覆盖全球九大市场,拥有数百万活跃用户。新产品将为中国开发者提供全新获客渠道和变现途径,同时通过AI引擎"Helios"和实时运营系统提升用户体验。公司持续投资亚太市场,帮助本地开发者拓展全球业务。iPhone版已上线美加应用商店,未来将扩展至更多地区。

  • AI日报:xAI 震撼发布Grok4;微软开源全新Phi-4-mini版本;上海累计82款大模型通过备案

    AI日报栏目聚焦人工智能领域最新动态:1)xAI发布旗舰模型Grok4,在数学推理和代码生成表现突出,同时推出开发者专用Grok4Code;2)微软开源Phi-4-mini模型,推理效率提升10倍,适合边缘设备;3)上海82款大模型完成备案,垂直领域应用取得突破;4)Hugging Face推出开源桌面机器人Reachy Mini,支持Python编程;5)Perplexity发布AI浏览器Comet挑战Chrome;6)OpenAI将首次发布开放权重模型,打破闭源惯例;7)谷歌医疗AI模型MedGemma系列上新,单个GPU即可运行;8)OpenAI以约65亿美元收购AI硬件公司io Products,正式进军硬件市场。

  • 美女产品经理实测OPPO K13 Turbo吹蜡烛:火焰瞬间被吹灭

    今天下午,OPPO K13 Turbo系列正式亮相,该机首发搭载史上最强手机风冷散热技术OPPO疾风散热引擎。 为了验证OPPO K13 Turbo系列的强大风量,OPPO产品经理鳃鳃现场测试手机吹蜡烛。 经实测,友商同类型产品风量少,没有吹灭蜡烛,但是K13 Turbo系列凭借超大风量,可以轻松吹灭一排蜡烛,领先行业。

  • 绘王发布新款蓝牙单手键盘Keydial Remote K40

    7月15日,绘王推出专为ACG创作者设计的单手键盘Keydial+Remote K40。该产品仅152×56×13.5mm大小,配备8个自定义按键和2个切换键,采用U型布局。支持6组软件专属快捷键设置,创新双编码器采用内外圈嵌套设计,全键无冲。配备OLED屏实时显示键值/电量,蓝牙5.0支持PC/移动端双通道切换,约30小时续航满足多场景创作需求。

  • OpenAI发布ChatGPT Agent智能体:支持写代码、做PPT、分析金融

    OpenAI推出ChatGPT智能体,整合网页交互、数据搜索与多模态协作功能,可完成代码生成、PPT制作、金融分析等复杂任务。该智能体融合Operator的网页自动化操作、Deep Research的数据分析能力及优化后的GPT-4对话引擎三大核心模块。目前面向付费用户开放,Pro版近乎无限使用,其他版本每月限50次任务。OpenAI承认其仍存在金融建模需人工验证、非英语文本解析准确率低等技术局限,并

  • 玄戒O1专属!小米15S Pro上线芯片性能面板:可手动调节频率、电压

    据小米社区用户反馈,目前小米15S Pro上线了芯片性能面板的内测,可以手动调节处理的频率、电压。 目前只有小米15S Pro手机支持,应该是玄戒O1的专属功能,这也是自研芯片带来的好处之一,可以完全自己控制。 其实这个功能早在4月份就被开发者从代码中发现,这个功能可以说是重回初心了,让发烧友们能够有更多玩法。

今日大家都在搜的词: