首页 > 业界 > 关键词  > OpenAI最新资讯  > 正文

GPT-o1模型实测:“物化生”水平超人类博士? 推理能力碾压GPT-4o

2024-09-14 21:40 · 稿源: TechWeb.com.cn
<a href="//www.chinaz.com/tags/OpenAI.shtml" target="_blank"><span>OpenAI</span></a> 推出 o1 系列大模型,主打通用推理能力
来源:无

9月13日,OpenAI 宣布推出 o1 系列人工智能模型,旨在提升复杂推理能力


OpenAI o1 系列大模型

与前代模型相比,o1 擅长通用推理,在物理、信息学等领域表现优异。OpenAI CEO 奥特曼表示,这代表了人工智能领域的新范式:具备通用推理能力的人工智能。


目前,o1 系列仍处于早期阶段,不具备 ChatGPT 的某些功能,如联网搜索和文件上传。


尽管如此,o1 在竞赛数学、编码和科学等方面表现出色,在数学竞赛中甚至大幅领先 GPT-4o。


o1 采用 "思维链" 模式训练,提升逻辑推理能力。它在回答问题前会花费更长时间思考,注重推理结果的准确性,而不是输出速度。


以下是 o1 能力的简单测试:


推理测试:

"单词 strawberry 里面到底有几个 r"

GPT-4o 错误回答
o1 准确回答

"9.11 和 9.8 谁更大?"

GPT-4o 错误回答
o1 准确回答
小学奥数测试:

"1 元钱一瓶汽水,喝完后两个空瓶换一瓶汽水,问:你有 20 元钱,最多可以喝到几瓶汽水?"


o1 纠正自己的错误
竞赛类测试:

OpenAI 表示,o1 在物理、化学和生物等挑战性基准任务上的表现达到博士生水平,在数学和编码方面尤为出色。


o1 在 IMO 资格考试中的表现
o1 在 Codeforces 竞赛中的表现

在 2024 IOI 信息学奥赛题目中,经过微调的 o1 在每题尝试 50 次条件下获得 213 分,超过了大多数人类数学天才。


o1 在 IOI 竞赛中的表现

在 AIME 2023 数学竞赛题目测试中,o1 给出了正确的答案。


o1 在 AIME 2023 竞赛中的表现
官方给出的正确答案
代码能力测试:

o1 可以通过提供代码实现俄罗斯方块小游戏。


o1 实现俄罗斯方块小游戏
俄罗斯方块小游戏运行
总结:

o1 系列大模型的亮点在于显著提升的逻辑推理能力,可以给出正确的解题思路,接近人类的思维过程。它在数学领域表现突出。


然而,它在特定领域的精确度和应对复杂对话方面仍需改进。在重推理的领域,o1 更加适合,而在自然语言任务中,GPT-4o 更具优势。


举报

  • 相关推荐
  • 迎“人工智能+”政策东风!2025中国智能产业大会&吴文俊人工智能创新大会即将落地常州

    在全球AI竞争加剧背景下,国务院印发《关于深入实施“人工智能+”行动的意见》,推动AI与经济社会深度融合。中国人工智能学会主办的“2025第十四届中国智能产业大会暨吴文俊人工智能创新大会”将于8月30-31日在常州举行,聚焦破解AI产业“卡脖子”难题。大会设置15场专题会议和3场特色活动,覆盖基础技术突破、核心应用落地、交叉学科融合等领域,为产学研各界搭建高

  • 微算法科技(NASDAQ:MLGO)基于人工智能优化构建混合ARIMA模型,提高比特币价格预测准确性

    随着数字资产市场兴起,比特币等加密货币价格预测成为焦点。传统模型难以准确捕捉其非线性波动,微算法科技引入AI技术优化ARIMA模型,结合LSTM网络构建混合模型,提升预测准确性。通过AI算法自动处理数据缺失、异常值检测及参数优化,实现更可靠的比特币价格预测,为投资者提供决策支持。

  • 全球首款2K直屏+天玑9500旗舰!iQOO Neo11系列入网

    今天,iQOO Neo11系列获得入网许可,型号为V2520A,该系列将在今年Q4正式亮相。 博主数码闲聊站爆料,iQOO Neo11系列包含两款,标准版搭载高通骁龙8 Elite,Pro版搭载联发科天玑9500,全系采用2K国产屏 金属中框 超声波指纹 百瓦闪充大电池。

  • AI日报:海螺AI首尾帧功能上线;元石科技发布问小白5;OpenAI发布全新语音模型GPT-Realtime

    AI日报栏目每日提供人工智能领域热点内容,聚焦开发者,帮助洞悉技术趋势、了解创新AI产品应用。最新动态包括:MiniMax海螺AI首尾帧功能上线;元石科技发布问小白5挑战GPT-5;OpenAI推出语音模型GPT-Realtime;谷歌Gemini AI优化表格处理;腾讯黑科技实现AI配音;百度计划培养千万AI人才;MathGPT.ai反作弊功能推广;苹果Xcode集成Claude Sonnet4;微软发布自研AI模型MAI系列;xAI推出高效编码模型Grok Code Fast1;SuperCLUE多模态评测Gemini-2.5-Pro居首;9月1日起AI内容标识新规实施,违规将承担法律风险。

  • 健合旗下Swisse PLUS携手TEDx举办抗衰沙龙,发布NAD+新生瓶系列

    《全球抗衰老市场研究报告》显示,2024年全球抗衰老产品市场规模达2662亿美元。高端消费群体需求从粗放式营养补充转向精准干预,推动行业向细胞级解决方案升级。Swisse PLUS与TEDx合作举办主题沙龙,发布NAD+新生瓶系列,汇聚专家学者探讨细胞抗衰科学路径,倡导建立个人健康管理系统,实现精准抗衰与主动健康管理。

  • OpenAI的开源模型现已在IBM watsonx.ai上提供

    OpenAI发布两款开源AI模型GPT-OSS-120B和GPT-OSS-20B,允许开发者自由下载、运行和定制。其中120B模型已部署在IBM Watsonx.ai平台,采用专家混合架构,支持本地或云端部署,不受商业用途限制。模型具备高透明度,输出完整推理链,在多项基准测试中表现优异。此次发布标志着OpenAI首次加入开源生态,IBM强调其开放战略,为企业提供灵活、安全的AI开发选择。

  • 海尔冰箱H1:一个麦浪系列抵一个企业

    2025年上半年冰箱市场竞争加剧,进入“降维比拼”新阶段。海尔冰箱份额达46.4%,实现份额与增量双第一。其麦浪系列表现突出,单系列线下份额达3%,实现“一个系列抵一个企业”。产品成功得益于成熟的用户共创机制与全流程数字化,通过AI分析用户需求精准迭代。海尔全空间保鲜冰箱扩大品类优势,单品类份额连续三年两位数增长,达20.13%,超过行业TOP2品牌整体份额。竞争维度提升推动行业高质量发展与用户体验升级,但其他品牌需直面增长空间受限的挑战。

  • 北电数智亮相世界人工智能大会,“四链融合”推动AI产业落地

    2025世界人工智能大会“人工智能+”战略领军人才与创新发展论坛圆满落幕。论坛聚焦“人才领航智启未来”主题,汇聚中科院、社科院专家及中国联通、腾讯云等机构代表,围绕“人工智能+”行动分享经验,为AI高质量发展筑牢人才根基、激发创新动能。北电数智CMO杨震出席并发表演讲,分享AI行业落地实践,强调紧跟国家战略,推进产业、创新、人才、资本四链融合,打造面向不同场景的AI解决方案,全方位助力AI产业发展。

  • 海尔冰箱唯一获批“制冷家电人工智能技术山东省工程研究中心”

    海尔冰箱在人工智能领域取得新突破,主导建设的"制冷家电人工智能技术山东省工程研究中心"成为2025年山东省工程研究中心认定名单中唯一入选的冰箱品牌。该中心聚焦人工智能、物联网、大数据等技术方向,开发了全空间智慧保鲜舱冰箱等140多项行业首创产品,近三年获授权发明专利803件。海尔冰箱还推出行业首款接入DeepSeek的AI全空间保鲜冰箱,具备方言识别、降噪技术等功能,显著提升用户体验。市场数据显示,2023年1-7月海尔冰箱以47%市场份额稳居行业第一。通过AI技术赋能,海尔冰箱正引领行业向精准、智能保鲜时代跨越。

  • 一个系列抵一个企业!海尔麦浪冰箱上新后预售1台/分钟

    海尔冰箱连续17年全球销量第一,2025年上半年业绩亮眼:国内线下份额达46.4%,同比增长2.3个百分点;海外市场在东南亚、欧洲高端市场及意大利、西班牙等国均实现份额或增速第一。麦浪系列单产品表现突出,新品预售突破9000台,平均每分钟售出1台。成功背后是“用户共创”研发模式的有效支撑,产品迭代基于用户反馈,实现保鲜科技、美学设计及空间布局创新。数字化转型覆盖研发、生产、物流全流程,提升效率与产能,确保产品快速送达用户。

今日大家都在搜的词: