首页 > 业界 > 关键词  > OpenAI最新资讯  > 正文

GPT-o1模型实测:“物化生”水平超人类博士? 推理能力碾压GPT-4o

2024-09-14 21:40 · 稿源: TechWeb.com.cn
<a href="//www.chinaz.com/tags/OpenAI.shtml" target="_blank"><span>OpenAI</span></a> 推出 o1 系列大模型,主打通用推理能力
来源:无

9月13日,OpenAI 宣布推出 o1 系列人工智能模型,旨在提升复杂推理能力


OpenAI o1 系列大模型

与前代模型相比,o1 擅长通用推理,在物理、信息学等领域表现优异。OpenAI CEO 奥特曼表示,这代表了人工智能领域的新范式:具备通用推理能力的人工智能。


目前,o1 系列仍处于早期阶段,不具备 ChatGPT 的某些功能,如联网搜索和文件上传。


尽管如此,o1 在竞赛数学、编码和科学等方面表现出色,在数学竞赛中甚至大幅领先 GPT-4o。


o1 采用 "思维链" 模式训练,提升逻辑推理能力。它在回答问题前会花费更长时间思考,注重推理结果的准确性,而不是输出速度。


以下是 o1 能力的简单测试:


推理测试:

"单词 strawberry 里面到底有几个 r"

GPT-4o 错误回答
o1 准确回答

"9.11 和 9.8 谁更大?"

GPT-4o 错误回答
o1 准确回答
小学奥数测试:

"1 元钱一瓶汽水,喝完后两个空瓶换一瓶汽水,问:你有 20 元钱,最多可以喝到几瓶汽水?"


o1 纠正自己的错误
竞赛类测试:

OpenAI 表示,o1 在物理、化学和生物等挑战性基准任务上的表现达到博士生水平,在数学和编码方面尤为出色。


o1 在 IMO 资格考试中的表现
o1 在 Codeforces 竞赛中的表现

在 2024 IOI 信息学奥赛题目中,经过微调的 o1 在每题尝试 50 次条件下获得 213 分,超过了大多数人类数学天才。


o1 在 IOI 竞赛中的表现

在 AIME 2023 数学竞赛题目测试中,o1 给出了正确的答案。


o1 在 AIME 2023 竞赛中的表现
官方给出的正确答案
代码能力测试:

o1 可以通过提供代码实现俄罗斯方块小游戏。


o1 实现俄罗斯方块小游戏
俄罗斯方块小游戏运行
总结:

o1 系列大模型的亮点在于显著提升的逻辑推理能力,可以给出正确的解题思路,接近人类的思维过程。它在数学领域表现突出。


然而,它在特定领域的精确度和应对复杂对话方面仍需改进。在重推理的领域,o1 更加适合,而在自然语言任务中,GPT-4o 更具优势。


举报

  • 相关推荐
  • 没想到玄戒O1做得这么好 雷军:定的量不够

    在小米人车家全生态发布会结束后,小米创办人雷军进行了会后分享。 雷军表示,做玄戒O1的时候,小米完全没有想到O1做的这么好,所以整个O1的芯片总量定的不够,规划了4款产品。 雷军还强调,特别感谢朱丹领军的整个芯片团队为小米做出的巨大贡献,我自己用的也是玄戒手机,体验特别好。 他还表示,我们这几款手机和平板备货都很少,我也看到一些说我们卖不动,�

  • OpenAI奥特曼:GPT5预计今年夏季发布

    OpenAI创始人奥特曼在最新播客中透露,GPT-5预计今夏发布,具体日期未定。 GPT-5将是生成式AI能力的重大升级,《商业内幕》称其远超GPT-4,早期测试者认可进步显著。 GPT-4于2023年3月发布,较上一代GPT-3.5有了显著提升。上月初,奥特曼发文向GPT-4告别。 目前GPT-4o已经完全替代了GPT-4,前者于2024年5月14日发布,其中o”代表omni”,意为 全能”。

  • 最便宜的玄戒O1产品!小米平板7S Pro真机首曝

    小米平板7S Pro已经官宣月底发布,这是第二款搭载3nm玄戒O1的平板。 卢伟冰在最新的预热视频中,已经展示出了小米平板7S Pro真机首曝,采用金属一体化机身,背部设计与小米平板7 Ultra非常相似。 不过从正面和侧面来看,小米平板7S Pro的厚度相比小米平板7 Ultra要厚一些,卢伟冰也透露该机续航非常给力,爆料称其内置10610mAh大电池。 卢伟冰和王腾还现场进行了游戏测试,�

  • 7款AI大模型写高考作文,语文名师点评,豆包、GPT等斩获前三

    刚刚, 2025 年高考作文题目出炉,再次成为亿万网友关注的话题。越来越“聪明”的人工智能大模型写高考作文真题,会带给我们怎样的惊喜?阅卷老师又会给出怎样的分数呢?今年湖北高考语文采用全国一卷,作文题为根据给定的材料进行写作。根据阅卷老师的打分,豆包、通义千问、GPT-4o的作品斩获前三名。全国一卷阅读下面的材料,根据要求写作。( 60 分)他想要给孩子们唱

  • 首发玄戒O1!雷军:小米15S Pro体验被大家认可 我非常高兴

    小米创办人雷军表示,搭载玄戒O1芯片的小米15S Pro已经发布了一个月,体验能被大家认可,我非常高兴。 据悉,小米15S Pro于5月22日正式发布,首发起售价是5499元。 该机首发搭载玄戒O1芯片,这是小米史上最强悍的自研芯片,它采用十核心设计,其中超大核是Arm最新的Cortex-X925,主频突破至3.9GHz,大幅提升性能上限,同时兼顾了能效。

  • 第二款玄戒O1平板!小米平板7S Pro外观公布

    雷军今天已经宣布,小米平板7S Pro将于月底发布,这是第二款搭载玄戒O1芯片的平板产品。 刚刚,小米官方还公布了该机的外观图,依然维持金属一体化的机身,搭配四窄边圆角屏幕。 值得注意的是,小米为该机也打造了与Ultra同款的悬浮键盘,配备高进度金属转轴,可以获得和笔记本一样的稳定键盘体验,还自带超大面积的触控板。

  • 又一款玄戒O1新品!小米平板7S Pro来了:对标iPad Air

    快科技6月14日消息,据博主体验more”爆料,Xiaomi Pad 7S Pro 12.5将搭载玄戒O1芯片,该机此前已经入网。值得注意的是,日前卢伟冰还曾隐晦的爆料过这款新品,称接下来的两款平板新品分别对标iPad Air、iPad mini。其中,对标iPad mini的机型已经公布,是小米集团首款旗舰小平板REDMI K Pad。另一款对标iPad Air的就是小米平板7S Pro了,预计会主打轻薄机身,不过对比小米平板7 Ultra应该还是会稍厚一些。据悉,该机未来会跟小米YU7同步上市,并且支持后排挂载,小米平板7 Ultra并不支持官方挂载配件。小米平板7 Ultra作为首发搭载小米自

  • 雷军评价玄戒O1:这是小米在核心技术上的一次重大突破

    今晚7点,小米人车家全生态发布会正式启幕。 在发布会刚开始时,小米创办人雷军提到了玄戒O1,称玄戒O1是小米在核心技术上的一次重大突破。 对于玄戒O1,央视新闻进行了报道,称小米成为中国大陆首家、全球第四家能够自主研发设计3纳米手机芯片的企业,玄戒O1性能表现跻身主流旗舰处理器的第一梯队。 据悉,玄戒O1采用十核心设计,其中超大核是Arm最新的Cortex-X925,

  • OpenAI 提升o3多模态模型推理实力,微美全息(WIMI.US)加速引领产业新变革征程

    OpenAI推出突破性的o3推理模型,首次实现图像直接融入推理过程,在多模态基准测试V* Bench上准确率达95.7%。DeepSeek完成R1模型升级,上下文窗口从12K扩展至23K,幻觉率降低45%-50%。行业呈现开源趋势,DeepSeek开源策略促使多家企业跟进,OpenAI也考虑开源。微美全息加速布局多模态大模型,计划提供实时多模态AI体验。专家指出AI发展重心正从大模型向智能体演进,开源技术显著降低训练门槛,提升泛化能力,为多模态智能探索开辟新路径。企业需紧跟趋势把握机遇,在大模型驱动的新时代找准定位。

  • AI日报:豆包大模型1.6发布;OpenAI推o3-pro模型、o3价格暴降80%;Figma官方MCP重磅上线

    【AI日报】今日AI领域重要动态:1)火山引擎发布豆包大模型1.6和视频生成模型Seedance1.0pro,性能显著提升;2)OpenAI推出o3-pro模型,专注可靠性但响应较慢;3)Figma推出Dev Mode MCP服务,实现设计到代码一键转换;4)Krea AI发布图像生成模型Krea1,解决传统AI绘图问题;5)火山引擎豆包日调用量突破16.4万亿次;6)法国Mistral发布推理模型Magistral;7)苹果系统整合ChatGPT图像生成功能;8)OpenAI大幅下调o3价格80%并推出o3-pro;9)Hugging Face开源榜单显示中国团队Qwen与DeepSeek进入全球前15;10)阿里开源MaskSearch框架,提升AI解决复杂问题能力。