9月13日,OpenAI 宣布推出 o1 系列人工智能模型,旨在提升复杂推理能力。
与前代模型相比,o1 擅长通用推理,在物理、信息学等领域表现优异。OpenAI CEO 奥特曼表示,这代表了人工智能领域的新范式:具备通用推理能力的人工智能。
目前,o1 系列仍处于早期阶段,不具备 ChatGPT 的某些功能,如联网搜索和文件上传。
尽管如此,o1 在竞赛数学、编码和科学等方面表现出色,在数学竞赛中甚至大幅领先 GPT-4o。
o1 采用 "思维链" 模式训练,提升逻辑推理能力。它在回答问题前会花费更长时间思考,注重推理结果的准确性,而不是输出速度。
以下是 o1 能力的简单测试:
推理测试:
"单词 strawberry 里面到底有几个 r"
"9.11 和 9.8 谁更大?"
小学奥数测试:
"1 元钱一瓶汽水,喝完后两个空瓶换一瓶汽水,问:你有 20 元钱,最多可以喝到几瓶汽水?"
竞赛类测试:
OpenAI 表示,o1 在物理、化学和生物等挑战性基准任务上的表现达到博士生水平,在数学和编码方面尤为出色。
在 2024 IOI 信息学奥赛题目中,经过微调的 o1 在每题尝试 50 次条件下获得 213 分,超过了大多数人类数学天才。
在 AIME 2023 数学竞赛题目测试中,o1 给出了正确的答案。
代码能力测试:
o1 可以通过提供代码实现俄罗斯方块小游戏。
总结:
o1 系列大模型的亮点在于显著提升的逻辑推理能力,可以给出正确的解题思路,接近人类的思维过程。它在数学领域表现突出。
然而,它在特定领域的精确度和应对复杂对话方面仍需改进。在重推理的领域,o1 更加适合,而在自然语言任务中,GPT-4o 更具优势。
(举报)