首页 > 业界 > 关键词  > 高效推理模型最新资讯  > 正文

美团发布高效推理模型LongCat-Flash-Thinking:部分性能接近GPT5

2025-09-23 08:52 · 稿源: 快科技

美团推出新一代智能推理系统LongCat-Flash-Thinking

9月23日,美团技术团队宣布推出全新智能推理系统LongCat-Flash-Thinking,该系统在多项专业领域测试中展现出卓越性能。

美团发布新一代智能推理系统

美团技术团队发布的新一代智能推理系统

据介绍,这款新系统在前代产品的基础上进行了全面升级,特别强化了在复杂任务处理方面的能力。测试数据显示,该系统在逻辑推理、数学运算、编程等多个专业领域的表现已达到行业领先水平。

核心性能表现

系统性能对比图表

综合推理能力

在ARC-AGI基准测试中,该系统以50.3分的成绩超越多个知名商业系统,展现出强大的结构化逻辑处理能力。

数学运算能力

在HMMT和AIME等专业数学测试中,该系统取得了突破性进展,其解决复杂多步骤数学问题的能力已达到行业先进水平。

编程处理能力

在LiveCodeBench测试中以79.4分领先同类开源系统,在OJBench测试中也取得40.7分的好成绩,显示出处理高难度编程问题的出色能力。

智能工具应用

在2-Bench测试中获得74.0分,刷新了开源系统的记录,在多项专业基准测试中均表现出色。

形式化推理能力

在MiniF2F-test基准测试中,该系统在多个评估维度均保持领先优势,特别是在结构化证明生成方面表现突出。

目前,该系统的相关技术资料已在多个开源平台发布,用户可通过官方网站获取更多信息并进行体验。

举报

  • 相关推荐

今日大家都在搜的词: