美团推出新一代智能推理系统LongCat-Flash-Thinking
9月23日,美团技术团队宣布推出全新智能推理系统LongCat-Flash-Thinking,该系统在多项专业领域测试中展现出卓越性能。

美团技术团队发布的新一代智能推理系统
据介绍,这款新系统在前代产品的基础上进行了全面升级,特别强化了在复杂任务处理方面的能力。测试数据显示,该系统在逻辑推理、数学运算、编程等多个专业领域的表现已达到行业领先水平。
核心性能表现

综合推理能力
在ARC-AGI基准测试中,该系统以50.3分的成绩超越多个知名商业系统,展现出强大的结构化逻辑处理能力。
数学运算能力
在HMMT和AIME等专业数学测试中,该系统取得了突破性进展,其解决复杂多步骤数学问题的能力已达到行业先进水平。
编程处理能力
在LiveCodeBench测试中以79.4分领先同类开源系统,在OJBench测试中也取得40.7分的好成绩,显示出处理高难度编程问题的出色能力。
智能工具应用
在2-Bench测试中获得74.0分,刷新了开源系统的记录,在多项专业基准测试中均表现出色。
形式化推理能力
在MiniF2F-test基准测试中,该系统在多个评估维度均保持领先优势,特别是在结构化证明生成方面表现突出。
目前,该系统的相关技术资料已在多个开源平台发布,用户可通过官方网站获取更多信息并进行体验。
(举报)
- 相关推荐
-
荐AI日报:美团发布推理大模型LongCat-Flash-Thinking;阿里Wan-Animate开源;字节推豆包翻译大模型
AI日报栏目聚焦人工智能领域最新动态。美团推出高性能推理大模型LongCat-Flash-Thinking;阿里开源Wan-Animate模型革新AI视频生成;字节跳动发布豆包翻译模型,支持28种语言互译;华为与浙大联合推出安全大模型DeepSeek-R1-Safe;阿里云即将发布跨模态模型Qwen3-Omni;xAI推出计算成本降低98%的Grok4Fast模型;YouTube发布多项AI创作辅助功能;IBM推出轻量级文档处理模型Granite-Docling-258M;中科院发布类脑大模型SpikingBrain实现百倍速度突破;OpenAI将推出仅限Pro用户的计算密集型新功能。
-
Reviews.ai 依托 DigitalOcean 高效实现 AI 业务扩展
Reviews.ai是一个消费者反馈聚合平台,帮助品牌将客户评论转化为可执行的洞察。该平台专注于评论分析,通过AI驱动功能(如按需报告、主题分类和智能代理)提升产品与服务。近期从Review Monitor更名后,团队迁移至DigitalOcean云平台,解决了原有专用服务器架构的扩展瓶颈。迁移过程在合作伙伴Aquazeel支持下高效完成,仅用数周,成本降低近30%。新架构采用Droplets、托管数据库和负载均衡器,支持灵活扩展。未来计划利用GPU Droplets增强AI能力,进一步优化大型语言模型处理效率。
-
腾讯云马文霜:Cloud Mate:助力企业高效管云、用云,让云上业务坚如磐石
9月17日,腾讯云在2025全球数字生态大会上宣布智算全面升级,推出面向Agent的AI基础设施解决方案。腾讯云副总裁李力强调“同源同构”为核心原则,通过统一技术架构支撑自研业务与外部客户,实现产品标准化与全球化服务一致性。升级方案包括Agent Runtime云沙箱、Cloud Mate智能运维体及全链路安全能力,旨在提升模型推理效率、工具集成灵活性和系统稳定性,助力企业降低AI应用门槛。李力指出,未来两年AI+Agent部署将大幅增长,腾讯云已服务国内90%的大模型厂商,并为多行业提供高效智算支持。
-
Qwen3-Max成阿里通义“地表最强”:性能超GPT5 数学推理直接满分
9月24日,2025云栖大会开幕,阿里通义千问旗舰模型Qwen3-Max重磅亮相,性能超越GPT-5、Claude+Opus 4等,跻身全球前三。该模型包含指令和推理两大版本,预训练数据量达36T tokens,总参数超万亿,具备极强编程和工具调用能力。在SWE-Bench测试中,指令版斩获69.6分全球第一;Tau2-Bench工具调用测试达74.8分,超越同类模型。推理增强版Qwen3-Max-Thinking在数学推理测试中获满分,国内首次突破。通义千问系列已实现全尺寸覆盖,包含三百多个模型。即日起,用户可在QwenChat免费体验Qwen3-Max,或通过阿里云百炼平台调用API服务。
-
性能超越GPT-4o及Qwen2.5-VL,百度超轻量小模型PP-OCRv5 Blog持续登顶Hugging Face热度第一
百度发布超轻量级文字识别模型PP-OCRv5,仅0.07B参数却实现媲美700亿参数大模型的OCR精度。在多项测试中超越GPT-4o等通用视觉大模型,尤其在文本定位和边界框精度上表现优异。该模型支持5种文字类型识别,适用于教育、医疗、法律等多行业数字化需求,累计下载量超900万,是GitHub上唯一Star数超5万的中国OCR项目。
-
易鑫发布Agentic大模型,破解汽车金融风控与效率痛点
9月12日,易鑫集团在“IT Value Summit数字价值年会”上入选“2025创新场景年度AI应用TOP榜”,成为汽车金融科技领域唯一上榜企业。首席科技官贾志峰指出,易鑫以AI为核心驱动力,通过自研大模型“智鑫多维”等技术,显著提升风控水平与融资通过率,推动行业智能化转型。平台已连接全国4.2万家经销商及上百家金融机构,服务覆盖牧民、基层员工等多元群体,体现技术普惠价值。未来将持续加大科技创新投入,深化国内普惠金融服务,并探索技术出海,助力全球汽车金融行业迈向更高水平智能化。此次上榜不仅是对其技术实力的认可,更反映出行业正加速拥抱智能化变革。
-
女子用ChatGPT选号中百万大奖 全部捐出帮助有需要的人
美国弗吉尼亚州女子卡丽爱德华为非经常购彩者,近日通过手机向ChatGPT询问彩票号码建议,AI提供几组数字供参考。她购买后幸运中得15万美元(约106万元人民币)大奖。领奖时她当场宣布将全部奖金捐出,帮助有需要的人,并表示自己已足够幸运,希望以此鼓励其他中奖者回馈社会。
-
OpenAI发布GPT-5-Codex:可完成7小时单次编程任务
OpenAI宣布推出新一代AI编程模型GPT-5-Codex,其最大亮点是创新的动态时间分配系统。 不同于传统AI追求秒级响应”,该模型可根据任务复杂度灵活调整处理时长,从数秒到7小时不等,以更接近人类专家的决策方式优化代码质量。 GPT-5-Codex产品负责人亚历山大恩比里科斯解释称,传统模型在任务初期即固定计算资源,而GPT-5-Codex能实时评估需求:动态决定加速推进、暂停语法核�
-
两步生成企业级Agent,华为云Versatile平台打通智能体落地最后一公里
华为在2025全联接大会上发布企业级智能体平台Versatile,通过极简流程实现企业级Agent开发,仅需输入业务逻辑与流程图即可完成,效率提升10倍。同时公布昇腾芯片未来三年规划,将陆续发布多款高性能芯片。华为云还推出超节点产品Atlas系列,算力全球领先。CloudMatrix384 AI+Token推理服务全面上线,吞吐量达2400TPS,性能远超业界水平。该平台已与多个行业合作,助力企业构建数字化AI产线,实现业务效率飞速提升。
-
StarRocks Connect 2025 圆满落幕:AI Native 时代,数据分析未来已来
StarRocks Connect 2025峰会圆满落幕,聚焦AI Native时代的数据分析未来。活动汇聚全球开发者与行业专家,分享StarRocks在复杂业务场景中的实践,探讨技术演进方向。从性能引擎到AI原生平台,StarRocks 4.0将支持多智能体协作框架,提升数据分析效率。多家企业展示应用案例,覆盖电商、金融、旅游等领域,验证了其高性能与成本优势。开源精神推动技术创新,共同探索数据智能的无限可能。