美团推出新一代智能推理系统LongCat-Flash-Thinking
9月23日,美团技术团队宣布推出全新智能推理系统LongCat-Flash-Thinking,该系统在多项专业领域测试中展现出卓越性能。
美团技术团队发布的新一代智能推理系统
据介绍,这款新系统在前代产品的基础上进行了全面升级,特别强化了在复杂任务处理方面的能力。测试数据显示,该系统在逻辑推理、数学运算、编程等多个专业领域的表现已达到行业领先水平。
核心性能表现
综合推理能力
在ARC-AGI基准测试中,该系统以50.3分的成绩超越多个知名商业系统,展现出强大的结构化逻辑处理能力。
数学运算能力
在HMMT和AIME等专业数学测试中,该系统取得了突破性进展,其解决复杂多步骤数学问题的能力已达到行业先进水平。
编程处理能力
在LiveCodeBench测试中以79.4分领先同类开源系统,在OJBench测试中也取得40.7分的好成绩,显示出处理高难度编程问题的出色能力。
智能工具应用
在2-Bench测试中获得74.0分,刷新了开源系统的记录,在多项专业基准测试中均表现出色。
形式化推理能力
在MiniF2F-test基准测试中,该系统在多个评估维度均保持领先优势,特别是在结构化证明生成方面表现突出。
目前,该系统的相关技术资料已在多个开源平台发布,用户可通过官方网站获取更多信息并进行体验。
(举报)
- 相关推荐
-
荐AI日报:上海首例涉AI提示词著作权案宣判;Kimi K2 Thinking发布;中文图像编辑新王UniWorld-V2发布
今日AI领域动态:上海首例AI提示词著作权案宣判,法院认定提示词不具独创性;月之暗面发布Kimi K2思考模型,实现自主多轮工具调用;UniWorld-V2图像编辑模型支持中文框选即改,性能超越GPT-Image;谷歌推出AI文件检测工具Magika 1.0,支持超200种格式;Sora安卓版首日下载量达47万次;我国发布全球首个AI海洋大模型“瞰海”,可精准预测10天内海洋变化;宇树科技“Embodied Avatar”系统实现低延迟远程机器人操控;谷歌Gemini API推出文件搜索工具,简化私有RAG系统集成。
-
荐AI日报:美团LongCat-Flash-Omni发布;Qwen3-Max上线深度思考功能;百度“文心”5.0重磅回归
本期AI日报聚焦多领域技术突破:美团发布全模态交互模型LongCat-Flash-Omni;阿里通义千问Qwen3-Max上线深度思考功能;百度文心5.0升级多模态生成能力;谷歌确认Gemini3年内发布并整合至苹果Siri;OpenAI向多国开放Sora2视频工具;云存储与AI开发工具持续优化,展现行业加速迭代态势。
-
Soul App开源模型SoulX-Podcast登顶Hugging Face TTS趋势榜,AI语音对话再升级
SoulX-Podcast语音生成模型在开源社区Hugging Face发布次日登顶TTS趋势榜。该模型由Soul AI Lab联合高校团队开发,专为多轮对话场景设计,支持中英川粤等多语言/方言与副语言风格,能生成超60分钟流畅自然、角色切换准确、韵律丰富的语音。它解决了传统语音系统在多轮对话中上下文衔接不自然、缺乏副语言控制能力等痛点,在播客、语音合成等场景表现突出,获开发者广泛关注。Hugging Face CEO也转发相关内容,团队未来将持续优化语音对话、拟人化表达等核心交互能力,深化开源生态建设。
-
荐AI日报:月之暗面开源AI新框架Kosong;百度发布新模型ERNIE-4.5-VL;GPT-5.1“隐身”登场
本期AI日报聚焦多项技术突破:月之暗面开源AI代理框架Kosong,支持异步编排与插件化设计;Replit推出AI集成功能,可一键调用300+模型;商汤发布空间智能模型SenseNova-SI,性能超越GPT-5;百度推出多模态模型ERNIE-4.5-VL,新增图像思考能力;谷歌地图全面AI化,集成Gemini实现智能交互;ChatTutor上线可视化教学系统,覆盖多学科实时推演;新版Google Finance引入AI深度搜索与财报追踪;OpenAI低调上线Polaris Alpha模型,支持256K上下文并更新知识库至2024年10月。
-
易鑫正式发布汽车金融行业首个Agentic大模型
易鑫在2025世界互联网大会乌镇峰会上发布汽车金融行业首个Agentic大模型XinMM-AM1。该模型参数量约300亿,响应延迟低于200毫秒,支持语音实时交互,单卡吞吐达370 tokens/秒,可提升获客、风控与运营效率,解决行业周期长、交互多、决策复杂等难题。易鑫作为AI驱动的金融科技平台,研发投入超20亿元,率先实现AI全场景应用,将持续推动智能汽车金融生态建设。
-
品牌AI搜索监控实战手册:你的企业在ChatGPT眼中是什么样子?
某互联网大厂品牌总监分享:投入200万SEO使"企业级CRM"关键词在Google排名第一,但用户用ChatGPT询问"推荐适合中国企业的CRM系统"时,AI回答中根本没有该品牌。更值得警惕的是,竞品不仅被提及,还被AI用"性价比高""用户体验好"等正面词汇描述。这揭示2025年品牌营销最大盲区:企业不知道AI如何"看待"自身品牌。 数据显示超40%年轻用户开始使用AI搜索作为主要信息渠道,而绝大多数企业对自己在AI平台的"形象"一无所知。文章提出GEO品牌监控概念,通过覆盖度、推荐强度、信息质量三个维度量化品牌在AI搜索中的影响力,并给出五步实施流程:建立监控基线、竞品对标分析、设置持续机制、深度洞察挖掘、数据驱动优化。通过真实案例说明,系统化GEO优化能在3个月内提升品牌提及率33个百分点,证明AI搜索时代的品牌竞争已从"被看见"升级为"被AI信任"。
-
Vlog相机排行榜TOP5:2025年五大精选机型,从入门到进阶全解析
本文推荐五款Vlog相机:佳能R50V轻巧全能,支持6K超采和智能对焦;松下G100以出色音频系统见长;奥林巴斯E-PL10兼具复古外观与防抖功能;富士X-T200色彩直出优秀;理光GR IIIx便携且画质细腻。佳能R50V综合表现突出,适合各类Vlog场景,是提升视频质量的高效选择。
-
荐AI日报:可复刻音色的MiniMax Speech 2.6发布;TikTok推AI剪辑新工具“Smart Split”;Cursor 2.0发布
本期AI日报聚焦多项技术突破:MiniMax发布低延迟语音合成系统Speech 2.6,实现实时交互;蚂蚁数科与宁波银行打造的金融AI方案入选国际标准;智源推出具身操作能力的Emu3.5多模态模型;Cursor 2.0通过自研模型实现多智能体协同编程;xAI升级Grok新增视频生成功能;OpenAI推出可定制安全模型;TikTok推出AI剪辑工具Smart Split;微软发布强化学习框架Agent Lightning提升大模型训练效率。
-
Soul App开源播客语音合成模型SoulX-Podcast,支持流畅自然多轮语音对话
Soul App近日开源其播客语音合成模型SoulX-Podcast,专为多人多轮对话场景设计。该模型支持中、英、川、粤等多语言及方言,可生成超60分钟流畅自然、角色切换准确、韵律丰富的语音对话。除播客场景外,在通用语音合成及克隆任务中表现优异,能灵活调节节奏与副语言元素(如笑声),提升语音真实感与表现力。此次开源旨在携手开发者探索AI语音在内容创作与社交生态中的更多可能。
-
颠覆Diffusion局限!Utopai双模型耦合架构,攻克AI影视长叙事核心难题
Utopai Studios推出专为影视制作设计的AI模型与工作流,区别于主流视频生成模型,其核心能力在于理解剧本、规划镜头及生成场景,通过自回归模型负责叙事规划与一致性约束,扩散模型专注高质量画面渲染。该系统能解决跨镜头元素漂移难题,提升制作效率与作品品质。目前工作流仅用于公司自有项目,强调AI作为创作者协作者的角色,并遵循行业道德与版权规范。
