首页 > 业界 > 关键词  > 大语言模型最新资讯  > 正文

国产推理大模型决战2025考研数学,看看谁个上岸?

2025-01-14 15:01 · 稿源: 机器之心公众号

随着上个月2025研究生考试的结束,最新的考研数学真题成为大语言模型尤其是推理模型的「试炼场」,将考验它们的深度思考能力。业内曾有着这样一种共识:大语言模型在文字水平上的表现令人印象深刻,但说到数学就不甚令人满意了。去年一度火出圈的「9.9与9.11」比大小的问题,包括 G

......

本文由站长之家合作伙伴自媒体作者“机器之心公众号”授权发布于站长之家平台,本平台仅提供信息索引服务。由于内容发布时间超过平台更新维护时间,为了保证文章信息的及时性,内容观点的准确性,平台将不提供完全的内容展现,本页面内容仅为平台搜索索引使用。需阅读完整内容的用户,请查看原文,获取内容详情。

举报

  • 相关推荐
  • 谷歌发布Gemini 3 数学能力堪称全球最强

    谷歌正式推出新一代推理模型Gemini 3.0 Pro,在各大评测榜单表现优异:LMArena竞技场以1501分登顶,数学基准测试达23.4%远超同行,编程能力稳居第一梯队,视觉理解准确率高达72.7%达现有水平两倍。该模型基于自研TPU训练,配套发布Agentic编程平台Antigravity,支持多步骤复杂流程自主执行(如智能整理收件箱)。目前通过Gemini应用、AI Studio及API向各类用户开放。

  • 拒绝做“套金属壳”的伪AI:看“大模型国家队”如何啃下硬骨头

    人工智能成为资本市场热点,随之而来的是鱼龙混杂的乱象。简单包装、打着AI旗号卖高价的“套壳”现象层出不穷。科大讯飞董事长刘庆峰强调,发展人工智能要有长期主义精神,告别“虚火”,把根扎在国产算力的土壤里。下半场比拼的不再是概念堆砌,而是全栈自主可控的硬实力与赋能千行百业的真本事。可靠与安全才是基石,算力是最大瓶颈。企业需构建安全底座并解决真实痛点,才能穿越周期。科大讯飞坚持“顶天立地”战略,既要在源头技术上领先,又要在产业应用上解决民生刚需,展示了AI技术“落地”的正确姿态。

  • 大模型推理部署新路径!趋境科技 KTransformers+SGLang,单卡消费级硬件攻克万亿模型难题

    11月6日,月之暗面发布Kimi-K2-Thinking模型,其落地使大模型推理部署的硬件门槛问题再成焦点。趋境科技与清华大学开源的高性能异质推理框架KTransformers第一时间完成适配,支持单卡环境流畅推理,并与主流框架SGLang深度合作,打破依赖昂贵多卡GPU的固有认知,为大模型落地提供高性价比、易操作的全新路径。该框架已入选SOSP2025顶尖技术成果,技术实力获国际认可,目前已被Qwen、Kimi等头部开源模型推荐为推理引擎,加速大模型产业级落地进程。

  • 豆包语音识别模型2.0发布:能听懂字看懂图 支持13种外语

    今日,火山引擎发布豆包语音识别模型2.0(Doubao-Seed-ASR-2.0),依托Seed混合专家大语言模型架构构建。 据介绍,2.0版本模型推理能力提升,可以通过深度理解上下文完成精准识别,上下文整体关键词召回率提升20%。 同时支持多模态视觉识别,不仅听懂字”还能看懂图”,通过单图和多图等视觉信息输入让文字识别更精准。

  • AI不再健忘!红熊AI发布“记忆熊”,给大模型装上“海马体”

    当前大模型虽能力惊人,却普遍存在“记忆缺失”问题,制约了AI应用的深度与用户体验。红熊AI推出的开源记忆系统“记忆熊”,旨在突破这一瓶颈。它基于认知科学原理,构建了包含存储层、编排层和应用层的三层架构,模拟人类记忆的感知、提炼、关联与遗忘全周期,为智能体提供长期记忆框架。该系统不仅显著提升了任务性能与效率,降低了幻觉生成,更标志着AI设计从“即时响应”向“持续认知”的关键转变。记忆系统的完善,将驱动AI在医疗、教育、企业服务等领域实现更深度的智能化升级,开启人机协作的新时代。

  • Anthropic推出AI模型Claude Opus4.5:编程能力超群 接近顶尖工程师

    Anthropic于11月25日正式发布旗舰AI模型Claude Opus 4.5并投入商用。该模型在编程、智能代理等领域表现卓越,尤其在处理复杂研究任务及电子表格、PPT制作等办公场景显著优于同类产品。专业测试显示其编程能力超越谷歌Gemini 3 Pro与OpenAI GPT-5.1,在软件工程师闭卷测试中甚至超过所有历史人类考生。同步更新的多款配套工具(如浏览器扩展、Excel增强功能)进一步强化技术生态。目前该模型已全面接入企业级服务,标志着Anthropic在AI商业化进程中的关键突破。

  • 可灵2.6模型上线!语音、音效与画面一键直出 重构AI视频创作工作流

    可灵视频生成2.6模型推出“音画同出”功能,彻底改变了传统AI视频“先无声画面、后人工配音”的工作流程。它能在单次生成中,输出包含自然语言、动作音效及环境氛围的完整视频,重构了AI视频创作工作流,极大提升创作效率。该模型在中文语音生成效果上保持全球领先,支持生成最长10秒的视频,可广泛应用于广告营销、自媒体、电商等内容创作场景。

  • 昇腾生态硬核赋能!上交大攻克超长上下文推理难题,性能大幅跃升

    上海交大李健教授团队联合昇腾AI,基于vLLM-Ascend框架研发出超长上下文推理系统。该系统创新采用KV Cache分级缓存机制,通过智能识别关键数据块、冷热数据分层存储策略,结合昇腾CANN架构动态调度能力,成功突破单卡处理超100万字符长文本的显存与性能瓶颈,推理吞吐量提升超39%。相关代码已在Gitee开源,未来将推动大模型在长文本分析、智能办公等场景的深度应用。

  • 逗哥配音ai软件|创新升级:自研大模型引领声音创作新浪潮

    在短视频蓬勃发展的当下,AI配音软件“逗哥配音”凭借自主研发的大模型技术引发关注。该软件拥有近千种风格的发声人资源,覆盖多语言及方言,通过精准的节奏控制和情感表达优化,显著降低高质量音频制作门槛。其创新的声音克隆技术仅需少量数据即可生成高度相似的人工语音,结合人声分离、文案提取等实用工具,为创作者提供跨领域音频解决方案,推动数字内容生态向多元化、个性化发展。

  • 可灵AI O1正式上线:号称全球首个统一多模态视频大模型

    可灵AI正式发布全新O1视频大模型,被誉为全球首个统一多模态视频大模型。该模型基于创新的多模态视觉语言交互架构,用户可在单一输入框内无缝融合文字、图像、视频等多种指令,实现跨模态内容的高效创作。其技术突破解决了传统视频生成工具功能割裂、操作复杂的痛点,并攻克了视频中主体特征漂移的行业难题,支持长达310秒的自由生成时长。目前用户可通过可灵App及官网体验。

今日大家都在搜的词: