首页 > AI头条  > 正文

全球中文大模型竞赛!海外强者包揽前三,国产崭露头角!

2026-02-04 14:29 · 来源: AIbase基地

近日,SuperCLUE 发布了2025年度中文大模型基准测评报告,吸引了众多科技爱好者的目光。在此次评测中,共有23个国内外大模型参与角逐,涵盖数学推理、科学推理和代码生成等六大核心维度。评测结果显示,海外闭源模型依旧占据领先地位,尤其是 Anthropic 的 Claude-Opus-4.5-Reasoning,以68.25分高居榜首,成为了此次评测的佼佼者。

紧随其后的是谷歌的 Gemini-3-Pro-Preview 和 OpenAI 的 GPT-5.2(high),分别以65.59分和64.32分位列第二和第三,海外巨头们的实力依然令人瞩目。不过,值得一提的是,国产大模型在此次评测中也展现出惊人的实力,特别是开源模型 Kimi-K2.5-Thinking 和闭源模型 Qwen3-Max-Thinking,分别以61.50分和60.61分荣获第四和第六名的好成绩。

全球中文大模型战力榜发布:前三被海外包揽 国产有惊喜

在细分领域中,国产模型表现尤为突出。Kimi-K2.5-Thinking 在代码生成任务中以53.33分的优异成绩夺得了冠军,而 Qwen3-Max-Thinking 在数学推理任务中与 Gemini-3-Pro-Preview 并列,以80.87分的成绩荣登榜首。这些成绩表明,国产模型正逐步从 “跟跑” 向 “并跑” 迈进,展现出强大的追赶能力。

从整体来看,海外闭源模型仍然领先于国产模型,但国产开源模型却表现出色,在 Top5中占据了绝对优势,显示出国产开源模型的强劲实力与发展潜力。随着科技的不断进步和国内研发的加速,未来的中文大模型领域或将迎来更多惊喜与挑战。

  • 相关推荐
  • 字节狂飙、阿里亮剑……大模型混战春节档,没人敢躺

    除夕的烟花尚未绽放,AI战场早已硝烟弥漫。2026年马年春节,表面上是百度5亿、腾讯元宝10亿红包、阿里30亿免单的混战,实则是国产大模型阵营一次史无前例的“集体亮剑”。我投给那些让对手感到脊背发凉的玩家。

  • Yandex Ads Boost 上线 AI 助手并完成中文本地化,赋能开发者拓展海外市场

    2026年2月10日,Yandex Ads宣布其移动应用增长平台Yandex Ads Boost推出全新AI助手功能,并完成平台全界面中文本地化。此次升级旨在简化中国开发者在拓展俄语区市场时的运营流程,通过母语交互与AI智能协同,高效完成从数据分析、营销管理到商业变现的全链路工作。AI助手支持自然语言对话,提供操作指引、数据解读与优化建议,实现一站式操作,帮助开发者提升运营效率,助力本土化策略制定。目前该平台已面向全球开发者开放,覆盖游戏、金融、电商等多个行业。

  • 提升7倍 DeepSeek官宣测试全新大模型:或为V4 Lite

    前几天国产AI来了一波爆发,智谱GLM-5、Minimax2.5及DeepSeek在11日同一天都发布了新的大模型,其中DeepSeek的自然最受关注。此前我们已经报道过了,这次更新主要是提升了上下文能力,达到了1M之前的DeepSeeV3系列也就是128K,这方面相对前代V3系列大模型提升了7倍。传闻中的DeepSeekV4满血版是1.5万亿参数,比V3系列翻倍还多会使用之前DeepSeek研究的Engram、mHC等新技术,性能全面提升的同时成本还低,这个期待值还是很高的。

  • 为国产模型和国产芯片造“桥”:昇腾平台上的DeepSeek-OCR-2迁移实录

    文章讲述了使用智子芯元KernelCAT工具,将DeepSeek-OCR-2模型高效迁移至华为昇腾Atlas A2国产芯片的过程。传统迁移需人工处理代码依赖、环境配置和算子优化,耗时费力。而KernelCAT作为AI Agent,能自动分析代码、适配环境、生成补丁,并将通用计算逻辑替换为针对国产硬件的优化实现,最终将推理速度从15 tokens/s大幅提升至550.45 tokens/s,加速超35倍。这展现了未来开发范式:人类定义目标,AI自主解决路径,让开发者从底层适配的繁琐工作中解放出来。

  • 世界顶尖水平!字节跳动豆包大模型2.0正式上线:用户选择“专家”模式即可体验

    继Seedance2.0视频模型、Seedream5.0Lite图像模型之后,今日字节跳正式发布豆包大模型2.0系列。豆包2.0针对大规模生产环境的使用需求进行系统性优化,以更好地完成真实世界的复杂任务。豆包2.0Lite更具性价比,综合性能超越两个月前发布的上一代主力模型豆包1.8,百万tokens输入价格仅为0.6元。

  • ​积分限免!字节跳动视频生成大模型Seedance 2.0接入剪映App

    字节跳动旗下视频生成大模型Seedance2.0已接入剪映App,用户更新至18.8.0版本后即可体验。该模型在视频编辑维度实现重大革新,支持像素级元素增删,官方称“让视频精修如P图般简单”。春节期间剪映推出积分限免活动,但明确暂不支持真人面孔生成功能,以规避伦理争议。模型上线后引发全球关注,马斯克转发演示视频并评论“进化速度惊人”。海外创作者实测显示,其生成的15秒视频在运镜、光影和角色一致性上达专业水准,部分作品被赞“媲美好莱坞特效”。面对外界赞誉,字节跳动保持谨慎态度,指出当前版本在细节稳定性、多人口型同步等方面仍存不足,需持续优化。研发团队透露,正构建更精细的物理世界模拟引擎,以解决流体流动、布料褶皱等动态效果难题。

  • 字节跳动旗下火山引擎发布视频生成大模型Seedance2.0

    字节跳动旗下火山引擎近日发布的视频生成大模型Seedance2.0,凭借“导演级”创作能力引发全球AI圈震动。这款在1.5Pro版本基础上迭代升级的模型,不仅攻克了人物一致性、视听同步等长期困扰行业的难题,更通过自动生成专业镜头切换功能,被业内人士评价为“可能抢走专业导演饭碗”的突破性产品。

  • AI日报:字节发布Seedream5.0Lite;小红书不标AI将限流;美图开拍首批接入Seedance 2.0大模型

    本期AI日报涵盖多项重要动态:字节跳动发布具备视觉推理与实时联网能力的图像创作模型Seedream5.0Lite;小红书要求AI生成内容须显著标识;美图工具“开拍”接入Seedance 2.0大模型以提升视频创作效率;OpenAI在ChatGPT中上线广告业务以应对成本压力;OpenAI与Cerebras合作推出专为实时编程优化的GPT-5.3-Codex-Spark;蚂蚁集团开源全球首个基于混合线性架构的万亿参数思考模型Ring-2.5-1T;Google发布在编程与科研领域实现突破的Gemini 3 Deep Think;同程旅行全面接入腾讯元宝,通过AI实现秒级行程规划与预订。

  • AI日报:豆包2.0将于情人节发布;MiniMax M2.5 正式发布;小米开源首代机器人 VLA 大模型

    本期AI日报聚焦多项技术进展:字节跳动火山引擎发布“豆包”系列2.0版本,旨在降低专业内容生产门槛;MiniMAX M2.5模型开启海外内测,加速全球化布局;小米开源首款机器人VLA大模型,突破物理智能延迟瓶颈;百度千帆推出集成主流大模型的AI编码订阅服务Coding Plan;智谱发布GLM-5,迈向工程构建的Agentic Ready时代;DeepSeek上下文长度跃升至1M,处理能力大幅提升;Rokid眼镜新增�

  • 陈天桥亲自讲述如何和AGI公司一起成长:不押宝大神灵光一现,需要不断长出强者的体系

    2026年春节前夕,陈天桥向MiroMind全体员工发布内部信,系统阐述了公司技术路线与组织理念。MiroMind明确避开通用聊天机器人赛道,聚焦“发现式智能”与“通用求解器”,致力于打造以因果推理为核心的理科大模型,使其成为人类科学探索的得力伙伴。公司强调“体系化创新”,通过科学评审流程将个人直觉转化为可验证的工程能力,构建能持续培养强者的稳健系统。面对外部环境波动,陈天桥承诺盛大资本将作为“耐心资本”提供长期支持,并公布人才激励政策,为长期奋斗者提供股票回购的流动性窗口。他重申创立初心,希望为时代留下真正有价值的“新东西”,并邀请认同长期价值的“传教士”型人才共同探索。

今日大家都在搜的词: