首页 > 业界 > 关键词  > GLM-5.1模型最新资讯  > 正文

国产AI大模型GLM-5.1登顶开源:可独立编程8小时

2026-04-11 10:15 · 稿源: 快科技

4月10日,科技领域传来新动态。据悉,智谱公司于3月下旬发布的GLM-5.1模型,近期在多项专业评估中取得突出成绩。

根据国际评测平台LMArena最新公布的Code Arena专项排名显示,GLM-5.1在开源模型中位列榜首,并在全球所有模型中排名第三。该平台通过大规模盲测收集数据,具有一定参考价值。

技术报告指出,GLM-5.1在继承前代模型高效编码能力的基础上,于长程复杂任务处理方面实现显著进步。具体表现为:

  • 可在8小时内完成Linux桌面环境从零构建;
  • 通过655次迭代突破向量数据库优化瓶颈;
  • 实现1000轮工具调用以优化机器学习模型负载。

值得注意的是,在METR榜单的同等评估标准下,GLM-5.1是目前唯一能达到8小时级持续工作能力的开源模型,全球范围内仅少数技术方案具备类似水平。

GLM-5.1技术演示图示

GLM-5.1在长程任务中的表现示意图

在贴近实际开发场景的SWE-bench Pro基准测试中,该模型同样表现优异。该测试要求模型在真实GitHub代码库中定位并修复高难度缺陷,被视为评估技术方案工程实用性的关键指标之一。

SWE-bench Pro测试结果对比

专业基准测试结果对比图

业界观察人士认为,此次GLM-5.1在多项测评中的表现,反映了其在处理复杂编程任务和持续工作稳定性方面的技术进展。

举报

  • 相关推荐
  • 百度文心大模型5.1正式发布

    百度正式发布了新一代基础大模型——文心大模型5.1。该模型采用了自主研发的“多维弹性预训练”技术,仅以业界同规模模型约6%的预训练成本,便达到了基础效果领先的水平,并登上LMArena搜索榜国内第一的位置。 在多项行业权威基准测试中,文心5.1在智能体、知识理解、逻辑推理以及深度搜索等核心能力上表现突出。其中,智能体能力提升显著,已超越DeepSeek-V4-Pro;创意�

  • 小米自动驾驶模型Xiaomi OneVL开源:业内率先统一VLA、世界模型路线

    今日,小米正式发布并开源Xiaomi OneVL自动驾驶模型。 该模型在业内率先实现VLA、世界模型、潜空间推理等多个技术路线的统一,在具备XLA模型强悍推理能力的基础上,大幅提升了推理的速度和精度,是行业内具备开创性的方案。 其在精度上超越显式CoT、在速度上对齐仅答案”预测的潜空间CoT方案。过去,VLA和世界模型是自动驾驶领域两条相对独立的技术路线:VLA专注于理解�

  • 火山引擎Coding Plan上线GLM-5.1,联合ArkClaw支持一键“虾马同养”

    火山方舟Coding Plan正式上线GLM-5.1,提供与原厂一致的满血能力,不限购。该模型在多项基准测试中媲美Claude Opus 4.6,尤其在Agent长程任务上可一次性执行超8小时的持续工作。Coding Plan作为国内首个多模型订阅套餐,还集成了豆包、MiniMax、Kimi等模型,用户可按需切换。同时,火山引擎ArkClaw推出Hermes Agent插件,一键开启即可体验具备强大自我进化能力的Agent。用户可通过Coding Plan Pro直接体验ArkClaw的新能力。

  • 模型即审美:生图模型们正建起自己的“视觉方言”

    ​最近在测试各种AI生图模型的时候,我们发现了一个现象:同样一个提示词,丢给不同的模型,出来的图片风格差异大到像是出自不同摄影流派。 Image-2生成的图就像我昨天随手拍的,但Nano Banana生成的图感觉像某个家居品牌的广告大片。有些模型执着于捕捉现实的每一丝瑕疵,有些则痴迷于把日常场景变成精致的艺术品。这背后反映的不是能力差别,而是每个模型对"什么

  • 小米自研AI大模型!Xiaomi MiMo再次登顶全球第一

    小米官方今天发文宣布,小米技术官方宣布,在OpenRouter平台最新数据中,Hermes Agent登顶全球调用量榜首,日Token调用量达2910亿,周调用量超1.75万亿。 小米自研MiMo模型成为第一大贡献模型,近一个月累计贡献1.45万亿Token调用量。

  • 告别价格战,大模型共迎通胀时代

    眼下,涨价成为大模型的关键词。 迈入2026年,大模型不再是优惠缩水,而是毫不掩饰地开启了涨价模式,大大小小的厂商纷纷入局,智普甚至在短短三个月之内两次提价。 以至于,国产大模型定价首次与海外头部厂商对齐。 大模型涨价,是昙花一现还是旷日持久?降价争夺市场的打法,是否走到了尽头?价值战会成为未来竞争的核心叙事吗?

  • 2026破解PPT制作痛点:文多多AIPPT全链路赋能模型重构高效办公!

    传统PPT制作存在耗时漫长、风格杂乱、数据安全三大痛点。文多多AIPPT推出的AI-PPT全链路赋能模型,基于大语言模型实现需求解析、内容生成、视觉呈现、演讲辅助、企业适配五大环节智能化。用户输入标题或上传文档,20秒生成结构化大纲,30秒完成排版美化,自动匹配商务、教学等场景模板。该模型支持个人一键生成与企业私有化部署,某高校教师备课时间从1个月缩至2周,某央企通过API对接CRM系统实现PPT标准化制作,将重复劳动交给AI,让用户专注核心创意。

  • 从德勤50强到VR50强第15:一家华南XR企业的三年排名进阶路

    过去三年,广州企业“燧光”在XR行业调整期逆势完成三级跳跃:从2023年德勤中国高科技高成长50强(收入增长近700%),到2024年广州“未来独角兽”创新TOP10(专利近320件、发明占比70%),再到2025年中国VR50强第15名(华南第一、混合现实细分第一)。其排名持续上升,反映行业资源正从消费端向B端场景落地转移,尤其在反无模拟训练等新赛道值得关注。

  • AI日报:OpenAI发布三款实时语音模型;苹果首款AI硬件曝光;美团入局AI社交赛道

    今日AI热点:OpenAI发布三款实时语音模型,覆盖推理对话、翻译和转录场景;苹果首款AI硬件AirPods进入DVT阶段,内置摄像头;宇树科技UniStore平台开放,开启人形机器人应用商店时代;阶跃星辰完成25亿美元融资,冲刺香港IPO;美团推出首个数字生命共生社区“鲸游”公测;OpenAI推出GPT-5.5-Cyber预览版,专攻网络安全;Mozilla借助AI发现Firefox 271个安全漏洞;OpenAI发布Codex Chrome扩展,优化浏览器工作流。

  • 改写语音交互行规,豆包大模型更稳了

    豆包大模型,又上新了。 2026年4月9日,原生全双工语音大模型Seeduplex正式发布,相比上一代半双工豆包端到端语音模型,新模型基于“边听边说”的全新框架设计,交互体验的自然感、顺畅度大幅提升,目前已在豆包App全量上线。 这意味着,前沿的全双工语音技术,第一次实现商业规模化落地。 而依托全双工语音技术,豆包的语音交互不再是机械式的一问一答,而是收放�

今日大家都在搜的词: