首页 > AI头条  > 正文

AWS 发布 SWE-PolyBench:评估 AI 编程助手的新开源基准

2025-04-24 09:05 · 来源: AIbase基地

近日,AWS AI Labs 推出了 SWE-PolyBench,这是一个多语言的开源基准,旨在为 AI 编程助手的评估提供一个更全面的框架。随着大规模语言模型(LLM)的进步,AI 编程助手的开发已经取得了显著的进展,这些助手能够生成、修改和理解软件代码。然而,目前的评估方法仍然存在诸多局限,许多基准测试往往仅集中在 Python 等单一语言,无法全面反映真实代码库的结构和语义多样性。

QQ_1745456662909.png

SWE-PolyBench 通过涵盖21个 GitHub 代码库,支持 Java、JavaScript、TypeScript 和 Python 四种流行编程语言,提供了2110个任务,包括错误修复、功能实现和代码重构。与以往的基准测试不同,SWE-PolyBench 使用了真实的拉取请求(PR),这些 PR 能够解决实际问题,并配备了相关的测试用例,从而实现可验证的评估。此外,还发布了一个更小的分层子集 ——SWE-PolyBench500,以支持快速实验,同时保留任务和语言的多样性。

QQ_1745456674846.png

在技术结构和评估指标方面,SWE-PolyBench 采用了基于执行的评估流程。每个任务都包含一个代码库快照和一个源于 GitHub 问题的任务描述。系统会在针对特定语言生态系统(如 Java 的 Maven 或 JavaScript/TypeScript 的 npm)配置的容器化测试环境中应用相关的真实补丁。评估结果使用两种类型的单元测试进行测量:从失败到通过(F2P)和从通过到通过(P2P)。

QQ_1745456685896.png

为了对编程助手进行更细致的评估,SWE-PolyBench 引入了基于具体语法树(CST)的指标,这些指标包括文件级和节点级检索分数,评估编程助手在查找和修改代码库中相关部分的能力。此次评估适配了三个开源编程助手 ——Aider、SWE-Agent 和 Agentless,它们均使用了 Anthropic 的 Claude3.5模型,并进行了调整以满足基准的多语言和代码库要求。

评估结果显示,不同编程语言和任务类型的表现差异明显。例如,Python 任务的通过率最高可达24.1%,而 TypeScript 则仅为4.7%。在任务复杂度方面,单一功能或类的修改任务成功率高达40%,但涉及多文件变更的任务则显著下降。

github:https://github.com/amazon-science/SWE-PolyBench

划重点:  

🌟 AWS 推出 SWE-PolyBench,为 AI 编程助手提供全面的评估框架。  

🔧 基准涵盖21个 GitHub 代码库,支持 Java、JavaScript、TypeScript 和 Python 四种语言。  

📈 评估显示不同语言和任务的表现差异,Python 任务成功率最高

  • 相关推荐
  • 刚刚,OpenAI开源PaperBench,重塑顶级AI Agent评测

    今天凌晨1点,OpenAI开源了一个全新的AIAgent评测基准——PaperBench。这个基准主要考核智能体的搜索、整合、执行等能力,需要对2024年国际机器学习大会上顶尖论文的复现,包括对论文内容的理解、代码编写以及实验执行等方面的能力。目前智能体的能力还无法超越人类。

  • 提升大模型自动修Bug能力 豆包正式开源首个多语言类SWE数据集

    今日,字节跳动豆包大模型团队宣布,正式开源首个多语言类SWE数据集Multi-SWE-bench,可用于评估和提升大模型自动修Bug”能力。在SWE-bench基础上,Multi-SWE-bench首次覆盖Python之外的7种主流编程语言,是真正面向全栈工程”的评测基准。相比于以往聚焦Python的单语言任务,Multi-SWE-bench更贴近现实中的多语言开发场景,也更能反映当前模型在自动化软件工程”方向上的实际能力边界。

  • 三星电子在“Welcome to Bespoke AI发布会上推出“AI Home”愿景

    摘要:2025年3月30日,三星电子在韩国首尔举行的“WelcometoBespokeAI”全球新品发布会上,重磅发布全新升级的“AIHome”愿景及创新家电产品阵容。通过聚焦更安全、更直观的用户体验,三星推出革新的AIHome解决方案并展示了前沿AI技术和丰富多样的智能屏幕家电产品。设备须支持Wi-Fi并连接至SmartThings以激活服务。

  • AI日报:智谱开源32B/9B系列GLM模型并启用Z.ai域名;OpenAI发布GPT-4.1系列模型;阿里魔搭上线MCP广场

    欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解:https://top.aibase.com/1、智谱AI启用全新域名Z.ai 并开源32B/9B 系列 GLM 模型智谱技术团队近期宣布开源32B和9B系列的GLM模型,并推出全新交互体验平台Z.ai。这些模型遵循MIT许可协议,支持商业用途,提升了

  • 华瑞指数云ExponTech联合合作伙伴在硅谷发布新型AI存储方案

    全球AI的顶级盛会GTC于3月17日到3月21日在美国硅谷盛大举行。在GTC大会期间,华瑞指数云ExponTechCTO曹羽中受邀参加了专注于AIStorage的技术研讨会并发表演讲。总结基于本次在真实的环境上的全面测试,总结一下ExponTech与合作伙伴ScaleFlux,AIC基于英伟达的BlueField3DPU以及英伟达最新发布的Spectrum-X网络打造的新型AIStorage方案的关键特点和优势:世界顶级性能,SPC-1评测超越所有高端全闪存储阵列,打破世界纪录,MLPerfStoragev1.0测试数据大幅度超越WekaIO,DDN等著名并行文件系统;世界顶级容量密度,当前每2UStorageNode可实现超过1.6PB存储裸容量,明年可扩展至每2U超过6.6PB,最大化数据中心空间的AI数据价值;配置的ScaleFluxCSD5000NVMeSSD具有盘内透明压缩解压缩能力,能够在不消耗额外系统资源,不影响性能的情况下实现存储裸容量的数倍放大,存储容量效率获得惊人的提升;同一平台上同时支持高性能分布式块存储和文件存储等多种协议,除了支持AI的训练和推理场景可以覆盖数据汇集,数据准备,RAG等AIPipeline全场景,无须为AIPipeline配置不同的存储方案以及反复进行数据拷贝移动,可以实现AI算力和存力的完全存算分离和独立扩展,具备更好的可管理性和效率;强大的并行扩展性,存储节点及计算节点均可以独立的水平扩展,同时实现存储性能和容量的等比例扩展;可靠性高,可维护性高,存储节点采用相比标准服务器更为精简的JBOF,硬件故障率更低,同时JBOF内部采用冗余的硬件设计来保障可靠性,提升可维护性;支持基于RoCE的超大规模组网,采用RoCE动态路由和细粒度的负载均衡实现更好的拥塞控制,基于标准以太网在大规模RDMA组网中实现高效带宽,低抖动和超低时延;优化的总体拥有成本,高密度的存储节点透明盘内压缩新型软件定义存储软件的组合简化了硬件成本,大幅度提升了存储空间利用效率和读写性能,简化了管理,AI客户将因此大幅度优化其AIStorage的总体拥有成本;基于此方案的KVCache大规模持久化方案也即将推出,实现AI推理集群内的K,V向量的全局共享,能够以低成本高性能的大规模存储能力替代AI推理过程中K,V向量的大量重复运算,实现AI推理算力成本的大幅降低。

  • Arm携手AWS助力实现AI定义汽车

    文章探讨了人工智能(AI)与软件定义车辆(SDV)结合对汽车行业的影响,通过AI生成模型优化驾驶体验及人机交互能力。AWS和Arm合作开发的解决方案展示了如何利用边缘计算、物联网(IoT)和量化技术提升汽车智能化水平。重点介绍了基于Arm CPU优化的AI指令集(如SDOT和i8mm),以及KleidiAI在模型压缩和推理加速上的贡献,使AI应用更高效且资源友好,为未来智能汽车发展提供了新方向和技术支持。

  • Antropic加入“AI语音助手”赛道,能追上OpenAI、谷歌们吗?

    随着 AI 语音产品的出现,人们对其模仿他人说话风格的担忧也在加剧……

  • Arm 发布《人工智能就绪指数报告》,定义全球 AI 实施新基准

    人工智能已经迅速从未来的概念蜕变为眼下的关键商业工具。面对AI的无限可能,企业是否已经做好充分准备?Arm《人工智能就绪指数报告》将扮演“战略灯塔”,为航行在复杂的AI海域的企业指明方向。

  • 特斯拉“丐版”Cybertruck车型发布!性能缩水 续航提升

    特斯拉近日在海外市场推出了Cybertruck长续航后轮驱动版车型。新版本的Cybertruck在续航能力上达到了563公里,相较于之前发布的AWD版本提升了40公里,显著增加了车辆的实用性和吸引力。随着特斯拉宣布Cybertruck首次进军中东市场,长续航后轮驱动版也同步上线当地官网,成为该车型的全球首发市场,预计将于2025年底交付。

  • AI日报:阿里新模型Qwen3即将来袭;GitHub开源MCP服务器;Runway发布Gen-4 Turbo

    欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解:https://top.aibase.com/1、Qwen3即将来袭:阿里云新模型相关支持已正式合并至vLLM代码库阿里云的Qwen3模型即将发布,标志着其在AI领域的又一重要进展。新推出的AI听歌报告能够精准识别用户音乐偏好,场景

今日大家都在搜的词: