提升大模型自动修Bug能力豆包正式开源首个多语言类SWE数据集

2025-04-10 15:11 · 稿源：快科技

快科技4月10日消息，今日，字节跳动豆包大模型团队宣布，正式开源首个多语言类SWE数据集Multi-SWE-bench，可用于评估和提升大模型自动修 Bug”能力。

在SWE-bench基础上，Multi-SWE-bench首次覆盖Python之外的7种主流编程语言（Java、Go、Rust、C、C、TypeScript、JavaScript），是真正面向全栈工程”的评测基准。

Multi-SWE-bench包含1632个实例，均来自GitHub issue，并经过统一的测试标准和专业开发者的审核筛选，确保每个样本具备清晰的问题描述、正确的修复补丁以及可复现的运行测试环境。

豆包大模型团队希望，Multi-SWE-bench能作为大模型在多种主流编程语言与真实代码环境中的系统性评测基准，推动自动编程能力向更实用、更工程化的方向发展。

团队表示，相比于以往聚焦Python的单语言任务，Multi-SWE-bench更贴近现实中的多语言开发场景，也更能反映当前模型在自动化软件工程”方向上的实际能力边界。

（举报）

相关推荐

关键词：

超越OpenAI？Claude4大模型能连续工作7小时，创SWE-Bench得分纪录

过去的 AI 模型往往只能维持几分钟的“注意力”，而 Opus 4 的表现意味着，AI 终于具备了完整工作日级别的协作能力……

claude4 Anthropic Claude4大模型能连续工作7小时
荐智能体时代，还得看豆包大模型

火山引擎，又有大动作了。 2025年6月11日，火山引擎Force原动力大会发布豆包大模型1.6、视频生成模型Seedance1.0pro等重磅新模型，以及迭代了一站式AI云原生全栈服务。对此，字节跳动CEO梁汝波表示:“做好火山引擎对字节跳动成为一家优秀的科技公司、保持技术竞争力很重要。未来，字节跳动会坚定长期投入，追求智能突破，服务产业应用。通过火山引擎，持续把新模型、新�

火山引擎字节跳动 AI模型
中文大模型忠实性幻觉评测：豆包大模型幻觉率仅4%，位居全球收之首

SuperCLUE+最新评测显示，豆包大模型1.5Pro以仅4%的幻觉率和96%的准确率位居全球榜首，超越DeepSeek、Gemini-2.5-pro和GPT-4o等主流模型。该模型在文本摘要、多文本问答等关键任务中表现优异，尤其在中文理解任务上国内领先。基于MoE架构设计，其综合性能超过多款超大规模预训练模型，推理成本显著降低。截至2025年3月，豆包大模型日均调用量达12.7万亿tokens，是一年前的106倍。IDC报告指出火山引擎以46.4%市场份额领跑中国公有云大模型市场。据悉，6月11日将发布豆包大模型最新升级进展。

豆包大模型中文大模型忠实性测评
东风汽车奕派007接入豆包大模型

东风汽车旗下电动品牌奕派推出2025款奕派007，全面接入豆包大模型，实现三大智能化创新：1）毫秒级响应的全场景语音交互，支持10个高频指令同时处理；2）"情绪管家"模式可主动提供娱乐内容调节驾乘情绪；3）结合AIGC技术实现旅途画面一键艺术化创作分享。该车型通过智能决策能力和个性化服务重构人车关系，定位为Z世代"AI搭子"。未来将与火山引擎合作探索更多智能出行场景，构建差异化竞争力。

东风奕派电动汽车智能交互
真学霸！豆包大模型1.6正式发布：高考数学卷获144分全国第一

今日，字节跳动旗下火山引擎举办FORCE原动力大会，正式发布豆包大模型1.6。新系列包括三个大模型，分别是Doubao-Seed-1.6-thinking、Doubao-Seed-1.6、Doubao-Seed-1.6-flash。火山引擎总裁谭待表示，Doubao-Seed-1.6是首个支持256k长上下文的大模型。以thinking模型为例，其思考能力强化，支持多模态，Doubao-Seed-1.6则支持on/off/auto三种思考模式。在高考全国新一卷数学单科测试中，豆包大模�

豆包大模型火山引擎 FORCE原动力大会
大模型都能冲清北了？首个AI高考总分评测结果出炉

7家国产大模型参加2025年辽宁高考模拟测试，结果显示：腾讯元宝在文科考试中以667.5分夺冠，接近清北录取线；豆包、讯飞星火分别以655分和652分紧随其后，均达985高校水平。理科方面，豆包以635分领先，元宝和Kimi分别获得632.5分和629分。测试发现大模型在文科表现优于理科，尤其在语文作文和数学解题能力突出，元宝数学获得149分高分。但在理科综合科目存在短板，物理化学的解题过程和知识点推导不够完整，图像符号理解不足。相比去年，今年大模型整体能力显著提升，已从"文科一本、理科二本"水平进步到冲击顶尖高校的水平，展现了国产AI的快速发展。

高考大模型考试
7款AI大模型写高考作文，语文名师点评，豆包、GPT等斩获前三

刚刚， 2025 年高考作文题目出炉，再次成为亿万网友关注的话题。越来越“聪明”的人工智能大模型写高考作文真题，会带给我们怎样的惊喜?阅卷老师又会给出怎样的分数呢?今年湖北高考语文采用全国一卷，作文题为根据给定的材料进行写作。根据阅卷老师的打分，豆包、通义千问、GPT-4o的作品斩获前三名。全国一卷阅读下面的材料，根据要求写作。( 60 分)他想要给孩子们唱

高考作文人工智能阅卷评分
微软关闭了长达 9 年的功能请求，正式开源Windows子系统Linux

在构建跨平台开发环境愈发成为主流趋势的背景下，WSL 的开源无疑将进一步激发开源社区的创造力，也为 Windows 与 Linux 的深度融合打开了新的局面……

Linux开源 Windows子系统微软操作系统
荐年轻人氪金“塑料茅台”，Labubu养肥了谁？

去年开始，一个名叫Labubu的新系列潮玩在北美悄然走红。这个有着尖耳朵和“邪恶笑容”的小怪物，突然出现在各大社交平台的热搜榜上。从洛杉矶的网红咖啡馆到纽约的潮流买手店，年轻人开始热衷于分享自己与Labubu的合影，这种热潮像一阵风似的越刮越猛。这股风潮很快跨过大洋吹到了国内。几乎是一夜之间，泡泡玛特店门口排起了长队，地铁里能看到年轻人手机壳上�

Labubu 潮玩社交媒体
荐108万的Labubu，才不是王宁的「上限」

最贵的Labubu诞生了——一款显示为初代藏品薄荷色的Labubu以108万的价格完成竞拍。这一消息瞬间引爆了社交媒体，不同声音涌入其中，使其瞬间登上了小红书、微博等多个热搜榜前列。有人认为这是“为情绪价值买单的时代”，也有人喊出“这个世界疯了”。

Labubu 泡泡玛特情绪价值

热文

3 天
7天

提升大模型自动修Bug能力豆包正式开源首个多语言类SWE数据集

超越OpenAI？Claude4大模型能连续工作7小时，创SWE-Bench得分纪录

荐智能体时代，还得看豆包大模型

中文大模型忠实性幻觉评测：豆包大模型幻觉率仅4%，位居全球收之首

东风汽车奕派007接入豆包大模型

真学霸！豆包大模型1.6正式发布：高考数学卷获144分全国第一

大模型都能冲清北了？首个AI高考总分评测结果出炉

7款AI大模型写高考作文，语文名师点评，豆包、GPT等斩获前三

微软关闭了长达 9 年的功能请求，正式开源Windows子系统Linux

荐年轻人氪金“塑料茅台”，Labubu养肥了谁？

荐108万的Labubu，才不是王宁的「上限」

热文

微信公众平台与微信小店深度联动公众号可带货微信小店

张朝阳退回的LABUBU换了一辆车：新去向揭晓

苹果用户再也不敢乱用emoji了客服回应：iOS和安卓有差异性

小米MIX Flip 2开启预约：将于6月底正式发布

REDMI K80至尊版外观公布：金属中框+玻纤背板

前OpenAI研究员：有时，ChatGPT为了“自救”，会选择牺牲用户

微信公众平台与微信小店深度联动公众号可带货微信小店

张朝阳退回的LABUBU换了一辆车：新去向揭晓

从心脏、到血管……3D打印开启“器官替换”时代

无缝且安全的密钥导入、导出功能将登陆苹果系统

苹果用户再也不敢乱用emoji了客服回应：iOS和安卓有差异性

小米MIX Flip 2开启预约：将于6月底正式发布

REDMI K80至尊版外观公布：金属中框+玻纤背板

站长商机

提升大模型自动修Bug能力 豆包正式开源首个多语言类SWE数据集

热文

站长商机

提升大模型自动修Bug能力豆包正式开源首个多语言类SWE数据集