首页 > 业界 > 关键词  > Qwen3-Coder最新资讯  > 正文

AI编程终于“开箱即用”了?Qwen3-Coder或许是那个质变节点

2025-07-25 11:05 · 稿源: 硅星人Pro

声明:本文来自于微信公众号 硅星人Pro,作者:Yoky,授权站长之家转载发布。

7月23日,阿里通义团队正式发布Qwen3-Coder-480B-A35B-Instruct,这可能是AI编程领域的一个分水岭时刻。该模型采用480B总参数、35B激活的MoE架构,原生支持256K上下文,可扩展至1M token,在Agentic Coding、Browser-Use、Tool-Use三大类基准中多项评测的开源SOTA,性能直接对标Claude Sonnet-4。

不同于以往需要复杂配置的代码模型,Qwen3-Coder真正做到了“一条命令接管整个代码仓库”。同步开源的CLI工具Qwen Code,让模型能像“初级程序员”一样工作——从理解需求到拆解任务,从编写代码到跑测试修bug,整个过程无需人工逐行干预。这种Agentic Coding方式把大模型当做一个能在仓库里自主行动的Agent,既能理解自然语言需求,又能调用Git、浏览器、终端等工具。

更关键的是价格优势极其明显。每百万Tokens最低输入和输出价格分别为4元和16元,平均价格为Claude4的1/3。同时,阿里云百炼还推出了低至5折的限时优惠,128K-1M长上下文价格享受五折优惠。加上完全开源免费商用的政策,让原本高昂的AI编程服务真正平民化。

很多人可能还没意识到AI Coding的真正价值——它不只是写代码的工具,而是AI Agent与物理世界自由交互的关键底层技术。从这个角度看,Qwen3-Coder的发布或许标志着AI编程真正从“辅助工具”向“自主Agent”的跃迁,而开源+超低价的组合,可能会让这种能力快速普及,改变整个软件开发的游戏规则。

我们已第一时间完成内测,对其发布的技术细节进行解读。

实测Agentic Coding

在实测阶段,我们并没有选择已经被测试过多轮的贪吃蛇、弹球游戏,而是选择了规则更复杂、交互也更多的围棋对战游戏,我们的Prompt是:制作一个围棋对战小游戏,有时间计时,遵守围棋游戏的规则(如吃子、禁着点)

第一次运行时,结果不仅满足了围棋的最基本规则,也准确遵守了吃子、禁着点等规则(棋子被提走后,当前位置禁止再下子)的规则,,这展现了模型在理解和实现基础游戏逻辑方面的能力。

但是,这个围棋对战游戏还是太过于简单,例如缺少输赢判机制,缺少倒计时等等。游戏的完整性和用户体验方面仍有很大提升空间,这些功能对于一个完整的围棋游戏来说是必不可少的。

因此,我们又追问了一遍:制作一个围棋对战小游戏,有时间计时,遵守围棋游戏的规则(如吃子、禁着点),还包括局势分析和判断输赢。

Qwen3-coder给出了更复杂的也更成熟的游戏页面,甚至在没有提示的前提下,给出了认输的按钮。但有一个问题是围棋的深层次规则,除了我们在Prompt中提到的规则,一些高级规则比如“打劫”,Qwen3-coder没有完全写出来。

接下来,我们又尝试让模型来制作一个网页,Prompt是:生成一页纯 HTML+CSS+SVG 的梦幻黄色网页:背景从 #FFF59D 到 #FFEB3B 径向渐变;60颗白色粒子6秒漂移;5个光晕气泡循环淡入淡出;中央 ‘Dreamy Lemon’ 手写字带发光;点开柠檬会炸开,所有元素保持柠檬黄+Tiffany蓝主题,代码可直接运行。

结果如上,模型确实按照指令实现了所有的技术要求:径向渐变背景、粒子动画、气泡效果、发光文字、交互功能等等。然而,对于“梦幻”这个概念的理解似乎出现了偏差,可能将其解读为需要添加模糊效果或其他视觉滤镜,导致整体视觉效果适得其反,整个页面都模糊不清,

我们也测试了官方发布的物理运动场景,只不过我们选择了非常复杂的“三体运动”,难度上很为难模型,我们通过Cline调用Qwen3-Coder来测试它的Agent能力。

Prompt:做一个实时的三体运动,黑色全屏 ;3个彩色小球(红、绿、蓝)只受彼此万有引力作用,彼此吸引、环绕、抛射,必须真实运动;实时计算牛顿万有引力 F = G·m₁m₂/r²,速度矢量随时间累积;保留彩虹渐变轨迹(800点 FIFO),可开关;左上角提供:重力常数滑杆、速度倍率滑杆、轨迹复选框、重置按钮;零依赖、复制即用、双击即可在浏览器看到3球持续运动。

https://weibo.com/tv/show/1034:5191880476917785?from=old_pc_videoshow

这次,我们吸取了教训,尽可能地完善了prompt来控制模型,我们发现Qwen3-Coder在完成编程后,调用了Chrome浏览器工具,在后台自行演示了一遍,并核对我提出的所有要求,在逐个检测完毕后,才进入到最终演示阶段。

当然,实际物理中的三体运动肯定比演示更加复杂,这也意味着,虽然模型能够理解并生成复杂的需求列表,但在将这些需求转化为可工作的代码时,特别是涉及复杂数学计算和实时动画的部分,还要通过多工具协同来完成。

如何让代码能力“长”在模型里?

Qwen团队采用了一种全新的训练思路:他们没有把Agent能力当作后期的“插件”,而是在训练过程中就深度集成。通过Agent RL训练,模型学会了真正的多轮交互、工具调用、错误处理等能力,这些能力是“长”在模型里的,而不是外挂的。

在预训练阶段,团队用了7.5万亿token的数据,其中70%是代码。这不只是简单的数据堆积,而是像给学生准备更丰富教材的策略,既保证编程能力,又不丢掉通用的语言和数学能力。

更关键的是上下文能力的提升。模型原生支持256K上下文长度,最多可扩展到1M,这让模型能同时查看整个项目的代码,而不只是看片段。同时,他们用之前的Qwen2.5-Coder来“批改作业”,把低质量的代码数据重新清洗和改写,确保训练数据质量。这种做法体现了从理论学习向实战准备的转变。

传统代码模型主要关注benchmark表现,但Qwen团队在后训练阶段加入了执行驱动的强化学习。他们针对“难写、易验证”的真实任务(单测、脚本、小工具)自动批量生成测试用例,把执行成功率当作奖励信号,让模型在百万量级代码片段里反复试错、自我纠错。

这种方法的核心差异在于:不只是让模型写代码,更重要的是让代码能真正运行成功。通过自动生成大量测试用例,模型可以立即知道自己写的代码对不对,然后不断改进。模型的目标从“跑分”转向了“可用”。

更进一步,真正的Agent能力是在不断实测中产生的。团队在SWE-Bench这类需要多轮改代码、跑测试、用Git提交的环境里做强化学习,这已经接近真实的软件开发流程。

技术突破在于环境的工业化扩展。他们用阿里云构建了能同时运行2万个独立编程环境的系统,就像同时开2万个虚拟机让模型练习编程。每个环境都能提供即时反馈,模型像实习程序员一样不断接收CI反馈、再改再跑,最终在SWE-Bench Verified拿下开源第一

在真实场景中训练出来的Qwen3-Coder,解决了AI编程工具终于突破了普及的最大瓶颈:调试能力。此前的AI编程助手普遍存在一个致命问题:代码生成后如果出现bug,开发者仍需要手动排查和修复,这对编程经验要求极高,让普通用户望而却步。而Qwen3-Coder具备自我测试和调试能力,真正做到了“写完即可用”,这意味着即使是编程新手也能借助AI完成复杂的开发任务。

更重要的是成本优势带来的市场重塑。开发过程中往往需要多轮迭代调试,以往使用Claude4这类顶级模型成本高昂,许多中小团队和个人开发者只能望而兴叹。Qwen3-Coder在保持相同性能水准的前提下,成本仅为三分之一,加上完全开源免费商用,彻底消除了成本门槛。这种性能与价格的完美平衡,正在让其快速成为开发者的首选模型。

Qwen3-Coder的核心优势不仅在于编程能力本身,更在于其强大的Agent特性。该模型能够自主调用各种工具、理解复杂需求、进行多轮交互,这种能力远超传统的代码补全工具。

然而,当前市场对AI Coding重视程度远远不够。实际上,编程能力是AI Agent的核心基础,是AI与物理世界自由交互最关键的底层技术。当AI能够理解需求、编写代码、调用工具、处理异常时,它就具备了在现实世界中自主行动的能力。从这个维度看,AI Coding的价值被严重低估了。

综合各方面来看,Qwen3-Coder可以说是目前全球范围内,最具性价比的编程模型。不仅在技术性能上对标顶级闭源模型,在成本控制上更是实现了数量级的优势,加上完全开源的策略,正在重新定义AI编程工具的行业标准。

当编程的门槛被AI彻底降低时,我们看到的是整个软件开发生态正在走向民主化。

举报

  • 相关推荐
  • AI日报:通义开源AI编程大模型Qwen3-Coder;​360将推智能眼镜和AI录音笔;谷歌发布Gemini 2.5 Flash-Lite 稳定版

    本文介绍了AI领域多项重要进展:1)谷歌发布Gemini 2.5 Flash-Lite稳定版,平衡速度与成本;2)腾讯混元ASR语音大模型接入ima平台;3)阿里开源Qwen3-Coder编程大模型;4)360将推智能眼镜和AI录音笔;5)夸克健康大模型通过医师评测;6)零一万物发布企业级大模型平台;7)Hedra推出低成本AI视频代理;8)Gemini2.5革新图像理解能力;9)Meta推出创新文本处理模型AU-Nets;10)苹果AI团队或寻求第三方合

  • A日报:Trae 2.0 正式升级 SOLO 模式;通义发布Qwen3新模型;智谱AI重磅推出Zread

    本期AI日报聚焦多项AI领域突破:1)Trae 2.0推出SOLO模式,实现AI全流程自主开发;2)阿里通义发布Qwen3-235B大模型,支持256K文本处理;3)智谱AI推出Zread工具,一键转换GitHub项目为使用手册;4)零一万物发布万智企业大模型平台2.0及定制Agent方案;5)字节跳动推出通用机器人模型GR-3,具备高精度操作能力;6)Pika推出AI视频特效APP,降低创作门槛;7)Dia浏览器将上线AI驱动的"分身鼠标&

  • AI日报:字节将发布AI编程工具TRAE2.0版本;Mistral重磅推出音频模型Voxtral;月之暗面回应Kimi K2 API速度慢

    AI日报栏目聚焦AI领域最新动态:1)字节跳动将发布TRAE 2.0编程工具,新增语音交互功能;2)Mistral推出开源音频模型Voxtral,支持多语言;3)月之暗面回应Kimi K2API速度慢问题,正在优化系统;4)昆仑万维发布AgentOrchestra框架,实现多智能体协作;5)OpenAI前CTO创立的Thinking Machines Lab获20亿美元融资;6)Kimi-2上线,性能超越GPT-4.1;7)TRAE推出Kimi-K2模型服务,国际版支持Grok-4;8)字节跳动Seed�

  • A日报:月之暗面开源大模型Kimi K2;智源全面开源RoboBrain2.0;通义千问发布Qwen Chat桌面客户端

    本期AI日报重点报道了多项AI领域突破性进展:1.月之暗面推出万亿参数开源大模型Kimi K2,展现强大智能能力;2.智源研究院开源RoboBrain2.0和RoboOS2.0机器人系统;3.通义千问发布桌面客户端Qwen Chat;4.IndexTTS2实现影视级语音合成;5.HuggingFace开源机器人Reachy Mini热销;6.Meta推出实时视频生成模型StreamDiT;7.PixVerse新增多关键帧视频生成功能;8.特斯拉推出仅支持AMD处理器的Grok AI助手;9.OpenAI推迟开源大模型发布以加强安全测试;10.Liquid AI开源边缘AI模型LFM2;11.AI"时间穿越"特效在社交媒体走红。

  • AIBase.com完整评测:发现20,382+AI工具的最佳途径

    AIBase是全球领先的AI工具导航平台,收录超过20,382个AI工具,涵盖25个主类别和187个子类别。平台提供智能搜索、专业分类目录和多语言支持,90%的工具经过实际测试。其核心优势包括:1)行业领先的收录数量和准确性;2)每日更新最新AI工具;3)用户可在30秒内找到所需工具。文章通过三个案例展示了AIBase如何帮助不同职业群体提升工作效率,并提供了5个专业使用技巧。尽管

  • 2025最好的AI工具是什么 2025全球最佳AI工具终极指南

    文章探讨了当前AI工具爆炸式发展的现状,指出不存在适用于所有场景的"最佳AI工具",而是要根据个人需求选择最适合的组合。作者推荐使用AIbase平台(https://app.aibase.cn/),这是一个AI工具导航和搜索引擎,收录了全球数千款主流和新兴AI工具,涵盖写作、绘画、视频处理、办公自动化等多个领域。平台提供详细分类、真实用户评价和实时更新,能帮助用户快速找到适�

  • AI日报:美图发布影像AI Agent RoboNeo;1.8bit量化Kimi K2模型上线;亚马逊推AI代码编辑器 Kiro

    【AI日报】今日AI领域重要动态:1)美图推出RoboNeo,通过自然语言指令实现图片精修、品牌设计等全能影像处理;2)Unsloth AI将Kimi K2模型量化至1.8bit,体积缩减78%保持性能;3)谷歌Gemini嵌入模型登顶MTEB榜单,超越OpenAI;4)亚马逊发布免费AI代码编辑器Kiro,集成Claude模型;5)Claude新增应用工具目录功能提升工作效率;6)MiniMax完成近3亿美元融资,估值超40亿美元;7)UTCP新协议让AI代理直

  • 马斯克xAI推出Grok - 4 大模型将至,Meta/微美全息深耕开源AI融合加速

    埃隆·马斯克旗下xAI即将发布Grok-4大模型,该模型将在语言、数学和推理方面超越OpenAI和谷歌最新AI产品。同时苹果低调收购两家AI公司TrueMeeting和WhyLabs,加速布局Vision Pro头显和Apple Intelligence领域。Meta计划投入数百亿美元扩建AI基础设施,扎克伯格亲自招募顶尖AI人才。微美全息聚焦高性能算力与多模态模型,推动AI产业升级。当前AI赛道竞争激烈,大模型正向通用多模态演进,商业化落地成为关键。

  • A日报:Stability AI发布实时重建模型SPAR3D;火山引擎“奇美拉”数字人平台启动封测;京东重磅开源JoyAgent-JDGenie

    AI日报栏目精选了人工智能领域最新动态:1)Stability AI推出0.7秒单图3D重建模型SPAR3D;2)GitHub热门开源AI协作框架CrewAI获3.4万星;3)马斯克发布儿童AI聊天机器人Baby Grok引发安全争议;4)ComfyUI-C opilot工具简化AI工作流创建;5)CNNIC报告显示我国346款生成式AI完成备案;6)提示词管理工具AI Gist上线;7)开源语言学习工具WordPecker支持多语言学习;8)斯坦福推出多工具协作AI Agent OctoTools;9)Ope

  • 最新AI模型哪里看?查找最佳AI模型平台推荐

    文章介绍了AI领域快速迭代背景下,开发者如何高效追踪最新模型动态。主要渠道包括:1)官方渠道(GitHub、公司官网/博客);2)科技媒体和社区(Twitter、Reddit等);3)专业聚合平台(推荐AIbase模型广场)。重点推荐AIbase平台,其优势在于:实时更新全球最新模型、结构化展示关键信息、支持多维筛选排序、直达相关资源链接。建议开发者善用官方渠道获取源头信息,同时�