首页 > AI头条  > 正文

Mistral 重返开源阵营:发布超高效代码 AI 模型 Devstral 笔记本电脑也能跑

2025-05-22 08:59 · 来源: AIbase基地

法国人工智能模型制造商 Mistral 在因其最新闭源模型 Medium3受到部分开源社区批评后,迅速回归开源路线。该公司近日与开源初创公司 All Hands AI(OpenDevin 的创建者)合作,推出了全新的开源语言模型 Devstral。这款拥有2400万参数的轻量级模型,专为代理 AI 软件开发而设计,其性能甚至在特定基准测试中超越了许多参数高达数十亿的竞争对手,包括一些闭源模型。

与传统侧重于代码补全或独立函数生成的 LLM 不同,Devstral 经过优化,能够充当完整的软件工程代理。这意味着它可以理解跨文件的上下文,浏览大型代码库,并解决实际的软件开发问题。更重要的是,Devstral 基于宽松的 Apache2.0许可证发布,允许开发者和组织自由地部署、修改和商业化该模型。

Mistral AI 研究科学家 Baptiste Rozière 强调,他们希望为开发者社区提供一款可以在本地私下运行并根据需求修改的开源工具,Apache2.0协议赋予了用户极大的自由度。

mistral

基于 Codestral 的成功迭代

Devstral 是 Mistral 以代码为中心的模型系列 Codestral 的最新进展。Codestral 于2024年5月首次亮相,是一个拥有220亿参数、支持80多种编程语言的专业编码 LLM,并在代码生成和补全任务中表现出色。其快速迭代催生了基于 Mamba 架构的增强版 Codestral-Mamba 以及最新的 Codestral25.01,后者尤其受到 IDE 插件开发者和企业用户的青睐。Codestral 系列的成功为 Devstral 的诞生奠定了坚实的基础,使其能够从简单的代码补全扩展到完整的代理任务执行。

SWE 基准测试中表现惊艳

在 SWE-Bench Verified 基准测试中,Devstral 取得了46.8% 的优异成绩。SWE-Bench Verified 是一个包含500个真实 GitHub 问题的数据集,并经过人工验证以确保其正确性。这一成绩不仅领先于所有此前发布的开源模型,甚至超越了包括 GPT-4.1-mini 在内的多个闭源模型,领先幅度超过20个百分点。

Rozière 自豪地表示,Devstral 是迄今为止在 SWE-bench 验证和代码代理方面表现最佳的开源模型,并且令人惊讶的是,它仅有2400万参数,甚至可以在 MacBook 上本地运行。Mistral AI 开发者关系主管 Sophia Yang 博士也在社交媒体上指出,Devstral 在各种框架下的评估中都优于许多闭源替代方案。

Devstral 的卓越性能得益于对 Mistral Small3.1基础模型进行的强化学习和安全调整技术。Rozière 解释说,他们首先选择了一个强大的基础模型,然后利用专门的技术提升了其在 SWE-bench 上的表现。

QQ20250522-085900.png

不仅仅是代码生成,更是 AI 软件开发代理的基石

Devstral 的目标不仅仅是生成代码,更重要的是能够集成到 OpenHands、SWE-Agent 和 OpenDevin 等代理框架中。这些框架使得 Devstral 能够与测试用例交互、导航源代码文件以及跨项目执行多步骤任务。Rozière 透露,Devstral 将与 OpenDevin 一同发布,后者为代码代理提供了一个脚手架,充当开发者模型的后端。

为了确保模型的可靠性,Mistral 在不同的代码库和内部工作流程中对 Devstral 进行了严格的测试,以避免过度拟合 SWE-bench 基准。他们仅使用来自非 SWE-bench 数据集的数据进行训练,并在不同的框架上验证了模型的性能。

高效部署与商业友好的开源许可

Devstral 紧凑的2400万参数架构使得开发者可以在本地轻松运行,无论是配备单个 RTX4090GPU 的机器,还是拥有32GB 内存的 Mac 电脑。这对于注重隐私保护和需要在边缘设备上部署的应用场景极具吸引力。Rozière 表示,该模型的目标用户包括热衷于本地和私有化操作的开发者和爱好者,他们甚至可以在没有互联网的环境中使用。

除了性能和可移植性之外,Devstral 的 Apache2.0许可证也为商业应用提供了极大的便利。该许可证允许无限制地使用、改编和分发,包括在专有产品中,这大大降低了企业采用的门槛。

Devstral 拥有128,000个 token 的上下文窗口,并使用包含131,000个词汇的铁拳分词器。它支持通过 Hugging Face、Ollama、Kaggle、LM Studio 和 Unsloth 等主流开源平台进行部署,并与 vLLM、Transformers 和 Mistral Inference 等库良好兼容。

API 与本地部署双管齐下

开发者可以通过 Mistral 的 Le Platforme API 访问 Devstral,模型名称为 devstral-small-2505,定价为每百万输入 token0.10美元,每百万输出 token0.30美元。对于希望本地部署的用户,对 OpenHands 等框架的支持可以实现与代码库和代理工作流的即时集成。Rozière 分享了他自己如何使用 Devstral 来完成更新软件包版本或修改标记化脚本等小型开发任务,并对其在代码中精确定位和修改的能力表示赞赏。

尽管 Devstral 目前以研究预览版的形式发布,但 Mistral 和 All Hands AI 已经着手开发功能更强大、规模更大的后续模型。Rozière 认为,小型模型和大型模型之间的差距正在迅速缩小,而 Devstral 等模型的出色表现已经能够与一些规模更大的竞争对手相媲美。

凭借其卓越的性能基准、宽松的开源许可和专为代理设计优化的特性,Devstral 不仅是一款强大的代码生成工具,更将成为构建自主软件工程系统的关键基础模型。

  • 相关推荐
  • 首款鸿蒙笔记本电脑发布,生活办公有小艺开启智慧新体验

    5月19日,华为发布首款鸿蒙笔记本MateBook Pro,搭载鸿蒙操作系统5,实现AI能力与硬件、系统、应用的深度整合。该产品通过多种交互方式(语音、专属按键、屏幕触控等)提供便捷的AI助手"小艺"服务,支持文档摘要、翻译、PPT生成等办公功能,并能智能处理会议记录、文件搜索等场景。基于盘古大模型和DeepSeek双模型,小艺可自适应处理复杂问题,提供数据可视化、内容创作等专业支持。作为系统级智能体,小艺还能简化设备设置流程,实现多任务同步调节,显著提升办公效率。

  • 1/8成本比肩Claude 3.7,Mistral Medium 3来了

    欧洲AI公司Mistral发布多模态新模型Mistral Medium 3,主打编程和多模态理解能力,性能达Claude 3.7的90%但成本仅1/8(输入0.4美元/百万token)。该模型在编程和STEM任务表现突出,支持企业级定制部署,已上线多个云平台。同时推出企业聊天机器人服务Le Chat Enterprise,集成第三方工具。尽管因未开源权重引发争议,其高性价比仍获业界关注。公司透露正在开发更大规模模型。

  • AI日报:谷歌推最强AI全家桶Google AI Ultra;腾讯混元宣布模型矩阵全面升级;豆包·语音播客模型发布

    本文汇总了近期AI领域的重要动态:1)谷歌推出249.99美元/月的AI Ultra订阅计划,提供最强AI模型和高级功能;2)腾讯混元模型升级,新增视觉推理T1-Vision和语音对话模型;3)美图获阿里2.5亿美元投资,将在电商和AI领域合作;4)豆包推出语音播客模型,实现文本快速转音频;5)百度文心X1 Turbo获信通院最高评级;6)谷歌发布Flow AI剪辑工具,集成Veo3等三大模型;7)谷歌Veo3支持4K视频生成;8)Imagen4图像模型发布;9)Gemini2.5 Pro新增并行推理功能;10)谷歌推出虚拟试衣工具;11)公测AI编程助手Jules;12)苹果计划在iOS19开放AI模型;13)京东云推五大免费AI营销工具;14)字节开源多模态模型BAGEL;15)英伟达发布物理推理模型Cosmos-Reason1。

  • 谷歌推出 250 美元的 AI Ultra 套餐,重新定义“端”

    谷歌或许想把 AI Ultra 打造成一个精英创作者工具包,但它也可能正在重新定义“高端”:只是贵而已……

  • 国补4099元起!努比亚Z70S Ultra摄影师版发布:唯一真全面屏Ultra

    努比亚Z70S Ultra摄影师版4月28日正式发布。新机采用经典相机设计,后摄模组配备真真空镀双色膜层工艺,银色拉丝玻璃纹理极具质感。搭载第五代35mm定制光学系统,配备5000万像素光影大底990国产旗舰传感器,影像素质超越"一英寸"。支持水平/垂直四相位检测自动对焦技术(H/V QPD)及DCG双转换增益HDR技术,对焦更快更准。配备6400万像素潜望式长焦和5000万像素超广角微距镜头,实现全焦段覆盖。正面采用6.85英寸第七代真全面屏,支持2592Hz超高频PWM调光。搭载骁龙8至臻版处理器,内置6600mAh第三代南海电池,日常续航40小时,零下20度仍可连续刷短视频16小时。售价4599元起,国补后4099元起。

  • 小米道歉:SU7 Ultra排位模式需要解锁给车主带来了困扰

    小米汽车表示,团队已开始推进新版本的开发和测试,预计用时4-8周,具体时间以小米官方通知为准。

  • 卢伟冰:小米平板7 Ultra对标苹果最端的iPad Pro

    小米集团总裁卢伟冰5月20日发文介绍即将发布的小米平板7 Ultra。该产品定位高端旗舰,配备14英寸OLED大屏、3.95mm超窄边框、5.1mm超薄机身和12000mAh大电池,搭载基于台积电3nm工艺的玄戒O1芯片(10核CPU设计,单核/多核跑分突破3000/9000分),性能对标高通骁龙8至尊版。卢伟冰强调其设计质感和移动生产力属性,配备专属键盘和手写笔,宣称在性能、视觉体验等方面全面对标最高端iPad Pro,重新定义安卓平板标准。

  • 小米SU7 Ultra限制马力引热议 博主称车主强烈反对 OTA已取消

    快科技5月2日消息,50多万就能拥有1500匹马力,小米SU7 Ultra的加速能力有目共睹,但部分车主暴力驾驶的视频也让人触目惊心。最近,多名网友表示小米SU7 Ultra在进行OTA更新时,发现更新内容中有一条新增排位模式圈速考核,在指定赛道圈速达到官方建议成绩可解锁排位模式。”另外还新增了直线竞速等待功能,P挡状态下等待60秒后才能开启直线竞速模式。不少人表示,小米SU7 Ultra更新以后开始限制最大马力的使用,需要通过跑赛道圈速成绩解锁,才能使用排位赛模式获得1500匹马力。有人认为,此举与自信驾驭强大”的宣传语有悖,还有博主称?

  • 最美华为手机!华为nova 14 Ultra四色公布

    华为nova 14 Ultra今日公布四款配色:浮光金、浮光白、流光紫、曜金黑,采用经典星耀环设计,配备三摄系统(含红枫原色镜头)。该机搭载6.8英寸全面屏、麒麟9系芯片,综合性能看齐Mate/Pura旗舰。nova 14系列将首发鸿蒙5系统,成为全球首款搭载该系统的直板机型,新品将于5月19日正式发布。红枫原色镜头采用多光谱图像传感器,能精准还原色彩,此前已在Mate 70系列展现出色表现。

  • 联想moto razr 60 Ultra国行今天发布:首款骁龙8至尊版小折叠

    新机后置5000万像素主摄 5000万像素超广角微距双摄,内置4700mAh电池,支持68W有线 30W无线充电,支持IP48级别防尘防水。

今日大家都在搜的词:

热文

  • 3 天
  • 7天