重磅发布：aiXcoder-7B正式开源

2024-04-09 17:36 · 稿源：站长之家用户

4月9日，aiXcoder推出全新自研7B代码大模型。该模型在多个主流评估标准评测集中，与所有同量级开源模型对比效果最佳，彰显出其作为百亿参数天花板级代码大模型的非凡实力。

从评测集综合结果来看，aiXcoder-7B相较于传统的刷题式代码生成，它专门针对企业级软件项目，在真实开发场景下效果出众，这意味着aiXcoder-7B非常适合企业私有化部署。其中，aiXcoder-7B Base版开源共享给开发者，并陆续在 Github、Gitee、Gitlink 等平台上线。

aiXcoder团队孵化自北京大学软件工程研究所，在AI与软件开发交叉领域探索已历十年，是智能化软件开发领域的开拓者，专注于企业开发场景的服务。

代码生成与补全效果达SOTA

真实场景中的编程总需要面对层出不穷的情况，而人工构造的测试集能力有限，可能会遇到规模和多样性有限、难以评估上下文理解能力、难以衡量泛化能力等问题。因此aiXcoder-7B模型选择了不同维度的测评集，全面验证模型实际能力，并指导模型迭代和应用部署。

在多个主流评估标准评测集中，无论是代码生成、代码补全还是跨文件上下文代码生成效果，aiXcoder-7B模型均有极佳表现，甚至超越参数量大5倍的34B代码大模型，已达到当前SOTA水准，堪称最适于实际编程场景的基础模型。

测评效果1:在 HumanEval（由164道Python编程问题组成）、MBPP(由974个 Python编程问题组成)和MultiPL-E(包含了18种编程语言)等主流代码生成效果评估测试集上，aiXcoder7B 准确率显著超越当前同级别代码大模型。

测评效果2:相对于HumanEval等测评集中的任务，真实开发场景的代码生成需要考虑当前编写代码的上下文信息。在Santacoder（Ben Allal et al.，2023）提出的考虑上下文补全评测集上，aiXcoder-7B Base版在与 StarCoder2、CodeLlama7B/13B、DeepSeekCoder7B 等主流同量级开源模型的较量中取得了综合最佳效果。

为了进一步精细地评测代码大模型在代码补全上的能力，aiXcoder 构建了一个比SantaCoder数据量更大，被测代码多样性更高、被测代码上下文长度更长、更接近实际开发项目的评测集（16000多条来自真实开发场景的数据），在此测评集上aiXcoder-7B 同样效果最好。

同时aiXcoder-7B 表现出了相较于其他代码大模型的又一大亮点，即倾向于使用较短代码来完成用户指定的任务。在针对Java、C++、JavaScript和Python编程语言的代码补全测评时，aiXcoder7B Base不仅效果最好，四处红框圈出的生成答案长度明显短于其他模型，并且非常接近于标准答案长度（Ref）。

测评效果3:aiXcoder-7B 在更贴近真实开发场景的跨多文件代码补全任务上同样表现极佳，在评估代码大模型提取跨文件上下文信息能力的CrossCodeEval测评集上，aiXcoder-7B 一举拿下了同级别模型的最好效果。从测评结果中看出，aiXcoder-7B在只通过光标上文搜索到的结果作为 prompt，同时其他模型拿 GroundTruth搜索到的结果作为prompt，前者的效果依然要强于后者。

在真实开发场景中，aiXcoder-7B模型具有更多优势，展现出独特的科技智能与美学。比如预训练采用32K token的上下文长度，并且推理时可扩展至256K，能覆盖整个开发项目中的绝大部分代码;可准确判断何时需要生成新代码、何时代码逻辑已完整无需补全，直接生成完整的代码块、方法体、控制流程;可以准确地抽取项目级的上下文信息，大大降低大语言模型在预测API时产生的幻觉。

高质量训练数据和针对性训练方法养成记

大模型领域流行一句话:“Garbage in，Garbage out”，即输入垃圾数据会导致输出垃圾结果，可见对大模型进行预训练，数据是重中之重。aiXcoder-7B模型的超强表现，首先得益于高质量训练数据和针对性训练方法。

aiXcoder-7B模型训练集涵盖1.2T Unique token数据，覆盖数十种主流编程语言。aiXcoder团队在构建训练数据时，针对数十种主流编程语言进行了语法分析，过滤掉错误的代码片段，还对十多种主流语言的代码进行了静态分析，总共剔除了163种bug和197种常见代码缺陷，确保了训练数据的高质量。

为了增强模型对代码语义和结构的建模能力，aiXcoder团队采取了多种创新策略。一方面利用代码聚类和函数调用关系图的方式，捕捉多个文件之间的相互注意力关系;另一方面，将抽象语法树的结构信息融入了预训练任务中，帮助模型学习代码的语法和模式特征。

总体而言，通过处理更高质量的数据，以及构造更贴近开发行为的代码大模型预训练任务，我们发现aiXcoder-7B 在考虑代码项目上下文这种更真实开发场景下，具有当前代码大模型中最佳的效果。

“开箱即适配”的企业级代码大模型

第一，易部署。在企业实际环境中部署时，通常企业的部署资源是受限的。aiXcoder-7B 只有7B参数规模，易于部署，还有成本低、性能好的优点。

第二，易定制。大多企业都有自己的软件开发框架和API的库，与其关联的业务逻辑、代码架构规范都因地制宜，十分个性化，同时这些内容又都有私密性。必须得让大模型学会这些企业代码资产，通过进行有效个性化训练，才能真正为企业所用。

第三，易组合。未来提供企业服务时，会让多个7B模型形成MoE架构，组合成为一套解决方案来完成企业定制化服务。不同的企业，都可以得到符合自身个性化需求的MoE版代码大模型解决方案，既能使用产品，又可享受服务。

个性化是企业级代码大模型在传统行业落地最大的鸿沟，aiXcoder“开箱即适配”的一站式智能解决方案，能够为企业级用户提供准确、有效、安全、连续的软件开发服务，提高项目的开发效率和代码质量。

aiXcoder代码大模型落地可靠性“闯关”成功

aiXcoder7B通过“开源+闭源”双循环式的生态布局战略，产业反哺技术，扩大行业领跑优势。企业级专属版本针对企业级客户，通过大量的C端用户、B端开发者，会收集到更多关于通用模型的真实反馈，了解实战效果和存在的痛点，并将这些转化为模型和产品层面的优化点，快速应用到企业客户，持续深化B端产品能力和服务质量，扩大在企业级市场的渗透率。aiXcoder-7B模型具有更快、更准的优势，是其他模型效率的至少2倍，这极大降低了企业的开发成本。

十余年来，aiXcoder致力于做中国代码大模型商业化探索的先行者，引领代码企业级私有化、管理智能化。目前主营业务聚焦于代码大模型的私有化部署、个性化训练和定制化开发三大核心领域，一站式为企业客户提供定制化解决方案，专属有效服务确保应用可落地。

许多企业级客户群特别重视数据安全和隐私，代码等资产不能上传云端。如何利用有限的GPU资源达成最佳效果，成为企业私有化部署的最大痛点。aiXcoder专攻对国产AI芯片和英伟达低端显卡的模型适配，布局最早并且效果最好，无论国产硬件还是进口硬件，都能得到最佳支持和性能保障。此外，在模型训练和推理优化等方面，也为客户提供了有效、稳定的服务保障。

根据客户的业务需求，aiXcoder提供个性化的训练方式，结合企业领域知识进行个性化训练。个性化训练方案能够有效提高模型的准确率，满足客户在不同行业、不同场景下的特定需求。相较于行业其他厂商的同质化训练方案，aiXcoder基于原生大模型技术的个性化训练方案，具有更高的灵活性和针对性。

aiXcoder注重将长期服务企业所累积的行业经验和专业领域知识，融入产业实践，促成商业落地。团队多年深耕传统重点行业，对这些领域有着独到的理解，将这些专业知识与定制化开发相结合，必将让aiXcoder赋能企业代码大模型的效果事半功倍。

目前，aiXcoder已服务大量银行、证券、保险、军工、高科技、运营商、能源、交通等行业头部客户，深耕服务金融行业，其中与某头部知名证券企业的“代码大模型在证券行业的应用实践”项目荣获2023AIIA人工智能十大潜力应用案例、中国信通院AI4SE银弹优秀案例等殊荣。

探索软件自动化的征程正迈向一个比较罕见的智能化时代，aiXcoder团队的每一次重大突破，都致力于打造更加智能、有效、安全、可靠的软件系统，努力成为大模型与传统软件可靠融合的重要推手。未来，我们将继续砥砺前行，持续为开发者提供更卓越的模型和服务!

（推广）

特别声明：以上内容(如有图片或视频亦包括在内)均为站长传媒平台用户上传并发布，本平台仅提供信息存储服务，对本页面内容所引致的错误、不确或遗漏，概不负任何法律责任，相关信息仅供参考。站长之家将尽力确保所提供信息的准确性及可靠性，但不保证有关资料的准确性及可靠性，读者在使用前请进一步核实，并对任何自主决定的行为负责。任何单位或个人认为本页面内容可能涉嫌侵犯其知识产权或存在不实内容时，可及时向站长之家提出书面权利通知或不实情况说明，并提供身份证明、权属证明及详细侵权或不实情况证明（点击查看反馈联系地址）。本网站在收到上述法律文件后，将会依法依规核实信息，沟通删除相关内容或断开相关链接。

相关推荐
大家在看

关键词：

【腾讯云】11.11云上盛惠！云服务器首年1.8折起，买1年送3个月！

11.11云上盛惠！海量产品 · 轻松上云！云服务器首年1.8折起，买1年送3个月！超值优惠，性能稳定，让您的云端之旅更加畅享。快来腾讯云选购吧！

Docker容器镜像
去看看

Docker容器镜像 60元/15天

爆款产品组合购
去看看

爆款产品组合购低至1元

腾讯云x NVIDIA加速计划
去看看

腾讯云x NVIDIA加速计划最高获赠10万元扶持基金

2核2G云服务器
去看看

2核2G云服务器 112元/1年

查看更多相关信息>>

腾讯云 12-20

广告
aiXcoder-7B官网体验入口 AI代码大模型使用地址

aiXcoder-7B是一个拥有70亿参数的代码大模型，专为企业级软件开发设计。其性能超越340亿参数的Codellama模型，在真实开发场景下表现卓越。提升您的软件开发效率，优化代码质量，尽在aiXcoder-7B。

aiXcoder-7B aiXcoder
荐7B超越百亿级，北大开源aiXcoder-7B最强代码大模型，企业部署最佳选择

大语言模型集成至编程领域、完成代码生成与补全任务成为重要趋势。业界已经出现了一批引人瞩目的代码大模型，比如OpenAI的CodeX、谷歌DeepMind的AlphaCode、HuggingFace的StarCoder，帮助程序员更迅捷、更准确、更高质量地完成编码任务，大幅提升效率。aiXcoder也因其极具前瞻性的探索方向、踏踏实实的落地实践，不断受到资本市场的追捧，高瓴、清流、彬复等极具行业引领性的基金

aiXcoder-7B 大模型
北大开源最强aiXcoder-7B代码大模型专为企业级软件开发场景设计

在当今科技快速发展的时代，AI代码生成技术正逐渐成为软件开发领域的热门话题。尽管AI在解决编程问题方面表现出色，但在真实的企业开发环境中，其应用似乎还不够理想。随着代码大模型能力的日益增强，我们有理由相信，aiXcoder-7B将为程序员们带来更多的创新潜能，推动编程自动化的浪潮向前发展。

aiXcoder-7B AI头条
荐AI日报：北大开源最强aiXcoder-7B代码大模型；OpenAI创始大神手搓千行C代码训练GPT；Stability AI图像模型竟能精细到这程度；在Vercel上一键部署Morphic

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。

aiXcoder-7B
孟子3-13B大模型正式开源

澜舟科技近日宣布，其研发的孟子3-13B大模型正式开源，并向学术研究领域全面开放，同时支持免费商用。这一轻量化大模型在多项基准测试中展现了优异的性能，特别是在参数量20B以内的模型中，其中英文语言能力尤为突出，数学和编程能力也位于行业前列。这一举措无疑将推动大模型技术的发展和应用，为AI产业的进步贡献力量。

大模型 AI头条
360智脑7B参数大模型正式开源最长支持约50万字输入

360公司自主研发的7B参数大模型——360智脑，现已正式上线开源社区，并提供了基础模型以及4K、32K、360K三种不同文本长度的版本。这一大模型在支持文本长度方面表现出色，最长可处理360K长文本，相当于约50万字的输入内容。在中英文360K大海捞针效果测试中，也取得了超过98%的高分。

大模型文本长度开源社区
更小更强大！Hugging Face发布8B开源视觉语言模型Idefics2

HuggingFace首次发布了其Idefics视觉语言模型，该模型于2023年首次亮相，采用了最初由DeepMind开发的技术。Idefics迎来了升级，新版本Idefics2拥有更小的参数规模、开放许可证以及改进的光学字符识别能力。Idefics2的发布是AI繁荣持续推出的许多多模态模型之一，包括Reka的新Core模型、xAI的Grok-1.5V和Google的Imagen2。

Idefics2 视觉语言模型 AI头条
Comfyui像素画风格插件——PixelArt Detector 可模拟不同时段光照变化

一款名为PixelArtDetector的Comfyui插件引起了广泛关注，它为像素画创作带来了全新的风格调整功能，极大地丰富了像素艺术的表现力。插件地址:https://github.com/dimtoneff/ComfyUI-PixelArt-DetectorPixelArtDetector插件的核心特点在于其内置的多种风格预设。无论是想要快速尝试不同风格的艺术家是需要为游戏场景添加动态光照效果的开发者，都可以从这款插件中受益。

Comfyui AI头条
通义千问开源基于Qwen1.5的代码模型CodeQwen1.5

通义千问昨晚开源了基于Qwen1.5的代码模型CodeQwen1.5，这是一个基于Qwen语言模型的代码专家模型。CodeQwen1.5拥有7B参数，采用GQA架构，经过约3Ttokens代码数据的预训练，支持92种编程语言，并且能够处理最长64K的上下文输入。开源社区对CodeQwen1.5的发布充满期待，希望它在代码助手、CodeAgent等方面为社区做出贡献，并在未来的代码智能建设中发挥重要作用，实现真正的AI程序员。

通义千问 CodeQwen1.5 AI头条
科汇DECODE GLOBAL在美国获得新的金融牌照，加强国际货币服务能力

随着全球化不断深入，国际间的资金流动变得愈发频繁作为支撑这一庞大体系的关键基础设施之一，货币服务扮演着举足轻重的角色。在这个背景下，DECODE集团旗下DecodeDigitalMarketsUSAInc凭借前瞻性的战略眼光与坚实的行业基础，通过了严格的审核程序，赢得了这场重要战役。期待DECODE集团在未来释放更大的潜能，为投资者带来更安全、稳健的金融服务与投资选择，为全球金融市

Chat UI:开源代码库，为HuggingChat应用提供动力

chat-ui是一个开源的聊天界面，使用开源模型如OpenAssistant或Llama。它是一个SvelteKit应用程序，为hf.co/chat上的HuggingChat应用提供支持。该产品允许用户通过自定义配置来运行和部署自己的Chat UI实例，支持多种语言模型和功能，如Web搜索、自定义模型等。

开源聊天应用 SvelteKit

360AI浏览器APP:360AI 浏览器，AI 赋能，秒懂一切。

360AI 浏览器利用人工智能技术，提供智能搜索、PDF、视频、网页总结等功能，旨在帮助用户高效获取知识，提升阅读体验。

智能搜索 PDF 阅读视频播放

FAQ Generator:免费AI生成FAQ，无需注册即可创建网站FAQ模板。

AI FAQ Generator是一款利用先进AI技术，通过分析常见问题自动生成FAQ列表的工具。它能够快速高效地生成FAQ，节省时间和资源，同时提供准确的答案，帮助提高客户满意度，并改善SEO效果。

AI技术自动化 FAQ创建

BrickCenter:一个创意无限的乐高设计平台，让你的想象力变为现实。

BrickCenter是一个在线平台，允许用户免费创建自己的乐高套装和迷你人物。它提供了一个将创意转化为详细乐高设计的工具，无论是复杂的场景还是个性化的迷你人物，用户都可以在这个平台上实现自己的设计梦想。该平台以其用户友好的界面和强大的定制功能而受到乐高爱好者的欢迎。

创意设计乐高

100 UI/UX Tips:在一个小时内学习如何制作令人印象深刻的应用程序界面。

《100 UI/UX Tips》提供了设计界面所需的所有提示，让用户感到满意。强调产品的主要优点、背景信息、价格和定位。

设计用户界面用户体验

whatwide.ai:提高生产力的AI助手，简单易用

whatwide.ai是一个提高生产力的AI助手，使用人工智能技术来节省时间并提高工作效率。它提供了50多种AI模型，包括文本生成、网站帮助、社交媒体分析、编程辅助等多种功能。whatwide.ai的优点在于高质量的内容生成、快速且安全的操作，以及多种AI类型供用户选择。

生产力文本生成网站帮助

Stream of Consciousness:一个展示想象中艺术家思绪的日常表演，通过创作和分享图像来表达创造力。

Stream of Consciousness是一个记录并分享艺术家思维的项目，通过创作和分享图像来展示创造力。它提供了一个深入艺术家思维的窗口，让人们了解艺术创作的过程和灵感的来源。

艺术创作思绪

Neurelo:是一种用于PostgreSQL、MongoDB和MySQL的云数据API平台，通过自动生成REST和GraphQL数据API、AI辅助的自定义查询API、查询可观察性等功能，简化和加速现代云应用程序开发。

Neurelo是一个专为云数据库而设计的平台，通过使用云API和人工智能技术，提供自动生成API、自定义查询API、查询可观察性和Schema as Code等功能，以提高开发人员的生产力。Neurelo能够简化数据库编程相关的复杂性，并具备可伸缩性、安全性和查询优化能力。

数据库云应用程序 API

EdrawMax:智能且风格多样的图表解决方案，简化您的想法可视化过程。

EdrawMax是一款功能强大的图表设计软件，它提供一站式的图表解决方案，适用于流程图、思维导图、组织结构图、甘特图、平面图和ER图等210多种图表类型。它具有简洁的用户界面，类似于MS Office的干净、整齐的界面，直观且易于导航的工具集，以及无缝的拖放功能。此外，EdrawMax还提供了23000多个用户制作的模板，850个精心制作的内置模板，以及26000多个免费符号，覆盖所有图表类型。它还具备AI功能，可以生成和分析22种类型的图表，包括文本到绘图和图片到绘图以及AI聊天。EdrawMax支持跨平台集成，可以在云端保存文件并通过链接共享，支持通过社交媒体或电子邮件发送作品，并能以13种格式导出图表，包括VSDX、PPTX和SVG等。此外，EdrawMax遵循GDPR标准，使用最高级别的256位SSL加密，确保用户隐私和数据安全。

重磅发布：aiXcoder-7B正式开源

今日大家都在搜的词：

热文

站长商机