首页 > 传媒 > 关键词  > aiXcoder最新资讯  > 正文

重磅发布:aiXcoder-7B正式开源

2024-04-09 17:36 · 稿源: 站长之家用户

4月9日,aiXcoder推出全新自研7B代码大模型。该模型在多个主流评估标准评测集中,与所有同量级开源模型对比效果最 佳,彰显出其作为百亿参数天 花板级代码大模型的非凡实力。

从评测集综合结果来看,aiXcoder-7B相较于传统的刷题式代码生成,它专门针对企业级软件项目,在真实开发场景下效果出众,这意味着aiXcoder-7B非常适合企业私有化部署。其中,aiXcoder-7B Base版开源共享给开发者,并陆续在 Github、Gitee、Gitlink 等平台上线。

aiXcoder团队孵化自北京大学软件工程研究所,在AI与软件开发交叉领域探索已历十年,是智能化软件开发领域的开拓者,专注于企业开发场景的服务。

代码生成与补全 效果达SOTA

真实场景中的编程总需要面对层出不穷的情况,而人工构造的测试集能力有限,可能会遇到规模和多样性有限、难以评估上下文理解能力、难以衡量泛化能力等问题。因此aiXcoder-7B模型选择了不同维度的测评集,全面验证模型实际能力,并指导模型迭代和应用部署。

在多个主流评估标准评测集中,无论是代码生成、代码补全还是跨文件上下文代码生成效果,aiXcoder-7B模型均有极 佳表现,甚至超越参数量大5倍的34B代码大模型,已达到当前SOTA水准,堪称最适于实际编程场景的基础模型。

测评效果1:在  HumanEval(由164道Python编程问题组成)、MBPP(由974个 Python编程问题组成)和 MultiPL-E(包含了18种编程语言)等主流代码生成效果评估测试集上,aiXcoder7B 准确率显著超越当前同级别代码大模型。

测评效果2:相对于HumanEval等测评集中的任务,真实开发场景的代码生成需要考虑当前编写代码的上下文信息。在Santacoder(Ben Allal et al.,2023) 提出的考虑上下文补全评测集上,aiXcoder-7B Base版在与 StarCoder2、CodeLlama7B/13B、DeepSeekCoder7B 等主流同量级开源模型的较量中取得了综合最 佳效果。

为了进一步精细地评测代码大模型在代码补全上的能力,aiXcoder 构建了一个比SantaCoder数据量更大,被测代码多样性更高、被测代码上下文长度更长、更接近实际开发项目的评测集 (16000多条来自真实开发场景的数据),在此测评集上aiXcoder-7B 同样效果最 好。

同时aiXcoder-7B 表现出了相较于其他代码大模型的又一大亮点,即倾向于使用较短代码来完成用户指定的任务。在针对Java、C++、JavaScript和Python编程语言的代码补全测评时,aiXcoder7B Base不仅效果最 好,四处红框圈出的生成答案长度明显短于其他模型,并且非常接近于标准答案长度(Ref)。

测评效果3:aiXcoder-7B 在更贴近真实开发场景的跨多文件代码补全任务上同样表现极 佳,在评估代码大模型提取跨文件上下文信息能力的CrossCodeEval测评集上,aiXcoder-7B 一举拿下了同级别模型的最 好效果。从测评结果中看出,aiXcoder-7B在只通过光标上文搜索到的结果作为 prompt,同时其他模型拿 GroundTruth搜索到的结果作为prompt,前者的效果依然要强于后者。

在真实开发场景中,aiXcoder-7B模型具有更多优势,展现出独特的科技智能与美学。比如预训练采用32K token的上下文长度,并且推理时可扩展至256K,能覆盖整个开发项目中的绝大部分代码;可准确判断何时需要生成新代码、何时代码逻辑已完整无需补全,直接生成完整的代码块、方法体、控制流程;可以准确地抽取项目级的上下文信息,大大降低大语言模型在预测API时产生的幻觉。

高质量训练数据和针对性训练方法养成记

大模型领域流行一句话:“Garbage in,Garbage out”,即输入垃圾数据会导致输出垃圾结果,可见对大模型进行预训练,数据是重中之重。aiXcoder-7B模型的超强表现,首先得益于高质量训练数据和针对性训练方法。

aiXcoder-7B模型训练集涵盖1.2T Unique token数据,覆盖数十种主流编程语言。aiXcoder团队在构建训练数据时,针对数十种主流编程语言进行了语法分析,过滤掉错误的代码片段,还对十多种主流语言的代码进行了静态分析,总共剔除了163种bug和197种常见代码缺陷,确保了训练数据的高质量。

为了增强模型对代码语义和结构的建模能力,aiXcoder团队采取了多种创新策略。一方面利用代码聚类和函数调用关系图的方式,捕捉多个文件之间的相互注意力关系;另一方面,将抽象语法树的结构信息融入了预训练任务中,帮助模型学习代码的语法和模式特征。

总体而言,通过处理更高质量的数据,以及构造更贴近开发行为的代码大模型预训练任务,我们发现aiXcoder-7B 在考虑代码项目上下文这种更真实开发场景下,具有当前代码大模型中最 佳的效果。

“开箱即适配”的企业级代码大模型

第 一,易部署。在企业实际环境中部署时,通常企业的部署资源是受限的。aiXcoder-7B 只有7B参数规模,易于部署,还有成本低、性能好的优点。

第二,易定制。大多企业都有自己的软件开发框架和API的库,与其关联的业务逻辑、代码架构规范都因地制宜,十分个性化,同时这些内容又都有私密性。必须得让大模型学会这些企业代码资产,通过进行有效个性化训练,才能真正为企业所用。

第三,易组合。未来提供企业服务时,会让多个7B模型形成MoE架构,组合成为一套解决方案来完成企业定制化服务。不同的企业,都可以得到符合自身个性化需求的MoE版代码大模型解决方案,既能使用产品,又可享受服务。

个性化是企业级代码大模型在传统行业落地最 大的鸿沟,aiXcoder“开箱即适配”的一站式智能解决方案,能够为企业级用户提供准确、有效、安全、连续的软件开发服务,提高项目的开发效率和代码质量。

aiXcoder代码大模型落地可靠性“闯关”成功

aiXcoder7B通过“开源+闭源”双循环式的生态布局战略,产业反哺技术,扩大行业领跑优势。企业级专属版本针对企业级客户,通过大量的C端用户、B端开发者,会收集到更多关于通用模型的真实反馈,了解实战效果和存在的痛点,并将这些转化为模型和产品层面的优化点,快速应用到企业客户,持续深化B端产品能力和服务质量,扩大在企业级市场的渗透率。aiXcoder-7B模型具有更快、更准的优势,是其他模型效率的至少2倍,这极大降低了企业的开发成本。

十余年来,aiXcoder致力于做中国代码大模型商业化探索的先行者,引领代码企业级私有化、管理智能化。目前主营业务聚焦于代码大模型的私有化部署、个性化训练和定制化开发三大核心领域,一站式为企业客户提供定制化解决方案,专属有效服务确保应用可落地。

许多企业级客户群特别重视数据安全和隐私,代码等资产不能上传云端。如何利用有限的GPU资源达成最 佳效果,成为企业私有化部署的最 大痛点。aiXcoder专攻对国产AI芯片和英伟达低端显卡的模型适配,布局最早并且效果最 好,无论国产硬件还是进口硬件,都能得到最 佳支持和性能保障。此外,在模型训练和推理优化等方面,也为客户提供了有效、稳定的服务保障。

根据客户的业务需求,aiXcoder提供个性化的训练方式,结合企业领域知识进行个性化训练。个性化训练方案能够有效提高模型的准确率,满足客户在不同行业、不同场景下的特定需求。相较于行业其他厂商的同质化训练方案,aiXcoder基于原生大模型技术的个性化训练方案,具有更高的灵活性和针对性。

aiXcoder注重将长期服务企业所累积的行业经验和专业领域知识,融入产业实践,促成商业落地。团队多年深耕传统重点行业,对这些领域有着独到的理解,将这些专业知识与定制化开发相结合,必将让aiXcoder赋能企业代码大模型的效果事半功倍。

目前,aiXcoder已服务大量银行、证券、保险、军工、高科技、运营商、能源、交通等行业头部客户,深耕服务金融行业,其中与某头部知名证券企业的“代码大模型在证券行业的应用实践”项目荣获2023AIIA人工智能十大潜力应用案例、中国信通院AI4SE银弹优秀案例等殊荣。

探索软件自动化的征程正迈向一个比较罕见的智能化时代,aiXcoder团队的每一次重大突破,都致力于打造更加智能、有效、安全、可靠的软件系统,努力成为大模型与传统软件可靠融合的重要推手。未来,我们将继续砥砺前行,持续为开发者提供更卓越的模型和服务!

推广

特别声明:以上内容(如有图片或视频亦包括在内)均为站长传媒平台用户上传并发布,本平台仅提供信息存储服务,对本页面内容所引致的错误、不确或遗漏,概不负任何法律责任,相关信息仅供参考。站长之家将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。任何单位或个人认为本页面内容可能涉嫌侵犯其知识产权或存在不实内容时,可及时向站长之家提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明(点击查看反馈联系地址)。本网站在收到上述法律文件后,将会依法依规核实信息,沟通删除相关内容或断开相关链接。

  • 相关推荐
  • 大家在看
  • Streaks 66:66天习惯养成助手,AI智能指导。

    Streaks 66是一款习惯追踪应用程序,旨在帮助用户通过66天的挑战来建立持久的日常习惯。它提供了不同难度模式以适应不同用户的需求,并通过集成的AI习惯教练为用户提供个性化建议、激励和关于习惯和目标的洞察。此外,该应用程序还支持设置提醒、与朋友和家人分享习惯进展以及跨设备同步数据。

  • ChatGPT Notepad:在线文本编辑器,提供文本编辑、保存、复制、剪切等功能。

    ChatGPT Notepad是一款在线文本编辑器,旨在帮助用户高效地编辑和处理文本内容。它支持基本的文本编辑功能,如保存、复制、剪切等,同时提供全屏模式和大小写转换等高级功能。该产品重视用户隐私保护,不使用第三方跟踪工具,确保用户数据安全。

  • InternLM-Math-Plus:双语开源数学推理大型语言模型。

    InternLM-Math-Plus 是一个最新的双语(英文和中文)开源大型语言模型(LLM),专注于数学推理,具有解决、证明、验证和增强数学问题的能力。它在非正式数学推理(如思维链和代码解释)和正式数学推理(如LEAN 4翻译和证明)方面都有显著的性能提升。

  • Selfarama:用AI将孩子的肖像与画家相结合 生成书籍

    Selfarama 是一款教育图书产品,通过将孩子与历史上最伟大的画家联系起来,帮助他们学习艺术史知识。产品包含定制的孩子肖像画和通俗易懂的教育文本。

  • Open-Sora-Plan-v1.1.0:文本到视频生成的开源模型,性能卓越。

    Open-Sora-Plan是一个由北京大学元组团队开发的文本到视频生成模型。它在2024年4月首次推出v1.0.0版本,以其简单高效的设计和显著的性能在文本到视频生成领域获得了广泛认可。v1.1.0版本在视频生成质量和持续时间上进行了显著改进,包括更优的压缩视觉表示、更高的生成质量和更长的视频生成能力。该模型采用了优化的CausalVideoVAE架构,具有更强的性能和更高的推理效率。此外,它还保持了v1.0.0版本的极简设计和数据效率,并且与Sora基础模型的性能相似,表明其版本演进与Sora展示的扩展法则一致。

  • &udm=14:无AI干扰的谷歌搜索页面

    &udm=14的AI-Free Search是一个提供无AI干扰的谷歌搜索服务的网站,允许用户在没有人工智能干预的情况下进行搜索。它使用'udm=14'参数来实现这一点,旨在保护用户的隐私,同时提供快速、准确的搜索结果。该网站由Tedium团队构建,支持开源代码,用户可以通过Glitch或Github获取。

  • LookOnceToHear:实时语音提取智能耳机交互系统

    LookOnceToHear 是一种创新的智能耳机交互系统,允许用户通过简单的视觉识别来选择想要听到的目标说话者。这项技术在 CHI 2024 上获得了最佳论文荣誉提名。它通过合成音频混合、头相关传输函数(HRTFs)和双耳房间脉冲响应(BRIRs)来实现实时语音提取,为用户提供了一种新颖的交互方式。

  • Models Table:大型语言模型的详细列表和信息

    Models Table 提供了一个包含300多个大型语言模型的列表,这些模型被所有主要的AI实验室使用,包括Amazon Olympus, OpenAI GPT-5, OpenAI GPT-6等。该列表展示了大型语言模型的发展趋势和多样性,对于AI研究者和开发者来说是一个宝贵的资源。

  • ReVideo.pro:一键式AI视频制作工具,适用于社交媒体和商业广告。

    ReVideo是一款功能强大的在线视频制作工具,它集成了100多个高级模板、AI背景移除工具、无版权音乐和图片库等。用户可以通过ReVideo轻松创建适用于Facebook、Instagram、YouTube、TikTok、Snapchat、播客等多种平台的视频内容。ReVideo的主要优点包括:无需录制视频或面对镜头、AI自动转录音频为字幕、自动生成音频波形、一键式品牌资产个性化、媒体库集成、超过300万的库存照片和视频资源可供搜索等。此外,ReVideo还提供了商业许可,允许用户为其客户创建视频并保留100%的利润。

  • SignLLM:首个多语种手语生成模型,优化手语翻译与教学。

    SignLLM是首个多语种手语生成模型,它基于公共手语数据构建,包括美国手语(ASL)和其他七种手语。该模型能够从文本或提示生成手语手势,并通过强化学习加速训练过程,提高数据采样质量。SignLLM在八种手语的生产任务上都达到了最先进的性能。

  • InstructAvatar:文本引导的情感和动作控制,生成生动的2D头像

    InstructAvatar是一个创新的文本引导方法,用于生成具有丰富情感表达的2D头像。该模型通过自然语言接口控制头像的情感和面部动作,提供了细粒度控制、改进的交互性和对生成视频的泛化能力。它设计了一个自动化注释流程来构建指令-视频配对的训练数据集,并配备了一个新颖的双分支扩散基础生成器,可以同时根据音频和文本指令预测头像。实验结果表明,InstructAvatar在细粒度情感控制、唇同步质量和自然度方面均优于现有方法。

  • AnyNode:ComfyUI的节点,能够根据用户指令生成任何类型的输出。

    AnyNode是一个为ComfyUI设计的插件,它利用LLMs(大型语言模型)的能力,根据用户的输入生成所需的输出。它支持使用OpenAI API或本地LLMs API,允许用户通过简单的配置和指令,实现复杂的编程任务,无需编写代码。该插件的主要优点包括易用性、灵活性和强大的功能,能够显著提高开发效率,尤其适合需要快速原型开发和自动化任务的开发者。

  • FlashRAG:高效的检索增强生成研究工具包

    FlashRAG是一个Python工具包,用于检索增强生成(RAG)研究的复现和开发。它包括32个预处理的基准RAG数据集和12种最先进的RAG算法。FlashRAG提供了一个广泛且可定制的框架,包括检索器、重排器、生成器和压缩器等RAG场景所需的基本组件,允许灵活组装复杂流程。此外,FlashRAG还提供了高效的预处理阶段和优化的执行,支持vLLM、FastChat等工具加速LLM推理和向量索引管理。

  • MusicGPT:在本地使用 LLMs 根据自然语言提示生成音乐。

    MusicGPT 是一款允许在任何平台上以高性能方式在本地运行最新音乐生成 AI 模型的应用程序。它支持文本条件音乐生成、旋律条件音乐生成以及不确定长度 / 无限音乐流。产品优势在于无需安装重型依赖如 Python 或机器学习框架,能够本地运行 AI 模型,提供自然语言提示生成音乐的功能。

  • AI Menti Builder:AI驱动的快速演示文稿制作工具

    AI Menti Builder是一个在线工具,它利用人工智能技术帮助用户快速创建演示文稿。这个工具能够根据用户输入的主题,即时生成一个可交互的演示文稿草稿,用户可以根据自己的需求进行调整和完善。它适用于团队会议、研讨会、讲座、调查、趣味测验等多种场合,大大减少准备时间,提高效率。

  • Copilot for Telegram:Telegram上的AI伴侣,智能聊天新体验。

    Copilot for Telegram是由微软推出的一款AI聊天助手,它通过GPT技术为用户提供智能聊天体验。用户可以与Copilot进行无缝对话,获取信息,享受更智能的聊天体验,所有这些功能都集成在Telegram应用中。Copilot for Telegram的主要优点包括提供个性化建议、娱乐内容、生活小贴士等,旨在提高用户的社交互动质量。

  • 一设MJ咒语解析:反向解析AI提示词的效率工具

    MJ咒语解析是一个专注于设计领域的工具,它能够帮助用户根据图片和绘画反向解析AI提示词,从而提高设计工作的效率和质量。该工具的背景信息表明,它是由一群对AI技术在设计领域应用充满热情的开发者所创建,旨在解决设计师在创作过程中遇到的提示词难题。

  • Marlee:AI协作与绩效助手,提升团队协作与个人发展。

    Marlee是一款致力于提升团队协作和个人绩效的AI工具。它通过个性化洞察,帮助团队成员在工作流程中相互促进,提供连接、激励、协作和发展的解决方案。Marlee利用科学支持的问题和分析,以高达98%的可靠性度量48种工作动机,帮助团队成员感到被看见和接受,从而在工作中展现最佳状态。此外,Marlee还提供人才招聘、人才发展、解决冲突、团队绩效和沟通等方面的帮助,以及在并购中预测文化协同的可能性。

  • Rehance:提升SaaS产品生产力的AI助手

    Rehance是一个AI助手插件,旨在为SaaS产品提供自动化任务执行和问题解答功能,帮助用户提高工作效率,简化复杂操作,并提供使用数据以优化产品。

  • HyperCrawl:专为LLM和RAG应用设计的高效网络爬虫

    HyperCrawl是第一个为LLM(大型语言模型)和RAG(检索增强生成模型)应用设计的网络爬虫,旨在开发强大的检索引擎。它通过引入多种先进方法,显著减少了域名的爬取时间,提高了检索过程的效率。HyperCrawl是HyperLLM的一部分,致力于构建未来LLM的基础设施,这些模型需要更少的计算资源,并且性能超越现有的任何模型。

今日大家都在搜的词: