首页 > 业界 > 关键词  > 正文

CodeFuse微调框架MFTCoder升级v0.3.0版本 支持Mixtral等模型

2024-01-22 08:46 · 稿源:站长之家

站长之家(ChinaZ.com) 1月22日 消息:MFTCoder 是蚂蚁CodeFuse开源的一种多任务微调框架,可以在多个任务上同时进行微调。它通过结合多种损失函数解决了多任务学习中的挑战。MFTCoder 具备高效训练特征,包括高效的数据 Tokenization 模式和支持 PEFT 微调,能提升微调训练速度并降低资源需求。

MFTCoder 在 v0.3.0版本中进行了重磅升级。

微信截图_20240122084743.png

首先,它支持了 Mixtral 等更多的主流开源 LLMs 模型,如 Mistral、Deepseek-coder、Chatglm3等。这些模型经过 MFTCoder 微调后,在代码能力上有了显著的提升。

其次,新版本适配了最新的 transformers v4.36.0和 FlashAttention2v2.3.6,使得 MFTCoder 可以更好地利用最新的 Attention 实现,如 sliding_window Attention,进一步提升模型性能。

第三,MFTCoder-accelerate 框架在原有支持 Accelerate+DeepSpeed 的基础上,增加了对 FSDP 的支持,提供了更多的选择。

最后,MFTCoder 引入了 Self-Paced Loss 作为新的收敛均衡技术,可以调整不同任务的权重,控制不同任务的收敛速度,实现多任务同时收敛。

通过多任务微调,CodeFuse-Mixtral-8x7B 在各种语言的 Pass@1评测中的性能得到了显著提升,达到40.9% ->52.8%。这使得 CodeFuse-Mixtral-8x7B 成为当前开源的非代码大模型中代码能力领先的模型之一。

项目地址:https://github.com/codefuse-ai/MFTCoder/tree/main/mftcoder_accelerate

举报

  • 相关推荐
  • OPPO ColorOS 16正式版11月升级机型公布:支持23款机型

    ColorOS 16正式版11月升级计划公布,涵盖OPPO Find X7/N3系列、一加Ace 5系列等23款机型。系统引入极光引擎、潮汐引擎及自研繁星编译器,显著提升流畅度并降低功耗。新增一键闪记功能,支持复杂图文与超长视频录制。生态互联实现突破,全面打通Apple Watch生态,支持打车、外卖等信息跨设备显示。通过软硬协同优化,为用户打造更流畅持久的操作体验。

  • 小米17 Ultra提供双版本:顶配版独占双卫星通信

    小米14 Ultra已备案两个版本,型号分别为2512BPNDAC和2512BSPNA1C,全系支持UWB。高配版搭载双卫星通信技术,支持天通一号卫星通话及北斗短报文,可在无地面网络时保持通信。工业设计采用1.5K直屏与超级像素新国屏,后置5000万超大底主摄及2亿像素潜望长焦,支持长焦微距。搭载骁龙8 Gen3平台,支持无线充电、IP68防水,配备大容量金沙江电池,预计春节前发布。

  • 佳能R50V双十一钜惠:漫展COS/汉服Vlog/直播带货一机搞定!

    佳能R50V微单相机以6000元内惊喜价格亮相双十一,配备全像素双核CMOS与智能对焦系统,支持人物/动物/车辆追踪。轻巧机身仅323克,优化握持设计便于外拍。具备6K超采4K录制、14种滤镜及美肤模式,竖拍界面完美适配短视频平台。USB直连实现4K60P直播供电,特写模式自动切换焦点,适合带货与教学。多档套餐覆盖从三脚架到专业滤镜,满足动漫COS、国风Vlog等多场景创作需求,是降低门槛提升品质的优选工具。

  • AI日报:阿里夸克“C计划”曝光;Veo3.1将增加视频“精确编辑”功能;Anthropic推出Claude Code网页版

    今日AI领域动态:阿里夸克启动"C计划"布局对话式AI应用,剑指字节"豆包";Anthropic推出Claude Code网页版,支持浏览器直接编码;谷歌Veo新增视频"精确编辑"功能,提升创作效率;Fish Audio升级S1语音克隆模型,10秒即可复刻真人声音;AWS美东故障影响ChatGPT等多项服务;DeepSeek-OCR推出"视觉记忆压缩"机制破解AI记忆瓶颈;Adobe推出AI Foundry服务,支持企业定制品牌AI模型;Anthropic发布Claude for Life Sciences,加速生命科学研究。

  • AI日报:昆仑万维SkyReels V3模型上线;月之暗面推Kimi Linear模型;MiniMax Music 2.0 发布

    本期AI日报聚焦多领域创新:昆仑万维推出SkyReels V3模型,整合顶尖视频生成能力;月之暗面Kimi Linear模型处理长文本速度提升2.9倍;MiniMax Music 2.0实现专业级音乐创作;字节跳动启动豆包股权激励计划吸引AI人才;苹果iOS 27将迎AI重大升级,Siri更个性化;Dia浏览器融合Arc设计理念与AI技术;文心魔法漫画工具实现一键生成连载作品;谷歌Gemini Canvas新增PPT自动生成功能,由Gemini 2.5 Pro驱动,提升职场效率。

  • Soul App开源模型SoulX-Podcast登顶Hugging Face TTS趋势榜,AI语音对话再升级

    SoulX-Podcast语音生成模型在开源社区Hugging Face发布次日登顶TTS趋势榜。该模型由Soul AI Lab联合高校团队开发,专为多轮对话场景设计,支持中英川粤等多语言/方言与副语言风格,能生成超60分钟流畅自然、角色切换准确、韵律丰富的语音。它解决了传统语音系统在多轮对话中上下文衔接不自然、缺乏副语言控制能力等痛点,在播客、语音合成等场景表现突出,获开发者广泛关注。Hugging Face CEO也转发相关内容,团队未来将持续优化语音对话、拟人化表达等核心交互能力,深化开源生态建设。

  • 以数字引擎驱动未来——太平洋电信数字化平台E-com正式上线

    太平洋电信推出数字化服务平台E-com,通过模块化架构将复杂云网安方案拆解为标准化组件,实现可视化配置管理。该平台提供方案设计、在线采购、售后服务全流程支持,内置模板降低技术门槛,让企业用户可自主搭建专属方案。同时整合e-Go在线商城实现快速下单,推动行业从价格竞争转向服务价值竞争,构建开放服务生态。

  • 数智驱动,共赢跨境|RixDesk亮相ICBE 2025,重磅发布“跨屏全媒介广告投放解决方案”

    在ICBE2025深圳跨境电商博览会上,RixDesk发布“跨屏全媒介广告投放解决方案”。该方案针对用户多设备切换导致的广告触点分散问题,通过跨屏整合、一次创建全媒介触达、智能优化及数据闭环四大核心功能,帮助品牌实现多平台高效投放,提升传播效果与ROI。系统利用AI技术自动分发内容、优化策略,助力跨境品牌在复杂流量环境中精准获客与持续增长。

  • 航天员同款耳机出圈!能抗住太空噪音的声阔(soundcore)耳机,背后究竟有哪些硬科技?

    11月3日,央视新闻发布中国航天员在空间站佩戴声阔耳机享受烧烤的视频,展现中国航天科技的成熟与自信。声阔耳机通过严苛太空环境测试,代表中国制造业最高水准,其卓越降噪与音质技术为航天员创造宁静空间。作为安克创新旗下品牌,声阔产品已覆盖全球超56个市场,2024年实现中国音频品牌无线耳机全球出货量第一,彰显"中国智造"从技术追赶到创新引领的转型。

  • OPPO ColorOS 16正式版推送:首批适配11款机型

    ColorOS 16正式版于10月30日启动推送,首批覆盖11款OPPO和一加热门机型。该系统引入极光引擎、潮汐引擎与繁星编译器三大流畅技术,实现感官、性能与底层的全方位提升。极光引擎打造业内首个“无缝隙架构”,确保全场景丝滑交互;潮汐引擎首发芯片级动态追帧技术,系统重载流畅度提升37%,功耗降低13%;繁星编译器首创安卓跨级融合编译技术,大幅提升低算力芯片性能。此次升级将增强品牌市场竞争力,为用户带来更出色的使用体验。

今日大家都在搜的词: