首页 > 业界 > 关键词  > 正文

CodeFuse微调框架MFTCoder升级v0.3.0版本 支持Mixtral等模型

2024-01-22 08:46 · 稿源:站长之家

站长之家(ChinaZ.com) 1月22日 消息:MFTCoder 是蚂蚁CodeFuse开源的一种多任务微调框架,可以在多个任务上同时进行微调。它通过结合多种损失函数解决了多任务学习中的挑战。MFTCoder 具备高效训练特征,包括高效的数据 Tokenization 模式和支持 PEFT 微调,能提升微调训练速度并降低资源需求。

MFTCoder 在 v0.3.0版本中进行了重磅升级。

微信截图_20240122084743.png

首先,它支持了 Mixtral 等更多的主流开源 LLMs 模型,如 Mistral、Deepseek-coder、Chatglm3等。这些模型经过 MFTCoder 微调后,在代码能力上有了显著的提升。

其次,新版本适配了最新的 transformers v4.36.0和 FlashAttention2v2.3.6,使得 MFTCoder 可以更好地利用最新的 Attention 实现,如 sliding_window Attention,进一步提升模型性能。

第三,MFTCoder-accelerate 框架在原有支持 Accelerate+DeepSpeed 的基础上,增加了对 FSDP 的支持,提供了更多的选择。

最后,MFTCoder 引入了 Self-Paced Loss 作为新的收敛均衡技术,可以调整不同任务的权重,控制不同任务的收敛速度,实现多任务同时收敛。

通过多任务微调,CodeFuse-Mixtral-8x7B 在各种语言的 Pass@1评测中的性能得到了显著提升,达到40.9% ->52.8%。这使得 CodeFuse-Mixtral-8x7B 成为当前开源的非代码大模型中代码能力领先的模型之一。

项目地址:https://github.com/codefuse-ai/MFTCoder/tree/main/mftcoder_accelerate

举报

  • 相关推荐
  • @开发者们:百度文心大模型4.5系列模型开源,国内首发平台GitCode现已开放下载!

    6月30日,百度文心大模型4.5系列正式开源并在国内领先的开源平台GitCode首发上线。该系列包含10款模型,涵盖47B和3B参数的混合专家(MoE)模型及0.3B的稠密参数模型,采用创新的多模态异架构结构实现跨模态知识融合。模型基于飞桨框架开发,训练效率达47% MFU,在文本和多模态基准测试中达到SOTA水平。所有模型按Apache2.0协议开源,配套产业级开发套件支持多种芯片部署。GitCode平台已汇聚620万用户,为AI开发者提供代码托管、协同开发等全流程支持。此次开源将推动中国AI生态创新,加速大模型技术产业化应用。

  • 我们跟美团技术的同学聊了聊“NoCode”的背后,顺手用它搭了个社区……

    ​我不是一个“懂代码”的人。 作为一家日益专注AI的科技内容社区的CEO,我的团队与AI 创业者和研究人员进行访谈,发布文章,举办各种各样的AI 论坛、黑客马拉松和workshop;我还在硅谷成立了一个 叫GenAI Assembling的AI 开发者社区,定期举办线下活动和闭门讨论。 我们不仅有读者,还有社区用户,这意味着我们有大量的前端交互页面需要生成——AI 从业者和爱好者需要点击它

  • AI日报:腾讯混元3D 2.1大模型开源;字节跳动AI Lab负责人李航卸任;OpenAI Codex 全新升级

    本文介绍了AI领域最新动态:1)腾讯开源混元3D2.1大模型,提升3D生成质量;2)OpenAI Codex升级,优化代码生成功能;3)字节跳动AI Lab负责人李航卸任;4)微软发布700个AI应用案例;5)微软推出Code Researcher工具,解决58%系统崩溃问题;6)Observer AI实现屏幕操作自动化;7)Genspark发布AI浏览器;8)麻省理工用AI技术3.5小时修复15世纪名画;9)蚂蚁集团推出开源多模态GPT-4o模型Ming-Omni;10)MagicTryOn视频换衣框架;11)字节跳动发布实时互动AI视频生成模型Seaweed APT2;12)ChatGPT搜索功能升级;13)字节跳动与老凤祥合作开发AI智能眼镜。

  • A日报:B站升级动漫视频生成模型AniSora V3;字节开源4D视频生成框架EX-4D;DeepSWE开源AI Agent系统强势登顶

    AI日报栏目汇总了近期AI领域的重要进展:1)字节跳动开源EX-4D框架,可将单目视频转换为多视角4D视频;2)B站开源动漫视频生成模型AniSora V3,支持多种风格;3)DeepSWE+开源基于Qwen3-32B的AI Agent系统;4)字节开源3亿参数图像编辑模型VINCIE-3B;5)Stability AI推出移动端音频生成模型Stable Audio Open Small;6)谷歌发布免费教育AI工具套件Gemini for Education;7)Topview推出革命性AI数字人带货技术Avatar

  • 当 CODING 宣布其 DevOps 产品停服计划时,国内软件研发工具行业的平静被彻底打破

    腾讯旗下CODING DevOps平台将于2024年9月起逐步停服,极狐GitLab迅速推出专属迁移福利争夺用户。其优惠政策包括:首年订阅超低折扣(SaaS团队版300元/人)、免费代码仓库迁移服务、社区版用户专属折扣及3个月企业版试用权益。此举直击用户迁移痛点,降低经济门槛和操作风险。极狐凭借"中外合作3.0"模式在中国市场快速崛起,已与沃尔玛、理想汽车等企业建立成功合作案例。这场用户争夺战将加速国内研发工具行业洗牌,推动平台提升智能化服务和生态建设,最终使开发者获得更高效的工具选择。

  • 落后华为2年半!Apple Watch Ultra 3有望今年登场:支持卫星消息

    据彭博社记者透露,Apple Watch Ultra 3有望于今年发布,将带来卫星连接与5G网络支持等 重要” 新功能,打破该系列自2023年以来的硬件升级停滞局面。 目前,华为是首个在智能手表上实现卫星通信功能的厂商。 2023年3月,华为Watch Ultimate非凡大师全球首发搭载双向北斗卫星消息功能,成为业界首款支持该技术的智能手表。 Apple Watch Ultra 3预计将会在今年9月份发布,落后华为整�

  • AICosts.ai深度评测:一站式AI成本管理解决方案

    随着ChatGPT等大模型的爆发式发展,企业AI支出正成为新的财务黑洞。AICosts.ai应运而生,这款专为AI密集型团队设计的成本管理平台,能聚合所有AI服务商的账单数据,提供可视化分析和优化建议。核心解决三大痛点:1)碎片化账单管理;2)异常监控;3)跨平台优化。通过实时仪表盘、多维筛选和预算预警等功能,某客户使用三个月后总支出降低28%。专业版定价49.99美元/月,特别适合月AI支出超1000美元的团队和使用多个AI服务的开发者。平台计划Q3推出Slack/Teams实时通知和AI优化方案自动生成功能。

  • iPad为何不运行macOS 苹果高管:macOS未对触摸屏做优化

    iPadOS 26带来了全新的应用视窗、下滑式菜单栏等功能,让iPad的操作体验更接近Mac,但苹果始终未让iPad运行macOS系统,其背后原因正式揭开。 苹果公司软件工程负责人Craig Federighi接受采访时称,iPadOS 26的新特性在生产力与简洁性之间取得了很好的平衡,macOS系统从未对触控屏做优化,我们要保留iPad最本质的简洁性,如果强行移植macOS,iPad将丧失其触控设备的独特价值。 Craig Fed

  • AI日报:MiniMax-M1开源;阿里Qwen3升级版适配苹果MLX架构;月之暗面发布新模型Kimi-Dev-72B

    《AI日报》汇总了近期AI领域多项重要进展:1)月之暗面推出开源编程模型Kimi-Dev-72B,在软件工程任务测试中创下新纪录;2)MiniMax开源M1模型,支持超长上下文推理且训练成本低;3)腾讯发布AI音乐模型LeVo,支持音色克隆和分轨生成;4)阿里云Qwen3升级版适配苹果MLX架构;5)豆包推出"AI播客"功能,可将PDF转为对话播客;6)夸克App上线个性化AI家教"夸克老师";7)松下发布多模态大模型OmniFlow,实现文本/图像/音频自由切换;8)TikTok推出三款AI视频创作工具;9)极氪与火山引擎合作,将豆包大模型接入智能座舱系统;10)Meta的Llama3.1模型在文本记忆方面表现突出;11)Grok上线定时追踪X热门话题功能;12)Gemini2.5Pro即将更新Deep Think功能;13)谷歌地图引入AI技术升级导航和个性化推荐功能。

  • Perplexity推出AI浏览器Comet:想用得开1400元/月的订阅

    由英伟达支持的Perplexity AI推出了一款名为Comet的AI驱动网络浏览器。 Comet浏览器的核心卖点是其AI驱动的交互体验,公司表示它将整个浏览会话转变为单一、无缝的交互,将复杂的工作流程简化为流畅的对话。