首页 > 业界 > 关键词  > Mixtral最新资讯  > 正文

Mistral AI推出Mixtral 8x7B:一种改变机器学习的SMoE语言模型 效果堪比GPT-3.5

2024-01-15 11:57 · 稿源:站长之家

## 划重点:

1. 🚀 **创新模型介绍:** Mistral AI 的研究团队推出了基于 Sparse Mixture of Experts(SMoE)模型的 Mixtral8x7B 语言模型,采用开放权重。

2. 🌐 **性能突出:** Mixtral8x7B 在多语言数据(32k令牌上下文大小)的预训练中表现优异,与Llama270B和GPT-3.5相比,性能不逊色甚至更好。

3. 📊 **广泛评估结果:** 与Llama模型进行了详细的比较,Mixtral 在包括数学、代码生成、阅读理解、常识推理等各类任务中均表现出色。

站长之家(ChinaZ.com)1月15日 消息:最新的研究中,Mistral AI 的研究团队推出了一款名为 Mixtral8x7B 的语言模型,该模型基于新的 Sparse Mixture of Experts(SMoE)模型,具有开放权重。该模型被授权使用 Apache2.0许可证,并作为专家混合的稀疏网络仅用作解码器模型。

研究团队透露,Mixtral 的前馈块是从八个不同的参数组中选择的。每个层和令牌都有两个参数组,称为专家,由路由网络动态选择以处理令牌并将它们的结果以加法方式组合。由于每个令牌只使用总参数的一部分,这种方法有效地增加了模型的参数空间,同时保持成本和延迟的控制。

AI客服 AI语音

图源备注:图片由AI生成,图片授权服务商Midjourney

Mistral 通过使用32k token上下文大小的多语言数据进行预训练,表现出色,与Llama270B和GPT-3.5在多个基准测试中相当或更好。其主要优势之一是有效利用参数,允许在小批量大小时更快的推理时间,并在大批量大小时提高吞吐量。

Mixtral 在包括多语言理解、代码生成和数学等测试中,明显优于Llama270B。实验证明,Mixtral能够有效地从其32k令牌的上下文窗口中恢复数据,无论数据在序列中的长度和位置如何。

为确保公正准确的评估,研究团队使用了他们的评估流程重新运行了基准测试,详细比较了Mixtral和Llama模型。评估涵盖了数学、代码、阅读理解、常识思维、世界知识和流行的汇总发现等各种问题。

在0-shot环境中,对常识推理任务进行了评估,包括ARC-Easy、ARC-Challenge、Hellaswag、Winogrande、PIQA、SIQA、OpenbookQA和CommonsenseQA。在5-shot格式中,对世界知识任务进行了评估,包括TriviaQA和NaturalQuestions。阅读理解任务BoolQ和QuAC在0-shot环境中进行评估。数学任务包括GSM8K和MATH,而与代码相关的任务包括Humaneval和MBPP。研究还包括了对AGI Eval、BBH和MMLU的流行的综合发现。

研究还展示了 Mixtral8x7B – Instruct,这是一个专为指令优化的对话模型。在过程中使用了直接偏好优化和监督微调。在人工评估基准中,Mixtral – Instruct在与GPT-3.5Turbo、Claude-2.1、Gemini Pro和Llama270B – 聊天模型的比较中表现更好。类似BBQ和BOLD的基准显示出更少的偏见和更平衡的情感配置。

为促进广泛的可访问性和各种应用,Mixtral8x7B和Mixtral8x7B – Instruct都已获得Apache2.0许可证,允许商业和学术用途。通过添加Megablocks CUDA内核以实现有效的推理,团队还修改了vLLM项目。

论文网址:https://arxiv.org/abs/2401.04088

代码:https://github.com/mistralai/mistral-src

举报

  • 相关推荐
  • 小米最强旗舰!卢伟冰回国 网友:要准备小米17 Ultra了

    小米17+ Ultra预计12月发布,已备案。配备双卫星通信技术,支持天通一号卫星通话和北斗短报文,无地面网络时仍可保持通信。影像系统是核心卖点,主摄采用新一代LOFIC技术,提升高光场景表现,减少过曝。搭载骁龙8至尊版旗舰平台,电池容量6000-7000mAh,支持无线充电和超声波屏下指纹。正面直屏,背部大圆镜头模组,后置1英寸超大底主摄及2亿像素潜望长焦。

  • 字节旗下AI编程工具TRAE SOLO发布 面向所有用户开放

    字节跳动AI编程工具TRAE SOLO正式版发布,面向国际用户开放。该工具提供IDE和SOLO两种开发模式:IDE模式在保留原有流程基础上增强智能问答、代码补全等AI能力;SOLO模式以AI为主导,能理解开发目标、调度工具并独立完成从需求分析到代码实现的全流程。这标志着AI编程从工具增强迈入流程重构新阶段,实现覆盖软件开发全流程的高度自动化。

  • 小米17 Ultra蓄势待发:直屏+大圆镜头 没有背屏

    据爆料,小米17+Ultra将在春节前发布,主打影像功能,配备1英寸超大底主摄和2亿像素潜望长焦,支持外挂镜头。荣耀Magic8+Ultra也可能节前亮相,而OPPO、vivo超大杯旗舰则安排在节后。小米17+Ultra正面为直屏,背部采用大圆镜头设计,无副屏,是其与Pro系列最大差异。此外,小米15+Ultra预计配备新国屏,搭载骁龙8 Gen5平台,顶配版支持双卫星通信。

  • Shure IntelliMix™ Room 会议套装正式入驻微软中国创新中心 Shure与微软开启声智体验之旅

    2025年11月11日,舒尔全新会议音频解决方案IntelliMix™ Room套件在微软北京创新中心完成安装并投入使用。该方案专为现代会议室设计,提供一站式高品质音频服务,集成卓越音质、简易设置及强大云管理能力。通过微软Teams认证,无缝接入MTR生态系统,支持端到端加密通信,确保会议安全。用户可远程管理系统,降低运维成本。舒尔与微软合作,共同提升企业协作效率,首批体验用户反馈语音清晰流畅,显著优化沟通质量。

  • 荣耀Magic8 Ultra有望明年1月发布:7000mAh大电池、外观更尊

    今日,数码博主智慧皮卡丘”曝光了一款荣耀新旗舰,结合其配置与定位来看,预计为荣耀Magic8 Ultra。 该博主透露,荣耀Magic8 Ultra暂定明年1月发布,采用更尊贵的外观设计,正面为等深四曲屏,电池容量超过7000mAh。

  • 小米17 Ultra 12月亮相:小米最强影像旗舰

    据爆料,小米17 Ultra将于12月亮相,搭载1英寸超大底主摄,配备全新LOFIC技术及徕卡镀膜,结合2亿像素潜望长焦,大幅提升高光细节表现。新机采用圆形镜头模组,主摄与长焦均支持光学防抖,配备超瓷晶面板、骁龙8 Gen4处理器,电池容量达6000-7000mAh,顶配版支持双卫星通信,堪称小米最强影像旗舰。

  • AI赋能移动影像 三星Galaxy S25 Ultra开启全场景专业拍摄体验

    三星Galaxy S25 Ultra以专业影像系统满足用户创作需求:搭载2亿像素四摄系统,实现从超广角到长焦的全焦段覆盖,支持100倍空间变焦与OIS防抖。新增增强版超视觉引擎,通过双降噪技术与AI算法提升夜景和逆光画质。集成Galaxy AI智能工具,提供生成式编辑、人像风格化及音频降噪等功能,让用户可一键完成专业级后期创作。从拍摄到编辑,全方位助力用户随手记录生活,轻松产出电影感作品。

  • 寒冬出行便捷与舒适兼得,问界新M5 Ultra凭实力助您告别烦恼

    冬季出行面临晨雾、路面湿滑等挑战,问界新M5 Ultra凭借卓越软硬件配置,成为用户安心之选。其搭载华为ADS辅助驾驶系统,配备多雷达与摄像头,实现360°环境感知,浓雾中仍能精准识别路况。舒适制动功能优化减速曲线,减轻晕车感。主动安全配置如全向防碰撞系统,配合高强度车身,全面守护驾乘安全。同时,快速空调升温与加热座椅提升冬季舒适性。当前购车可享至高价值37794元权益,含多项补贴与服务优惠,助您从容应对寒冬出行。

  • 华为Mate 80系列、Mate X7定档11月25日发布

    华为将于11月25日14:30举行新品发布会,推出Mate80系列和Mate X7折叠旗舰。Mate80系列包括四款机型,搭载全新麒麟9030处理器和鸿蒙OS6系统,性能与流畅度显著提升,并提供多样配色。Mate X7配备7.95英寸2K内屏,采用UTG超薄柔性玻璃,搭载麒麟9030处理器,电池容量更大,影像能力升级,拥有五款时尚配色。新品引发科技圈和消费者高度期待。

  • REDMI Turbo 5 1月登场:首发天玑8500

    博主爆料称,天玑8500芯片预计1月亮相,Redmi Turbo 5将首发搭载。该芯片采用台积电4nm工艺,配备8核A725全大核设计,主频达3.4GHz,GPU为Mali-G720,性能超越骁龙8 Gen3与8s Gen4,安兔兔跑分达220万。新机还将配备1.5K直屏与大容量电池,成为Redmi Turbo系列最强机型,值得期待。

今日大家都在搜的词: