性能超越LLaMA2-7B！AI模型JetMoE-8B训练成本不到10万美元

2024-04-17 10:18 · 稿源：站长之家

站长之家（ChinaZ.com）4月17日消息:JetMoE-8B是一款采用稀疏激活架构的人工智能模型，其性能卓越且训练成本不到10万美元，令人惊讶的是，它的表现甚至超越了LLaMA2-7B、LLaMA-13B和DeepseekMoE-16B。

JetMoE-8B由24个块组成，每个块包含两个MoE层:注意力头混合（MoA）和MLP专家混合(MoE)。每个MoA和MoE层有8个专家，并且每个输入令牌激活2个专家。这种独特的设计使得在不牺牲性能的情况下显著降低了计算成本。

值得一提的是，尽管JetMoE-8B的总参数量达到80亿，但由于其特殊的架构设计，每个输入令牌仅激活约22亿参数，从而大大减少了总体的计算需求。

此外，JetMoE-8B的训练完全依赖于公开数据，并且整个训练过程，包括代码，都是完全开源的，这无疑为AI领域的研究和应用提供了极大的便利。

在与Open LLM排行榜相同的评估方法下，JetMoE-8B的性能表现优于LLaMA2-7B、LLaMA-13B和DeepseekMoE-16B，这一结果无疑是对其高效性能的最好证明。

与此同时，与具有类似训练和推理计算的模型（如Gemma-2B）相比，JetMoE-8B展示了更优异的表现。这不仅证明了其在性能上的优势，也展示了其在成本效益上的显著优势。

模型地址:https://huggingface.co/jetmoe/jetmoe-8b

（举报）

相关推荐

关键词：

荐AI日报：美团发布推理大模型LongCat-Flash-Thinking；阿里Wan-Animate开源；字节推豆包翻译大模型

AI日报栏目聚焦人工智能领域最新动态。美团推出高性能推理大模型LongCat-Flash-Thinking；阿里开源Wan-Animate模型革新AI视频生成；字节跳动发布豆包翻译模型，支持28种语言互译；华为与浙大联合推出安全大模型DeepSeek-R1-Safe；阿里云即将发布跨模态模型Qwen3-Omni；xAI推出计算成本降低98%的Grok4Fast模型；YouTube发布多项AI创作辅助功能；IBM推出轻量级文档处理模型Granite-Docling-258M；中科院发布类脑大模型SpikingBrain实现百倍速度突破；OpenAI将推出仅限Pro用户的计算密集型新功能。

AI日报美团大模型 LongCat-Flash-Thinking
推荐国内优势智驾：Momenta凭借飞轮大模型，带来极致流畅的驾驶体验

Momenta作为国内智能驾驶领域的领先者，凭借其创新的飞轮大模型技术，实现了端到端的自动驾驶解决方案。该技术将感知与规划整合，有效解决长尾问题，提升系统可靠性和稳定性。其R6飞轮大模型采用强化学习，具备持续进化能力，适应复杂路况。Momenta与宝马、奥迪等全球主流车企深度合作，方案已成功应用于广汽丰田、东风日产等车型，并在欧洲、澳大利亚等市场落地，展现出强大的全球适应性和技术优势。选择Momenta，即选择了经过验证的可靠技术和持续升级的智能驾驶体验。

智能驾驶系统技术实力 Momenta
荐AI日报：接入MJ！夸克发布造点AI；Wan2.5-Preview发布；可灵推最新视频生成模型可灵2.5Turbo

近日AI领域迎来多项重要更新：阿里夸克发布AI创作平台“造点”，整合通义万相Wan2.5与Midjourney V7，支持音画同步视频生成；Wan2.5-Preview实现多模态输入与电影级视频同步生成，提升视觉创作能力；可灵AI推出视频生成模型2.5Turbo并降价30%，降低使用门槛；阿里通义推出Qwen3-ASR-Toolkit，实现小时级音视频转录；谷歌相册AI编辑功能扩展至安卓用户，支持语音修图；谷歌Mixboard工具助力创意设计，生成情绪板；Qwen发布Qwen3-Max模型，在代码生成与智能体能力表现突出；Figma推出MCP服务器，实现设计到代码的一键转换，提升开发效率。

AI创作平台通义万相音画同步
荐AI日报：可灵AI发布数字人新功能；腾讯混元新技术给大模型 “去油”；抖音上线AI求真功能

AI日报今日聚焦多项技术突破：可灵AI推出图片转视频功能，腾讯混元SRPO技术提升图像真实感，IBM开源文档处理模型Granite-Docling-258M。Meta发布带屏AI眼镜Ray-Ban，DeepSeek论文登《Nature》封面。OpenAI新增GPT-5思考时长调节功能，抖音上线“AI求真”辟谣工具，通用DeepResearch开源模型性能超越国际知名模型。

AI日报数字人视频生成
小度发布多模态智能摄像机，AI大模型重塑家庭看护体验

小度科技推出首款多模态智能摄像机C800，搭载800万像素4K超清摄像头，支持AI大模型技术。该产品不仅能实现高清监控，还具备智能行为识别、语音交互等功能，可自定义看护提醒。结合视觉与语音交互，支持复杂语义查询和家庭设备联动，扩展智能家居应用场景。目前产品已全网发售，年底还将推出三摄版本，持续探索AI硬件创新。

AI大模型智能硬件小度科技
直击企业AI安全痛点，百度智能云发布《千帆大模型平台安全白皮书》为大模型落地护航

百度智能云千帆大模型平台4.0发布《千帆大模型平台安全白皮书》，系统阐述企业级AI安全框架。白皮书聚焦平台安全、模型安全、数据安全、内容合规等六大维度，提出覆盖全生命周期的防护方案，包括混合云部署、数据加密传输、模型防窃取及内容过滤机制，助力企业安全使用大模型技术，推动AI在合规可信环境下赋能业务创新。

大模型平台企业级安全数据安全
荐AI日报：小米开源首个原生端到端语音大模型；通义万相Wan2.2-Animate正式开源；Suno v5即将上线

AI日报今日聚焦多项技术突破：小米开源首个端到端语音大模型Xiaomi-MiMo-Audio；通义万相推出全新动作生成模型Wan2.2-Animate；Suno即将发布革命性音乐模型v5；生数科技获数亿融资，视频生成技术商业化加速。同时关注OpenAI修复ChatGPT安全漏洞，谷歌将Gemini集成至Chrome浏览器，Luma AI发布支持16位色的Ray3视频生成模型，法国Mistral推出开源推理模型Magistral Small 1.2，Notion发布AI智能体，腾讯混元3D Studio提升3D创作效率。

AI 语音大模型小米开源
易鑫亮相2025数字价值年会，自研AI大模型引领汽车金融智能化变革

易鑫入选钛媒体“2025创新场景年度AI应用TOP榜”，是汽车金融科技领域唯一登榜企业。公司坚持自研大模型路线，依托11年行业数据积累，打造自主可控的AI风控与业务决策系统。其“智鑫多维”大模型成为行业首家获生成式AI备案企业，实现全场景规模化应用。业务覆盖4.2万家经销商及上百家金融机构，科技赋能服务内蒙古牧民、新加坡企业员工等群体。未来将持续深化自研大模型+全场景应用，强化普惠金融服务与国际技术输出。

汽车金融科技 AI风控自研大模型
没想到，音频大模型开源最彻底的，居然是小红书

不难发现，近几个月，开源频频成为 AI 社区热议的焦点。尤其是对于国内科技公司来说，开源成为主旋律。根据 Hugging Face 中文 AI 模型与资源社区的数据显示，国内厂商在七八月接连开源33款、31款各类型大模型。这些开源成果大多落在了文本、图像、视频、推理、智能体以及世界模型领域，而音频生成占比很小。

开源 AI社区音频生成
“全链覆盖”“全向集成”|移动云开启大模型普惠应用新篇章

国际数据公司报告显示，2024年中国MaaS市场规模达7.1亿元，同比增长215.7%，预计2024-2029年复合增长率将达66.1%。随着AI大模型落地，企业对全生命周期工具链、开发平台及通用模型需求激增。移动云通过构建四层云智算架构，提供一站式模型服务，推动AI普惠化。平台已服务30余家央企，覆盖6大行业，未来将持续提升算力智能化水平，助力各行业轻量化拥抱AI时代。

AI大模型 MaaS市场智算服务

今日大家都在搜的词：

热文

3 天
7天

性能超越LLaMA2-7B！AI模型JetMoE-8B训练成本不到10万美元

荐AI日报：美团发布推理大模型LongCat-Flash-Thinking；阿里Wan-Animate开源；字节推豆包翻译大模型

推荐国内优势智驾：Momenta凭借飞轮大模型，带来极致流畅的驾驶体验

荐AI日报：接入MJ！夸克发布造点AI；Wan2.5-Preview发布；可灵推最新视频生成模型可灵2.5Turbo

荐AI日报：可灵AI发布数字人新功能；腾讯混元新技术给大模型 “去油”；抖音上线AI求真功能

小度发布多模态智能摄像机，AI大模型重塑家庭看护体验

直击企业AI安全痛点，百度智能云发布《千帆大模型平台安全白皮书》为大模型落地护航

荐AI日报：小米开源首个原生端到端语音大模型；通义万相Wan2.2-Animate正式开源；Suno v5即将上线

易鑫亮相2025数字价值年会，自研AI大模型引领汽车金融智能化变革

没想到，音频大模型开源最彻底的，居然是小红书

“全链覆盖”“全向集成”|移动云开启大模型普惠应用新篇章

今日大家都在搜的词：

热文

雷军公布小米17标准版外观：1.18mm窄边框、6.3英寸直屏

全新问界M7小订破22万：将于明晚上市公布价格

AI日报：美团发布推理大模型LongCat-Flash-Thinking；阿里Wan-

折叠屏iPhone细节曝光采用超薄钛合金：预计售价2000美元起

小米平板8系列搭载11.2英寸3.2K旗舰屏

iPhone17遭首批用户吐槽客服回应：建议新机带壳

雷军演讲主题《改变》官宣：聊玄戒芯片和小米汽车背后的故事

鸿蒙智行尚界H5小订破15万台：明晚上市

realme真我GT8系列官宣10月发布

AI日报：阿里推多模态模型Qwen3-Omni；谷歌推出AP2协议；百度推

AI日报：小米开源首个原生端到端语音大模型；通义万相Wan2.2-A

小米召回116887辆SU7电动汽车：将OTA升级消除安全隐患

雷军回应小米召回11.7万辆SU7：将为用户带来更多期待功能

雷军公布小米17标准版外观：1.18mm窄边框、6.3英寸直屏

鸿蒙智行秋季发布会定档9月23日：尚界H5、新问界M7来了

全新问界M7小订破22万：将于明晚上市公布价格

苹果 iPhone 17/Pro 系列今日发售多维度升级

京东：iPhone 17开卖4小时全国超3万人签收

AI日报：美团发布推理大模型LongCat-Flash-Thinking；阿里Wan-

折叠屏iPhone细节曝光采用超薄钛合金：预计售价2000美元起

站长商机