首页 > 业界 > 关键词  > JetMoE-8B最新资讯  > 正文

性能超越LLaMA2-7B!AI模型JetMoE-8B训练成本不到10万美元

2024-04-17 10:18 · 稿源:站长之家

站长之家(ChinaZ.com)4月17日 消息:JetMoE-8B是一款采用稀疏激活架构的人工智能模型,其性能卓越且训练成本不到10万美元,令人惊讶的是,它的表现甚至超越了LLaMA2-7B、LLaMA-13B和DeepseekMoE-16B。

image.png

JetMoE-8B由24个块组成,每个块包含两个MoE层:注意力头混合(MoA)和MLP专家混合(MoE)。每个MoA和MoE层有8个专家,并且每个输入令牌激活2个专家。这种独特的设计使得在不牺牲性能的情况下显著降低了计算成本。

值得一提的是,尽管JetMoE-8B的总参数量达到80亿,但由于其特殊的架构设计,每个输入令牌仅激活约22亿参数,从而大大减少了总体的计算需求。

此外,JetMoE-8B的训练完全依赖于公开数据,并且整个训练过程,包括代码,都是完全开源的,这无疑为AI领域的研究和应用提供了极大的便利。

在与Open LLM排行榜相同的评估方法下,JetMoE-8B的性能表现优于LLaMA2-7B、LLaMA-13B和DeepseekMoE-16B,这一结果无疑是对其高效性能的最好证明。

与此同时,与具有类似训练和推理计算的模型(如Gemma-2B)相比,JetMoE-8B展示了更优异的表现。这不仅证明了其在性能上的优势,也展示了其在成本效益上的显著优势。

模型地址:https://huggingface.co/jetmoe/jetmoe-8b

举报

  • 相关推荐
  • 比特币暴涨 近20万人爆仓:价格突破10万美元关口

    受比特币带动,加密货币市场整体走强。以太坊日内涨幅超20%,狗狗币、艾达币、瑞波币等主流币种均大幅上涨。然而市场波动加剧,Coinglass数据显示,过去24小时近20万人因价格剧烈波动被强制平仓,爆仓总金额达9.68亿美元,其中空单爆仓占比超八成。

  • 实锤了,Llama 4重测排名掉至32名!远不及DeepSeek和Qwen

    LMArena更新了Meta最新发布的开源大模型Llama-4-Maverick的排名,从此前的第2名,直线掉到了第32名!这也实锤了此前开发者对Meta为刷榜排名向LMArena提供了“特供版”的Llama4大模型的质疑。开源版同款Llama-4-Maverick-17B-128E-Instruct在LMArena的排名为32名,远低于Gemini2.5Pro、GPT4o、DeepSeek-V3-0324、DeepSeek-R1、Qwen2.5-Max,甚至连英伟达基于上一代Llama3.3改造的Llama-3.3-Nemotron-Super-49B-v1都不如。

  • AI把debug时间缩短到几分钟,Lightrun获7000万美元B轮融资

    2025年AI编程浪潮持续升温,OpenAI拟30亿美元收购AI编程助手公司Windsurf,Cursor母公司Anysphere获9亿美元融资。AI生成代码的可靠性引发关注,Lightrun公司推出Runtime Autonomous AI Debugger工具,可在IDE中精确定位问题代码并提供修复建议,将调试时间从数天缩短至几分钟。该公司近期完成7000万美元B轮融资,总融资达1.1亿美元。AI编程工具市场规模预计2032年达300亿美元,但AI生成代码的可靠性问题亟待解决。Lightrun的解决方案让开发者能在软件上线前发现并修复bug,防患于未然。

  • AI驱动食品供应链,食品科技独角兽GrubMarket再获5000万美元融资

    4 月 16 日消息,美国最 大的私营食品技术公司GrubMarket宣布获得 5000 万美元G轮融资。本轮融资由LibertyStreet Funds、3Spoke Capital、ROC Venture Group、Portfolia、Pegasus Tech Ventures、Joseph Stone Capital以及其他未具名的投资者参与。自成立以来,GrubMarket已完成多轮融资,融资金额达5. 5 亿美元,目前估值超过 35 亿美元。GrubMarket创始人兼首席执行官徐敏毅表示:"过去 12 个月公司实现了加速增长�

  • 英伟达将首次在美制造 AI 超算、及 Blackwell 芯片

    站长之家(ChinaZ.com) 4月15日 消息:随着 AI 行业的蓬勃发展,英伟达位于美国的人工智能芯片和超 级计算机工厂将创造数千个就业机会。科技巨头英伟达(NVIDIA)宣布,其 AI 超 级计算机将完全在美国本土生产。在全球贸易战的背景下,英伟达这一举动是为了减少对海外市场的依赖,并促进美国国内的生产。英伟达确认,他们已开始在台积电位于美国亚利桑那州凤凰城的工厂生产�

  • 法拉第未来今年一季度交付2辆车:营收30万美元

    报告期内,公司交付了两辆FF91 2.0,用户分别来自加州和纽约,标志着公司正式进入美国东海岸市场;一季度收入为30万美元( 约217.2万元人民币),主要来源于FF91的交付和租赁收入。

  • 预计售价10万级!零跑B01开启盲订:6月预售7月上市

    零跑汽车4月30日宣布全新车型B01开启盲订,支付99元意向金可享优先试驾、提车权及专属身份勋章。新车提供650公里和550公里两种续航版本,售价10-15万元,6月预售7月上市。B01采用全新家族设计语言,配备激光雷达、贯穿式灯带和溜背造型,车身尺寸4770/1880/1490mm,轴距2735mm。内饰搭载14.6英寸2.5K屏、256色氛围灯,后备箱容积460L+70L拓展空间。智能驾驶采用激光雷达+Orin芯片方案,支持高速和城区领航辅助。动力方面搭载与B10相同的三电系统,提供510公里和600公里两种续航选择。

  • 长期持有者回归、空头撤退,比特币再次触达 9 万美元

    一般来说,长期持有者的回归被视为对未来价格上涨的信心。另一方面,通常对价格波动反应更为敏感的短期持有者则持续退出,这通常表明市场已触及近期底部。

  • FF一季度业绩曝光:收入30 净亏损4380万美元

    不过,运营净亏损达到了4380万美元,与去年同期持平,经营现金流出2030万美元,比去年同期增长了38%,融资现金流入2460万美元,连续第三个季度融资现金流入超过经营现金流出。

  • AI日报:智谱开源32B/9B系列GLM模型并启用Z.ai域名;OpenAI发布GPT-4.1系列模型;阿里魔搭上线MCP广场

    欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解:https://top.aibase.com/1、智谱AI启用全新域名Z.ai 并开源32B/9B 系列 GLM 模型智谱技术团队近期宣布开源32B和9B系列的GLM模型,并推出全新交互体验平台Z.ai。这些模型遵循MIT许可协议,支持商业用途,提升了