昆仑万维开源2千亿稀疏大模型天工MoE，全球首创能用4090推理

2024-06-04 09:42 · 稿源：站长之家用户

2024年6月3日，昆仑万维宣布开源2千亿稀疏大模型 Skywork-MoE ，性能强劲，同时推理成本更低。Skywork-MoE 基于之前昆仑万维开源的 Skywork-13B 模型中间 checkpoint 扩展而来，是首个完整将 MoE Upcycling 技术应用并落地的开源千亿 MoE大模型，也是首个支持用单台4090服务器推理的开源千亿 MoE大模型。

开源地址:

Skywork-MoE 的模型权重、技术报告完全开源，免费商用，无需申请:

• 模型权重下载:

￮ https://huggingface.co/Skywork/Skywork-MoE-base

￮ https://huggingface.co/Skywork/Skywork-MoE-Base-FP8

• 模型开源仓库:https://github.com/SkyworkAI/Skywork-MoE

• 模型技术报告:https://github.com/SkyworkAI/Skywork-MoE/blob/main/skywork-moe-tech-report.pdf

• 模型推理代码:（支持8x4090服务器上8bit 量化加载推理） https://github.com/SkyworkAI/vllm

模型架构:

本次开源的 Skywork-MoE 模型隶属于天工3.0的研发模型系列，是其中的中档大小模型（Skywork-MoE-Medium），模型的总参数量为146B，激活参数量22B，共有16个 Expert，每个 Expert 大小为13B，每次激活其中的2个 Expert。

天工3.0还训练了75B （Skywork-MoE-Small）和400B (Skywork-MoE-Large)两档 MoE 模型，并不在此次开源之列。

模型能力:

我们基于目前各大主流模型评测榜单评测了 Skywork-MoE，在相同的激活参数量20B（推理计算量）下，Skywork-MoE 能力在行业前列，接近70B 的 Dense 模型。使得模型的推理成本有近3倍的下降。同时 Skywork-MoE 的总参数大小比 DeepSeekV2的总参数大小要小1/3，用更小的参数规模做到了相近的能力。

技术创新:

为了解决 MoE 模型训练困难，泛化性能差的问题，相较于 Mixtral-MoE， Skywork-MoE 设计了两种训练优化算法:

1. Gating Logits 归一化操作

我们在 Gating Layer 的 token 分发逻辑处新增了一个 normalization 操作，使得 Gating Layer 的参数学习更加趋向于被选中的 top-2experts，增加 MoE 模型对于 top-2的置信度:

2. 自适应的 Aux Loss

有别于传统的固定系数（固定超参）的 aux loss，我们在 MoE 训练的不同阶段让模型自适应的选择合适的 aux loss 超参系数，从而让 Drop Token Rate 保持在合适的区间内，既能做到 expert 分发的平衡，又能让 expert 学习具备差异化，从而提升模型整体的性能和泛化水平。在 MoE 训练的前期，由于参数学习不到位，导致 Drop Token Rate 太高(token 分布差异太大)，此时需要较大的 aux loss 帮助 token load balance;在 MoE 训练的后期，我们希望 Expert 之间仍保证一定的区分度，避免 Gating 倾向为随机分发 Token，因此需要较低的 aux loss 降低纠偏。

训练 Infra

如何对 MoE 模型有效的进行大规模分布式训练是一个有难度的挑战，目前社区还没有一个最佳实践。Skywork-MoE 提出了两个重要的并行优化设计，从而在千卡集群上实现了 MFU38% 的训练吞吐，其中 MFU 以22B 的激活参数计算理论计算量。

1. Expert Data Parallel

区别于 Megatron-LM 社区已有的 EP（Expert Parallel）和 ETP(Expert Tensor Parallel)设计，我们提出了一种称之为 Expert Data Parallel 的并行设计方案，这种并行方案可以在 Expert 数量较小时仍能有效的切分模型，对 Expert 引入的 all2all 通信也可以最大程度的优化和掩盖。相较于 EP 对 GPU 数量的限制和 ETP 在千卡集群上的低效， EDP 可以较好的解决大规模分布式训练 MoE 的并行痛点，同时 EDP 的设计简单、鲁棒、易扩展，可以较快的实现和验证。

一个最简单的 EDP 的例子，两卡情况下 TP =2， EP =2，其中 Attention 部分采用 Tensor Parallel ， Expert 部分采用 Expert Parallel

2. 非均匀切分流水并行

由于 first stage 的 Embedding 计算和 last stage 的 Loss 计算，以及 Pipeline Buffer 的存在，流水并行下均匀切分 Layer 时的各 stage 计算负载和显存负载均有较明显的不均衡情况。我们提出了非均匀的流水并行切分和重计算 Layer 分配方式，使得总体的计算/显存负载更均衡，约有10% 左右的端到端训练吞吐提升。

比较均匀切分和非均匀切分下的流水并行气泡:对于一个24层 Layer 的 LLM，（a）是均匀切分成4个 stage，每个 stage 的 layer 数量是:[6，6，6，6].(b) 是经过优化后的非均匀切分方式，切成5个 stage，每个 stage 的 layer 数量是:[5，5，5，5，4] ，在中间流水打满的阶段，非均匀切分的气泡更低。

MoE Know-how

此外，Skywork-MoE 还通过一系列基于 Scaling Laws 的实验，探究哪些约束会影响 Upcycling 和 From Scratch 训练 MoE 模型的好坏。

一个可以遵循的经验规则是:如果训练 MoE 模型的 FLOPs 是训练 Dense 模型的2倍以上，那么选择 from Scratch 训练 MoE 会更好，否则的话，选择 Upcycling 训练 MoE 可以明显减少训练成本。

4090推理

Skywork-MoE 是目前能在8x4090服务器上推理的最大的开源 MoE 模型。8x4090服务器一共有192GB 的 GPU 显存，在 FP8量化下（weight 占用146GB），使用我们首创的非均匀 Tensor Parallel 并行推理方式，Skywork-MoE 可以在合适的 batch size 内达到2200tokens/s 的吞吐。

结语

我们希望本次开源的 Skywork-MoE 模型、技术报告和相关的实验结果可以给开源社区贡献更多的 MoE 训练经验和 Know-how，包括模型结构、超参选择、训练技巧、训练推理加速等各方面，探索用更低的训练推理成本训更大更强的模型，在通往 AGI 的道路上贡献一点力量。

（推广）

特别声明：以上内容(如有图片或视频亦包括在内)均为站长传媒平台用户上传并发布，本平台仅提供信息存储服务，对本页面内容所引致的错误、不确或遗漏，概不负任何法律责任，相关信息仅供参考。站长之家将尽力确保所提供信息的准确性及可靠性，但不保证有关资料的准确性及可靠性，读者在使用前请进一步核实，并对任何自主决定的行为负责。任何单位或个人认为本页面内容可能涉嫌侵犯其知识产权或存在不实内容时，可及时向站长之家提出书面权利通知或不实情况说明，并提供身份证明、权属证明及详细侵权或不实情况证明（点击查看反馈联系地址）。本网站在收到上述法律文件后，将会依法依规核实信息，沟通删除相关内容或断开相关链接。

相关推荐

关键词：

荐AI日报：阿里通义开源音频生成模型ThinkSound；谷歌Veo3支态图片生成视频；昆仑万维发布 Skywork-R1V 3.0

【AI日报】今日AI领域重要动态：1)阿里开源支持链式推理的音频生成模型ThinkSound，实现高保真空间音频生成；2)谷歌Veo3升级，支持静态图片生成生动视频；3)Hugging Face发布30亿参数小模型SmolLM3，性能优于Llama-3.2-3B；4)阿里开源网络智能体WebSailor，展现强大推理和检索能力；5)Moonvalley发布原生1080P视频生成模型Marey Realism v1.5；6)Vidu Q1支持最多七张参考图像生成一致性视频；7)苹果�

人工智能音频生成链式推理
洗衣机干净，洗衣才干净！海尔全球首创健康洗衣新物种

上海疾控中心检测发现，使用半年以上的洗衣机霉菌检出率高达60.2%。传统波轮洗衣机存在1cm卫生死角，成为细菌温床。海尔推出V转子洗衣机，创新取消波轮结构，采用三重全密封设计，实现"0污染、0缝隙、0死角"，获得医护级健康认证。该产品通过五维立体水流技术，在保证洁净效果的同时避免衣物缠绕磨损。行业专家表示，这一颠覆性创新将推动洗衣机行业进入以健康洁净为核心的新时代。
马斯克xAI推出Grok - 4 大模型将至，Meta/微美全息深耕开源AI融合加速

埃隆·马斯克旗下xAI即将发布Grok-4大模型，该模型将在语言、数学和推理方面超越OpenAI和谷歌最新AI产品。同时苹果低调收购两家AI公司TrueMeeting和WhyLabs，加速布局Vision Pro头显和Apple Intelligence领域。Meta计划投入数百亿美元扩建AI基础设施，扎克伯格亲自招募顶尖AI人才。微美全息聚焦高性能算力与多模态模型，推动AI产业升级。当前AI赛道竞争激烈，大模型正向通用多模态演进，商业化落地成为关键。
2025最新全球AI大模型排名，国内外模型动态洗牌（实时更新平台推荐）

2025年全球AI大模型竞争进入白热化阶段，OpenAI、Google等国际巨头与中国企业激烈交锋。技术迭代远超预期，仅半年内排名就经历多次洗牌。当前全球AI大模型综合排名Top10显示：1)GPT-4.5综合80.4分领跑；2)Claude3.7编程领域领先；3)Gemini2.0多模态标杆；4)国产DeepSeek R1推理速度提升3倍；5)阿里Qwen2.5数学编程单项第一。中国模型通过开源策略、垂直优化和成本革命实现弯道超车，如DeepSeek R1仅耗资600万美元达到GPT-4水平，字节豆包采用稀疏MoE架构成本大幅降低。中文场景深度优化表现突出，如文心一言4.0方言交互准确率92%。开源生态爆发，通义千问全尺寸开源(7B~110B参数)在Hugging Face排名第一。权威评估需结合标准化测试、人类盲测和场景适配性。

全球AI大模型 OpenAI 技术迭代
荐A日报：月之暗面开源大模型Kimi K2；智源全面开源RoboBrain2.0；通义千问发布Qwen Chat桌面客户端

本期AI日报重点报道了多项AI领域突破性进展：1.月之暗面推出万亿参数开源大模型Kimi K2，展现强大智能能力；2.智源研究院开源RoboBrain2.0和RoboOS2.0机器人系统；3.通义千问发布桌面客户端Qwen Chat；4.IndexTTS2实现影视级语音合成；5.HuggingFace开源机器人Reachy Mini热销；6.Meta推出实时视频生成模型StreamDiT；7.PixVerse新增多关键帧视频生成功能；8.特斯拉推出仅支持AMD处理器的Grok AI助手；9.OpenAI推迟开源大模型发布以加强安全测试；10.Liquid AI开源边缘AI模型LFM2；11.AI"时间穿越"特效在社交媒体走红。

人工智能开源大模型技术趋势
荐AI日报：xAI 震撼发布Grok4；微软开源全新Phi-4-mini版本；上海累计82款大模型通过备案

AI日报栏目聚焦人工智能领域最新动态：1)xAI发布旗舰模型Grok4，在数学推理和代码生成表现突出，同时推出开发者专用Grok4Code；2)微软开源Phi-4-mini模型，推理效率提升10倍，适合边缘设备；3)上海82款大模型完成备案，垂直领域应用取得突破；4)Hugging Face推出开源桌面机器人Reachy Mini，支持Python编程；5)Perplexity发布AI浏览器Comet挑战Chrome；6)OpenAI将首次发布开放权重模型，打破闭源惯例；7)谷歌医疗AI模型MedGemma系列上新，单个GPU即可运行；8)OpenAI以约65亿美元收购AI硬件公司io Products，正式进军硬件市场。
全球优质AI语音大模型盘点：Whisper、Gemini Speech

本文分析了当前主流AI语音大模型的核心优势与应用场景。全球顶尖模型包括：OpenAI Whisper（多语言识别与翻译）、Google Gemini（情感化语音生成）、Meta AudioCraft（音乐创作与风格转换）。国内讯飞星火（方言识别）、阿里通义（电商客服）、百度文心（车载场景）表现突出。技术突破点在于云端协同架构、零样本克隆和情感语音合成。选择模型需考虑语言支持、场景适配、部署

AI语音大模型语音交互技术多语言识别
黄仁勋身家超越“股神”巴菲特！达1440亿美元全球顶级富豪格局洗牌

随着英伟达市值突破4万亿美元大关，该公司CEO黄仁勋的身家如火箭般蹿升。最新数据显示，截至周五美股收盘，英伟达上涨0.50%，最新市值4.02万亿美元。凭借这一傲人成绩，黄仁勋的个人身家达到1440亿美元，一举超越了股神”沃伦巴菲特（1430亿美元），在全球富豪榜上攀升至第九位。
Yandex Market 亮相杭州2025全球跨交会

俄罗斯电商平台Yandex Market在杭州设立中国区首个商家服务中心，与余杭区商务局正式签约。该平台拥有超1亿月活用户，2025年Q1跨境GMV同比激增630%，计划在中国招募5万卖家。杭州作为国内电商之都，拥有成熟的跨境电商生态和大量优质卖家资源。Yandex Market将于8月8日在杭州举办华东首场官方卖家峰会，邀请俄罗斯总部嘉宾出席，助力华东卖家开拓俄罗斯市场。此举标志着华东卖家与俄罗斯市场的距离进一步拉近。
销量破万，多地售罄！出门问问TicNote全球热销触发紧急补货

出门问问(02438.HK)推出AI硬件产品TicNote，全球销量已破万台。该产品搭载"Shadow AI"系统，具备记录、分析、创作等智能功能，实现软硬件结合。TicNote在国内天猫、京东相关品类排名前二，部分区域已断货。作为公司十年AI技术积累的成果，TicNote致力于成为用户的随身AI思考伙伴。出门问问持续深耕AI核心技术，未来将以"Shadow AI"为基础，拓展更多应用场景。目前产品正在紧急补货中，用户可通过京东、天猫旗舰店购买。

热文

3 天
7天

昆仑万维开源2千亿稀疏大模型天工MoE，全球首创能用4090推理

荐AI日报：阿里通义开源音频生成模型ThinkSound；谷歌Veo3支态图片生成视频；昆仑万维发布 Skywork-R1V 3.0

洗衣机干净，洗衣才干净！海尔全球首创健康洗衣新物种

马斯克xAI推出Grok - 4 大模型将至，Meta/微美全息深耕开源AI融合加速

2025最新全球AI大模型排名，国内外模型动态洗牌（实时更新平台推荐）

荐A日报：月之暗面开源大模型Kimi K2；智源全面开源RoboBrain2.0；通义千问发布Qwen Chat桌面客户端

荐AI日报：xAI 震撼发布Grok4；微软开源全新Phi-4-mini版本；上海累计82款大模型通过备案

全球优质AI语音大模型盘点：Whisper、Gemini Speech

黄仁勋身家超越“股神”巴菲特！达1440亿美元全球顶级富豪格局洗牌

Yandex Market 亮相杭州2025全球跨交会

销量破万，多地售罄！出门问问TicNote全球热销触发紧急补货

热文

尾号“8个7”手机号拍出320万元溢价率高达146%

王化在小米履职10年雷军：谢谢这十年辛苦的工作和贡献

A日报：月之暗面开源大模型Kimi K2；智源全面开源RoboBrain2.0

淘宝闪购：日订单量再次突破8000万创新高

黄仁勋与雷军合影上热搜一旁小米SU7 Ultra见证科技双雄会

AI日报：美图发布影像AI Agent RoboNeo；1.8bit量化Kimi K2模型

抖音：“抖音会议”App是诈骗软件会直接控制用户手机

尾号“8个7”手机号拍出320万元溢价率高达146%

AI日报：智谱上线PPT生成功能AI Slides；可灵 AI 发布可图2.1模

小米回应AI眼镜没有屏显功能：专注拍摄、AI语音交互

王化在小米履职10年雷军：谢谢这十年辛苦的工作和贡献

A日报：月之暗面开源大模型Kimi K2；智源全面开源RoboBrain2.0

淘宝闪购：日订单量再次突破8000万创新高

黄仁勋与雷军合影上热搜一旁小米SU7 Ultra见证科技双雄会

AI日报：美图发布影像AI Agent RoboNeo；1.8bit量化Kimi K2模型

腾讯客服回应误删微信聊天记录可撤销：苹果iOS机型已支持

周杰伦发布第一条抖音视频：回顾成长史粉丝超1200万

站长商机