DeepSeek-V3：超大开源AI模型发布，性能超越Llama和Qwen

2024-12-27 09:35 · 来源： AIbase基地

2024年12月26日，中国人工智能初创公司DeepSeek发布了其最新的超大模型DeepSeek-V3，这一模型以其开放源代码技术和创新挑战领先AI供应商而闻名。

DeepSeek-V3拥有671B个参数，并采用专家混合架构（mixture-of-experts architecture）来激活特定参数，以准确高效地处理给定任务。根据DeepSeek提供的基准测试，这一新模型已经超越了包括Meta的Llama3.1-405B在内的领先开源模型，并且与Anthropic和OpenAI的封闭模型性能相近。

DeepSeek-V3的发布标志着开源AI与封闭源AI之间的差距进一步缩小。DeepSeek，最初是中国量化对冲基金High-Flyer Capital Management的一个分支，希望这些发展能为人工通用智能（AGI）铺平道路，届时模型将能够理解或学习任何人类能够执行的智力任务。

DeepSeek-V3的主要特点包括:

与前身DeepSeek-V2一样，新模型基于多头潜在注意力（MLA）和DeepSeekMoE的基本架构，确保了高效的训练和推理。

公司还推出了两项创新:辅助无损失负载平衡策略和多令牌预测（MTP），后者允许模型同时预测多个未来令牌，提高了训练效率，并使模型运行速度提高三倍，每秒生成60个令牌。

在预训练阶段，DeepSeek-V3训练了14.8T高质量和多样化的令牌，并进行了两阶段的上下文长度扩展，最终进行了监督式微调（SFT）和强化学习(RL)的后训练，以使模型与人类偏好对齐并进一步释放其潜力。

在训练阶段，DeepSeek采用了多种硬件和算法优化，包括FP8混合精度训练框架和DualPipe算法进行流水线并行，降低了训练成本。DeepSeek-V3的整个训练过程声称在2788K H800GPU小时或大约557万美元内完成，远低于通常用于预训练大型语言模型的数亿美元。

DeepSeek-V3已成为市场上最强的开源模型。公司进行的多项基准测试显示，它在大多数基准测试中超越了封闭源GPT-4o，除了以英语为焦点的SimpleQA和FRAMES，在这两个测试中OpenAI模型分别以38.2和80.5的得分领先（DeepSeek-V3得分分别为24.9和73.3）。DeepSeek-V3在中文和数学基准测试中的表现尤为突出，在Math-500测试中得分为90.2，其次是Qwen的80分。

目前，DeepSeek-V3的代码可在GitHub上以MIT许可证获得，模型根据公司的模型许可证提供。企业还可以通过DeepSeek Chat（类似ChatGPT的平台）测试新模型，并访问API进行商业使用。DeepSeek将提供与DeepSeek-V2相同价格的API，直至2月8日。之后，将收取每百万输入令牌0.27美元(缓存命中每百万令牌0.07美元)和每百万输出令牌1.10美元的费用。

划重点:
🌟 DeepSeek-V3发布，性能超越Llama和Qwen。
🔧 采用671B参数和专家混合架构，提高效率。
🚀 创新包括无损失负载平衡策略和多令牌预测，提升速度。
💼 训练成本大幅降低，推动开源AI发展。

DeepSeek-V3：超大开源AI模型发布，性能超越Llama和Qwen

DeepSeek更新R1推理AI模型，已发布Hugging Face

荐MiniMax深夜开源首个推理模型M1，这次是真的卷到DeepSeek了。

如何用 DeepSeek 生成备课教案

如何用 DeepSeek 生成星球日更内容

如何用 DeepSeek 进行论文降重

如何用 DeepSeek 进行合同审核

利用DeepSeek和豆包生成工作总结

荐用DeepSeek徒手造一个能对话的AI简历，助你当场拿下Offer。

如何用 DeepSeek 生成爆款标题

如何用 DeepSeek 制定项目管理计划

今日大家都在搜的词：

热文

微信公众平台与微信小店深度联动公众号可带货微信小店

张朝阳退回的LABUBU换了一辆车：新去向揭晓

苹果用户再也不敢乱用emoji了客服回应：iOS和安卓有差异性

小米MIX Flip 2开启预约：将于6月底正式发布

REDMI K80至尊版外观公布：金属中框+玻纤背板

站长商机

​DeepSeek-V3：超大开源AI模型发布，性能超越Llama和Qwen

今日大家都在搜的词：

热文

站长商机

DeepSeek-V3：超大开源AI模型发布，性能超越Llama和Qwen