幻方DeepSeek-V2系列模型已在魔搭社区开源

2024-05-08 09:57 · 稿源：站长之家

站长之家(ChinaZ.com) 5月8日消息:魔搭ModelScope社区宣布，DeepSeek-V2系列模型现已在魔搭ModelScope社区开源。

据悉，幻方公司在5月6日推出了第二代 MoE 模型 DeepSeek-V2，并开源了技术报告和模型权重，该模型引入了 MLA 架构和自研 Sparse 结构 DeepSeekMoE，以236B 总参数、21B 激活，实际部署在8卡 H800机器上，输入吞吐量超过每秒10万 tokens 输出超过每秒5万 tokens。

微信截图_20240508095929.png

性能方面，在目前大模型主流榜单中，DeepSeek-V2均表现出色:

中文综合能力（AlignBench）开源模型中最强，与GPT-4-Turbo，文心4.0等闭源模型在评测中处于同一梯队
英文综合能力（MT-Bench）与最强的开源模型LLaMA3-70B同处第一梯队，超过最强MoE开源模型Mixtral8x22B
知识、数学、推理、编程等榜单结果也位居前列
支持128K上下文窗口

和DeepSeek67B相比，DeepSeek-V2节约了42.5%训练成本，推理的KV Cache节约了93.3%，最大吞吐是之前的576%。

DeepSeek-V2的推理代码和模型下载链接已经在魔搭 ModelScope 社区开源，用户可以通过该平台直接下载模型。

项目地址：

DeepSeek-V2-Chat:

https://modelscope.cn/models/deepseek-ai/DeepSeek-V2-Chat

DeepSeek-V2:

https://modelscope.cn/models/deepseek-ai/DeepSeek-V2

（举报）

相关推荐

关键词：

DeepSeek上新！开源发布DeepSeek-Prover-V2-671B新模型

快科技4月30日消息，今日，DeepSeek 今日在 AI 开源社区 Hugging Face 发布了一个名为 DeepSeek-Prover-V2-671B 的新模型。据介绍，DeepSeek-Prover-V2-671B 其参数量达到6710亿，使用了更高效的 safetensors 文件格式，并支持 BF16、FP8、F32 等多种计算精度，方便模型更快、更省资源地训练和部署。在模型架构上，该模型使用了DeepSeek-V3架构，采用MoE（混合专家）模式，具有61层Transformer层，7168维隐藏层。同时支持超长上下文，最大位置嵌入达163840，使其能处理复杂的数学证明，并且采用了FP8量化，可通过量化技术减小模型大小，提

DeepSeek AI模型发布开源社区
荐华为：让DeepSeek的“专家们”动起来，推理延迟降10%！

要问最近哪个模型最火，混合专家模型（MoE，Mixture of Experts）绝对是榜上提名的那一个。它的巧妙之处，就在于把不同的任务分配给擅长处理的专家网络，让整个系统性能得以提升。但你知道吗? 正是这个关键的专家网络，也是严重影响系统推理性能的因素之一。因为在大量任务来临之际（尤其是超大规模时），MoE并不是以“雨露均沾”的方式去分配——专家网络们的负�

混合专家模型 MoE 负载均衡
荐深夜突袭，DeepSeek-Prover-V2加冕数学王者！671B数学推理逆天狂飙

DeepSeek发布数学推理模型DeepSeek-Prover-V2，包含7B和671B两个参数版本。该模型采用"递归+强化学习"训练方法，在MiniF2F测试集上达到88.9%通过率，解决了PutnamBench中的49道题目。关键技术包括：1) 使用DeepSeek-V3分解复杂定理生成子目标；2) GRPO算法从多个候选方案中自动学习最优解；3) 通过思维链整合非形式化推理与形式化证明。模型在AIME竞赛题和教科书题目上也表现优异，7B小模型意外在部分问题上超越大模型。论文指出该方法为通向AGI提供了正确路径，未来将扩展至IMO级别数学难题。

DeepSeek-Prover-V2 递归强化学习 AGI发展
初中老师如何用deepseek 和 Kimi无痛做课件

本教程指导初中教师如何利用Deepseek和Kimi两款AI工具高效完成备课全流程。Deepseek用于生成教学设计方案和PPT大纲，Kimi则根据大纲快速生成精美课件。操作步骤：1）在Deepseek输入教学需求生成教学设计；2）用Deepseek生成PPT大纲；3）将大纲粘贴至Kimi PPT助手一键生成课件。该方法特别适合日常备课、临时调课需求，能大幅提升备课效率，让教师既省时又高效。

教师培训智慧教辅 AI辅助教学
荐DeepSeek爆火100天，大厂又找回初心了

DeepSeek R1模型发布100天后，中国AI行业竞争格局被彻底重构。该模型3个月内用户突破1.9亿，成为国内最大AI原生应用。腾讯、百度等科技大厂纷纷接入，其中腾讯元宝APP借助DeepSeek流量一度登顶苹果应用下载榜。字节和阿里选择自研路线，字节推出"深度思考"功能，阿里则专注开源模型研发。随着DeepSeek热潮减退，豆包重回下载量榜首，元宝跌出前20。科技大厂在享受DeepSee

DeepSeek AI模型中国AI
IQ 过百的 AI 模型名单发布：ChatGPT、Deepseek等上榜

人工智能IQ哪家强？o3 智商高达 132、Gemini 2.5 Pro Exp. 拿下 128 分、Claude 凭借 3.7 Sonnet Extended 位列第四、Deepsee R 1……

AI智商 ChatGPT Deepseek
荐DeepSeek们越来越聪明，却也越来越不听话了。

在今年，DeepSeek R1火了之后。几乎快形成了一个共识，就是: AI推理能力越强，执行任务时就应该越聪明。从2022年Chain-of-Thought横空出世，到今天Gemini2.5Pro、OpenAI o3、DeepSeek-R1、Qwen3，这些旗舰模型的统治性表现，我们一直相信，让模型先想一想，是一个几乎不会出错的策略。不过，这种聪明，也会带来一些副作用。就是提示词遵循能力，变得越来越差。换句话说，就是

AI推理能力 Chain-of-Thought 旗舰模型
华为鸿蒙电脑接入DeepSeek：生产力更强

官方介绍，鸿蒙电脑历经五年布局，集结10000多名顶尖工程师，联合20多家研究所，积累超2700项核心专利。

鸿蒙电脑 HarmonyOS5 智能助手
DeepSeek+物流行业，AI大模型破解五大场景效能困局

文章探讨了AI大模型在物流行业的应用现状与挑战。以DeepSeek为代表的AI技术正通过重构业务流程、优化资源配置、提升决策效率等方式，成为推动行业降本增效的核心引擎。但成功应用AI大模型需要企业具备数字化基础、业务流程标准化和数据治理能力，而非简单技术堆砌。G7+易流梳理出五大核心应用场景：工作效能辅助、经营数据分析、安全审查、智能客服和知识管理。这些

人工智能大模型物流行业
AI简历教程！用 deepseek 一键生成高质量简历

本文介绍如何利用AI工具Deepseek快速制作专业简历。传统简历制作依赖WPS模板或作图软件，过程繁琐。现在通过Deepseek平台，只需输入自然语言指令（如工作经验、技能等关键信息），系统即可自动生成排版精美的HTML版简历，还能转换为PDF格式。操作流程分三步：1.访问官网输入需求指令；2.查看并运行生成的HTML代码；3.保存文件或转为PDF。该工具特别适合求职者快速制作突出个人优势的专业简历，大幅提升求职效率。

深度思考R1模型 AI简历制作求职工具

热文

3 天
7天

幻方DeepSeek-V2系列模型已在魔搭社区开源

DeepSeek上新！开源发布DeepSeek-Prover-V2-671B新模型

荐华为：让DeepSeek的“专家们”动起来，推理延迟降10%！

荐深夜突袭，DeepSeek-Prover-V2加冕数学王者！671B数学推理逆天狂飙

初中老师如何用deepseek 和 Kimi无痛做课件

荐DeepSeek爆火100天，大厂又找回初心了

IQ 过百的 AI 模型名单发布：ChatGPT、Deepseek等上榜

荐DeepSeek们越来越聪明，却也越来越不听话了。

华为鸿蒙电脑接入DeepSeek：生产力更强

DeepSeek+物流行业，AI大模型破解五大场景效能困局

AI简历教程！用 deepseek 一键生成高质量简历

热文

超越OpenAI？Claude4大模型能连续工作7小时，创SWE-Bench得分纪

“统治色情世界”的 OnlyFans 正在出售中，估值 80 亿美元

不久后，苹果可能会同意你放弃Siri，改用更智能的 AI 助手

Meta AI负责人：无关爱国，是“自卑情结” 阻碍了欧洲科技发展

特朗普签署法案，将“报复性色情”和“露骨AI深度伪造”定为犯

苹果与Epic诉讼战升级，法官施压：要么批准《堡垒之夜》上架，

黄仁勋：AI十年变革拉开序幕，“这个赛道没有第二名”

谷歌推出 Beam AI：将普通视频通话，转为逼真的 3D 沉浸式体验

苹果WWDC2025定档6月9日-13日，iOS大改版、没有AI…

高通确认9月底发布骁龙8 Elite 2，将与天玑9500正面交锋

超越OpenAI？Claude4大模型能连续工作7小时，创SWE-Bench得分纪

AI 驱动高效转型，Klarna 人均收入飙升至近 100 万美元

彭博社：比起ChatGPT，苹果siri前负责人更青睐谷歌gemini

调查发现：近 50% 年轻人宁愿活在“没有互联网”的世界！

站长商机