首页 > 业界 > 关键词  > 魔搭ModelScope社区最新资讯  > 正文

幻方DeepSeek-V2系列模型已在魔搭社区开源

2024-05-08 09:57 · 稿源:站长之家

站长之家(ChinaZ.com) 5月8日 消息:魔搭ModelScope社区宣布,DeepSeek-V2系列模型现已在魔搭ModelScope社区开源。

据悉,幻方公司在5月6日推出了第二代 MoE 模型 DeepSeek-V2,并开源了技术报告和模型权重,该模型引入了 MLA 架构和自研 Sparse 结构 DeepSeekMoE,以236B 总参数、21B 激活,实际部署在8卡 H800机器上,输入吞吐量超过每秒10万 tokens 输出超过每秒5万 tokens。

微信截图_20240508095929.png

性能方面,在目前大模型主流榜单中,DeepSeek-V2均表现出色:

  • 中文综合能力(AlignBench)开源模型中最强,与GPT-4-Turbo,文心4.0等闭源模型在评测中处于同一梯队

  • 英文综合能力(MT-Bench)与最强的开源模型LLaMA3-70B同处第一梯队,超过最强MoE开源模型Mixtral8x22B

  • 知识、数学、推理、编程等榜单结果也位居前列

  • 支持128K上下文窗口

和DeepSeek67B相比,DeepSeek-V2节约了42.5%训练成本,推理的KV Cache节约了93.3%,最大吞吐是之前的576%。

DeepSeek-V2的推理代码和模型下载链接已经在魔搭 ModelScope 社区开源,用户可以通过该平台直接下载模型。

项目地址:

DeepSeek-V2-Chat:

https://modelscope.cn/models/deepseek-ai/DeepSeek-V2-Chat

DeepSeek-V2:

https://modelscope.cn/models/deepseek-ai/DeepSeek-V2

举报

  • 相关推荐
  • DeepSeek上新!开源发布DeepSeek-Prover-V2-671B新模型

    快科技4月30日消息,今日,DeepSeek 今日在 AI 开源社区 Hugging Face 发布了一个名为 DeepSeek-Prover-V2-671B 的新模型。据介绍,DeepSeek-Prover-V2-671B 其参数量达到6710亿,使用了更高效的 safetensors 文件格式,并支持 BF16、FP8、F32 等多种计算精度,方便模型更快、更省资源地训练和部署。在模型架构上,该模型使用了DeepSeek-V3架构,采用MoE(混合专家)模式,具有61层Transformer层,7168维隐藏层。同时支持超长上下文,最大位置嵌入达163840,使其能处理复杂的数学证明,并且采用了FP8量化,可通过量化技术减小模型大小,提

  • 华为:让DeepSeek的“专家们”动起来,推理延迟降10%!

    要问最近哪个模型最火,混合专家模型(MoE,Mixture of Experts)绝对是榜上提名的那一个。 它的巧妙之处,就在于把不同的任务分配给擅长处理的专家网络,让整个系统性能得以提升。 但你知道吗? 正是这个关键的专家网络,也是严重影响系统推理性能的因素之一。 因为在大量任务来临之际(尤其是超大规模时),MoE并不是以“雨露均沾”的方式去分配——专家网络们的负�

  • 深夜突袭,DeepSeek-Prover-V2加冕数学王者!671B数学推理逆天狂飙

    DeepSeek发布数学推理模型DeepSeek-Prover-V2,包含7B和671B两个参数版本。该模型采用"递归+强化学习"训练方法,在MiniF2F测试集上达到88.9%通过率,解决了PutnamBench中的49道题目。关键技术包括:1) 使用DeepSeek-V3分解复杂定理生成子目标;2) GRPO算法从多个候选方案中自动学习最优解;3) 通过思维链整合非形式化推理与形式化证明。模型在AIME竞赛题和教科书题目上也表现优异,7B小模型意外在部分问题上超越大模型。论文指出该方法为通向AGI提供了正确路径,未来将扩展至IMO级别数学难题。

  • 初中老师如何用deepseek 和 Kimi无痛做课件

    本教程指导初中教师如何利用Deepseek和Kimi两款AI工具高效完成备课全流程。Deepseek用于生成教学设计方案和PPT大纲,Kimi则根据大纲快速生成精美课件。操作步骤:1)在Deepseek输入教学需求生成教学设计;2)用Deepseek生成PPT大纲;3)将大纲粘贴至Kimi PPT助手一键生成课件。该方法特别适合日常备课、临时调课需求,能大幅提升备课效率,让教师既省时又高效。

  • DeepSeek爆火100天,大厂又找回初心了

    DeepSeek R1模型发布100天后,中国AI行业竞争格局被彻底重构。该模型3个月内用户突破1.9亿,成为国内最大AI原生应用。腾讯、百度等科技大厂纷纷接入,其中腾讯元宝APP借助DeepSeek流量一度登顶苹果应用下载榜。字节和阿里选择自研路线,字节推出"深度思考"功能,阿里则专注开源模型研发。随着DeepSeek热潮减退,豆包重回下载量榜首,元宝跌出前20。科技大厂在享受DeepSee

  • IQ 过百的 AI 模型名单发布:ChatGPT、Deepseek等上榜

    人工智能IQ哪家强?o3 智商高达 132、Gemini 2.5 Pro Exp. 拿下 128 分、Claude 凭借 3.7 Sonnet Extended 位列第四、Deepsee R 1……

  • DeepSeek们越来越聪明,却也越来越不听话了。

    ​在今年,DeepSeek R1火了之后。 几乎快形成了一个共识,就是: AI推理能力越强,执行任务时就应该越聪明。 从2022年Chain-of-Thought横空出世,到今天Gemini2.5Pro、OpenAI o3、DeepSeek-R1、Qwen3,这些旗舰模型的统治性表现,我们一直相信,让模型先想一想,是一个几乎不会出错的策略。 不过,这种聪明,也会带来一些副作用。 就是提示词遵循能力,变得越来越差。 换句话说,就是

  • 华为鸿蒙电脑接入DeepSeek:生产力更强

    官方介绍,鸿蒙电脑历经五年布局,集结10000多名顶尖工程师,联合20多家研究所,积累超2700项核心专利。

  • DeepSeek+物流行业,AI大模型破解五大场景效能困局

    文章探讨了AI大模型在物流行业的应用现状与挑战。以DeepSeek为代表的AI技术正通过重构业务流程、优化资源配置、提升决策效率等方式,成为推动行业降本增效的核心引擎。但成功应用AI大模型需要企业具备数字化基础、业务流程标准化和数据治理能力,而非简单技术堆砌。G7+易流梳理出五大核心应用场景:工作效能辅助、经营数据分析、安全审查、智能客服和知识管理。这些

  • AI简历教程!用 deepseek 一键生成高质量简历

    本文介绍如何利用AI工具Deepseek快速制作专业简历。传统简历制作依赖WPS模板或作图软件,过程繁琐。现在通过Deepseek平台,只需输入自然语言指令(如工作经验、技能等关键信息),系统即可自动生成排版精美的HTML版简历,还能转换为PDF格式。操作流程分三步:1.访问官网输入需求指令;2.查看并运行生成的HTML代码;3.保存文件或转为PDF。该工具特别适合求职者快速制作突出个人优势的专业简历,大幅提升求职效率。