首页 > 业界 > 关键词  > 魔搭ModelScope社区最新资讯  > 正文

幻方DeepSeek-V2系列模型已在魔搭社区开源

2024-05-08 09:57 · 稿源:站长之家

站长之家(ChinaZ.com) 5月8日 消息:魔搭ModelScope社区宣布,DeepSeek-V2系列模型现已在魔搭ModelScope社区开源。

据悉,幻方公司在5月6日推出了第二代 MoE 模型 DeepSeek-V2,并开源了技术报告和模型权重,该模型引入了 MLA 架构和自研 Sparse 结构 DeepSeekMoE,以236B 总参数、21B 激活,实际部署在8卡 H800机器上,输入吞吐量超过每秒10万 tokens 输出超过每秒5万 tokens。

微信截图_20240508095929.png

性能方面,在目前大模型主流榜单中,DeepSeek-V2均表现出色:

  • 中文综合能力(AlignBench)开源模型中最强,与GPT-4-Turbo,文心4.0等闭源模型在评测中处于同一梯队

  • 英文综合能力(MT-Bench)与最强的开源模型LLaMA3-70B同处第一梯队,超过最强MoE开源模型Mixtral8x22B

  • 知识、数学、推理、编程等榜单结果也位居前列

  • 支持128K上下文窗口

和DeepSeek67B相比,DeepSeek-V2节约了42.5%训练成本,推理的KV Cache节约了93.3%,最大吞吐是之前的576%。

DeepSeek-V2的推理代码和模型下载链接已经在魔搭 ModelScope 社区开源,用户可以通过该平台直接下载模型。

项目地址:

DeepSeek-V2-Chat:

https://modelscope.cn/models/deepseek-ai/DeepSeek-V2-Chat

DeepSeek-V2:

https://modelscope.cn/models/deepseek-ai/DeepSeek-V2

举报

  • 相关推荐
  • AI日报:京东物流推出超脑大模型2.0;DeepSeek V3.1终结版发布;Kimi 推出全新 Agent 模式

    本期AI日报聚焦多领域技术突破:京东物流发布“超脑大模型2.0”与“异狼具身智能机械臂系统”,推动物流行业迈向自主执行;DeepSeek推出V3.1终结版,修复漏洞并为V4架构铺路;Kimi上线Agent模式“OK Computer”,支持智能网站开发等复杂任务;ChatGPT新增个性化资讯功能,定制用户专属新闻;Exa Code发布代码索引工具,助力AI代理精准生成代码;Meta推出AI视频创作平台Vibes,简化短视频制作;蚂蚁数科发布隐私保护AI框架Gibbon,推理速度提升超百倍;OpenAI新基准测试显示GPT-5在多个行业逼近人类专家水平,覆盖九大行业44种职业。

  • DeepSeek更新至V3.1 Terminus版本:两大升级

    9月22日,深度求索宣布DeepSeek V3.1已更新至Terminus版本,官方App、网页端、小程序与API模型同步升级。本次更新在保持模型原有能力基础上,针对用户反馈进行改进:优化语言一致性,缓解中英文混杂、异常字符等问题;提升Code Agent与Search Agent表现。官方表示新版本输出效果更稳定,各领域评测表现优异。开源版本已在Hugging Face和ModelScope平台发布。

  • AI日报:阿里云开源通义DeepResearch;夸克推医师考试大模型

    本期AI日报聚焦多项前沿动态:阿里云开源轻量级AI代理DeepResearch,性能媲美OpenAI;夸克推出国内首个全阶段医师考试大模型测试集;微软Copilot将上线类ChatGPT记忆管理功能;迪士尼等巨头起诉MiniMax侵犯版权;OpenAI提升ChatGPT搜索准确性;Notion推出个性化AI助手;谷歌发布更小巧高效的时间序列预测模型TimesFM-2.5;Figma推出AI设计功能简化创作流程。整体展现AI技术在开源、医疗、�

  • 破解 AI “安全与性能” 难题!DeepSeek-R1-Safe 基础大模型在华为全联接大会2025正式发布

    9月18日,华为全联接大会2025在上海开幕。会上,华为与浙江大学联合发布国内首个基于昇腾千卡算力平台的DeepSeek-R1-Safe基础大模型。该模型在安全防护能力上表现突出,对有害言论、敏感内容等14个维度的防御成功率近100%,同时通用能力测试性能损耗控制在1%以内。双方表示将继续深化合作,推动AI安全技术与产业生态协同发展,为我国人工智能高质量发展提供支撑。

  • 雷军大方推荐友商产品:不买YU7 可以考虑Model Y和理想i6

    小米创始人雷军在2025年度演讲中透露,新款纯电SUV YU7的研发历程与亮点。团队为提升续航能力,将原定标准版620公里续航取消,转而将长续航Pro版(835公里)调整为标准版,续航提升超200公里,定价不变,打造“最强标准版”纯电SUV。雷军称,YU7在续航和性价比上均优于特斯拉Model Y,并展现出开放态度,透露团队今年购入三辆Model Y进行拆解学习。他还提到理想汽车即将发布的新车型i6值得期待,强调用户支持是推动新能源行业发展的关键。

  • 雷军:不买小米YU7的 可以考虑特斯拉Model Y和理想i6

    今日晚间,雷军发布2025年度演讲。 会上,雷军介绍,小米YU7我们带着破釜沉舟的决心投入,力求把每一个细节都干到完美。 例如,我们原来规划标准版续航是620公里,对纯电SUV来说,已经非常不错,也比 Model Y 好不少。

  • Panduit 泛达荣获EcoVadis企业可持续发展表现银牌评级

    泛达公司宣布荣获EcoVadis企业可持续发展银牌评级,位列全球前6%,彰显其在环境责任与可持续商业实践方面的坚定承诺。该评估覆盖环境、劳工与人权、商业道德及可持续采购四大核心领域,包含21项可持续发展指标。泛达全球可持续发展经理Mark Dehmlow表示,这一成就证明公司在环境管理、道德采购及员工健康安全方面的努力正产生可衡量影响。作为全球领先的电气与网络基础设施解决方案制造商,泛达将持续提升可持续发展表现,契合市场期望,并支持合作伙伴生态系统及行业优先发展事项。

  • 没想到,音频大模型开源最彻底的,居然是小红书

    不难发现,近几个月,开源频频成为 AI 社区热议的焦点。尤其是对于国内科技公司来说,开源成为主旋律。根据 Hugging Face 中文 AI 模型与资源社区的数据显示,国内厂商在七八月接连开源33款、31款各类型大模型。 这些开源成果大多落在了文本、图像、视频、推理、智能体以及世界模型领域,而音频生成占比很小。

  • 百度文心大模型X1.1正式发布:超越DeepSeek R1、打平GPT-5

    今天,在WAVE SUMMIT深度学习开发者大会2025上,百度文心大模型X1.1正式发布,在事实性、指令遵循、智能体等能力上均提升显著。 百度王海峰介绍,文心大模型X1是基于文心大模型4.5训练而来的深度思考模型,升级后的X1.1主要采用了迭代式混合强化学习训练框架。 一方面通过混合强化学习,同时提升通用任务和智能体任务的效果;另一方面通过自蒸馏数据的迭代式生产及训练

  • 开源鸿蒙技术大会2025圆满举办,凝聚开源力量勾勒万物智联新未来

    2025年9月27日,开源鸿蒙技术大会在长沙国际会议中心召开。大会由开源鸿蒙项目群技术指导委员会主办,华为承办,多家企业及高校协同支持。会议汇聚了行业专家、开发者及生态伙伴,展示了鸿蒙在技术创新、生态建设及人才培养方面的成果,并发布开源鸿蒙6.0版本,提升系统性能与开发效率。大会聚焦智能化发展,探讨操作系统在数字经济的核心价值,推动产业协同与生态共建。长沙市政府表示将依托鸿蒙生态,加速数字经济发展,共同构建万物智联的坚实底座。

今日大家都在搜的词: