首页 > AI头条  > 正文

​DeepSeek-V3:超大开源AI模型发布,性能超越Llama和Qwen

2024-12-27 09:35 · 来源: AIbase基地

2024年12月26日,中国人工智能初创公司DeepSeek发布了其最新的超大模型DeepSeek-V3,这一模型以其开放源代码技术和创新挑战领先AI供应商而闻名。

DeepSeek-V3拥有671B个参数,并采用专家混合架构(mixture-of-experts architecture)来激活特定参数,以准确高效地处理给定任务。根据DeepSeek提供的基准测试,这一新模型已经超越了包括Meta的Llama3.1-405B在内的领先开源模型,并且与Anthropic和OpenAI的封闭模型性能相近。

image.png

DeepSeek-V3的发布标志着开源AI与封闭源AI之间的差距进一步缩小。DeepSeek,最初是中国量化对冲基金High-Flyer Capital Management的一个分支,希望这些发展能为人工通用智能(AGI)铺平道路,届时模型将能够理解或学习任何人类能够执行的智力任务。

DeepSeek-V3的主要特点包括:

与前身DeepSeek-V2一样,新模型基于多头潜在注意力(MLA)和DeepSeekMoE的基本架构,确保了高效的训练和推理。

公司还推出了两项创新:辅助无损失负载平衡策略和多令牌预测(MTP),后者允许模型同时预测多个未来令牌,提高了训练效率,并使模型运行速度提高三倍,每秒生成60个令牌。

在预训练阶段,DeepSeek-V3训练了14.8T高质量和多样化的令牌,并进行了两阶段的上下文长度扩展,最终进行了监督式微调(SFT)和强化学习(RL)的后训练,以使模型与人类偏好对齐并进一步释放其潜力。

在训练阶段,DeepSeek采用了多种硬件和算法优化,包括FP8混合精度训练框架和DualPipe算法进行流水线并行,降低了训练成本。DeepSeek-V3的整个训练过程声称在2788K H800GPU小时或大约557万美元内完成,远低于通常用于预训练大型语言模型的数亿美元。

DeepSeek-V3已成为市场上最强的开源模型。公司进行的多项基准测试显示,它在大多数基准测试中超越了封闭源GPT-4o,除了以英语为焦点的SimpleQA和FRAMES,在这两个测试中OpenAI模型分别以38.2和80.5的得分领先(DeepSeek-V3得分分别为24.9和73.3)。DeepSeek-V3在中文和数学基准测试中的表现尤为突出,在Math-500测试中得分为90.2,其次是Qwen的80分。

目前,DeepSeek-V3的代码可在GitHub上以MIT许可证获得,模型根据公司的模型许可证提供。企业还可以通过DeepSeek Chat(类似ChatGPT的平台)测试新模型,并访问API进行商业使用。DeepSeek将提供与DeepSeek-V2相同价格的API,直至2月8日。之后,将收取每百万输入令牌0.27美元(缓存命中每百万令牌0.07美元)和每百万输出令牌1.10美元的费用。

划重点:

🌟 DeepSeek-V3发布,性能超越Llama和Qwen。

🔧 采用671B参数和专家混合架构,提高效率。

🚀 创新包括无损失负载平衡策略和多令牌预测,提升速度。

💼 训练成本大幅降低,推动开源AI发展。

  • 相关推荐
  • 实锤了,Llama 4重测排名掉至32名!远不及DeepSeekQwen

    LMArena更新了Meta最新发布的开源大模型Llama-4-Maverick的排名,从此前的第2名,直线掉到了第32名!这也实锤了此前开发者对Meta为刷榜排名向LMArena提供了“特供版”的Llama4大模型的质疑。开源版同款Llama-4-Maverick-17B-128E-Instruct在LMArena的排名为32名,远低于Gemini2.5Pro、GPT4o、DeepSeek-V3-0324、DeepSeek-R1、Qwen2.5-Max,甚至连英伟达基于上一代Llama3.3改造的Llama-3.3-Nemotron-Super-49B-v1都不如。

  • Llama 4大模型跌落神坛:作弊刷榜、代码能力极差、和DeepSeek比就是伪开源

    被寄予厚望的美国Meta公司的最新开源大模型Llama4发布不到2天时间,口碑急转直下,被质疑为刷榜作弊实际效果差、开源条件多部署门槛高是伪开源等。大模型评测平台LMArena亲自下场发文,打脸Meta提供给平台的Llama4是“特供版”。Meta若继续在商业控制与技术开放之间摇摆,恐将在AI竞赛中进一步失去开发者支持。

  • 刚刚,Llama 4深夜开源击败DeepSeek V3!2万亿多模态巨兽抢回王座

    Llama4重磅发布了!Meta官宣开源首个原生多模态Llama4,首次采用的MoE架构,支持12种语言,首批发布一共两款:Llama4Scout:共有1090亿参数,17B活跃参数,16个专家,1000万上下Llama4Maverick:共有4000亿参数,17B活跃参数,128个专家,100万上下文另外,2万亿参数Llama4Behemoth将在未来几个月面世,288B活跃参数,16个专家。Llama4的横空出世,成为迄今为止开源最强,多模态能力最好的模型之一。L

  • 反击DeepSeek失败!Llama 4效果不好,Meta承认有问题

    今天凌晨1点半,Meta生成式AI领导者AhmadAl-Dahle在社交平台发布了一篇长文,对前天刚开源的Llama4质疑进行了官方回应。Ahmad表示,Llama4一开发完就发布了,所以,不同服务中模型质量难免会有一些差异。由于关税大战的原因,Meta的股票遭遇重创,他们也需要一个利好消息来拉升股票,现在适得其反。

  • DeepSeek领航大模型普惠化浪潮,xAI/微美全息加速开源AI布局打造新格局

    DeepSeek 作为当前最受关注的大模型之一,凭借其技术创新正在加速 AI 普惠化进程。根据机构新报告显示,DeepSeek已经成为全球增长最快的AI工具,其每月新增网站访问量已经超过OpenAI的ChatGPT。DeepSeek市场份额全球第三目前,DeepSeek市场份额6.58%,仅次于ChatGPT和Canva。DeepSeek是继ChatGPT之后的又一现象级AI产品,它的市场份额从2.34%快速增长至6.58%,展现出强劲的增长态势。全球著名�

  • 深度deepin 23.1正式发布AI默认引擎切换至DeepSeek、修复超百项问题

    快科技4月16日消息,今天,深度操作系统宣布,deepin 23.1版本已正式发布。此版本聚焦于解决基础组件更新后的安装效率问题,大幅提升新用户安装体验,同时集成多项功能优化与问题修复,进一步优化系统使用。本次版本的重点改进包括内核优化、AI 默认引擎切换至DeepSeek、修复超百项用户反馈问题等,具体重点改进如下:硬件兼容性与内核优化:集成6.6/6.12内核更新、NVIDIA显卡驱动升级、Intel/AMD CPU微码更新,全面提升硬件支持与底层性能;核心功能增强:DDE新增智能镜像源管理、紧凑模式入口,全局搜索支持离线自然语言与AI处理能力;?

  • IQ 过百的 AI 模型名单发布:ChatGPT、Deepseek等上榜

    人工智能IQ哪家强?o3 智商高达 132、Gemini 2.5 Pro Exp. 拿下 128 分、Claude 凭借 3.7 Sonnet Extended 位列第四、Deepsee R 1……

  • AI进化论——音乐、绘画和舞蹈的DeepSeek时刻

    “昔者仓颉作书天雨粟,鬼夜哭”——人类掌握文字后,天地为之动容,因为属于人类的文明诞生了。“仓颉作书”出自西汉《淮南子》,距离人类掌握文字已经过去了千年。AI进化的答案,或许早就镌刻在人类文明的起点里。

  • DeepSeek带飞寒武纪

    寒武纪凭借AI芯片业务实现扭亏为盈,2024年首次实现上市后盈利,2025年Q1营收11.11亿元同比暴增4230%,净利润3.55亿元。这家曾连亏8年、累计亏损54亿元的"中国版英伟达",因美国对H20芯片出口管制获得市场红利,但客户集中度过高(前五大客户贡献94.63%营收)和现金流波动仍是隐忧。当前国产芯片迎来发展机遇,华为昇腾、壁仞等企业纷纷抢占市场,行业竞争日趋激烈。

  • 字节和DeepSeek争抢“天才少年”

    当年轻人还在想着怎么靠AI赚钱时,AI已经开始帮助老板提升身家了。近期胡润研究院发布的《2025胡润全球富豪榜》显示,字节跳动创始人张一鸣取代“瓶装水大王”钟睒睒,成为中国新首富。对当下的字节和张一鸣言,如果靠砸钱就能解决大模型的技术突破难题,那无疑将是一笔划算的投资。

今日大家都在搜的词: