首页 > AI头条  > 正文

​DeepSeek-V3:超大开源AI模型发布,性能超越Llama和Qwen

2024-12-27 09:35 · 来源: AIbase基地

2024年12月26日,中国人工智能初创公司DeepSeek发布了其最新的超大模型DeepSeek-V3,这一模型以其开放源代码技术和创新挑战领先AI供应商而闻名。

DeepSeek-V3拥有671B个参数,并采用专家混合架构(mixture-of-experts architecture)来激活特定参数,以准确高效地处理给定任务。根据DeepSeek提供的基准测试,这一新模型已经超越了包括Meta的Llama3.1-405B在内的领先开源模型,并且与Anthropic和OpenAI的封闭模型性能相近。

image.png

DeepSeek-V3的发布标志着开源AI与封闭源AI之间的差距进一步缩小。DeepSeek,最初是中国量化对冲基金High-Flyer Capital Management的一个分支,希望这些发展能为人工通用智能(AGI)铺平道路,届时模型将能够理解或学习任何人类能够执行的智力任务。

DeepSeek-V3的主要特点包括:

与前身DeepSeek-V2一样,新模型基于多头潜在注意力(MLA)和DeepSeekMoE的基本架构,确保了高效的训练和推理。

公司还推出了两项创新:辅助无损失负载平衡策略和多令牌预测(MTP),后者允许模型同时预测多个未来令牌,提高了训练效率,并使模型运行速度提高三倍,每秒生成60个令牌。

在预训练阶段,DeepSeek-V3训练了14.8T高质量和多样化的令牌,并进行了两阶段的上下文长度扩展,最终进行了监督式微调(SFT)和强化学习(RL)的后训练,以使模型与人类偏好对齐并进一步释放其潜力。

在训练阶段,DeepSeek采用了多种硬件和算法优化,包括FP8混合精度训练框架和DualPipe算法进行流水线并行,降低了训练成本。DeepSeek-V3的整个训练过程声称在2788K H800GPU小时或大约557万美元内完成,远低于通常用于预训练大型语言模型的数亿美元。

DeepSeek-V3已成为市场上最强的开源模型。公司进行的多项基准测试显示,它在大多数基准测试中超越了封闭源GPT-4o,除了以英语为焦点的SimpleQA和FRAMES,在这两个测试中OpenAI模型分别以38.2和80.5的得分领先(DeepSeek-V3得分分别为24.9和73.3)。DeepSeek-V3在中文和数学基准测试中的表现尤为突出,在Math-500测试中得分为90.2,其次是Qwen的80分。

目前,DeepSeek-V3的代码可在GitHub上以MIT许可证获得,模型根据公司的模型许可证提供。企业还可以通过DeepSeek Chat(类似ChatGPT的平台)测试新模型,并访问API进行商业使用。DeepSeek将提供与DeepSeek-V2相同价格的API,直至2月8日。之后,将收取每百万输入令牌0.27美元(缓存命中每百万令牌0.07美元)和每百万输出令牌1.10美元的费用。

划重点:

🌟 DeepSeek-V3发布,性能超越Llama和Qwen。

🔧 采用671B参数和专家混合架构,提高效率。

🚀 创新包括无损失负载平衡策略和多令牌预测,提升速度。

💼 训练成本大幅降低,推动开源AI发展。

  • 相关推荐
  • DeepSeek更新R1推理AI模型,已发布Hugging Face

    更新后的 R1 拥有 6850 亿个参数,体量庞大。由于模型规模极大,普通消费者级别的硬件很可能无法直接运行。

  • MiniMax深夜开源首个推理模型M1,这次是真的卷到DeepSeek了。

    ​不知道还有多少人记得,AI行业的六小虎。 行业内都在说,他们已经寂静好久了。 上一次相关的项目发布,还是前一段时间我写的MiniMax声音模型的更新,Speech-02。 而昨晚凌晨将近12点的时候,又是MiniMax,居然在X上,预告了他们一整周的发布计划。

  • 如何用 DeepSeek 生成备课教案

    本教程介绍如何利用AI工具DeepSeek快速生成七年级中国古代史教案。操作流程包括:1.登录DeepSeek官网;2.进入文本生成界面;3.输入详细指令,包含教学目标、重难点、教学过程等要素;4.等待AI生成教案;5.检查并调整内容。该工具能帮助教师高效完成系统化的教案设计,但生成后仍需根据实际教学需求进行适当修改和完善,最后保存为所需格式使用。

  • 如何用 DeepSeek 生成星球日更内容

    本文介绍如何利用DeepSeek工具高效生成星球日更内容。主要内容包括:1.注册登录DeepSeek官网进入对话界面;2.输入精准指令获取内容,如"生成7篇藏马鸡主题的星球日更";3.对生成内容进行相关性、实用性评估;4.通过补充指令优化不满意内容。该工具能快速提供多样化素材,解决持续创作压力,经过多次调整可获得符合定位的优质内容。操作流程简单,适合自媒体运营和社群内容创作。

  • 如何用 DeepSeek 进行论文降重

    本文介绍了如何利用DeepSeek AI工具降低学术论文重复率。该工具能对重复率超标的段落进行学术化改写,在保证专业术语准确性的同时降低查重率。使用方法是:1)在DeepSeek网站输入降重指令和段落;2)可指定改写风格(如某期刊格式)或具体方向(如主动改被动句);3)审查改写结果,确保语义准确、术语恰当、逻辑连贯。若发现问题可再次优化。该工具适用于毕业论文、期刊�

  • 如何用 DeepSeek 进行合同审核

    本文介绍如何利用DeepSeek AI工具高效审核合同法律风险。合同是商业活动的重要保障,但隐藏的法律风险可能带来巨大损失。DeepSeek能快速识别合同条款中的合法性存疑、违约责任模糊、交付条款不清等问题,并提供专业修改建议。操作流程包括:1.登录DeepSeek平台;2.上传合同文件;3.输入审核指令;4.查看详细审核结果。该工具适用于企业法务、律师及商务人员,能有效规避合同风险,提高审核效率。

  • 利用DeepSeek和豆包生成工作总结

    本文介绍如何利用AI工具快速撰写高质量工作总结。通过DeepSeek生成内容框架,再使用豆包填充具体内容,可大幅提升写作效率。操作步骤:1)在DeepSeek输入需求获取大纲;2)将大纲粘贴至豆包生成详细内容;3)根据需要进行调整优化。该方法适用于教师学期总结、员工季度报告、项目总结等多种场景,能有效节省时间精力,提升工作效率。

  • 用DeepSeek徒手造一个能对话的AI简历,助你当场拿下Offer。

    ​故事是这样的。 我最近一直在招人,想招点人帮我分担一些压力,全职的实习的啥的都可以。 我这再怎么说,也是一个跟AI有关的地方,所以很多人在投简历的时候,都会写很多跟AI相关的经历,我甚至收到过很多AI生成的简历。 很多写的很玄乎,什么掌握全链路工作流,独立搭建xx系统,深度参与xx项目,掌握xx行业资源等等,但是一面,问用过最惊艳的AI产品是啥,10个�

  • 如何用 DeepSeek 生成爆款标题

    本文介绍如何利用DeepSeek工具快速生成15个爆款标题,提升内容吸引力。操作步骤:1.访问DeepSeek官网;2.输入指令,如"为夏日低卡甜品生成15个小红书标题",要求包含emoji、数字或关键词;3.根据不同平台特性调整风格:小红书需活泼多用emoji,知乎要理性干货,抖音则简短有力突出冲突。该工具能帮助创作者在海量信息中脱颖而出,解决标题创作难题。

  • 如何用 DeepSeek 制定项目管理计划

    本文介绍了如何利用DeepSeek AI工具快速完成电商双十二促销网页开发项目。关键点包括:1.通过DeepSeek平台输入详细需求指令,系统会生成项目管理计划和甘特图代码;2.将代码复制到Mermaid等在线渲染工具中可视化查看项目进度安排;3.根据可视化结果优化调整计划,确保任务时间节点和依赖关系合理。该方法能帮助团队在一个月内高效完成女鞋促销页面的开发上线,特别适合电商节日促销等时效性强的项目。

今日大家都在搜的词: