首页 > 业界 > 关键词  > AI行业最新资讯  > 正文

AI颠覆者:DeepSeek的过去、现在与未来

2025-02-05 08:57 · 稿源: 窄播公众号

声明:本文来自于微信公众号窄播,作者:余智敏,授权站长之家转载发布。

2025年开年,AI行业迎来了一场出乎意料的「地震」——国内的DeepSeek以颠覆性姿态炸裂出圈,短短数日登顶全球应用下载榜榜首,日活用户迅速突破1500万。

中美科技界对DeepSeek进行了激烈的争论,观点交锋,有人高度认可,有人冷嘲热讽,更有人陷入恐慌。Anthropic CEO达里奥·阿莫迪万字长文呼吁进一步加强对华的芯片封锁;OpenAI CEO山姆·奥特曼罕见认错,并且承认OpenAI的领先性被削弱。不仅是科技行业,美国总统特朗普也指出DeepSeek给美国敲响了警钟。

DeepSeek到底做了什么?为何会引发全球性的轰动?DeepSeek的出现,打破了哪些行业共识?如何理解DeepSeek带来的机会以及未来的挑战?本文将会逐个探讨这些问题。

DeepSeek做了什么?

DeepSeek引发AI行业地震的前提包含三个基础事实:模型能力追平行业领先水平;在算法和工程上有核心创新;产品引发全球关注。

第一,模型能力上,R1追平行业领先水平。

关于年初发布的DeepSeek R1模型能力,相信大家已经看到足够多的信息,或者也自己体验过了,测评层面,DeepSeek R1在数学、代码、自然语言推理等任务上,性能比肩 OpenAI o1正式版。

图片

对于大语言模型,逻辑能力和语文能力是最直观可以感受到的。Claude3.5Sonnet去年发布之后,这两项能力是非常突出的,个人体感是比GPT还优秀,尤其是语文能力,最近半年多最主要使用的也是Claude。

如今的DeepSeek R1在逻辑和语文能力上也是非常突出,结合外显的思考过程,给用户的冲击非常强烈。小红书上出现了大量DeepSeek的「锐评帖」、「情感贴」,因其详实全面的思考过程,被网友戏称为「最内耗的AI」。并且,DeepSeek针对法律、市场营销等专业领域的问题,也能给出全面、有洞察,甚至是让从业人员「不寒而栗」的回答。

图片

总的来说,目前DeepSeek R1在基础能力上,明确地属于第一梯队。

第二,核心创新上,V3在算法和工程上围绕MoE进行了大胆尝试。

关于DeepSeek模型的争议有很多,R1虽然效果很亮眼,有很好地运用了强化学习的范式,但是这个算是在行业中已经被运用的方法,DeepSeek进行了很好的实践,更像是对OpenAI的o1进行复现,有不同的地方是,DeepSeek把思考的过程给用户呈现了。

DeepSeek在算法和工程方面最具创新性的突破在于MoE(混合专家模型)的规模化应用。从V2开始,DeepSeek将专家数量从传统的8或16个扩展到160个;到V3时期,更是突破性地达到256个专家数量,实现了671B参数量下仅需激活37B参数的高效运算。

MoE模型的效率优势正源于其选择性激活机制。与传统模型(如Llama)需要激活全部网络权重不同,MoE通过对计算网络进行「分类」,只激活相关专家进行运算,显著降低计算成本。类似分成8个专家,运算的时候激活1个,这样运算量就只有八分之一,剩下的7个专家都是和输入八竿子打不着的部分,没必要进行运算。

那如果MoE这么高效,为什么此前行业没有大规模运用呢?

MoE模型此前未被广泛应用的主要障碍是训练难度大,容易出现信息分类不当。DeepSeek V3通过创新性的算法和工程优化,成功突破这一限制,在保证模型效果的同时,实现了仅需激活5%参数的高效运算,开创了大规模MoE的先河。

第三,产品表现上,引发全球轰动,日活迅速超1500万。

图片

模型能力、技术创新引发全球性讨论的同时,DeepSeek的APP也陆续在全球100多个国家登顶下载榜榜首,日活很快超过了1500万。硅谷一线风投a16z的创始人Marc Andreessen也转发了相关的对比数据,显示DeepSeek日活已经达到了ChatGPT的23%。实际上公司因为遭受了不明原因的大规模攻击,不得不暂停了海外新用户的注册,不然这个增长势头可能会更猛烈。

DeepSeek为什么能引发全球轰动?

列完这三个基础的事实,不知道大家有没有发现,DeepSeek产品表现上只是追赶到第一梯队,并不是超越当前市面上的产品,也不是底层的范式创新。要说模型能力,其实Anthropic的Claude3.5Sonnet真的也很能打,都半年多了,但是看数据就知道和ChatGPT的声量(日活)是完全没法比的,除了AI的从业者,外部的讨论微乎其微。

相较而言,DeepSeek的新模型发布之所以能在AI领域掀起惊涛骇浪,是因为有三点远超大家预期。

第一个远超预期的点是DeepSeek R1做到了又好又便宜。

在模型效果追平第一梯队的情况下,DeepSeek的训练成本不到600万美金,而Meta开源的Llama3-405B训练成本超6000万美元,DeepSeek用不到Meta十分之一的训练成本,实现了更好的模型表现。

在推理的API定价的层面,与能力相当的OpenAI o1模型进行对比,DeepSeek的定价约为o1的三十分之一。参考DeepSeek去年推出的V2模型,如果效果不好,但是便宜,不会引起这么大轰动;参考Anthropic的Claude3.5Sonnet,如果效果好,但是不便宜,也不会有这么大的轰动。

如果要给好和便宜排个序,肯定是便宜更超预期。因为好的层面,已经有GPT和Claude,其他的也在追赶。好到追平第一梯队,不能说太超预期。但是在好的基础上,还便宜这个点,是全世界没有其他团队做到的。因此给了业界极大的冲击。

至于团队是如何做到如此大幅度的降成本,重要原因是刚才提到的算法和工程的创新,MoE大胆地拓到了256个,实际运行只需要激活5%左右的参数,极大地提升了运算的效率。

图片

第二个远超预期的点是DeepSeek做到了完全开源。

第一梯队的模型GPT和Claude都是闭源的,开源的Llama效果要比GPT和Claude逊色一些。现在DeepSeek在比肩第一梯队的情况下,还做到了开源,而且是在论文中公布了详实的模型细节。OpenAI没能做到的Open和开源,反而让来自中国的DeepSeek做到了。

第三个远超预期的点是DeepSeek的成果由中国团队做出。

一直以来都被认为是追赶者的中国公司,第一次在AI行业中站上世界舞台的中心,给到全球一个又好又便宜,还开源的大模型。而且DeepSeek的核心研究员都是中国本土培养的博士,没有海外留学的背景。

DeepSeek打破了哪些共识?

DeepSeek打破的第一个共识是:美国引领一切。

AI科技领域,美国长期以来都是创新的引领者,中国企业往往扮演跟随者的角色,更擅长技术的应用场景拓展。现在竟然有中国的团队,在AI技术领域,做出了像消费电子般的中国「智造」模型,又好又便宜,在一定程度上打破了技术创新只能在美国出现的刻板印象。

图灵奖得主LeCun也借此痛批硅谷傲慢病:患有这种病症的人认为自己所在的小圈子垄断了好想法,甚至认为其圈子以外的所有创新都是通过「作弊手段」得来的。

第二个被打破的共识是:资金密集投入,大力出奇迹,垄断市场就能获得超额收益。

DeepSeek的全球热议还带来了美股的惊天震动,英伟达单日大跌近17%,市值蒸发5950亿美元,近6000亿美元,相当于人民币4.3万亿,创美股单日跌幅最高记录。

二级市场短期是情绪的体现,大家恐慌性地抛售,原因不仅是因为DeepSeek训练成本下降,带来了芯片算力需求可能会下降的恐慌,也源自传统的美国科技资本逻辑受到的冲击。

传统逻辑是:在行业中进行密集的资金投入,寡头的几家企业获得垄断性的资金优势,进而大力出奇迹,带来技术成果后获得垄断市场的主导地位。简单来说,就是大资金、大投入、长周期带来超额回报。从互联网时代开始,到移动互联网已经多次印证了这个逻辑。

在AI的时代,由于算力成本高昂,这个逻辑更是被放大。像是最近公布的有特朗普站台的「星际之门」(Stargate)计划,由OpenAI、孙正义(SoftBank 软银掌门人)以及中东基金共同推动,宣称要在4年内投入5000亿美元,打造「全球算力中心」,想要依靠大规模投入建立算力优势。

DeepSeek的出现,给这个资本逻辑一记重拳——在AI领域大资金、大投入并不意味着一劳永逸。实现领先有可能根本不需要这么大资金的投入,抑或是这么大资金的投入之后,即使是闭源,也无法保证垄断。假如基本的逻辑开始面临挑战,逐利的资本显然需要重新思考自己的投资思路。

第三个被打破的共识是:闭源始终领先。

关于AI开源闭源领先性的讨论,其实一直争论不断。DeepSeek R1的出现,是一个巨大的变量。模型追上了闭源的OpenAI和Anthropic,而且进行了开源,为整个AI行业注入新的动力。OpenAI CEO山姆·奥特曼也罕见认错,认为OpenAI在是否开源上,站在了历史错误的一面。

关于开源闭源之争,还有两点值得关注。

AI语言模型VS传统开源技术差异:

- 技术同源而非分叉:对比Android与iOS的生态隔离,开源与闭源大模型均基于Transformer架构,差异是在数据、算法运用、工程等维度,并非是截然不同的技术路线。

- 企业主导型开源:Meta、DeepSeek、OpenAI等公司掌握开源与否的节奏,社区更多是参与者而非主导者,而传统Linux更像是社区驱动的模式。

AI多模态模型现状:

- 图像生成:开源stable diffusion相关的生态繁荣,闭源的midjourney等企业也有很好的商业化。

- 音乐生成:闭源的Suno相对领先。

- 视频生成:闭源的Runway、快手的可灵、生数科技的vidu等相对领先。

我们在讨论DeepSeek开源的时候,语境都是LLM大语言模型。但是除了语言模型,AI还有非常重要并行的领域是多模态模型。DeepSeek也在近期发布了图像模型Janus pro,但是效果一般。在多模态的领域,开源还有更长的路要走。

未来展望:机会与挑战

首先,DeepSeek会给AI应用的发展带来长期利好。

应用对基础服务的需求,从来都是「又好又快又便宜」。如果要排序,好>便宜>快。不好的东西可以不用,同样好用的产品,便宜当然是有优势,然后速度快,服务稳定。DeepSeek当前的语言模型,做到了又好又便宜。

对于现有的AI应用来说,已经接入语言模型的应用,可以替换成价格是三十分之一的API,显著降低的成本,可以更好地探索PMF(Product Market Fit),有更大的空间进行尝试。这个是第一步最直接的影响。

关于能否因此出现新的killer app,我的答案是:短期否定,长期肯定。

短期来看,AI的killer app需要的不只是PMF,在PMF之前,还有技术。技术在细分场景是不是足够好用,是killer app的必要条件。而这个和模型的能力直接挂钩,最早就有提到这次的出圈,并不是模型能力的突破,所以短期这个必要条件没有变化。

长期来看,会利好AI应用的发展。原因在于DeepSeek这次的开源,让行业最领先的水平平权了,会加速推动AI进化的速度,进而推动必要条件的成熟,带来新的应用机会。

其次,推理芯片和云服务也有望受益。

一方面,好用便宜,所以多用。会让推理的市场需求加速扩大,对应的推理芯片和配套的云服务市场也扩大。英伟达在训练芯片上的优势是更显著的,推理芯片层面相对而言,国内头部芯片代差会小一些。

另一方面,亚马逊和微软都已经接入DeepSeek,国内的百度云、腾讯云、阿里云也都已经接入。上文提到的AI应用企业,使用API的选择之一也是从云服务接入。

当然,DeepSeek在未来也会面临来自模型技术发展和地缘因素的双重挑战。

虽然这次DeepSeek给AI行业带来一股强心剂,但是没有改变是当前模型发展的困境。对于语言模型,还有类似幻觉这样的问题难以解决,可能需要更底层的范式创新才能突破;对于多模态的模型,考验就更多,图片的指令遵循效果差,细节控制差。

视频生成模型在过去半年,进展速度非常快,但是指令遵循、一致性等都还有很大空间,并且成本很高,非常需要像DeepSeek V3一样能把价格打下来的模型。

同时,DeepSeek的出现给了中国企业更大的信心去做创新性的尝试,也给美国敲响了警钟。可以预见的是,中美的科技冷战会进一步加剧。芯片的限制可能会进一步加强,中国企业的国际化也会面临比以往更大的压力。

道路难免崎岖,前行必有曙光。

在通往AGI的征程上,DeepSeek的崛起不仅打破了闭源垄断的旧秩序,更以开源民主化的方式推动重构着AI领域的竞争规则。从「美国引领」到「中国创新」,从「资本密集」到「人人可及」,从「闭源垄断」到「开放共享」,这些根本性的改变,正在塑造AI发展的新秩序。

举报

  • 相关推荐
  • 英伟达回应股价遭DeepSeek暴击:DeepSeek是出色的AI进步

    日前,美股收盘英伟达股价暴跌17%,市值一夜蒸发5888.62亿美元。业界认为这是受到中国AI大模型DeepSeek人工智能模型冲击,导致美国芯片股集体下跌,英伟达受到最严重冲击。DeepSeek-R1API服务定价为每百万输入tokens1元/4元,每百万输出tokens16元。

  • 关于deepseek的一些普遍误读

    最近deepseek成为全球最热门的话题,甚至没有之一,无论是北美,欧洲,各大IT巨头,各个投资机构,政府官员,乃至脱口秀演员,都在不断提及这个话题国内,自媒体也享受了一批十万加盛宴,惭愧,我的前一篇也算是其中之一。但在这些信息的不断传播和讨论中,鉴于流量的偏好,或者说公众的偏好,在很多自媒体和非专业人士的报道和解读中,一些关键信息存在较多的误�

  • 是不是好AIDeepSeek得过玄学关

    “我不关心哪个大模型更好用,但你要说DeepSeek能算命,我立刻下载。”最近,社交平台上刮起了一股赛博玄学风,社交平台上“用DeepSeek算命到凌晨三点”的帖子刷屏不断衍生出了一个热搜词——DeepSeek玄学指令。“为什么我排了一个小时还在转圈圈”“求求了,让我也算一卦吧”,这场被当作年轻人心理慰藉的赛博算命在继续。

  • DeepSeek,搅了谁的局?

    上一次AI行业引起全民震动还是2022年11月ChatGPT的横空出世,此后AI行业每逢重大变革,都被称为是“ChatGPT时刻”。这个词在2024年年底被改写,“DeepSeek时刻”出现,被看作是AI历史上的新转折点。DeepSeek搅动的这一片汪洋,涟漪还在继续扩大。

  • DeepSeek劝不了谷歌们

    过去一个月,DeepSeek以大约十分之一的训练成本,推出与OpenAIo1性能接近的开源模型R1,“小力出奇迹”的新范式震撼全球AI大模型行业。外界对于大型科技公司动辄数百亿美元的AI研发开支,也产生了越来越多的质疑。高性价比路线与“大力出奇迹”路线之争,也仍将持续下去,并在互相借鉴和融合中,推动AI大模型迈向下一个发展阶段。

  • 第一波利用DeepSeek搞钱的人出现了 DeepSeek概念股集体大涨

    随着人工智能工具DeepSeek的热度持续攀升,一批打着“利用DeepSeek赚钱”旗号的课程与直播悄然兴起。在一些电商、视频以及知识付费平台上,众多自封为教授、行业专家的人士纷纷开设直播或发布课程,声称能够教授如何利用DeepSeek获取财富。对于利用DeepSeek进行投资的行为,也应谨慎评估风险,切勿盲目跟风。

  • DeepSeek成“算命大师”,AI的尽头是玄学?

    刚刚过去的春节假期里,DeepSeek无疑是最火的话题。根据国内AI产品榜统计,DeepSeek应用上线20天,日活就突破了2000万。用AI算命,更多还是图个乐子。

  • AI闯入了玄学圈!我用DeepSeek算命,结果真绝了!

    我命由我不由天!小伙伴们,是不是过了个肥年呢~在春节假期里,估计大部分朋友除了吃吃喝喝,就是走亲戚、去旅游。小雷这爱上班的人,真的一点也没闲住。现在连命理大师的活儿,AI也能做了,以后咱们过年前可能就不用再狂搜“新年运程”了,问问AI就行。

  • DeepSeek的华丽文风是怎样炼成的?

    去年还不相信AGI投资叙事的知名投资人朱啸虎,在被DeepSeek支配了一整个春节后,态度大变,“DeepSeek快让我相信AGI了。”在近期接受腾讯新闻采访时,朱啸虎多次惊叹于DeepSeek在内容生成方面的优美和深度。作为人类的我们,或许是时候该学学如何提高辨别AI内容时,自身的可靠性了。

  • DeepSeek让我审视,什么才是属于“人”的创作

    编者注:小崔是我的朋友。在跟其他人介绍他时,我会称他为“我的诗人朋友”。面对着每时每刻都在侃侃谈的DeepSeek,我们的沉默与卡顿,我们的无力与挫败,最终将成为安放人类独有表达的摇篮。

热文

  • 3 天
  • 7天