首页 > 业界 > 关键词  > deepseek最新资讯  > 正文

关于deepseek的一些普遍误读

2025-02-05 09:28 · 稿源: ​caoz的梦呓公众号

声明:本文来自于微信公众号 caoz的梦呓,作者:caoz,授权站长之家转载发布。

最近deepseek成为全球最热门的话题,甚至没有之一,无论是北美,欧洲,各大IT巨头,各个投资机构,政府官员,乃至脱口秀演员,都在不断提及这个话题,而国内,自媒体也享受了一批十万加盛宴,惭愧,我的前一篇也算是其中之一。

但在这些信息的不断传播和讨论中,鉴于流量的偏好,或者说公众的偏好,在很多自媒体和非专业人士的报道和解读中,一些关键信息存在较多的误导。

我觉得这个话题甚至可以作为一个认知能力的评判标准,我所理解的合理认知是,我前几天直播讲了一下,就是掐头去尾。所谓头和尾是什么,过度神话,以及无脑贬低。

1、过度神话

我旧文DeepSeek,逆转时刻?其实也说到了,它非常棒,对行业发展的促进价值是值得肯定的,但谈及颠覆,还为时尚早。一些专业测评来看,在一些关键问题的解决上,并没有超越chatgpt。比如我看到有人测试,模拟典型的小球在封闭空间的弹跳代码,deepseek编写出来的程序表现,和chatgpt o3-mini 相比,从物理学的遵循度角度来看,还是有差距的。

o3-mini 碾压DeepSeek R1?一条python程序引发近400万围观

当然,我没有亲测,单一案例也许不能证明太多,但至少目前看到的多个测评来说,最多只能说各有千秋,deepseek还不能说实现了反超。

2、无脑贬低

不要过度神话它,但无脑贬低也是很扯淡的事情。

微软说deepseek蒸馏了chatgpt的结果,所以一些人也借题发挥,把deepseeek贬低的一钱不值。这个事情该怎么看,那么一些证据也是有的,比如你问deepseek自己是谁,它会说自己是chatgpt,从某种意义来说,这个很有可能是他们采纳了一些chatgpt的一些语料信息训练,但如果你说他们的成就是基于蒸馏chatgpt的,我是不信的,根据我的测试,deepseek答案的脑洞很大,很多问题的解答会比chatgpt发散,而我所理解的蒸馏,通常是为了提升效率,会带来更收敛的结果。

我的个人判断是,deepseek的训练中,可能部分利用了一些蒸馏的语料信息,或者做了少许的蒸馏验证,但这个对它整个模型的质量和价值影响应该很低。而且既然人家都开源了,复现和测试也很容易,全球做AI大模型的专家已经人手一份在研究了,就此而言,在这个环节上翻车的概率极低。但我也认同一个事实,基于领先模型蒸馏验证优化自己的模型,是很多大模型团队的一个常规操作,但毕竟需要联网API,能获得的信息非常有限,不太可能是决定性的影响因素,相对于海量的互联网数据信息来说,通过api调用领先大模型能获得的语料杯水车薪,合理的猜测是更多用于对策略的验证分析,而不是直接用作大规模训练。

所有大模型都需要从互联网获得语料训练,而领先的大模型也在不断为互联网贡献语料,从这个角度来说,每个领先的大模型都摆脱不了被采集,被蒸馏的宿命,但其实也没必要把这个当作是决定成败的关键。最终大家都是你中有我,我中有你,迭代前进。

3、成本优势

关于DeepSeek成本优势这块,误读是最多的,也是最容易去写段子,打鸡血的,所谓中国创业公司不到600万美元干翻所有巨头,各种自媒体喜欢这样讲,普通老百姓也分辨不了。

那么实际上,这个数据的来源是DeepSeek论文里提到的数据,而人家论文提到的数据是有前提的,就是最终版本的训练成本,人家说的这个前提很清楚,没有包括研发成本,前期硬件购置成本,以及前期测试和迭代的训练成本,只是最终版本的训练成本,或者说,你拿着人家开源代码,你有对方完整语料,去做完整复现的算力成本。

我举个例子你们就明白了,这就好比告诉你配方和生产流程,你去做仿制药的成本(还不包括人工),但是原研药的成本是仿制药的多少倍,稍微懂点行的都知道吧。

很多硅谷大佬出来说这个事,国内的人会认为这些大佬在贬低DeepSeek,其实很多真不是,他们也要给自己团队找点场子对吧,自己投入几十亿美金,被中美两边的老百姓们嘲笑,要对公众澄清一点,Deepseek真实成本绝对不是几百万美金,我们这些巨头投入的几十亿美金也不是因为我们人傻对吧,所以很多大佬其实只是澄清事实,为自己的团队正名而已。

但硅谷某些人的言论我也是不太认同的,说deepseek有五万张H100,投入十几亿到二十亿美金,这个我还真不信,我觉得这就是另一个极端了。

我给读者们算个帐

其一,网上说幻方不差钱,但他们背后其实是私募基金,私募基金啥意思,有投资人的,你梁文峰有情怀,人家投资人给你钱是炒股票的,不是给你情怀的,幻方几百亿人民币的资金盘子,是投资人的钱,不是梁文峰的钱,他们炒股一年赚大几十亿人民币(网上数据),是给投资人赚的钱,按照行规他们能分十几个亿,管理费+利润佣金,大概率过不了二十亿。然后还有各种税费要交,核心团队怎么说也要分分钱,以及人员和正常的量化系统的维护成本,这个钱当然不算少,比起很多国内上市公司利润还多,但即便如此,算来算去,怎么看他们也不像能拿出十几个亿美金搞事的样子,七扣八扣,一年能拿出来十个亿人民币都难,这是我的个人判断。

其二,人家优化算法,对内存的控制策略,摆明了是针对H800的内存局限做的,要有那么多H100搞这么复杂的内存优化干嘛,就算做优化也不会对内存占用卡的那么狠对吧。

那么结合之前看到的一些数据和介绍,幻方有上万张,乃至几万张卡是真的,前期成本肯定不是几百万美金那么少,但是比起行业巨头来说,他们的资金其实也有限,能拿到的资源也有限,我觉得合理估算,几年来累计投入十几个亿甚至二十多亿人民币我认为是有可能的(硬件采购成本,员工成本,前期训练和迭代的试错成本等等),肯定不是个小数字,也不是普通创业公司能玩的起来的,但比起美国同行,比起行业巨头,肯定也是抠门了很多,总研发成本比美国同行低一个数量级也是合理的。

没有网传那么省钱,但确实还是挺省钱的,这是我的结论。

4、合规风险和生态诉求

另一个巨大的误读,就是很多人没意识到,DeepSeek这个词背后究竟是什么。

其实我们所说的DeepSeek,实际上包括了两个产品,一个是DeepSeek这个风靡世界的App,另一个是github上的开源代码库。

前者可以认为是后者的Demo,一个完整的能力展示,而从他们产品的动作来看,我甚至怀疑他们压根没有将DeepSeek App商业化的打算,做个类比来看,就好比微信刚推出小游戏功能的时候,推出了一个跳格子小游戏,当时全网的人都在疯玩跳格子,但微信根本不在乎跳格子这个游戏的价值,他们要的是微信小游戏这个生态的建立。

现在网上有很多新闻,说某些国家某些地区禁用了DeepSeek,又说某些巨头接入和提供了DeepSeek。很多人把这两件事混为一谈,其实这是完全独立的两件事。

DeepSeek这个App貌似没有做全球分区处理,没有针对任何地区做本地化处理,从这一点来说,确实很多国家和地区会有针对性的政策。(微信在不同国家和地区都有不同的处理,有不同的功能会在不同区域被禁用,很多国内产品出海都会存在类似的问题,海外合规是个非常大的话题,不展开讲了)。小红书其实也是类似,我直播里就讲过,小红书压根没打算去接网民所谓的泼天富贵,对小红书来说,这也不是泼天富贵。它以前只做中文流量,不显山不露水的与世无争,被突然推到前台其实合规麻烦也是数不清。好在这俩产品目前都具有很好的统战价值,合规麻烦暂时主要在海外,国内目前官方都还是积极支持的。

但开源系统就不一样了,而且DeepSeek还选择了最大气的开源协议(太大气了,完全不限制商用,真的是情怀,无比佩服。),据我所知,不太会有哪个政府傻缺到去限制开源软件的部署。所以各个国际巨头快速部署并提供相关服务,这个和某些政府所谓的限制使用DeepSeek App,完全是两回事,一点不冲突,而且他们限制的是政府雇员使用,并没有限制普通群众使用。

你换位思考一下,中国会允许政府机构和军队使用部署在海外的数据产品么,为什么。但是海外开源系统的内部私有化部署一定是合规的(当然前提是经得起代码审计),而且也一定是广泛存在的。

如果我们放眼DeepSeek生态,而不是纠结于那个App,目前全球正在处于蓬勃发展的阶段,还没有看到任何禁令阻止这一趋势的发展。而且我相信,从梁文峰当下的做事风格来看,相关生态环境的发展也是他真正所期待的。

5、行业影响

很多人觉得英伟达完了,美国巨头完了,我不这么看,我觉得DeepSeek最大的贡献是,会加速整个AI产业的迭代效率,它们提供了一些新的优化思路,工程思想理念,会被所有行业巨头广泛吸收采纳,并用于产品的快速迭代和优化,用不了几个月,我相信就会看到显著的成果。

其实最近几天,就能看到chatgpt产品迭代突然提速了,我觉得重头戏还在后面。

至于CUDA,有人觉得CUDA架构面临崩塌,我也不太信。

确实,这给受限于美国制裁的中国厂商提供了新的思路,从PTX入手,一样可以做出优秀的产品,但Cuda也会与时俱进啊,你的内存利用方式很优秀,我学过来,整合到我的新版本里不行么。下个版本更新发布的时候,包含一些新的方法和特性,基于它的生态架构,用户还是会继续使用顺手的产品。

DeepSeek用卓越的工程思想,促进AI全行业的快速迭代,并促进相关开源生态的快速发展,这既是我对它的预测,也是我对它的价值认定。

当然,负面也是有的,因为它的训练成本真的低,效果也确实真的好,而且还全部开源,如果一些黑灰产领域在没有合规约束的情况下进行训练和使用,说真的,想想也挺可怕的,而且,还真没想到有什么好办法去应对。

最后,如果觉得这篇文章多少有点价值的话,烦请稍微打赏两块钱,并转发给你认为有需要的朋友。

举报

  • 相关推荐
  • 英伟达回应股价遭DeepSeek暴击:DeepSeek是出色的AI进步

    日前,美股收盘英伟达股价暴跌17%,市值一夜蒸发5888.62亿美元。业界认为这是受到中国AI大模型DeepSeek人工智能模型冲击,导致美国芯片股集体下跌,英伟达受到最严重冲击。DeepSeek-R1API服务定价为每百万输入tokens1元/4元,每百万输出tokens16元。

  • DeepSeek,搅了谁的局?

    上一次AI行业引起全民震动还是2022年11月ChatGPT的横空出世,此后AI行业每逢重大变革,都被称为是“ChatGPT时刻”。这个词在2024年年底被改写,“DeepSeek时刻”出现,被看作是AI历史上的新转折点。DeepSeek搅动的这一片汪洋,涟漪还在继续扩大。

  • DeepSeek劝不了谷歌们

    过去一个月,DeepSeek以大约十分之一的训练成本,推出与OpenAIo1性能接近的开源模型R1,“小力出奇迹”的新范式震撼全球AI大模型行业。外界对于大型科技公司动辄数百亿美元的AI研发开支,也产生了越来越多的质疑。高性价比路线与“大力出奇迹”路线之争,也仍将持续下去,并在互相借鉴和融合中,推动AI大模型迈向下一个发展阶段。

  • 第一波利用DeepSeek搞钱的人出现了 DeepSeek概念股集体大涨

    随着人工智能工具DeepSeek的热度持续攀升,一批打着“利用DeepSeek赚钱”旗号的课程与直播悄然兴起。在一些电商、视频以及知识付费平台上,众多自封为教授、行业专家的人士纷纷开设直播或发布课程,声称能够教授如何利用DeepSeek获取财富。对于利用DeepSeek进行投资的行为,也应谨慎评估风险,切勿盲目跟风。

  • DeepSeek的华丽文风是怎样炼成的?

    去年还不相信AGI投资叙事的知名投资人朱啸虎,在被DeepSeek支配了一整个春节后,态度大变,“DeepSeek快让我相信AGI了。”在近期接受腾讯新闻采访时,朱啸虎多次惊叹于DeepSeek在内容生成方面的优美和深度。作为人类的我们,或许是时候该学学如何提高辨别AI内容时,自身的可靠性了。

  • DeepSeek让我审视,什么才是属于“人”的创作

    编者注:小崔是我的朋友。在跟其他人介绍他时,我会称他为“我的诗人朋友”。面对着每时每刻都在侃侃谈的DeepSeek,我们的沉默与卡顿,我们的无力与挫败,最终将成为安放人类独有表达的摇篮。

  • 对于那些出来卖的DeepSeek课程,我有些话想说。

    这几天发生了一些魔幻事件,真的让我真的觉得,无语又愤慨。

  • 起猛了,腾讯元宝接入DeepSeek了。

    今天本来是想摸鱼一天不发文章了。结果早上睡醒,准备更新一下应用商店,看到了一个让我觉得非常离谱的更新预览。谁就可能在这波AI浪潮里走得更远。

  • DeepSeek爆火之下暗潮汹涌

    刚刚过去的春节,DeepSeek一经发布即成为全球热议的现象级产品,引发了全球资本市场、科技从业者、政策制定者和普通用户的关注,并掀起安装与使用的热潮。性能媲美ChatGPT、谷歌Gemini、LLaMA等大模型性能、模型训练成本预估只有不到600万美元、技术团队规模仅百余人……这些前所未有的成绩,不仅推动DeepSeek成为全球最受瞩目的AI大模型产品,也引起了黑灰产的觊觎。建议所有用户访问和下载DeepSeek应用时,一定要通过DeepSeek官方网站或者在知名应用商店里操作,对不明链接和应用提高警惕,仔细辨识,防止上当受骗。

  • 是不是好AI,DeepSeek得过玄学关

    “我不关心哪个大模型更好用,但你要说DeepSeek能算命,我立刻下载。”最近,社交平台上刮起了一股赛博玄学风,社交平台上“用DeepSeek算命到凌晨三点”的帖子刷屏不断衍生出了一个热搜词——DeepSeek玄学指令。“为什么我排了一个小时还在转圈圈”“求求了,让我也算一卦吧”,这场被当作年轻人心理慰藉的赛博算命在继续。

热文

  • 3 天
  • 7天