首页 > 传媒 > 关键词  > 正文

探索聊天机器人:Bard、Bing、ChatGPT和Claude,谁能夺得最终胜利?

2023-08-01 08:47 · 稿源: 站长之家用户

关键词:Bard;Bing;ChatGPT;Claude;A800;A100;H100;LLAMA、LLM、AIGC、CHATGLM、LLVM、LLMs、GLM、NLP、AGI、HPC、GPU、CPU、CPU+GPU、英伟达、Nvidia、英特尔、AMD、高性能计算、高性能服务器、蓝海大脑、多元异构算力、高性能计算、大模型训练、通用人工智能、GPU服务器、GPU集群、大模型训练GPU集群、大语言模型、深度学习

摘要:当今人工智能行业蓬勃发展,众多科技公司纷纷推出功能强大的聊天机器人。在众多选择中,哪款产品的实力更强、能够给用户带来最 佳体验呢?下面,将对四款主流聊天机器人进行全面评测:Bard、Bing、ChatGPT和Claude。

在评测之后,还将探讨大模型训练中的常见问题。此外还会分享有关ChatGPT训练算力的估算,澄清维基百科上关于“ 1 万块A100 GPU”的误传。中小创企业也有突围的机会。

为何大型模型训练仅能使用特定的硬件,如A100、A800、H100 和H800?这些硬件具备哪些高性能和优化的架构,能够支持大规模模型训练所需的计算需求?作为一个新兴平台,蓝海大脑的大模型训练平台将为用户提供哪些具体的大规模模型训练的解决方案?本文将详细阐述。

人工智能聊天机器人大比拼:Bard vs. Bing vs. ChatGPT vs. Claude

经过全面深入评测,对四款主流聊天机器人产品从用户体验、交互逻辑、语言模型能力和产品定位四个维度进行综合对比。结果显示,Claude在以上四个方面表现出色。其具备超强的语言理解和知识表达能力,为用户提供广泛深入且流畅的体验,是高端用户追求理想体验的优选产品。同时ChatGPT也展现出优 秀的实力,以其个性化表现力著称,能够提供轻松有趣的互动体验,适合中高端用户注重个性化体验的需求。然而,Bing和Bard的能力相对较弱,更适合处理简单的语言交互和信息查询,适用于入门级用户和基本使用。

一、用户体验对比

在用户体验方面Claude脱颖而出,位居榜首。其采用先进的语言模型和训练技术,具备优质的语言理解和知识表达能力,与用户进行深入、广泛且流畅的交互,提供特出质的体验。无论是在聊天的深度和广度,还是在交互的连贯性和准确性方面,Claude都远超其他产品。

ChatGPT以其出色的个性化表达能力和良好的交互体验而闻名。特别是在创造性和有趣回复方面,ChatGPT表现出色。然而,语言转换能力和知识面相对较窄,更适合轻松娱乐的交互场景。

Bing用户体验定位为入门级,整体语言和知识能力较弱,只适合处理最基本的交互和提问。如果问题过于复杂,Bing可能无法理解或做出恰当的回应,难以提供令人满意的交互体验。

相比其他三款产品,Bard的用户体验稍逊一筹。其语言理解和知识能力属于一般水平,足以应付大部分简单的日常提问和交互,但无法进行太深入或专业的讨论。

二、交互逻辑分析

Claude在交互逻辑方面表现得最为自然流畅,能准确理解用户意图并做出恰当的响应。其具备出色的语言理解能力和丰富的常识知识。能根据上下文和话题主动提问或发表评论,使对话更加深入广泛。

ChatGPT的交互逻辑较为直接,能理解用户的问题并作出回答,也可以在一定程度上进行追问或评论。相较于Claude,它的理解能力稍逊,有时可能产生错误或不能很好地衔接上下文。ChatGPT擅长在轻松娱乐的讨论中展现个性,通过创造有趣的回复提供互动乐趣。但它难以像Claude那样进行深入广泛的对话。

Bing的交互逻辑较为基础,采用简单的问答模式。它可以理解并回答一些基本问题,但难以推进讨论或主动延伸话题。Bing的语言理解和知识范围较为有限,可能在复杂的交互中无法理解或恰当地回应。

Bard的交互逻辑也比较基础,只能实现最简单的问答功能。它的语言理解和知识能力有限,难以进行深入或广泛的讨论。

三、语言模型能力评测

在语言模型和用户体验的对比中,Claude拥有规模比较大的模型,能够准确理解复杂语义和精细差异,并给出恰当的回应的同时还具备广博的常识知识,可以进行深入的探讨并提供准确可信的信息解释,从而提供优 秀的用户体验。

相比之下,ChatGPT采用自家开发的GPT模型,略逊一筹。虽然ChatGPT也具备一定的语言理解和知识表达能力,能够进行轻松有趣的互动,但难以满足较高 级别的理解和探讨需求。知识面相对较窄,更注重娱乐性的表达。

Bing采用微软语言模型,但其模型规模和语言理解能力相对较弱。只能处理最基本的语义和问题,难以深入理解语言中的复杂差异或进行高 级的知识探讨。常识知识也有限,不适合处理过于专业或技术性的话题。

Bard采用谷歌语言模型,其语言理解和知识表达能力相对一般。只能理解和回答一些简单的日常问题,难以进行高难度的语言转换或广泛的知识探索。常识面也较窄,局限于基本的日常生活知识。

四、产品定位及推荐

在比较中,Claude是为追求理想体验的高端用户而设计的优选。其具备强大的语言理解和知识表达能力,能够提供深入广泛的用户体验,满足高要求用户的需求。

ChatGPT则适用于一般中高端用户。以其较强的个性表现力和娱乐性回复而闻名,可以带来轻松有趣的互动体验。虽然在实力上略逊于Claude,但对于追求创意与趣味的用户来说,ChatGPT也是不错的选择。

Bing是针对普通大众用户的入门级产品。其语言和知识能力相对较弱,只能处理简单的提问和讨论,用户体验一般。但对于只需要基本的语言交互和信息查询的用户来说,仍然是实用的选择。

Bard则是面向初级用户的入门级产品。相比其他三款产品,Bard的实力较为基础,只能应对简单的日常提问和信息查询。对于初次接触人工智能聊天机器人的用户来说,Bard可以作为入门选择。但对于要求较高或追求更佳体验的用户来说,可能不太理想。

大模型训练常见问题

最近,在微软BUILD2023 开发者大会上,有一位名叫Android Caci的演讲嘉宾,OpenAI的创始人之一。在他的主题演讲中,详细介绍了大语言模型的训练和应用方法,对深入了解大语言模型以及亲自动手训练大语言模型都非常有帮助。下面是一些大模型训练常见问题。

一、ChatGPT模型是如何训练的?

关于ChatGPT模型的训练过程,相关的论文和官方博客已经提供了详细的参考资料。模型的训练过程可以划分为四个阶段:预训练、监督微调、奖励模型和强化学习。

在数据量方面,预训练阶段需要大量的数据,但对数据质量要求不高;而后面的三个阶段则需要高质量的数据。

训练方法方面,预训练和监督微调使用相同的方法,即预测下一个单词。奖励模型则采用二元分类学习,而强化学习阶段则鼓励模型生成得分较高的回答。

在训练所需资源方面,预训练阶段需要大量的资源,包括数千颗GPU和数月的时间,占据总训练时间的99%。而后面的三个阶段只需要数十颗GPU,并且训练时间约为数天。

通过以上过程可以看到预训练阶段的资源消耗非常巨大,只有大型公司才具备进行的能力。如果资源有限,应该将重点放在其他阶段。

二、没有大数据,就没法训练模型吗?

如果进行预训练模型的训练,确实需要大量的数据。虽然对数据质量的要求不高,但通常还是需要进行数据清洗,以减少垃圾数据的影响。

但是如果只是进行监督微调、建立模型或强化学习阶段的训练,就不需要大量的数据。尤其是在监督微调阶段,数据量范围在10K-100K之间。也就是说,只需要几十个或几百个高质量的数据,就可以对模型进行微调并取得不错的效果。显然,在监督微调阶段,数据质量比数据量更重要。

三、模型的 Token 数量是多少?

在模型训练时,一般会先将文本转换为token,作为模型的输入。相比单词,token通常更短一些。以GPT- 3 模型为例,一个token相当于0. 75 个单词,而对于中文而言,一个汉字通常对应两个token。

当前大型语言模型(LLM)的token数量通常在数万级别。例如,GPT- 3 模型有 50257 个token,而LLaMA模型则有 32000 个token。

四、如何设置训练参数,如Batch-Size、Learning rate等?

除训练方法之外,深度学习模型训练的性能还受训练参数设定影响,GPT- 3 和LLaMA模型在训练过程中使用一些参数,例如批量大小(Batch Size)、学习率(Learning Rate)以及所需的GPU数量等。

可以观察到在预训练阶段,批量大小非常大,范围在0.5M到4M之间。此外,还可以注意到学习率设定较小,并且随着网络规模的增大,学习率逐渐减小。

五、参数量大是模型能力强的唯 一指标吗?

参数量并不是衡量模型能力的唯 一指标,训练数据量也是一个非常重要的因素。在OpenAI的创始人之一,大神Andrej Karpthy的演讲中,他提到LLaMA模型,尽管只有 650 亿个参数,但其性能却与拥有 1750 亿个参数的GPT- 3 模型相媲美。这主要是因为LLaMA模型使用1. 4 万亿的训练数据,而GPT- 3 只有 3000 亿。

六、GPU资源有限时有什么机会?

如果GPU资源有限,那么在专业领域可能有更多机会。训练通用模型(如ChatGPT)需要大量的训练数据和GPU资源,并且需要对许多常见任务进行优化和评估。这不仅训练成本高,还需要大量人力资源来准备和整理数据。

在资源有限的情况下,可以将重点放在后三个阶段,如可以对模型进行微调,针对自己熟悉的专业领域进行优化。利用公开的预训练模型,根据专业领域的需求或客户的需求来训练特定任务的模型。

七、四个训练阶段的模型中哪些适合部署?

除了最终模型,预训练模型和监督微调模型也可以不被直接用于实际应用。

以下是三种模型的特点:

- 预训练模型:预训练模型通常不会直接回答问题。当向它提问时,可能会以更多的问题作为回应。虽然可以通过一些技巧使其回答问题,但回答通常不够可靠。然而,这种基础模型具有更高的熵,能够生成许多不同的输出,因此更适合产生多样化的内容。

- 监督微调模型:监督微调模型可以很好地回答问题,目前公开的大多数模型都属于这一类。

- 强化学习与人工反馈(RLHF)模型:目前优 秀的模型。与监督微调模型相比,RLHF模型的输出结果变化较小。

八、RLHF模型为什么优 秀?

根据UC Berkeley发布的AI助手的ELO排名,前三名模型属于强化学习与人工反馈(RLHF)模型,其他模型主要是监督微调(SFT)模型。目前对于为什么RLHF模型优 秀并没有定论。

在人工标注数据时,对几个答案做出选择要比写出几个备选答案简单的多。因此,由判断标签构成的数据库质量更高,使得训练出的奖励模型非常有效。在强化学习训练中,优化判别结果更为容易。

九、RLHF容易训练吗?

总的来说,相对于RLHF模型,SFT(PT模型精调)模型更容易实现,因为SFT只是继续进行语言建模任务,相对来说较为简单。但是RLHF是一个深奥的研究领域,工作的难度更大。

这里并不建议任何人尝试推出自己的RLHF实现。这些模型通常非常不稳定,难以训练,对初学者并不友好,并且可能会快速发生变化。因此,需要更多的专业知识和经验来成功应用和训练RLHF模型。

ChatGPT训练算力估算: 1 万块A100 GPU是误传,中小创企也可突围

根据OpenAI训练集群规模的估算,可以使用 22 台 8 卡服务器来进行ChatGPT-6B模型的训练,预计需要 1 至 4 周的时间完成一次模型训练。这意味着即使是中小型企业也有可能参与ChatGPT模型的训练领域。

标准大小的ChatGPT-175B模型,训练时大约需要 375 至 625 台 8 卡A100 服务器。如果可以等待一个月的时间, 150 至 200 台 8 卡服务器也足够。总的GPU资源消耗量约为 35000 卡天。

下面通过多种验证方式来确认ChatGPT训练所需的资源需求,提供了一个更直观的概念。

一、根据Azure超算资源上限测算

在Azure为OpenAI准备的训练研发平台上,CPU和GPU的数量比接近1:2。该平台配备 1 万块V100 GPU,而不是一些国内误传的A100 GPU(该平台在 2020 年初建立,当时A100 GPU还没有批量上市)。这个平台提供强大的计算资源,可供OpenAI进行训练和研发工作使用。

由于在这个比较优秀计算机上需要同时进行DALL-E2 等模型的训练,以及GPT- 4 的训练,因此GPU的利用率不会达到高。换算到A100 GPU,大约需要3000- 5000 块GPU来满足训练需求,一次训练大约需要两周的时间。这个数据更加具体地描述GPU资源的需求量。

二、根据NVIDIA paper上的信息测算

在NVIDIA联合发布的paper中,给出了训练时间的经验公式。并使用训练的并行技术将GPU算力利用率提升到52%。在这一paper中,训练175B GPT- 3 需要 34 天,使用了 1024 块A100 GPU。这一推测与上个测算基本一致。

三、根据Google paper信息侧面佐证

根据两年前Google发布的论文,使用 1 万块V100 GPU,进行为期 2 周的训练来完成任务。然而,考虑到A100 GPU的算力提升和有效算力利用率的改进,可以估计,在相同的时间内,使用约 35238 个V100 GPU卡天(相当于A100 GPU资源)可能能够完成任务。这个数据更准确地描述了所需的GPU资源数量。

四、其他考量与建议

1、除了之前提到的并行训练方法降低GPU数量要求之外,还有其他优化技巧可以进一步减少所需的GPU数量。然而,以上估算并未考虑这些优化技巧的累积效果。

2、实际的算力需求与测算规模之间的关系通常呈非线性。一般情况下,随着模型规模的增加,算力利用率会降低。本次测算按照从高到低的顺序进行,以全面评估小规模情况下的成本。

3、对于创业企业而言,建议考虑使用规模为6B的模型,只需 22 台配备 8 块GPU的服务器。硬件购置成本大致相当于1- 2 年的云服务训练成本。如果未来采用存算一体技术的训练卡,可能只需要1- 4 台服务器就足够。此外,根据OpenAI的论文,ChatGPT和InstructGPT-1.3B的效果都优于规模为175B的GPT-3。因此,未来私有化ChatGPT的算力也是可行。

ChatGPT/InstructGPT-1.3B的效果都好于GPT-3 175B(Source:OpenAI)

这次测算是基于OpenAI训练集群的实际参数和GPT- 3 的并行训练结果进行。除使用GPU外,还有其他技术如DSA(分布式自动缩放)和存算一体技术,可以有效提高算力并降低成本。这些技术在训练过程中发挥作用,帮助我们更有效地利用资源。

不同服务器架构方案对比

有人建议考虑上线后的请求量和保证QPS问题。需要明确的是,主要关注的是训练成本而非部署。实际的部署涉及到访问量和冗余设计架构,根据各个互联网公司自身情况而定。根据OpenAI创始人(官方)提供的数据,每次回答的运行成本大约为 1 美分,进一步深入计算意义并不太大。

大模型训练为何只能使用A100、A800、H100、H800?

在 AI 大模型训练上,现在 A100、H100 及其中国供应的减配版 A800、H800 找不到替代品。据量化对冲基金 Khaveen Investments 测算,英伟达数据中心 GPU 2022 年市占率达 88%,AMD 和英特尔瓜分剩下的部分。

在 2020 年的GTC大会上,黄仁勋首 次展示A100 GPU。英伟达GPU目前的不可替代性源自于大型模型的训练机制,其中核心步骤包括预训练和微调。预训练是建立基础,类似于接受通识教育直到大学毕业;微调则是针对具体场景和任务进行优化,以提高工作表现。特别是预训练阶段对算力的需求非常高,它对单个GPU的性能和多卡之间的数据传输能力有着很高的要求。

目前,只有A100 和H100 能够提供预训练所需的计算效率。尽管看起来昂贵,但实际上是最经济的选择。在AI商用仍处于早期阶段时,成本直接影响着一个服务是否可行。过去一些模型,如能够识别猫的VGG16,参数量只有1. 3 亿,一些公司会使用消费级显卡如RTX系列来运行AI模型。然而,两年多前发布的GPT- 3 参数规模已经达到了 1750 亿。

在大型模型的巨大计算需求下,使用更多低性能的GPU来共同提供计算力已经不可行。因为在使用多个GPU进行训练时,需要进行芯片间的数据传输和参数同步,这导致部分GPU处于闲置状态,无法持续充分利用。因此,单卡性能越低,使用的卡数越多,算力损耗就越大。OpenAI在使用 1 万块V100 进行GPT- 3 训练时,算力利用率不到50%。

A100 和H100 是非常强大的单卡,具有高算力和高带宽。A100 的FP32 算力可达到19.5 TFLOPS,而H100 的FP32 算力更高,达到134 TFLOPS,是AMD MI250 约 4 倍。

此外,A100 和H100 还具备有效的数据传输能力,以减少算力的闲置。英伟达通过NVLink和NVSwitch等通信协议技术,实现该一目标。H100 使用第四代NVLink技术,可以将同一服务器内的GPU之间的双向通信带宽提升至900 GB/s,是最 新一代PCle标准的 7 倍以上。

去年美国商务部对GPU的出口规定主要限制算力和带宽:算力上限为4800 TOPS,带宽上限为600 GB/s。A800 和H800 在算力方面与原版相当,但带宽有所降低。A800 的带宽从A100 的600GB/s降至400GB/s,H800 的具体参数尚未公开。据报道,H800 的带宽约H100 的一半,在执行相同的AI任务时可能比H100 多花费10%至30%的时间。

尽管如此,A800 和H800 的性能仍然超过其他公司的类似产品。由于性能和架构的限制,各公司推出的AI芯片或GPU主要用于AI推理,而不是大型模型的预训练。简而言之,AI训练是建立模型,而AI推理是使用模型,训练阶段对芯片性能要求更高。除了性能差距外,英伟达在软件生态方面也具备更强大的竞争优势。

一位AI从业者提到,他所在的公司曾接触过一家非英伟达GPU厂商。对方的芯片和服务报价比英伟达更低,并承诺提供更及时的服务。然而,使用其他GPU厂商的整体训练和开发成本会高于使用英伟达,还需要承担结果的不确定性和花费更多的时间。他说:"虽然A100 的价格较高,但实际使用起来最经济。"对于那些有意抓住大模型机会的大型科技公司和领先的创业公司来说,金钱通常不是问题,时间才是最宝贵的资源。

目前,可能影响英伟达数据中心GPU销量的因素是台积电的产能。H100/H800 和A100/A800 这四款芯片都是在台积电代工生产,其中H100/H800 是使用4nm制程,而A100/A800 是使用7nm制程。根据中国台湾媒体的报道,英伟达今年向台积电新增了 1 万片数据中心GPU订单,并且下了一个超急件,生产时间最多可以缩短50%。通常情况下,台积电生产A100 芯片需要数月时间。目前,生产瓶颈主要在于先进封装产能不足,缺口达到了一至两成,需要逐步提升,可能需要3- 6 个月的时间。

过去十多年来,硬件与软件的发展推动了AI的发展。GPU的算力与模型和算法的交叠推动了AI的前进:模型的发展推动了对算力的需求,而算力的增长又使得原本难以实现的更大规模训练成为可能。在以图像识别为代表的上一波深度学习热潮中,中国的AI软件能力已经达到了全球最前沿的水平。而目前的难点在于算力,设计和制造芯片需要更长时间的积累,涉及到复杂的供应链和大量的专利壁垒。

蓝海大脑大模型训练平台

蓝海大脑大模型训练平台提供强大的算力支持,包括基于开放加速模组高速互联的AI加速器。配置高速内存且支持全互联拓扑,满足大模型训练中张量并行的通信需求。支持高性能I/O扩展,同时可以扩展至万卡AI集群,满足大模型流水线和数据并行的通信需求。强大的液冷系统热插拔及智能电源管理技术,当BMC收到PSU故障或错误警告(如断电、电涌,过热),自动强制系统的CPU进入ULFM(超低频模式,以实现最 低功耗)。致力于通过“低碳节能”为客户提供环保绿色的高性能计算解决方案。主要应用于深度学习、学术教育、生物医药、地球勘探、气象海洋、超算中心、AI及大数据等领域。

一、为什么需要大模型?

1、模型效果更优

大模型在各场景上的效果均优于普通模型

2、创造能力更强

大模型能够进行内容生成(AIGC),助力内容规模化生产

3、灵活定制场景

通过举例子的方式,定制大模型海量的应用场景

4、标注数据更少

通过学习少量行业数据,大模型就能够应对特定业务场景的需求

二、平台特点

1、异构计算资源调度

一种基于通用服务器和专用硬件的综合解决方案,用于调度和管理多种异构计算资源,包括CPU、GPU等。通过强大的虚拟化管理功能,能够轻松部署底层计算资源,并有效运行各种模型。同时充分发挥不同异构资源的硬件加速能力,以加快模型的运行速度和生成速度。

2、稳定可靠的数据存储

支持多存储类型协议,包括块、文件和对象存储服务。将存储资源池化实现模型和生成数据的自由流通,提高数据的利用率。同时采用多副本、多级故障域和故障自恢复等数据保护机制,确保模型和数据的安全稳定运行。

3、高性能分布式网络

提供算力资源的网络和存储,并通过分布式网络机制进行转发,透传物理网络性能,显著提高模型算力的效率和性能。

4、全方位安全保障

在模型托管方面,采用严格的权限管理机制,确保模型仓库的安全性。在数据存储方面,提供私有化部署和数据磁盘加密等措施,保证数据的安全可控性。同时,在模型分发和运行过程中,提供全面的账号认证和日志审计功能,全方位保障模型和数据的安全性。

三、常用配置

目前大模型训练多常用H100、H800、A800、A100 等GPU显卡,以下是一些常用的配置。

1、H100 工作站常用配置

英伟达H100 配备第四代 Tensor Core 和 Transformer 引擎(FP8 精度),与上一代产品相比,可为多专家 (MoE) 模型提供高 9 倍的训练速度。通过结合可提供 900 GB/s GPU 间互连的第四代 NVlink、可跨节点加速每个 GPU 通信的 NVLINK Switch 系统、PCIe 5.0 以及 NVIDIA Magnum IO™ 软件,为小型企业到大规模统一 GPU 集群提供有效的可扩展性。

搭载 H100 的加速服务器可以提供相应的计算能力,并利用 NVLink 和 NVSwitch 每个 GPU 3 TB/s 的显存带宽和可扩展性,凭借高性能应对数据分析以及通过扩展支持庞大的数据集。通过结合使用 NVIDIA Quantum-2 InfiniBand、Magnum IO 软件、GPU 加速的 Spark 3.0 和 NVIDIA RAPIDS™,NVIDIA 数据中心平台能够以出色的性能和效率加速这些大型工作负载。

CPU:英特尔至强Platinum 8468 48C 96T 3.80GHz 105MB 350W *2

内存:动态随机存取存储器64GB DDR54800 兆赫 *24

存储:固态硬盘3.2TB U.2 PCIe第 4 代 *4

GPU :Nvidia Vulcan PCIe H100 80GB *8

平台 :HD210 *1

散热 :CPU+GPU液冷一体散热系统 *1

网络 :英伟达IB 400Gb/s单端口适配器 *8

电源:2000W(2+2)冗余有效电源 *1

2、A800 工作站常用配置

NVIDIA A800 的深度学习运算能力可达 312 teraFLOPS(TFLOPS)。其深度学习训练的Tensor 每秒浮点运算次数(FLOPS)和推理的 Tensor 每秒万亿次运算次数(TOPS)皆为NVIDIA Volta GPU 的 20 倍。采用的 NVIDIA NVLink可提供两倍于上一代的吞吐量。与 NVIDIA NVSwitch 结合使用时,此技术可将多达 16 个 A800 GPU 互联,并将速度提升至 600GB/s,从而在单个服务器上实现出色的应用性能。NVLink 技术可应用在 A800 中:SXM GPU 通过 HGX A100 服务器主板连接,PCIe GPU 通过 NVLink 桥接器可桥接多达 2 个 GPU。

CPU:Intel 8358P 2.6G 11.2UFI 48M 32C 240W *2

内存:DDR4 3200 64G *32

数据盘:960G 2.5 SATA 6Gb R SSD *2

硬盘:3.84T 2.5-E4x4R SSD *2

网络:双口10G光纤网卡(含模块)*1

          双口25G SFP28 无模块光纤网卡(MCX512A-ADAT )*1

GPU:HV HGX A800 8-GPU 8OGB *1

电源:3500W电源模块*4

其他:25G SFP28 多模光模块 *2

          单端口200G HDR HCA卡(型号:MCX65310优秀-HDAT) *4

          2GB SAS 12Gb8 口 RAID卡 *1

          16A电源线缆国标1.8m *4

          托轨 *1

          主板预留PCIE4.0x16 接口 *4

          支持 2 个M.2 *1

          原厂质保 3 年 *1

3、A100 工作站常用配置

NVIDIA A100 Tensor Core GPU 可针对 AI、数据分析和 HPC 应用场景,在不同规模下实现出色的加速,有效助力更高性能的弹性数据中心。A100 采用 NVIDIA Ampere 架构,是 NVIDIA 数据中心平台的引擎。A100 的性能比上一代产品提升高达 20 倍,并可划分为七个 GPU 实例,以根据变化的需求进行动态调整。A100 提供 40GB 和 80GB 显存两种版本,A100 80GB 将 GPU 显存增加了一倍,并提供超快速的显存带宽(每秒超过 2 万亿字节 [TB/s]),可处理超大型模型和数据集。

CPU:Intel Xeon Platinum 8358P_2.60 GHz_32C 64T_230W *2

RAM:64GB DDR4 RDIMM服务器内存 *16

SSD1:480GB 2. 5 英寸SATA固态硬盘 *1

SSD2:3.84TB 2. 5 英寸NVMe固态硬盘 *2

GPU:NVIDIA TESLA A100 80G SXM *8

网卡1:100G 双口网卡IB 迈络思 *2

网卡2:25G CX5 双口网卡 *1

4、H800 工作站常用配置

H800 是英伟达新代次处理器,基于Hopper架构,对跑深度推荐系统、大型AI语言模型、基因组学、复杂数字孪生等任务的效率提升非常明显。与A800 相比,H800 的性能提升了 3 倍,在显存带宽上也有明显的提高,达到3 TB/s。

虽然论性能,H800 并不是比较强的,但由于美国的限制,性能更强的H100 无法供应给中国市场。有业内人士表示,H800 相较H100,主要是在传输速率上有所差异,与上一代的A100 相比,H800 在传输速率上仍略低一些,但是在算力方面,H800 是A100 的三倍。

CPU:Intel Xeon Platinum 8468 Processor,48C64T,105M Cache 2.1GHz,350W *2

内存 :64GB 3200MHz RECC DDR4 DIMM *32

系统硬盘: intel D7-P5620 3.2T NVMe PCle4.0x4 3DTLCU.2 15mm 3DWPD *4

GPU: NVIDIA Tesla H800 -80GB HBM2 *8

GPU网络: NVIDIA 900-9x766-003-SQO PCle 1-Port IB 400 OSFP Gen5 *8

存储网络 :双端口 200GbE IB *1

网卡 :25G网络接口卡 双端口 *1

推广

特别声明:以上内容(如有图片或视频亦包括在内)均为站长传媒平台用户上传并发布,本平台仅提供信息存储服务,对本页面内容所引致的错误、不确或遗漏,概不负任何法律责任,相关信息仅供参考。站长之家将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。任何单位或个人认为本页面内容可能涉嫌侵犯其知识产权或存在不实内容时,可及时向站长之家提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明(点击查看反馈联系地址)。本网站在收到上述法律文件后,将会依法依规核实信息,沟通删除相关内容或断开相关链接。

  • 相关推荐
  • 大家在看

今日大家都在搜的词: