首页 > 传媒 > 关键词  > AI应用最新资讯  > 正文

忆联UH812a以存力破局大模型载入瓶颈,释放算力潜能

2026-03-04 14:47 · 稿源: 站长之家用户

随着大模型技术规模化落地,AI应用实时性正成为企业竞争力的核心。然而,在算力持续升级的同时,模型从存储层加载至计算单元的环节却日渐成为制约系统效率与弹性的关键瓶颈。缓慢或波动的加载过程,不仅会导致昂贵算力资源的闲置,更直接影响业务响应质量。由此可见,构建高效、稳定的数据供给通道,已成为AI基础设施演进的关键方向。

为验证企业级SSD在真实AI场景中的表现,忆联选择Ollama这一广泛应用的开源大模型部署平台进行深度测试。Ollama不仅能够模拟典型的企业级AI工作负载,如多模型快速加载、高频迭代等,其标准化的调用接口还可精准反映底层存储性能对模型准备时间的实际影响,为存储能力评估提供了一个客观且可复现的测试环境。在本次测试中,忆联UH812a凭借领先性能大幅降低数据加载耗时,这不仅验证了其作为AI数据底座的强大承载力,更彰显了忆联在高端企业级存储领域的技术实力。

测试软硬件环境

软件环境

软件/部件名称

版本号/型号

备注

umtool

1.0.2.0-4

/

sysstat

10.0.0

包含iostat,mpstat,sar

ollama

0.9.6

/

CUDA

12.8

Driver Version:570.124.06

OS

CentOS Linux release8.5.2111

/

硬件环境

CPU

Intel(R) Xeon(R) Platinum8358P CPU*2@2.60GHz

/

内存

DDR432GB*16

共计512GB

网卡

BCM57414NetXtreme-E10Gb/25Gb

RDMA Ethernet Controller

/

存储

系统盘:M.2NVMe SSD960GB

数据盘:Union memory UH812a7.68T

1、   数据盘通过PCIe Gen5转接卡连接

2、   盘片通过额外500W电源供电

转接卡

PCIe Gen5转接卡PCI5-AD-x16HI-BG5

连接1块数据盘

额定电源

500W额定电源

用于数据盘供电

显卡

NVIDIA Corporation GA100GL*8

显存共计192GB(8*24GB)

测试组网规划

图1:测试组网规划图

测试步骤

●        步骤1:将待测SSD格式化为ext4文件系统,并挂载至指定目录。

●       步骤2:将准备好的离线大模型数据复制到SSD挂载的目录。

●       步骤3:清空内存,启动Ollama服务,执行模型加载命令,将目标从SSD加载至显存,并记录加载耗时。该步骤重复执行3次,取算术平均值作为最终测试结果。

测试结果

1、DeepSeek-R1系列模型加载性能测试

DeepSeek-R1作为业界主流的高性能开源模型,其参数规模从1.5B至671B不等,覆盖了从轻量级到千亿级的不同应用场景。该类模型的加载过程具有典型的随机读取特征,对存储设备抓取分散权重文件的IOPS性能提出了极高要求。本次测试覆盖了7B(小规模)、70B(中等规模)及671B(大规模)三个版本。

结果表明,忆联UH812a在Ollama平台上的模型加载表现全面优于竞品:

●       Ollama加载DeepSeek-R1:671B模型:基于UH812a的平均耗时较竞品A降低48%;

●       Ollama加载DeepSeek-R1:70B模型:基于UH812a的平均耗时较竞品A降低36%;

●       Ollama加载DeepSeek-R1:7B模型:基于UH812a的平均耗时较竞品A降低21%。

图2:Ollama加载DeepSeek-R1模型平均耗时(s)对比

DeepSeek-R1系列模型测试证明,忆联UH812a凭借卓越的随机读取性能,从容应对复杂推理模型的极端I/O挑战,它将高负载场景下的存储压力,转化为算力资源的充分释放与即时可用,为企业筑牢AI数据底座。

2、Qwen3系列模型加载性能测试

Qwen3作为阿里通义千问开源模型,其参数规格覆盖0.6B至235B。当加载32B、235B等较大规模模型时,海量大文件权重的高效调取对存储设备的顺序读取带宽提出了严苛要求。本次测试覆盖了8B及235B两个典型版本。

结果显示,忆联 UH812a在Ollama平台上的加载表现全面优于竞品A:

●        Ollama加载Qwen3:235B模型:基于UH812a的平均耗时较竞品A降低40%;

●        Ollama加载Qwen3:8B模型:基于UH812a的平均加载耗时较竞品A降低20%。

图3:Ollama加载Qwen3模型平均耗时(s)对比

Qwen3系列模型载入测试表明,忆联UH812a凭借卓越的顺序读写性能,从容应对大容量、高带宽工作负载,为企业级大规模AI应用提供稳定、敏捷的存储层支撑。

3、Llama3.1-405B超大规模模型加载性能测试

Llama3.1是Meta推出的旗舰级开源大模型,其405B超大规模版本对存储系统的容量支撑与高速读取能力提出了极致要求。本次在Ollama平台上聚焦该模型进行实测。

结果显示,使用UH812a的Ollama加载Llama3.1:405B模型的平均耗时较竞品低47%,展现出处理超大规模文件高效调取的卓越能力。这一领先优势源于UH812a的技术底座:PCIe5.0接口带来的超高带宽,结合自主研发主控的高效调度算法,充分释放了Ollama框架在模型加载阶段的I/O潜力。

图4:Ollama加载Llama3.1模型平均耗时(s)对比

基于Ollama的深度测试表明,忆联UH812a能够充分满足从轻量级验证到大规模生产部署的全场景AI负载。作为突破模型加载I/O瓶颈、加速智能算力释放的关键一环,UH812a彰显了其在企业AI基础设施中的核心价值与领先地位。

面对AI模型参数规模的指数级增长与应用场景向实时化、边缘化的持续演进,忆联将以更优存力、更高标准,携手产业伙伴共同应对超大规模训练、实时推理与联邦学习等前沿挑战,为人工智能的下一阶段突破筑牢数据基石,让存力成为驱动智能未来的算力动脉。

推广

特别声明:以上内容(如有图片或视频亦包括在内)均为站长传媒平台用户上传并发布,本平台仅提供信息存储服务,对本页面内容所引致的错误、不确或遗漏,概不负任何法律责任,相关信息仅供参考。站长之家将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。任何单位或个人认为本页面内容可能涉嫌侵犯其知识产权或存在不实内容时,可及时向站长之家提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明(点击查看反馈联系地址)。本网站在收到上述法律文件后,将会依法依规核实信息,沟通删除相关内容或断开相关链接。

  • 相关推荐
  • 端侧AI存储新选择:中国高端半导体存储企业江波龙推出高性能mSSD

    随着AI应用的不断深化,存储需求正经历着深刻变革。云端AI存储追求极致的性能与带宽,以支撑大规模的AI训练与推理任务,而端侧AI存储,则更侧重于高性能容量、低延迟以及高度集成化,以满足实时智能交互的需求。特别是在AI手机、AI PC、具身机器人等端侧设备中,存储设备不仅需要提供足够的数据吞吐能力,还需在有限的空间内实现高效散热,确保设备的稳定运行。作�

  • 与谷歌Genie 3竞争!阿里发布世界模型HappyOyster

    今日,阿里发布可实时构建和交互的世界模型产品HappyOyster(快乐生蚝),该模型基于原生多模态架构而建,支持多模态理解与音视频联合生成。 目前,HappyOyster可实现漫游(Wander)和导演(Direct)两大核心能力,用户可实时构建可互动、可演绎、可探索的AI数字世界。 用户生成的数字世界不仅能被完整保存,还能开放给其他用户进行二次创作。 据悉,该产品由阿里ATH创新�

  • 深信服×FastGPT联合发布SF-FastGPT,打造“0专家+好效果”的企业级AI应用

    文章指出,当前企业AI应用面临过度依赖专家、试错成本高、落地周期长等“魔咒”。为解决此问题,深信服与开源平台FastGPT合作推出SF-FastGPT,旨在打造“0专家+好效果”的企业级AI应用构建平台。该平台深度融合RAG能力与自学习引擎,提供从知识管理到全栈Agent应用的全生命周期支持,通过低代码、可视化方式降低开发门槛,让业务人员也能快速构建高质量AI应用,实现AI从“

  • 当 PostgreSQL 遇见 AI,数据库的 AI 进化论

    文章探讨了AI与数据库的深度融合,特别是PostgreSQL在AI时代的关键角色。2023年成为PostgreSQL AI化的分水岭,其开放架构和PGVector等扩展使其成为处理向量、标量等多模态数据的理想底座,甚至碾压专用向量数据库赛道。专家认为,真正的AI原生数据库应具备强大的可扩展性,以支持未来Agent的多样化需求。AI不会完全取代DBA,但会重新定义其价值边界,操作知识被压缩,而架构能力和判断力的溢价会更高。

  • 灵初智能双模型亮相,全球最大人类手部数据集正式开源

    灵初智能发布新一代具身大模型Psi-R2与Psi-W0,并开源首个1000小时人类手部操作全模态数据集。该数据集总储备达10万小时,为当前行业最大的开源人类手部操作数据集,标志着具身智能从实验室走向产业化的关键一步。Psi-R2是首个使用10万小时量级人类数据预训练的World Action Model,输入图片和语言即可输出预测的未来视频和机器人动作。Psi-W0作为Action-Conditioned World Model,核心功能是对Policy进行评估与提升,并通过强化学习将人类数据的dynamic迁移至机器人dynamic。此次开源的数据集具备三大亮点:全模态覆盖视觉、语言、关节角度、触觉四类信息;通过自研外骨骼手套采集,3D轨迹精度达亚毫米级;涵盖工业装配、生活操作、物体抓取等多场景任务。该数据集可广泛应用于智能制造、物流仓储、商业服务等商业化场景,加速具身智能在千行百业的落地应用。

  • 更多数据,更AI:源诺医疗亮相上海CMEF,以科技硬核实力定义AI决策时代

    第93届中国国际医疗器械博览会(CMEF)于4月12日在上海闭幕。源诺医疗(ANOVATOR)以其极简视觉设计和“硬核”医疗技术成为展会焦点,展示了人体成分分析从“工具时代”向“决策时代”的跨越。其智能决策系统将多维数据转化为结构化医学指标与疾病风险模型,提供可落地的干预建议,辅助医生制定方案。设备与DEXA相关性达97%~98%,拥有二类医疗器械注册证,已在多科室及体检、慢病管理等场景实现应用。企业立足全球医疗数据网络,以硬核技术为品牌护城河,致力于让每一组人体成分数据成为守护生命质量的科学决策依据。

  • 领跑企业智能体赛道!九科信息 bit-Agent以 Harness 标准护航企业 AI 落地

    文章介绍了AI领域新概念“Harness”,指一套包裹在大模型/Agent外围的全链路执行与治理系统,旨在让强大但不稳定的大模型能安全、稳定、高效地应用于企业业务。文章指出,当前大模型能力已足够应对多数企业需求,但落地瓶颈在于如何确保其安全可靠。Harness通过工程化系统设计,提供执行规则、安全边界、审计留痕等完整管控体系,而非单一技术模块。文中以九科信息的bit-Agent为例,展示了成熟企业级Harness系统的关键设计,如“探索-固化”双循环机制、最小权限原则、双重审计体系、智能异常处理等,强调其已成功在制造、金融等多个行业核心场景落地。文章认为,Harness的兴起标志着AI竞争核心正从模型能力转向工程化落地能力。

  • 企业如何搭建AI员工?服务准确率超90%的AI客服如何设计?尘锋AI员工重塑智能客服咨询新体验!

    传统客服面临人力成本高、响应慢、服务不稳定等问题,影响客户体验。AI客服通过大模型、NLP等技术,结合企业知识库,能7*24小时在线,精准识别客户意图,高效处理高频重复咨询。以尘锋AI员工为例,其在售前咨询、售后支持、销售辅助等场景中,显著提升响应率、降低人力成本,并优化客户满意度。

  • 双向赋能!网易智企携手声网共创实时音视频与 AI Agent 数智新生态

    2026年4月7日,网易智企与声网签署战略合作协议。双方将围绕实时音视频、内容安全、AI Agent等领域开展深度合作,通过产品集成与生态共创,为企业客户提供更完善、更安全的一站式智能化解决方案。此次合作旨在结合网易智企的AI技术、数字内容安全能力与声网的实时音视频技术,在智能客服、在线教育、数字文娱等具体业务场景中深度融合,共同打造一体化产品方案,推动AI与实时互动(RTE)的融合发展。

  • AI日报:阿里推开放世界模型Happy Oyster;Claude Opus 4.7即将发布;腾讯开源混元3D 世界模型2.0

    本期AI日报聚焦多领域进展:阿里巴巴推出开放世界模型Happy Oyster,支持实时交互;腾讯开源混元3D世界模型2.0,可一键生成可编辑3D资产;谷歌发布Gemini-TTS模型,支持近70种语言,语音更自然;蚂蚁灵波科技开源LingBot-Map,实现单摄像头实时三维重建。同时关注Anthropic即将发布Claude Opus 4.7及AI设计工具,以及湖南广电AI转型成果。安全方面,报告揭示MCP协议漏洞或致超20万台AI服务器面临风险,而OpenAI更新Agents SDK,引入沙箱功能以提升智能代理安全性。

今日大家都在搜的词: