绕过CPU：英伟达与IBM致力推动GPU直连SSD以大幅提升性能

2022-03-17 16:45 · 稿源： cnbeta

通过与几所大学的合作，英伟达和 IBM 打造了一套新架构，致力于为 GPU 加速应用程序，提供对大量数据存储的快速“细粒度访问”。所谓的“大加速器内存”（Big Accelerator Memory）旨在扩展 GPU 显存容量、有效提升存储访问带宽，同时为 GPU 线程提供高级抽象层，以便轻松按需、细粒度地访问扩展内存层次中的海量数据结构。

以 CPU 为中心的传统模型示例

显然，这项技术将使人工智能、分析和机器学习训练等领域更加受益。而作为 BaM 团队中的重量级选手，英伟达将为创新项目倾注自身的广泛资源。

比如允许 NVIDIA GPU 直接获取数据，而无需依赖于 CPU 来执行虚拟地址转换、基于页面的按需数据加载、以及其它针对内存和外存的大量数据管理工作。

对于普通用户来说，我们只需看到 BaM 的两大优势。其一是基于软件管理的 GPU 缓存，数据存储和显卡之间的信息传输分配工作，都将交给 GPU 核心上的线程来管理。

通过使用 RDMA、PCI Express 接口、以及自定义的 Linux 内核驱动程序，BaM 可允许 GPU 直接打通 SSD 数据读写。

BaM 模型示例

其次，通过打通 NVMe SSD 的数据通信请求，BaM 只会在特定数据不在软件管理的缓存区域时，才让 GPU 线程做好参考执行驱动程序命令的准备。

基于此，在图形处理器上运行繁重工作负载的算法，将能够通过针对特定数据的访问例程优化，从而实现针对重要信息的高效访问。

显然，以 CPU 为中心的策略，会导致过多的 CPU-GPU 同步开销（以及 I/O 流量放大），从而拖累了具有细粒度的数据相关访问模式 —— 比如图形与数据分析、推荐系统和图形神经网络等新兴应用程序的存储网络带宽效率。

为此，研究人员在 BaM 模型的 GPU 内存中，提供了一个基于高并发 NVMe 的提交 / 完成队列的用户级库，使得未从软件缓存中丢失的 GPU 线程，能够以高吞吐量的方式来高效访问存储。

BaM 设计的逻辑视图

更棒的是，该方案在每次存储访问时的软件开销都极低，并且支持高度并发的线程。而在基于 BaM 设计 + 标准 GPU + NVMe SSD 的 Linux 原型测试平台上开展的相关实验，也交出了相当喜人的成绩。

作为当前基于 CPU 统管一切事务的传统解决方案的一个可行替代，研究表明存储访问可同时工作、消除了同步限制，并且 I/O 带宽效率的显著提升，也让应用程序的性能不可同日而语。

此外 NVIDIA 首席科学家、曾带领斯坦福大学计算机科学系的 Bill Dally 指出：得益于软件缓存，BaM 不依赖于虚拟内存地址转换，因而天生就免疫于 TLB 未命中等序列化事件。

最后，三方将开源 BaM 设计的新细节，以期更多企业能够投入到软硬件的优化、并自行创建类似的设计。有趣的是，将闪存放在 GPU 一旁的 AMD Radeon 固态显卡，也运用了类似的功能设计理念。

（举报）

相关推荐
大家在看

关键词：

【腾讯云】11.11云上盛惠！云服务器首年1.8折起，买1年送3个月！

11.11云上盛惠！海量产品 · 轻松上云！云服务器首年1.8折起，买1年送3个月！超值优惠，性能稳定，让您的云端之旅更加畅享。快来腾讯云选购吧！

Docker容器镜像
去看看

Docker容器镜像 60元/15天

爆款产品组合购
去看看

爆款产品组合购低至1元

腾讯云x NVIDIA加速计划
去看看

腾讯云x NVIDIA加速计划最高获赠10万元扶持基金

2核2G云服务器
去看看

2核2G云服务器 112元/1年

查看更多相关信息>>

腾讯云 12-20

广告
微软或于下月发布人工智能芯片可削减英伟达 GPU 成本

据TheInformation报道，一位知情人士透露，微软计划在下个月举行的年度开发者大会上推出公司首款人工智能芯片。此举是微软多年工作的结晶，可以帮助微软减少对英伟达设计的人工智能芯片的依赖。日前有消息显示，ChatGPT的所有者OpenAI也正在探索制造自己的人工智能芯片。

微软人工智能英伟达
英伟达法国办事处遭突袭

法国竞争管理局的调查部门在得到法官授权后本周三对一家有反竞争嫌疑的图形卡行业头部企业进行突击搜查。此类突袭选在清晨进行，要的是一个措手不及。就没想过要有什么商业计划，只知道要干大事，他们三个人都不懂怎么写商业计划书，想写也写不了哇。
荐英伟达3个月卖出800吨H100！老黄竟自曝万亿GPU霸主「三无」策略

【新智元导读】有分析公司算出来，才三个月英伟达就卖出了800多吨H100。然市值已超万亿的英伟达，竟是一个「无计划、无汇报、无层级」的公司。业内专家曾称，英伟达H100的利润率接近1000%。

英伟达
“味精大王”莲花健康收问询函！近7亿买英伟达H800 GPU算力服务器

日前，莲花健康产业集团股份有限公司发布公告，称公司全资子公司杭州莲花科技创新有限公司于2023年9月27日与新华三集团有限公司控股子公司新华三信息技术有限公司签署《采购合同》。新华三信息向莲花科创交付330台英伟达H800GPU系列算力服务器，服务器采购单价为210万元，合同总价为6.93亿元。A800在已有A100的基础上将NVLink高速互连总线的带宽从600GB/s降低到400GB/s，其他完�
推动人工智能革命的英伟达与其他硅谷科技公司不同：继续采用灵活工作政策

许多硅谷的大科技公司一直在试图让员工重新回到办公室，通常在这个过程中使用各种威胁手段。其芯片正在推动人工智能革命，不强制执行严格的办公室返工要求。这座以「星际迷航」命名的总部为每位员工提供了自然景色的视野设计得让员工不会感到局促不安，CNET报道称。

英伟达人工智能 AI
Omdia：英伟达二季度出货900吨H100 AI GPU 相当于约30万块

市场研究公司Omdia披露，2023年第二季度，英伟达出货了900吨H100AIGPU。Omdia认为，一个带有散热器的H100GPU的平均重量超过3公斤，因此英伟达在第二季度出货了30多万块H100。Omida的最新报告显示，该公司有望达到这一里程碑。
报道称欧盟对英伟达在AI芯片展开调查：或涉嫌“反竞争”行为

欧洲最近开始对英伟达在AI芯片市场的市场支配地位展开调查，引发了业界的广泛关注。法国反垄断机构已经对英伟达的法国办事处进行了搜索，旨在确定该公司是否涉及非法垄断行为。如果调查结果证实了这一行为，英伟达可能会面临巨额罚款，这将对公司的未来产生重大影响。
骁龙8 Gen3最新曝光：3nm/4nm双版本性能大幅提升50%

高通此前已经宣布2023年Snapdragon峰会将于10月24日至26日举行，预计到时候将会发布大家期待已久的全新一代骁龙8Gen3芯片。有爆料者公布了一份来自高通的内部资料，据文件显示，骁龙8Gen3芯片虽然都是由台积电生产，但会有4nm和3nm两个不同版本。无论是语音识别、图像处理还是自然语言处理，骁龙8Gen3都能轻松驾驭。
英伟达取消原定10月15日在以色列举行的 AI 峰会

英伟达宣布取消原定在以色列举行的AI峰会，这一决定是由于巴以冲突的影响。尚未确定是否会重新安排这一活动或采取替代方案，特别是关于主题演讲是否会录制或直播。尽管情况尚不明朗，但这也反映出地缘政治紧张局势对全球科技活动的影响。

英伟达 AI峰会
英伟达 CEO 黄仁勋或出席鸿海科技日将发布强化合作消息

据UDN消息称，英伟达首席执行官黄仁勋将参加鸿海于10月18日举办的科技日活动。鸿海董事长刘扬伟此前已经预告「今年科技日会有特别来宾」。日前英伟达因安全问题取消原定于10月15至16日在以色列特拉维夫举行的「英伟达AI高峰会」。

英伟达鸿海富士康

DuckDuckGo AI Chat:私密人工智能驱动型聊天服务，保护用户隐私。

DuckDuckGo AI Chat 是一种私密聊天服务，它利用先进的人工智能技术提供对话式的交互体验。该服务特别强调用户隐私的保护，不会保存用户的对话内容，也不会利用对话内容进行AI训练。它支持OpenAI的GPT-3.5和Anthropic的Claude聊天模型，为用户提供多样化的回复选项。此外，该服务还通过与模型提供商的协议进一步保护用户隐私，限制了他们对匿名请求数据的使用，并要求在30天内删除所有接收到的信息。

隐私保护人工智能聊天服务

outfitanyone:超高质量的虚拟试穿，适用于任何服装和任何人。

Outfit Anyone 是一个客户端程序，调用接口进行虚拟试穿。该模型不开源，固定且不能上传或修改，仅支持用户上传自己的服装。

虚拟试穿图像处理人工智能

SunoApi:一个非官方的Suno AI客户端，支持音乐生成和获取音乐信息。

Suno API是一个基于Python和Streamlit的非官方Suno AI客户端，目前支持音乐生成和获取音乐信息等功能。它具有内置的维护和激活功能，无需担心令牌过期问题。用户可以设置多个账户信息以供保存和使用。此外，它还支持多语言，如中文、英文、韩语、日语等。

suno-ai suno suno-ai-api

DeepLearing-Interview-Awesome-2024:深度学习算法与大模型面试指南，持续更新的面试题目集合。

DeepLearing-Interview-Awesome-2024 是一个开源的面试题目集合项目，专注于深度学习算法和大模型领域的面试准备。该项目由社区成员共同维护，旨在提供最新的面试题目和答案解析，帮助求职者和研究人员深入理解深度学习领域的前沿技术和应用。它包含了丰富的面试题目，覆盖了大语言模型、视觉模型、通用问题等多个方面，是准备深度学习相关职位的宝贵资源。

深度学习算法面试大模型

PaddleBoat:销售准备平台，帮助销售代表提高冷电话成功率。

PaddleBoat是一个销售准备平台，它通过提供人工智能角色扮演来帮助销售代表提高他们的销售技巧。该平台可以定制角色扮演以匹配买家人物画像，消除拨打电话时的焦虑，同时不浪费潜在客户。它还提供自动电话反馈，包括对异议处理、最佳呼叫实践和每次角色扮演中改进领域的洞察。此外，PaddleBoat能够加速销售卓越，通过实时洞察发现团队的优势和弱点，实施最佳实践，并培养更强的团队呼叫文化。它还最小化了销售代表的上手时间，轻松地将剧本转换为引人入胜的培训程序，创建课程、维基和互动视频，确保代表们准备好赢得交易。

销售培训人工智能角色扮演

Clik:将手机变成一次性相机，实现与朋友实时共享照片。

Clik 是一款专为活动照片分享设计的应用程序，它将手机转变为数字一次性相机，允许用户在无需下载完整应用的情况下，与朋友实时共享照片。该应用通过AI技术，帮助用户快速找到自己参与的照片，并通过应用内链接和定制QR码简化了现实生活中的分享过程。Clik 适合各种社交场合，如聚会、婚礼等，帮助用户捕捉和保存美好记忆。

照片分享实时互动 AI筛选

Image to text:免费在线图片转文字工具，快速提取图片中的文字。

Image to text是一个免费的在线工具，它能够从多种图片中提取文本。这项技术对于数字化办公文档、社交媒体内容的整理以及报纸等印刷媒体的电子化非常有用。它主要的优点包括操作简便、处理速度快以及完全免费。

图片转文字在线工具免费

LLM Price Check:AI预算优化工具，比较和计算大型语言模型API的最新价格。

LLM Price Check是一个在线工具，它允许用户比较和计算不同大型语言模型（LLM）API的价格，这些API由领先的提供商如OpenAI、Anthropic、Google等提供。该工具可以帮助用户优化他们的AI预算，通过比较不同模型的价格和性能，用户可以做出更明智的选择。

AI预算价格比较大型语言模型

Suno AI API:使用API调用suno.ai的音乐生成AI，并轻松集成到GPT等代理中。

suno-api是一个开源项目，旨在通过API调用suno.ai的音乐生成AI，允许用户轻松地将音乐生成功能集成到各种AI代理中，如GPT。该项目具有开放源代码许可证，便于自由集成和修改，支持自定义模式，允许用户设置歌词、音乐风格、标题等，并且可以一键部署到Vercel。

音乐生成 AI 集成

多平台AI艺术生成器:一个支持多种AI艺术生成平台的创意工具，让艺术创作更简单。

多平台AI艺术生成器是一个集成了多个AI艺术生成平台的在线工具，如MidJourney、DALL-E 3、Leonardo等，为用户提供了丰富的艺术创作选项。它通过简单的操作流程，允许用户选择不同的AI平台和模型，设置分辨率，输入提示语，并生成艺术作品。该产品的主要优点在于其便捷性、创意性和多样性，它不仅适用于专业设计师寻找灵感，也适合普通用户进行个性化艺术创作。目前，该产品的具体价格和定位信息未在页面上提供。

AI艺术创意工具在线生成

免费AI绘画提示词聚合工具:适用于多个平台的免费AI图像提示词，每天更新。

免费AI绘画提示词聚合工具是一个为艺术家和设计师提供灵感的平台，它聚合了适用于多个AI绘画平台的提示词，帮助用户快速生成创意图像。该工具每天更新，确保用户能够获得最新的创意提示，从而激发创作灵感。

AI绘画创意提示艺术设计

Free AI Anime Filter Online:在线动漫滤镜，将自拍照片瞬间转换为动漫艺术作品。

Free AI Anime Filter Online 是一个在线动漫滤镜工具，利用先进的AI技术将用户上传的照片转换为动漫风格的图像。该产品以其高度的定制化选项、用户友好的界面、高质量的转换效果、实时转换能力和快速处理速度而受到用户的喜爱。它不仅适用于个人娱乐，还能提升数字艺术作品和社交媒体内容的吸引力。

AI技术图像转换社交媒体

Suno AI Download:免费下载由Suno AI生成的音乐

Suno AI Download是一个免费的工具，允许用户下载由Suno AI生成的音乐。这项技术的重要性在于它为音乐爱好者提供了一个便捷的方式来获取他们喜欢的音乐作品，同时也支持了AI音乐创作的发展。Suno AI Download的背景是随着AI技术在音乐创作领域的应用日益广泛，它使得音乐的创作和分发变得更加高效和个性化。产品定位为免费工具，旨在促进音乐的分享和AI音乐的普及。

AI音乐免费下载音乐生成

流畅阅读FluentRead:一款高效的浏览器翻译插件，提供基于母语般的阅读体验。

流畅阅读（FluentRead）是一款基于人工智能翻译引擎的浏览器插件，它能够将网页上的文字翻译成任何语言，支持快捷键翻译、滑动翻译等多种翻译方式，并具备翻译缓存与回译功能。该插件采用TypeScript + Vue3 + Element-Plus + WXT框架编写，支持编译成可安装在绝大多数浏览器的插件。它的重要性在于为非母语读者提供流畅的阅读体验，减少语言障碍，提高信息获取效率。

翻译浏览器插件人工智能

Assista:提升团队生产力的智能助手，集成多种应用，简化任务执行。

Assista是一个革命性的技术公司，通过先进的AI助手转变数字化时代的生产力。该平台能够通过简单的文本或语音消息执行端到端的讨论和任务，类似于Siri，但具有跨多个生产力应用集成的能力，如Google、HubSpot、Notion、Trello和Slack。

AI 自动化集成

必剪 Studio: 是一款支持形象驱动、音色定制的数字分身工具。

必剪 Studio 是一款数字分身工具，支持形象驱动和音色定制。用户可以定制专属数字分身，用于配音、口播等场景。产品背景为解决用户在音频制作中个性化需求的问题，定位于提供便捷的数字分身创作工具。

数字分身音色定制 AI 技术

Suno Ai提示词生成器:利用AI技术为音乐创作提供灵感和辅助，快速生成个性化音乐提示。

Suno Ai提示词生成器是一个基于人工智能的音乐创作辅助工具，它能够根据用户的喜好和需求生成歌词和歌曲描述。产品通过提供丰富的音乐构成元素选项，帮助用户克服创意障碍，提高创作效率，并定制化音乐作品。它适用于各种音乐项目，包括电影配乐、游戏音乐、表演作品等，是音乐创作者和爱好者实现音乐愿景的得力助手。

人工智能音乐创作个性化