首页 > 传媒 > 关键词  > 超级计算机最新资讯  > 正文

生物计算领域,为什么超算安腾比通用计算机算得还要快?

2024-04-09 17:00 · 稿源: 站长之家用户

一直以来,超 级计算机因其无可匹敌的运算实力而在科研界享有“巨擘”之称,大众耳熟能详的莫过于那些荣登全球超算Top500推荐榜的翘楚品牌,如Frontier和神威·太湖之光等,它们展现出了卓越的通用高性能计算能力。然而,在生物计算这一细分领域中,即便是这些巨头也会显得有些“力不从心”,难以全面应对诸如大规模分子动力学模拟、蛋白质三维结构预测等相当挑战性的任务。这时,就不得不提在生物计算领域占据显著地位的专用超 级计算机安腾(Anton)了。

安腾超 级计算机   图片来源:D.E. Shaw Research

安腾超 级计算机是由美国D. E. Shaw研究所于2007年首 次发布,专门用于对生命科学研究和生物制药研发领域至关重要的算法——分子动力学模拟算法的加速。在计算分子动力学模拟(Molecular Dynamics, 简称MD)问题时,超算安腾的计算效率比全球最 强的超算Frontier还要高上数十倍。

为什么安腾超 级计算机能比美国Frontier算得还要快?

秘诀就在于安腾超 级计算机的“专项定制”属性。安腾超 级计算机由大量的特定应用集成电路(ASIC)组成,通过一个专门的高速三维环形网络相互连接 。不同于通用超算的一刀切设计,超算安腾的架构专为细粒度事件驱动而设计运算,通过增加计算与通信的重叠来提高性能。

由于安腾超 级计算机主要专注于分子动力学模拟加速,即其所应对的主要任务属于通讯密集型的并行计算范畴。在此背景下,超算安腾在芯片设计、通信网络这两个方面进行了特殊设计,从而有效提升此类任务的计算效率。

512个深度定制ASIC芯片 提供强大算力支持

首先,在硬件层面,由于CPU、GPU等通用的算力芯片无法满足特定问题对算力性能的要求,因此,专用超 级计算机常常选择搭载ASIC芯片(即专用集成电路),以针对性地提供解决特定问题所需的强大算力支持。

安腾超 级计算机的核心优势就在于其使用的512个MD专用ASIC芯片。这些芯片经过深度定制,具有针对性强的指令集架构(ISA),能够比较准确执行分子动力学模拟(MD)中最耗时和最频繁的计算任务,如分子间的长程和短程相互作用力的计算,为这些关键计算步骤提供硬件算法层面的性能优化,例如快速傅里叶变换(FFT)等算法。

图片来源:D.E. Shaw Research

同时,为了减少计算延迟,安腾超 级计算机还设计高度专业化的专用硬件数据路径和控制逻辑,用于评估范围受限的相互作用,并执行电荷扩散与力插值。除了在芯片上密集整合高度定制化的计算逻辑之外,这些流水线还针对每个操作都采用了定制化精度。

“量体裁衣”般的并行计算硬件设计  只为提升计算性能

GPU、通用超算等通用的计算架构更多关注的是访存密集型任务的优化,而超算安腾则是针对通讯密集型的并行计算问题进行了特化优化。因此超算安腾在处理高度依赖大量通讯密集型并行计算的分子动力学计算任务时,自然就会比传统的通用超 级计算机架构多出许多天然的优势。

具体来说,超算安腾上运算的分子动力学算法的主要应用领域之一是对蛋白质进行的仿真模拟。这类仿真模拟任务需要计算机记录当前每个原子的位置、运动状态等,之后利用分子动力学模拟计算这些粒子之间相互影响的运算结果。在这样的情况下,每个节点需要承担的运算并不复杂,所以并不需要每个计算单元具有极其高强的计算能力;也不需要大规模数据的输入输出存,所以也不是访存密集型任务。因此在设计上,安腾超 级计算机取消了其它并行计算硬件中十分常见的缓存,也就是不需要很大的存储空间。

例如,对于一个包含25,000个粒子的MD模拟,其整体架构状态只需要1.6兆字节,放到一个由512个节点构成的系统中,每个节点仅占用3.2千字节。鉴于此特性,超算安腾选择在ASIC上仅仅配备SRAM和小型L1缓存,并确保在常规操作条件下,所有的代码和数据都能够妥帖地装载在芯片之上,没有把宝贵的硅片面积用于构建大型缓存或是复杂的内存层级结构,而是将这些资源重点投入到通信和计算性能的提升上。

此外,分子动力学模拟中,最为消耗计算资源的是分子间的长程相互作用力的计算,如静电相互作用等。据统计,在通用处理器上运行的标准MD模拟中,计算静电和范德华力所耗费的时间占到了总体计算时间的约90%。由于这些力的计算都是基于成熟的物理原理和公式得出的,不太可能随力场模型进化而发生巨大改变,基本因此非常适合硬件加速。但是,要想实现MD模拟的显著提速,光是加速这些“核心循环”还不够,还需要对其他相关的计算任务进行同步加速。依据阿姆达尔定律,即使把前述占用90%计算时间的任务的计算效率大幅优化,如果其余10%的计算任务还是维持现状的话,整个系统的最 大加速比也只能达到10倍左右的上限。因此,超算安腾特意划拨了相当一部分硅片面积用于加速那些诸如键力计算、约束条件计算、速度和位置更新等其他关键任务。

服务器摆放与网络结构的特殊设计 有效提升通讯效率

在通信层面,由于分子动力学模拟是一种需要大规模并行化的计算密集型方法,因此快速并行分子动力学模拟的实现就需要节点间通信的高带宽和低延迟。为提高通讯效率,安腾超 级计算机也做了一些特别的设计。

例如,整个超算安腾的服务器都被紧密地摆放在一个正方体的机箱中,这样的好处在于节点之间依靠网络互联,紧密排列使得网络的传输距离大大降低,可靠性和速度大大提升,所以速度有了很大的提升。

又比如,超算安腾设计了独特的内存子系统,专门用于积累每个粒子所受的力,这样可以减少计算过程中必要的数据交换。为了进一步提高计算效率,安腾超 级计算机采用了低延迟、高带宽的网络结构,不仅在单个ASIC芯片内部实现了快速通信,还在不同ASIC芯片之间也建立起了有效的互联网络。这个网络特别支持常见的MD通信模式,比如多播和稀疏数据结构的压缩传输,同时也支持协调式的“推送”式通信方式,即生产者主动将结果发送给消费者,无需消费者预先请求数据。此外,系统中还配备了一系列独立的直接内存访问(DMA)引擎,用于卸载计算单元的通信任务,使得通信和计算过程能更紧密地重叠执行,从而最 大程度减少等待时间。

ASIC芯片通过高速通道直接连接,形成三维环形拓扑结构

图片来源:D.E. Shaw Research

通过以上分析可见,安腾超 级计算机通过一系列精密的硬件和软件协同设计,聚焦于加速分子动力学模拟的关键环节,使得其在处理大规模生物分子系统长达百微秒级别的经典分子动力学模拟时表现出比较罕见的有效性。

安腾超 级计算机的技术路线无疑为我国超算领域、尤其是专用超算领域的技术研发提供了路线借鉴参考。在生物制药、生命科学、新能源新材料等前沿科技火热发展的重点垂直领域,我们应当加强全栈式的软硬件协同创新,挖掘在特定计算难题上的重大产业和创新机会,不断提升在全球超算竞赛中的竞争力与影响力。

推广

特别声明:以上内容(如有图片或视频亦包括在内)均为站长传媒平台用户上传并发布,本平台仅提供信息存储服务,对本页面内容所引致的错误、不确或遗漏,概不负任何法律责任,相关信息仅供参考。站长之家将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。任何单位或个人认为本页面内容可能涉嫌侵犯其知识产权或存在不实内容时,可及时向站长之家提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明(点击查看反馈联系地址)。本网站在收到上述法律文件后,将会依法依规核实信息,沟通删除相关内容或断开相关链接。

  • 相关推荐
  • 大家在看
  • helpmee.ai:AI辅助的电脑帮助,让老年人轻松掌握技术。

    helpmee.ai是一个利用AI技术为老年人提供电脑使用指导的网站。通过耐心的语音对话和屏幕共享,AI伴侣逐步引导老年人完成任何计算机任务,确保他们能够自信且独立地在数字世界中导航,支持50多种语言,全天候服务。该服务使用OpenAI的最新GPT-4o模型,提供无与伦比的准确性和理解力。

  • video-subtitle-master:批量生成视频字幕并支持多语言翻译的客户端工具

    video-subtitle-master 是一个基于之前开源项目 VideoSubtitleGenerator 开发的客户端工具,它允许用户批量为视频生成字幕,并支持将字幕翻译成不同的语言。这个工具特别适合需要对视频内容进行本地化处理的个人或团队,无论是为了教育、娱乐还是商业目的。它集成了多种翻译服务,如百度翻译、火山引擎翻译等,并优化了对 Apple Silicon 的支持,提供了快速的生成速度。

  • EngineerDraft:实时字幕生成工具

    BeMyEars 是一款实时字幕生成工具,利用本地设备完成语音识别,为听障人士和需要字幕的用户提供极致体验。其主要优点包括多语言支持、多源输入、隐私保护等。

  • 大设:AI 智能绘画平台,让文本和图片成为艺术作品。

    大设是基于 Stable Diffusion 的免费 AI 绘画网站,提供一键生成高清精绘大图、SDXL 模型教程、AI 提示词工具。背景包括清华大学研发,定位为 AI 智能绘画平台。

  • Supaclip:将视频快速转化为知识库。

    Supaclip是一个旨在帮助用户将视频内容转化为知识库的在线工具。它通过提供视频摘要、AI助手、字幕和时间戳等功能,帮助用户快速理解和导航视频内容。产品适用于内容创作者、学生、播客主持人和研究人员等,通过这些功能,用户可以增加视频的有机覆盖率、从讲座中获取最大价值、提供节目笔记、通过聊天机器人进行互动以及从访谈视频和纪录片中提取关键见解和引用。

  • Context Data:一站式企业级数据平台,专为生成式AI应用设计

    Context Data是一个为生成式AI应用设计的数据处理和转换平台,旨在帮助AI团队构建数据基础设施,以便他们专注于构建AI逻辑。它提供了无需设置基础设施、跨多个源转换数据、连接多个模型、加载数据到主要向量数据库、查询私有向量数据、定时管道以及构建数据和ETL管道等功能。Context Data强调数据隐私控制,避免了将数据上传到OpenAI等外部模型,简化了构建AI就绪数据平台的压力和复杂性。

  • World of Gami:AI驱动的Trello替代品,让团队任务保持最新。

    World of Gami是一个利用AI技术简化任务管理的网站,它将日常任务转化为令人兴奋的挑战,使项目管理不仅是必需的,而且是团队工作流程中令人愉悦和有益的一部分。通过将传统任务列表或看板转变为生动和竞争性的游戏,每个用户可以创建自己的'船',使用Scrum方法进行冲刺,并竞争'冲刺皇冠',这不仅使项目管理更加有趣,而且培养了团队精神和成就感。

  • Dola AI:您的个人 AI 日历助手,简化日程安排,释放时间。

    Dola 是一款通过消息应用进行日程安排的 AI 助手,它与 Google 日历、Apple 日历和 Caldav 兼容,能够通过自然语言快速安排日程,提高效率,同时支持语音、图片和文本输入。Dola 旨在帮助用户节省时间,专注于他们喜欢的事情。

  • Remind AI:使用先进的AI技术,轻松捕捉您的数字活动并作为记忆使用。

    reMind是一款利用AI技术帮助用户捕捉和利用数字活动作为记忆的产品。它通过先进的人工智能技术,让用户能够轻松地记录和回顾自己的工作和活动,从而提高生产力。

  • BrowseBuddy:AI购物助手,提升电商购物体验

    BrowseBuddy是一款AI驱动的聊天机器人,旨在通过提供个性化的帮助来增强在线购物体验。它利用自然语言处理技术来理解客户查询,提供量身定制的产品推荐和支持。BrowseBuddy通过智能产品匹配、实时解决方案、多语言支持等技术,为电商企业提供了一种提升客户满意度和销售效率的解决方案。

  • Depthforge:AI驱动的3D图像生成应用

    Depthforge是一款利用Apple Vision Pro技术,通过文本提示生成沉浸式3D图像的应用。它易于使用,能够让用户通过简单的文本输入来创造独特的高质量3D图像,体验全新的3D图像生成世界。

  • AudiowaveAI:将任何文本转换为有声读物质量的声音。

    AudiowaveAI是一款利用人工智能技术将文本转换成高质量音频的应用程序。它与传统的文本到语音技术不同,提供了更加自然、富有情感的语音输出,让听众在学习和享受内容时获得更好的听觉体验。产品背景信息包括它是由全球创新公司和自由职业者信赖的产品,其主要优点在于其引人入胜的声音、自然的声音效果以及令人愉悦的听觉享受。产品定位为教育工具,旨在帮助用户在移动中学习,享受夏日阳光。

  • Usermaven:简单而强大的网站和产品分析工具

    Usermaven是一个简单易用且功能强大的网站和产品分析工具,专为市场营销人员和产品专业人士设计。它通过自动捕获所有事件来提供精确的追踪,无需依赖开发人员,从而简化了数据分析过程。Usermaven还提供了隐私友好的解决方案,支持GDPR和CCPA合规性,并且可以无cookie运行,保护用户隐私。

  • StarSearch:git历史查询助手,贡献者分析工具

    StarSearch是一个专注于git历史和贡献者分析的在线工具,它能够帮助用户快速获取有关贡献者活动的信息,识别关键贡献者,以及基于工作内容找到特定领域的专家。该工具对于开源项目维护者、开发者和团队领导者来说极为重要,因为它可以提高项目管理效率,优化团队协作,并促进技术社区的交流与合作。StarSearch是我们基于人工智能的功能,可以深入了解贡献者的历史和活动,带来透明度和对开源项目的全新深度认知。

  • AIGCRank.cn:AI 排行榜

    AIGCRank.cn 是一个提供 AI 产品排行榜的网站,主要收集和整理国内外各类 AI 产品的相关信息,并通过排行榜形式展示给用户。该网站旨在帮助用户了解和选择最优秀的 AI 产品,以满足其需求。

  • ReVideo:视频重制,精确控制内容与运动

    ReVideo是一个创新的视频编辑技术,它允许用户在特定区域进行精确的视频编辑,通过指定内容和运动来实现。这项技术通过修改第一帧来实现内容编辑,而基于轨迹的运动控制提供了直观的用户交互体验。ReVideo解决了内容和运动控制之间耦合和训练不平衡的新任务。通过开发三阶段训练策略,逐步从粗到细解耦这两方面,并提出一种时空自适应融合模块,以在不同的采样步骤和空间位置整合内容和运动控制。

  • TryOnDiffusion:一款基于扩散模型的服装试穿技术

    TryOnDiffusion是一种创新的图像合成技术,它通过两个UNets(Parallel-UNet)的结合,实现了在单一网络中同时保持服装细节和适应显著的身体姿势及形状变化。这项技术在保持服装细节的同时,能够适应不同的身体姿势和形状,解决了以往方法在细节保持和姿势适应上的不足,达到了业界领先的性能。

  • AIGCRank大语言模型API价格对比:汇总和比较全球主要AI模型提供商的价格信息

    AIGCRank大语言模型API价格对比是一个专门汇总和比较全球主要AI模型提供商的价格信息的工具。它为用户提供最新的大语言模型(LLM)的价格数据,包括一些免费的AI大模型API。通过这个平台,用户可以轻松查找和比较OpenAI、Claude、Mixtral、Kimi、星火大模型、通义千问、文心一语、Llama 3、GPT-4、AWS和Google等国内外主要API提供商的最新价格,确保找到最适合自己项目的模型定价。

  • Pandora:通用世界模型,支持自然语言动作和视频状态

    Pandora是一个向通用世界模型迈进的模型,它能够通过生成视频来模拟世界状态,并允许使用自然语言在任何时间控制视频内容。Pandora与以往的文本到视频模型不同,它允许在视频生成过程中随时接受自由文本动作输入,从而实现视频的即时控制。这种即时控制能力实现了世界模型支持交互式内容生成和增强的健壮推理和规划的承诺。Pandora能够跨多个领域生成视频,如室内/室外、自然/城市、人类/机器人、2D/3D等场景。此外,Pandora还允许通过高质量的数据进行指令调整,使得模型能够在一个领域学习动作并在另一个未见过的领域中使用。Pandora模型还通过自回归模型生成更长的视频,其生成的视频长度可以超过训练视频的长度。尽管Pandora作为通用世界模型的初步步骤仍有限制,例如在生成一致性视频、模拟复杂场景、理解常识和物理法则以及遵循指令/动作方面可能会失败,但它在视频生成和自然语言控制方面展示了巨大的潜力。

  • Dev Home:Windows开发者的一站式控制中心

    Dev Home是微软为Windows开发者推出的一款桌面客户端,旨在提供一个集中的控制中心,帮助开发者监控项目、设置开发环境、连接开发者账户和工具,并创建专用的存储空间。它通过自定义的仪表板小部件,使开发者能够监控工作流程、跟踪开发项目、编码任务、Azure DevOps查询、GitHub问题、拉取请求、可用SSH连接以及系统的CPU、GPU、内存和网络性能。Dev Home 0.14 预览版更新集成了 PowerToys 模块,以及基于 AI 的 Quickstart Playground 功能。

今日大家都在搜的词: