首页 > 业界 > 关键词  > 模型最新资讯  > 正文

自回归模型BLOOMZ来了!性能时延仅3.7秒,推理变得更容易了!

2023-08-25 09:16 · 稿源:站长之家

文章要点:

  • BLOOMZ是拥有1760亿参数的大规模语言模型,在Habana Gaudi®2硬件上进行推理时延仅3.7秒。

  • Habana Gaudi®2具有强大的计算能力和内存容量,可支持大模型的训练和推理。

  • 利用DeepSpeed的模型并行技术,可以在多台Gaudi®2设备上分布一个极大规模的模型进行推理。

站长之家(ChinaZ.com)8月25日 消息:最近,Anthropic公司开源了语言理解模型BLOOMZ,它拥有高达1760亿个参数,是目前公开的参数量最大的语言模型之一。以这种规模的模型进行推理,对硬件的算力和内存提出了极高的要求。

image.png

论文地址:https://arxiv.org/abs/2211.05100

Habana Labs推出的第二代AI芯片Gaudi®2在此方面具有独特优势。单块Gaudi®2芯片就具有96GB内存,8块芯片可以组成一个服务器,提供768GB的总内存。Habana自主研发的SynapseAI软件栈可以将模型有效分配到多块芯片上,实现模型并行。

image.png

Hugging Face的工程师使用Gaudi®2对BLOOMZ模型进行了测试。结果显示,在8块芯片上以16位浮点精度进行推理,延迟只有3.7秒,达到了接近实时的速度。相比之下,在第一代Gaudi芯片上推理需时20秒。Habana团队表示,通过持续优化,有望进一步提升BLOOMZ的推理性能。

Gaudi®2芯片强大的算力和巨大的内存,配合Habana自主研发的SynapseAI软件栈,可以轻松支持千亿级参数的语言模型进行实时推理。这为大模型的实际应用带来了新的可能性。未来Habana计划支持更低精度的推理,以进一步提升性能并降低功耗。

举报

  • 相关推荐
  • 大规模专家并行推理集群实现性能3倍跃迁,联通元景开启推理新纪元

    中国联通持续技术攻坚,依托元景大模型MaaS平台成功搭建“大规模专家并行”推理集群,实现DeepSeekMoE大模型在多节点间的超高效集群推理,单卡吞吐提升3倍,解码时延降低50%。这一成果不仅为人工智能技术的创新发展提供了强大助力,也让各行业以更高效率应用AI技术,加速推动千行百业的数字化转型。这一推理创新举措必将助力各行业在复杂多变、竞争激烈的市场环境中抢占先机,以智能化驱动数字化转型,进推动实体经济高质量发展。

  • 不要思考过程,推理模型能力能够更强

    UC伯克利和艾伦实验室的最新研究表明,推理模型无需依赖冗长的思考过程也能有效工作。研究人员提出的"无思考(NoThinking)"方法通过简单提示直接生成解决方案,跳过了传统推理模型中的显性思考步骤。实验证明,在低资源(低token数量、少模型参数)或低延迟情况下,NoThinking方法的表现优于传统思考方式,能减少token使用量并提高推理速度。该方法在数学问题解决、编程和形式定理证明等任务中表现优异,尤其在资源受限时优势更明显。研究还发现,结合并行计算扩展后,NoThinking能进一步提升性能,在保持准确性的同时显著降低延迟和计算成本。这一发现挑战了"推理模型必须依赖详细思考过程"的传统认知。

  • 国产六大推理模型激战OpenAI?

    2025年春节前夕,DeepSeek-R1模型发布,标志着中国AI进入推理模型新时代。文章梳理了国产大模型发展历程:从2022年ChatGPT引发国内追赶OpenAI热潮,到2023年"百模大战",再到2024年"AI六小虎"格局形成。重点分析了六大国产推理模型(DeepSeek、百度、阿里、科大讯飞、字节、腾讯)的技术特点与市场表现,指出国产模型在性能上已接近GPT-4水平。特别强调科大讯飞星火X1凭借全国产化技术路线获得政企青睐,以及DeepSeek-R1以560万美元超低成本实现高性能的突破。文章还探讨了英伟达芯片断供危机下,国产全栈技术路径的重要性,认为自主可控将成为对抗国际不确定性的关键。最后指出,随着推理模型成为竞争焦点,国产大模型正从技术追随转向自主创新阶段。

  • 新增自主决策推理模型!理想汽车OTA 7.2开启推送

    快科技4月3日消息,我们从理想汽车官方获悉,OTA7.2版本车机系统正式开启推送,预计一周内完成,升级耗时约50分钟。本次更新新增自主决策推理模型,该模型基于车载场景数据及通用推理模型数据打造,可根据问题内容自主决策是否深度思考,面对车控指令等简单问题时,能够保障响应速度。智能座舱方面,新增全能儿童锁功能,支持一键锁定副驾老板键、后排座椅物理按�

  • DeepSeek R2来了?全新推理Scaling论文联手清华震撼发布!

    【新智元导读】DeepSeek新论文来了!在清华研究者共同发布的研究中,他们发现了奖励模型推理时Scaling的全新方法。DeepSeekR2,果然近了。他们用包含300个样本的降采样测试集测试了DeepSeek-R1,发现其性能甚至不如236BMoERFT模型,这表明延长推理任务的思维链并不能显著提升通用RM的性能。

  • 4月30日9至11!今年首个“蛇年蛇月蛇日蛇来了

    4月30日9-11时将迎来今年首个"蛇年蛇月蛇日蛇时"特殊现象。我国传统干支纪年法将天干地支组合形成60甲子循环,今年农历为乙巳蛇年。古人用十二地支标记月份和时间,对应现代24小时制,9-11时为巳时。今年将出现3次"蛇年蛇月蛇日蛇时"现象,分别在4月30日、5月12日和5月24日的9-11时。这一有趣现象源于我国传统干支纪年与生肖纪法的结合,体现了古人独特的时间记录智慧。

  • 零百加速5.7!长城汽车:魏牌高山是性能最强的插混MPV

    比亚迪新款高端MPV车型高能登场,加速表现卓越,零百加速仅需5.7秒,综合功率高达358kW,扭矩达762Nm。搭载智能四驱系统与Hi4混动技术,优化整车效率,解决用户对高性能四驱车油耗高的痛点。在高速场景中,效率提升13%-20%,并具备应对极端路况的开发系统,提供更安全的驾驶体验。此外,该车型全系标配四驱系统,不仅提升了高速行驶的精准度和稳定性,还能轻松应对雪地等复杂路况,有效避免车辆打滑带来的安全隐患。

  • 高考考上985的AI来了!超强数理推理横扫真题,训练秘籍剑指AGI

    全球首个工业界多模态推理模型Skywork-R1V升级至2.0版本,全面开源38B参数模型权重。该模型在高考物理、生物等学科题目上展现出强大的图文推理能力,准确率媲美985考生水平。技术突破包括:1)首创视觉奖励模型Skywork-VL Reward,在视觉和文本奖励基准测试中均获SOTA;2)引入混合偏好优化(MPO)机制,平衡推理深度与通用能力;3)采用选择性样本缓冲(SSB)技术解决训练中的优势�

  • 安卓性能小钢炮!联想拯救者Y700四代来了:更轻薄性能更强

    文章报道了某电子产品的召回事件,针对该产品Y700系列中的一个缺陷进行了详细解释。产品在长时间使用后可能出现屏幕失常、图像扭曲、亮度变化等问题。通过改进设计,优化了产品的耐用性和电池寿命,确保了8.8小时的续航能力,电池容量增加到7000mAh,同时配备了双摄像头和面部解锁功能,提升了用户体验。改进后的产品在8月10日上市。文章指出,改进后的Y700系列不仅解决了电池寿命问题,还提高了摄像头的性能和电池续航能力,改善了整体体验。

  • 刚刚,商汤发布第六代大模型:6000亿参数多模态MoE,中长视频直接可推理

    现在的国产AI应用,一口气看好几分钟的视频,都可以直接做推理和解析了!瞧~只需“喂”上一段柯南片段,AI就摇身一变成“名侦探”做剖析:它会对整个视频的内容先做一个总结,再按照秒级,对视频片段做内容上的推演。商汤科技联合创始人杨帆认为:银河通用合伙人、大模型负责人张直政表示:除此之外,上海交通大学副教授闫维新对这个问题的看法是:总言之,商汤作为国�