首页 > 业界 > 关键词  > 模型最新资讯  > 正文

自回归模型BLOOMZ来了!性能时延仅3.7秒,推理变得更容易了!

2023-08-25 09:16 · 稿源:站长之家

文章要点:

  • BLOOMZ是拥有1760亿参数的大规模语言模型,在Habana Gaudi®2硬件上进行推理时延仅3.7秒。

  • Habana Gaudi®2具有强大的计算能力和内存容量,可支持大模型的训练和推理。

  • 利用DeepSpeed的模型并行技术,可以在多台Gaudi®2设备上分布一个极大规模的模型进行推理。

站长之家(ChinaZ.com)8月25日 消息:最近,Anthropic公司开源了语言理解模型BLOOMZ,它拥有高达1760亿个参数,是目前公开的参数量最大的语言模型之一。以这种规模的模型进行推理,对硬件的算力和内存提出了极高的要求。

image.png

论文地址:https://arxiv.org/abs/2211.05100

Habana Labs推出的第二代AI芯片Gaudi®2在此方面具有独特优势。单块Gaudi®2芯片就具有96GB内存,8块芯片可以组成一个服务器,提供768GB的总内存。Habana自主研发的SynapseAI软件栈可以将模型有效分配到多块芯片上,实现模型并行。

image.png

Hugging Face的工程师使用Gaudi®2对BLOOMZ模型进行了测试。结果显示,在8块芯片上以16位浮点精度进行推理,延迟只有3.7秒,达到了接近实时的速度。相比之下,在第一代Gaudi芯片上推理需时20秒。Habana团队表示,通过持续优化,有望进一步提升BLOOMZ的推理性能。

Gaudi®2芯片强大的算力和巨大的内存,配合Habana自主研发的SynapseAI软件栈,可以轻松支持千亿级参数的语言模型进行实时推理。这为大模型的实际应用带来了新的可能性。未来Habana计划支持更低精度的推理,以进一步提升性能并降低功耗。

举报

  • 相关推荐
  • 颠覆Diffusion局限!Utopai双模型耦合架构,攻克AI影视长叙事核心难题

    Utopai Studios推出专为影视制作设计的AI模型与工作流,区别于主流视频生成模型,其核心能力在于理解剧本、规划镜头及生成场景,通过自回归模型负责叙事规划与一致性约束,扩散模型专注高质量画面渲染。该系统能解决跨镜头元素漂移难题,提升制作效率与作品品质。目前工作流仅用于公司自有项目,强调AI作为创作者协作者的角色,并遵循行业道德与版权规范。

  • 登榜LMArena!文心大模型5.0-Preview文本能力国内第一

    11月8日,文心全新模型ERNIE-5.0-Preview-1022在LMArena大模型竞技场排名中位列全球第二、中国第一。该模型在创意写作、复杂长问题理解和指令遵循方面表现突出,超越多款国内外主流模型。创意写作可高效生成文章、营销文案等内容;复杂长问题理解适用于学术问答、报告分析等任务;指令遵循能力支持智能助理、代码生成等场景,为多领域内容生产提供高效支撑。

  • 大模型+反诈+算力三重突破 腾讯云三项成果闪耀金融科技应用场景大赛

    10月30日,2025金融街论坛年会金融科技大会公布“金融科技应用场景大赛”终评结果。腾讯云“金融反电诈治理方案”与“基于TCS的AI异构算力管理平台”凭借技术创新性与场景落地能力,从全国89家机构的280个项目中脱颖而出,双双荣获“十佳应用奖”。腾讯混元大模型信贷助手方案获“探索实践奖”。三大方案在金融风控、算力基座及大模型应用三个关键领域展现突出优势,获专家团高度认可。大赛自2021年启动,已成为金融科技领域极具影响力的赛事平台。

  • 易鑫正式发布汽车金融行业首个Agentic大模型

    易鑫在2025世界互联网大会乌镇峰会上发布汽车金融行业首个Agentic大模型XinMM-AM1。该模型参数量约300亿,响应延迟低于200毫秒,支持语音实时交互,单卡吞吐达370 tokens/秒,可提升获客、风控与运营效率,解决行业周期长、交互多、决策复杂等难题。易鑫作为AI驱动的金融科技平台,研发投入超20亿元,率先实现AI全场景应用,将持续推动智能汽车金融生态建设。

  • AI日报:昆仑万维SkyReels V3模型上线;月之暗面推Kimi Linear模型;MiniMax Music 2.0 发布

    本期AI日报聚焦多领域创新:昆仑万维推出SkyReels V3模型,整合顶尖视频生成能力;月之暗面Kimi Linear模型处理长文本速度提升2.9倍;MiniMax Music 2.0实现专业级音乐创作;字节跳动启动豆包股权激励计划吸引AI人才;苹果iOS 27将迎AI重大升级,Siri更个性化;Dia浏览器融合Arc设计理念与AI技术;文心魔法漫画工具实现一键生成连载作品;谷歌Gemini Canvas新增PPT自动生成功能,由Gemini 2.5 Pro驱动,提升职场效率。

  • 机器人“全能导航大脑”来了!银河通用发布NavFoM大模型

    银河通用发布全球首个跨本体全域环视导航基座大模型NavFoM,实现机器人从“学会完成导航任务”到“真正理解移动”的跨越。该模型支持全场景、多任务、跨本体应用,通过统一“视频流+文本指令→动作轨迹”范式,融合800万条跨任务导航数据,在真实机器人上实现零样本自主避障、路径规划等复杂任务。其技术突破将推动具身智能从单一功能进化为基础设施,为规模化商业落地奠定关键基础。

  • 如何检查你的网站是否被大模型引用?AI排名查询工具推荐

    本文探讨AI搜索时代网站流量获取新逻辑:传统SEO因Google搜索"零点击"现象失效,而71%用户通过AI工具研究购买决策。文章指出被大语言模型引用成为新流量入口,并推荐使用AIBase等GEO工具监测网站在豆包、DeepSeek等国内主流AI平台的曝光情况。提出三步操作法和三个优化建议:建立监控基线、定期检查变化、聚焦高转化场景。强调在AI搜索时代,内容被LLM引用已成为新的流量生命线。

  • AI日报:Lovart AI上线“元素拆分”功能;Xcode 26.1.1发布;阿里云通义模型首次大规模赋能双11

    本期AI日报涵盖八大热点:Lovart AI推出"元素拆分"功能,实现海报智能分层编辑;苹果Xcode 26.1.1优化AI编码性能;阿里云通义模型双11单日翻译调用量突破14亿次;Gemini 3在历史手稿破译中展现专家级能力;德国法院裁定OpenAI使用歌词训练构成侵权;开源语音模型Maya1实现富有表现力的实时文本转语音;Meta首席AI科学家LeCun计划离职创办世界模型公司;AI专家罗福莉加入小米,将致力于构建物理世界智能。

  • 何小鹏首次披露物理AI巨大进展 发布第二代VLA大模型

    小鹏汽车在2025科技日发布第二代VLA大模型,颠覆传统“视觉-语言-动作”架构,实现端到端直接输出动作指令,开创物理模型新范式。该模型具备动作生成与物理世界理解能力,参数规模达数十亿级,训练数据近1亿clips。基于2250TOPS算力的Ultra车型成功搭载,推动智驾技术显著进化,同步发布“小径NGP”功能,复杂小路接管里程提升13倍。行业首发的无导航辅助驾驶Super+LCC实现全球覆盖。何小鹏表示,大模型将成为物理AI世界的操作系统,并宣布与大众汽车达成战略合作,共同推进智能出行发展。

  • 寒武纪:构建大模型开发到部署的全流程开放服务能力

    华鑫证券研报显示,寒武纪2025年上半年业绩亮眼,营收28.81亿元,同比增长4347.82%;归母净利润10.38亿元,增长295.82%。公司募资39.85亿元,重点投向大模型芯片及软件平台建设,以增强AI算力芯片综合实力。凭借云边端一体、软硬协同等技术优势,其产品已获多领域客户认可,覆盖金融、互联网等行业。未来随着技术迭代与生态完善,业绩有望持续提升。

今日大家都在搜的词: