首页 > 业界 > 关键词  > SwiftInfer最新资讯  > 正文

Colossal-AI团队开源了SwiftInfer 大模型无限流式输入推理飙升46%

2024-01-08 14:04 · 稿源:站长之家

要点:

1. 国产开源项目SwiftInfer实现了无限流式输入推理,提升46%推理性能;

2. 围绕流式超多轮对话,文章详细解释了StreamingLLM的attention sink注意力机制,窗口注意力优化、KV Cache机制优化等方法的原理和优势;

3. 团队成功将StreamingLLM方法与TensorRT推理优化结合,带来46%的推理吞吐速度提升。

站长之家(ChinaZ.com)1月8日 消息:近日,国产开源项目SwiftInfer实现了无限流式输入推理,成功提升了大模型推理性能46%。这是一个重大突破,可以为多轮对话场景提供高效可靠的落地方案。

它采用了attention sink注意力机制、窗口注意力优化、KV Cache机制优化等方法,SwiftInfer的推理性能得到了极大提升,为大模型多轮对话推理提供低成本、低延迟、高吞吐的最佳实践。

image.png

项目地址:https://top.aibase.com/tool/swiftinfer

在这一方法中,使用了TensorRT的API,获得了接近于PyTorch API的模型编写体验。这对于进一步提升推理性能起到了重要作用。

SwiftInfer通过了解了注意力模块中Softmax的输出,发现了attention sink的现象,使得在多轮对话的情景下,生成效果更加稳定。

它使用了基于attention sink的注意力机制,无论是在计算复杂度还是生成效果上都表现优异。经过SwiftInfer的优化,推理性能提升非常明显。

Colossal-AI团队发布的SwiftInfer在推理性能上的提升很明显,为大模型多轮对话推理提供了高效可靠的落地方案。

Colossal-AI目前已获得GitHub星数三万五千多颗,位列全球TOP400,细分赛道排名世界第一,可通过高效多维并行、异构内存等,降低AI大模型训练/微调/推理的开发与应用成本,提升模型任务表现,降低GPU需求。

举报

  • 相关推荐
  • 历史重演:任天堂无限期推迟Switch2在中国发售

    任天堂NintendoSwitch2将于6月5日全球发售,然据Nikkei报道,任天堂决定推迟Switch2在中国的发售计划。这与初代Switch此前在中国的情况相似,任天堂Switch于2019年才进入中国,比全球上市晚了两年。腾讯在去年11月宣布,将于2026年3月31日逐步停止国行NintendoSwitch的e商店及其他网络相关服务,这进一步增加了任天堂在中国市场的不确定性。

  • ​海信重磅发布“云信·通途交通大模型”: 以AI之力,解锁智能交通无限可能

    4 月 23 日, 第十五届中国国际道路交通安全产品博览会在武汉国际博览中心盛大启幕。海信网络科技公司重磅发布“海信云信·通途交通大模型”, 标志着其在智慧交通领域的AI技术创新应用迈入了全新阶段。 该交通大模型是海信深度融合二十余年交通行业经验与前沿AI技术的产物。基于海量交通专业数据与多模态感知能力,构建“问答-分析-决策”一体化系统,通过AI指挥官

  • Switch 2终于来了!京东推1元6大权益:回收Switch旧机至高补320元

    任天堂昨晚正式发布了新一代游戏机Switch2在屏幕、手柄、性能等方面迎来重大提升,将于6月5日发售。Switch2屏幕尺寸从第一代的6.2英寸升级为7.9英寸,掌机模式支持120Hz高刷新率和HDR、分辨率为1080P,在电视模式下支持4K分辨率,底座内置风扇,散热性能更好。4月3日上午10点,首批1元权益包限量10000件发售,需要的小伙伴可以蹲点抢。

  • Swisse抗糖丸从内而外焕活肌肤 解锁健康控糖新方式

    随着健康意识提升,Swisse推出抗糖丸产品,采用科学配方帮助控糖。核心成分α-硫辛酸能抑制糖化反应,减少AGEs生成,从源头保护肌肤弹性。产品还添加肉桂枝提取物和铬元素,协同调节血糖平衡。创新性融入铜与维C组合,促进胶原蛋白生成,修复受损肌肤结构。长期使用可改善肤色不均、减少细纹,提升肌肤弹性。该产品上市后广受好评,引领健康美丽新风尚。作为健康生活方式辅助选择,Swisse将持续研发优质产品满足多元健康需求。

  • 提升大模型自动修Bug能力 豆包正式开源首个多语言类SWE数据集

    今日,字节跳动豆包大模型团队宣布,正式开源首个多语言类SWE数据集Multi-SWE-bench,可用于评估和提升大模型自动修Bug”能力。在SWE-bench基础上,Multi-SWE-bench首次覆盖Python之外的7种主流编程语言,是真正面向全栈工程”的评测基准。相比于以往聚焦Python的单语言任务,Multi-SWE-bench更贴近现实中的多语言开发场景,也更能反映当前模型在自动化软件工程”方向上的实际能力边界。

  • AI日报:Vidu Q1正式上线;MCP SDK 正式支持流式 HTTP;抖音一季度封禁AI黑产账号260万个

    本文介绍了AI领域多项重要进展:1)MCP SDK支持流式HTTP协议,提升开发效率;2)Vidu Q1视频生成模型上线,提供专业级视觉体验;3)马斯克计划筹资250亿美元开发Colossus 2超级计算机;4)Sand AI开源MAGI-1视频生成模型;5)电商AI助手Add To Cart AI优化购物体验;6)Anthropic发布Claude Code编程指南;7)真我推出支持32种语言的AI翻译耳机;8)2025年AI视频企业TOP20榜单发布;9)清华GLM大模型免费开放;10)AI面试作弊工具引争议;11)抖音AI治理封禁260万违规账号;12)全球首款具备嗅觉的机器人问世。这些创新展示了AI技术在视频生成、编程辅助、电商、翻译等领域的快速发展与应用潜力。

  • AI 大模型的困境:数据才是真正的“燃料”

    一旦掉入AI坟场,幻觉将永远存在,噩梦才刚开始。最近有许多客户在考虑上AI大模型一体机、AI私有化、AI大模型部署等项目,但小心进入AI大模型的坟场,在光鲜亮丽的背后,AI大模型也面临着诸多困境,其中最为核心的问题便是数据。只有拥有高质量、多样化、易于管理的数据,AI大模型才能发挥出其真正的潜力,为企业带来更大的价值。

  • 任天堂Switch 2发布:几乎没人要的microSD Express卡在日本销售一空

    任天堂Switch2支持存储容量扩展,但仅支持microSDExpress规格的存储卡,这使得microSDExpress卡在日本市场迅速售罄。SDExpress存储卡标准于2018年首次亮相,但由于大多数设备不符合其带宽规格,这种存储卡几乎无人问津。三星和西部数据去年确认计划推出microSDExpress卡,但尚未大规模上市,有消息称,任天堂可能是三星的定制”设备合作伙伴。

  • OpenAI要Open了,奥特曼开源首个推理模型ChatGPT一小时暴增百万用户

    OpenAI终于要OpenAI了!一大早,奥特曼郑重官宣,「未来几个月,将开源一款强大的推理模型」。这是自GPT-2以来,OpenAI首个开源的模型。无疑为OpenAI下一步增添了更多的戏剧性。

  • 日本首例!男子改装并销售Switch被判刑:主板焊改装芯片

    快科技4月15日消息,据报道,日本高知地方法院对一起改装并销售任天堂Switch游戏机的案件作出判决。58岁的运输业商人Fumihiro Otobe被认定有罪,被判处两年有期徒刑,缓刑三年,并处罚金50万日元(约合人民币25532元)。法院查明,被告通过焊接改装芯片至二手Switch主板,捆绑27款盗版游戏后以每台约195美元(人民币1426元)的价格在线销售,但具体销量未公开。本案的特殊性在