首页 > 业界 > 关键词  > SwiftInfer最新资讯  > 正文

Colossal-AI团队开源了SwiftInfer 大模型无限流式输入推理飙升46%

2024-01-08 14:04 · 稿源:站长之家

要点:

1. 国产开源项目SwiftInfer实现了无限流式输入推理,提升46%推理性能;

2. 围绕流式超多轮对话,文章详细解释了StreamingLLM的attention sink注意力机制,窗口注意力优化、KV Cache机制优化等方法的原理和优势;

3. 团队成功将StreamingLLM方法与TensorRT推理优化结合,带来46%的推理吞吐速度提升。

站长之家(ChinaZ.com)1月8日 消息:近日,国产开源项目SwiftInfer实现了无限流式输入推理,成功提升了大模型推理性能46%。这是一个重大突破,可以为多轮对话场景提供高效可靠的落地方案。

它采用了attention sink注意力机制、窗口注意力优化、KV Cache机制优化等方法,SwiftInfer的推理性能得到了极大提升,为大模型多轮对话推理提供低成本、低延迟、高吞吐的最佳实践。

image.png

项目地址:https://top.aibase.com/tool/swiftinfer

在这一方法中,使用了TensorRT的API,获得了接近于PyTorch API的模型编写体验。这对于进一步提升推理性能起到了重要作用。

SwiftInfer通过了解了注意力模块中Softmax的输出,发现了attention sink的现象,使得在多轮对话的情景下,生成效果更加稳定。

它使用了基于attention sink的注意力机制,无论是在计算复杂度还是生成效果上都表现优异。经过SwiftInfer的优化,推理性能提升非常明显。

Colossal-AI团队发布的SwiftInfer在推理性能上的提升很明显,为大模型多轮对话推理提供了高效可靠的落地方案。

Colossal-AI目前已获得GitHub星数三万五千多颗,位列全球TOP400,细分赛道排名世界第一,可通过高效多维并行、异构内存等,降低AI大模型训练/微调/推理的开发与应用成本,提升模型任务表现,降低GPU需求。

举报

  • 相关推荐
  • AI日报:小米首个推理大模型开源Xiaomi MiMo;快手上线AI笔记工具“喵记多”;腾讯拆分AI团队

    本文汇总了AI领域最新动态:1)小米开源70亿参数大模型Xiaomi MiMo,在数学推理和代码竞赛中超越OpenAI和阿里模型;2)快手推出AI笔记工具"喵记多",简化笔记管理;3)Luma AI发布电影级镜头控制API,降低视频生成门槛;4)腾讯重组AI团队,加大语言模型研发投入;5)Anthropic为Claude引入新语音"Glassy";6)谷歌NotebookLM新增50+语言音频概述功能;7)xAI将发布Grok3.5模型;8)Meta推出独立AI助手应用挑战ChatGPT;9)OpenAI紧急修复GPT-4o"谄媚"问题;10)Mac本地AI助手Simular升级隐私保护;11)CameraBench项目帮助AI理解镜头运动;12)谷歌推出个性化语言学习AI工具。

  • 历史重演:任天堂无限期推迟Switch2在中国发售

    任天堂NintendoSwitch2将于6月5日全球发售,然据Nikkei报道,任天堂决定推迟Switch2在中国的发售计划。这与初代Switch此前在中国的情况相似,任天堂Switch于2019年才进入中国,比全球上市晚了两年。腾讯在去年11月宣布,将于2026年3月31日逐步停止国行NintendoSwitch的e商店及其他网络相关服务,这进一步增加了任天堂在中国市场的不确定性。

  • ​海信重磅发布“云信·通途交通大模型”: 以AI之力,解锁智能交通无限可能

    4 月 23 日, 第十五届中国国际道路交通安全产品博览会在武汉国际博览中心盛大启幕。海信网络科技公司重磅发布“海信云信·通途交通大模型”, 标志着其在智慧交通领域的AI技术创新应用迈入了全新阶段。 该交通大模型是海信深度融合二十余年交通行业经验与前沿AI技术的产物。基于海量交通专业数据与多模态感知能力,构建“问答-分析-决策”一体化系统,通过AI指挥官

  • Swisse抗糖丸从内而外焕活肌肤 解锁健康控糖新方式

    随着健康意识提升,Swisse推出抗糖丸产品,采用科学配方帮助控糖。核心成分α-硫辛酸能抑制糖化反应,减少AGEs生成,从源头保护肌肤弹性。产品还添加肉桂枝提取物和铬元素,协同调节血糖平衡。创新性融入铜与维C组合,促进胶原蛋白生成,修复受损肌肤结构。长期使用可改善肤色不均、减少细纹,提升肌肤弹性。该产品上市后广受好评,引领健康美丽新风尚。作为健康生活方式辅助选择,Swisse将持续研发优质产品满足多元健康需求。

  • 提升大模型自动修Bug能力 豆包正式开源首个多语言类SWE数据集

    今日,字节跳动豆包大模型团队宣布,正式开源首个多语言类SWE数据集Multi-SWE-bench,可用于评估和提升大模型自动修Bug”能力。在SWE-bench基础上,Multi-SWE-bench首次覆盖Python之外的7种主流编程语言,是真正面向全栈工程”的评测基准。相比于以往聚焦Python的单语言任务,Multi-SWE-bench更贴近现实中的多语言开发场景,也更能反映当前模型在自动化软件工程”方向上的实际能力边界。

  • AI日报:Vidu Q1正式上线;MCP SDK 正式支持流式 HTTP;抖音一季度封禁AI黑产账号260万个

    本文介绍了AI领域多项重要进展:1)MCP SDK支持流式HTTP协议,提升开发效率;2)Vidu Q1视频生成模型上线,提供专业级视觉体验;3)马斯克计划筹资250亿美元开发Colossus 2超级计算机;4)Sand AI开源MAGI-1视频生成模型;5)电商AI助手Add To Cart AI优化购物体验;6)Anthropic发布Claude Code编程指南;7)真我推出支持32种语言的AI翻译耳机;8)2025年AI视频企业TOP20榜单发布;9)清华GLM大模型免费开放;10)AI面试作弊工具引争议;11)抖音AI治理封禁260万违规账号;12)全球首款具备嗅觉的机器人问世。这些创新展示了AI技术在视频生成、编程辅助、电商、翻译等领域的快速发展与应用潜力。

  • 时空壶 W4Pro 接入 AI 大模型,翻译精准度实现跨越升级

    时空壶W4Pro同声传译耳机接入AI大模型后,翻译准确率显著提升。在口语表达方面,能精准处理模糊指代和情感化表达,如将"带花纹的杯子"准确译为"cup with patterns"。专业领域表现同样出色,可准确翻译医学术语"阵发性室上性心动过速"和金融术语"可转债"。其纠错能力突出,能自动修正用户口误。官方数据显示,接入AI后翻译准确率提升至98%,较传统模式提高近30个百分点。这一突破性进展不仅提升了跨语言沟通效率,也为翻译设备行业技术发展提供了新方向。

  • 任天堂Switch 2发布:几乎没人要的microSD Express卡在日本销售一空

    任天堂Switch2支持存储容量扩展,但仅支持microSDExpress规格的存储卡,这使得microSDExpress卡在日本市场迅速售罄。SDExpress存储卡标准于2018年首次亮相,但由于大多数设备不符合其带宽规格,这种存储卡几乎无人问津。三星和西部数据去年确认计划推出microSDExpress卡,但尚未大规模上市,有消息称,任天堂可能是三星的定制”设备合作伙伴。

  • AI日报:扣子空间开放测试;腾讯混元开源视频生成工具HunyuanCustom;阿里开源大模型搜索引擎ZeroSearch

    本文汇总了近期AI领域多项重要进展:1)扣子空间开放测试,无需邀请码即可体验AI协作平台;2)腾讯推出HunyuanCustom视频生成工具,实现音视频同步编辑;3)阿里巴巴ZeroSearch技术降低AI训练成本88%;4)OpenAI新增GitHub连接器,强化代码分析功能;5)联想发布天禧个人超级智能体,具备感知交互能力;6)OpenAI在亚洲推出数据驻留计划;7)Multiverse发布全球首款AI生成多人游戏;8)秘塔AI上线"讲题"功能辅助家长辅导;9)Genspark推出智能电子表格工具AI Sheets;10)Google Gemini API新增缓存功能可节省75%成本;11)PixVerse v4视频生成速度质量双提升;12)快手推出内容净化器KuaiMod;13)英伟达开源新一代OCR代码推理模型。这些创新覆盖AI应用、开发工具、成本优化等多个维度,展现了AI技术的快速发展和广泛应用。

  • 日本首例!男子改装并销售Switch被判刑:主板焊改装芯片

    快科技4月15日消息,据报道,日本高知地方法院对一起改装并销售任天堂Switch游戏机的案件作出判决。58岁的运输业商人Fumihiro Otobe被认定有罪,被判处两年有期徒刑,缓刑三年,并处罚金50万日元(约合人民币25532元)。法院查明,被告通过焊接改装芯片至二手Switch主板,捆绑27款盗版游戏后以每台约195美元(人民币1426元)的价格在线销售,但具体销量未公开。本案的特殊性在