Colossal-AI团队开源了SwiftInfer 大模型无限流式输入推理飙升46%

2024-01-08 14:04 · 稿源：站长之家

要点:
1. 国产开源项目SwiftInfer实现了无限流式输入推理，提升46%推理性能;
2. 围绕流式超多轮对话，文章详细解释了StreamingLLM的attention sink注意力机制，窗口注意力优化、KV Cache机制优化等方法的原理和优势;
3. 团队成功将StreamingLLM方法与TensorRT推理优化结合，带来46%的推理吞吐速度提升。

站长之家（ChinaZ.com）1月8日消息:近日，国产开源项目SwiftInfer实现了无限流式输入推理，成功提升了大模型推理性能46%。这是一个重大突破，可以为多轮对话场景提供高效可靠的落地方案。

它采用了attention sink注意力机制、窗口注意力优化、KV Cache机制优化等方法，SwiftInfer的推理性能得到了极大提升，为大模型多轮对话推理提供低成本、低延迟、高吞吐的最佳实践。

项目地址:https://top.aibase.com/tool/swiftinfer

在这一方法中，使用了TensorRT的API，获得了接近于PyTorch API的模型编写体验。这对于进一步提升推理性能起到了重要作用。

SwiftInfer通过了解了注意力模块中Softmax的输出，发现了attention sink的现象，使得在多轮对话的情景下，生成效果更加稳定。

它使用了基于attention sink的注意力机制，无论是在计算复杂度还是生成效果上都表现优异。经过SwiftInfer的优化，推理性能提升非常明显。

Colossal-AI团队发布的SwiftInfer在推理性能上的提升很明显，为大模型多轮对话推理提供了高效可靠的落地方案。

Colossal-AI目前已获得GitHub星数三万五千多颗，位列全球TOP400，细分赛道排名世界第一，可通过高效多维并行、异构内存等，降低AI大模型训练/微调/推理的开发与应用成本，提升模型任务表现，降低GPU需求。

（举报）

相关推荐
大家在看

关键词：

SwiftInfer

【腾讯云】11.11云上盛惠！云服务器首年1.8折起，买1年送3个月！

11.11云上盛惠！海量产品 · 轻松上云！云服务器首年1.8折起，买1年送3个月！超值优惠，性能稳定，让您的云端之旅更加畅享。快来腾讯云选购吧！

Docker容器镜像
去看看

Docker容器镜像 60元/15天

爆款产品组合购
去看看

爆款产品组合购低至1元

腾讯云x NVIDIA加速计划
去看看

腾讯云x NVIDIA加速计划最高获赠10万元扶持基金

2核2G云服务器
去看看

2核2G云服务器 112元/1年

查看更多相关信息>>

腾讯云 12-20

广告
股价飙升！商汤大模型挑战GPT4

4月24日，商汤集团在港交所暂停交易前股价上涨31.15%。商汤集团表示，其大模型日日新5.0发布会受到市场极大关注，公司将进一步刊发相关公告。商汤的生成式AI业务在2023年取得了显著增长，占总收入的35%。

商汤
荐开源大模型AI代理操作系统：像Windos一样，操控AI代理

AutoGPT的出现让我们见识到了AI代理强大的自动化能力，并开创了一个全新的AI代理赛道。但在子任务调度、资源分配以及AI之间协作还有不少的难题。AIOS会引入更复杂的内存共享机制和层级缓存策略，以进一步优化AI代理的整体性能。

AI代理 AI代理大模型
以假乱真，天工音乐大模型带来颠覆式AI体验

昆仑万维AI音乐生成大模型「天工SkyMusic」开启了免费邀测活动，诚邀媒体、行业专家以及感兴趣的音乐从业者们共同体验人声情感表达SOTA的音乐大模型产品。邀测开始后，广大用户对「天工SkyMusic」AI音乐生成大模型的热情远超我们的预期，工作人员在极短时间内收到了几十万份测试申请，其中包括众多专业的音乐创作人、媒体及行业专家有大量测试申请被源源不断地发至后台。昆仑万维已打造了集AI搜索、AI写作、AI长文本阅读、AI对话、AI语音合成、AI图片生成、AI漫画创作、AI图片识别、AI音乐生成、AI代码写作、AI表格生成等多项能力于一体的「天工3.0」多模态“超级模型”，成为AI行业全新里程碑。

AI音乐生成天工SkyMusic 邀测活动
谷歌推出”自我发现“框架，极大增强GPT-4等大模型推理能力

随着ChatGPT的出现，大语言模型在生成连贯文本和遵循指令方面获得了巨大技术突破。然后在推理和解决复杂内容方面，面临内容不准确、安全等难题。每次只需要一个查询获得相似性能的集成方法需要40倍的查询量，也就是说可以节省很多算力资源。

GPT-4
fal官网体验入口生成式媒体模型AI推理工具使用地址

fal是一个生成式媒体平台，旨在为开发者提供最先进的生成式媒体模型，并通过fal的推理专家优化，实现闪电般快速的推理。该平台支持实时WebSocket推理基础设施，并提供私有部署选项，以最经济的方式根据使用量付费。开发者可通过fal灵活的计费方式，实现经济高效的生成式媒体应用。

fal
360智脑7B参数大模型正式开源最长支持约50万字输入

360公司自主研发的7B参数大模型——360智脑，现已正式上线开源社区，并提供了基础模型以及4K、32K、360K三种不同文本长度的版本。这一大模型在支持文本长度方面表现出色，最长可处理360K长文本，相当于约50万字的输入内容。在中英文360K大海捞针效果测试中，也取得了超过98%的高分。

大模型文本长度开源社区
荐苹果开源OpenELM，大模型开源领域再迎一巨头！

4月24日，苹果开源了大语言模型OpenELM。这与微软刚开源的Phi-3Mini类似，是一款专门针对手机等移动设备的模型。这次苹果真的是很有诚意的开源，一开到底所有内容都贡献出来了，家大业大就是敢玩。

OpenELM 开源
百度智能云发布千帆大模型一体机：预置十余个主流开源大模型

在百度智能云GENERATE全球生态大会上，百度智能云发布千帆大模型一体机，从算力资源角度分为通用版、昇腾版、昆仑芯版三个版本，为企业私有化部署大模型提供解决方案。千帆大模型一体机预置了百度自研的文心大模型，以及Llama、Baichuan、ChatGLM等十余个主流开源大模型。过去6个月，百度智能云生态伙伴的数量增长了5倍，伙伴们开发的300多款应用通过千帆应用商店”进入市场。

百度智能云 GENERATE全球生态大会千帆大模型一体机
aiXcoder-7B官网体验入口 AI代码大模型使用地址

aiXcoder-7B是一个拥有70亿参数的代码大模型，专为企业级软件开发设计。其性能超越340亿参数的Codellama模型，在真实开发场景下表现卓越。提升您的软件开发效率，优化代码质量，尽在aiXcoder-7B。

aiXcoder-7B aiXcoder
大模型推理显卡选购指南：4090显卡为何成为不二之选

在人工智能领域，尤其是在模型训练和推理阶段，显卡的性能至关重要。随着模型的规模越来越大，对算力的需求也会倍增。新用户还可以免费领取500元卡时计算资源。

人工智能显卡性能模型训练

今日大家都在搜的词：

热文

3 天
7天

Colossal-AI团队开源了SwiftInfer 大模型无限流式输入推理飙升46%

今日大家都在搜的词：

热文

站长商机