11.11云上盛惠!海量产品 · 轻松上云!云服务器首年1.8折起,买1年送3个月!超值优惠,性能稳定,让您的云端之旅更加畅享。快来腾讯云选购吧!
摩尔线程科研团队近日发布了一项新的研究成果《RoundAttention:以轮次块稀疏性开辟多轮对话优化新范式》,使得端到端延迟低于现在主流的FlashAttention推理引擎,kv-cache显存占用节省最多82%。AI大型语言模型的进步,推动了语言模型服务在日常问题解决任务中的广泛应用。RoundAttention的端到端延迟低于现在主流的FlashAttention推理引擎,kv-cache显存占用则节省55-82%,并且在主观评测和客观评测两个数据集上,模型推理准确率基本未受影响。