11.11云上盛惠!海量产品 · 轻松上云!云服务器首年1.8折起,买1年送3个月!超值优惠,性能稳定,让您的云端之旅更加畅享。快来腾讯云选购吧!
LLM若想高速推理,现如今,连GPU都无法满足了?曾造出世界最大芯片公司Cerebras,刚刚发布了全球最快的AI推理架构——CerebrasInference。运行Llama3.18B时,它能以1800token/s的速率吐出文字。值得注意的是,在Cerebras上跑的Llama3.1,上下文只有8k……相比之下,其他平台都是128K。
推理大模型是AI服务提供商面临的巨大经济挑战之一,因为运营这些模型的成本非常高。FlashDecoding是一种新的技术,旨在解决这一问题,它通过提高LLM推理速度和降低成本,为使用大模型赚钱提供了新的可能性。这对AI服务提供商和大模型创业公司都是一个重要的突破。
大模型业务到底多烧钱?前段时间,华尔街日报的一则报道给出了参考答案。微软的GitHubCopilot业务虽然每月收费10美元,但平均还是要为每个用户倒贴20美元。「Infini-Megrez」大模型在CEval、MMLU、CMMLU、AGIEval等数据集上均取得了第一梯队算法性能,并依托「Infini-ACC」计算引擎持续进化中。