BiTA：创新AI方法加速大型语言模型生成

2024-02-02 13:56 · 稿源：站长之家

**划重点:**
- 🚀 **加速语言模型推理:** BiTA通过双向调优和简化的SAR草稿验证，实现对自回归语言模型（AR）的无损加速，为公开可访问的基于transformer的LLMs提供插拔式模块，特别适用于聊天机器人等实时应用。
- 🌐 **双向调优与树状解码:** BiTA采用双向调优和树状解码技术，通过在单个前向传递中同时生成和验证多个标记，提高了LLMs的生成效率。。
- 🤖 **通用架构与可插拔设计:** BiTA的通用架构使其成为一个可插拔的方法，可用于加速任何公开可访问的transformer-based LLMs，而不会削弱其卓越的生成能力。

站长之家（ChinaZ.com）2月2日消息:近年来，基于transformer架构的大型语言模型（LLMs）已经崭露头角。Chat-GPT和LLaMA-2等模型展示了LLMs参数的迅速增加，从几十亿到数万亿。尽管LLMs是非常强大的生成器，但由于所有参数的计算负载，它们在推理延迟方面存在问题。因此，人们一直在努力加速LLMs的推理，尤其是在像边缘设备和实时应用(如聊天机器人)等资源受限的情境中。

最近的研究表明，大多数仅解码器的LLMs遵循逐标记生成模式。由于标记生成的自回归（AR）性质，每个标记必须经过推理执行，导致许多transformer调用。这些调用针对内存带宽限制运行，常常导致降低计算效率和较长的墙钟周期。

通过在单个模型推理步骤中同时合成多个标记，半自回归（SAR）解码减少了推理执行的高需求。问题在于，大多数LLMs只能生成AR模型，而不能生成SAR模型。由于SAR目标和AR预训练不同步，重新训练SAR模型似乎是一项艰巨的任务。

Intellifusion Inc.和哈尔滨工业大学的研究人员希望通过他们的新加速方法，即双向调优以实现无损SAR解码的Bi-directional Tuning for lossless Acceleration（BiTA），通过学习少量额外的可训练参数，甚至只有0.01%。BiTA的两个主要部分是建议的双向调优和简化的SAR草稿候选验证。为了预测未来的标记，AR模型的双向调优将提示和掩码标记一起纳入考虑，超越了下一个标记。标记序列中的可学习前缀和后缀嵌入是这种方法的一个隐喻。在变换后的AR模型中，通过复杂的基于树的注意机制，生成和验证在单个前向传递中同时进行，无需额外的验证程序或第三方验证模型。建议的方法使用快速调优，可作为插拔模块用于加速任何公开可访问的基于transformer的LLMs，特别是那些经过良好指导的聊天机器人，而不削弱其出色的生成能力。

该模型使用基于树的解码技术在并行中执行高效的创建和验证。BiTA的这两个方面共同作用，加速LLMs的同时保持原始输出不变。在对不同大小的LLMs进行了广泛的生成任务测试后，研究发现其印象深刻的加速效果范围为2.1×至3.3×。此外，当资源受限或需要实时应用时，BiTA的可调提示设计使其成为一种可插即用的方法，可用于加速任何公开可用的LLMs。

论文网址:https://arxiv.org/pdf/2401.12522.pdf

（举报）

相关推荐

关键词：

时空壶接入大语言模型，跨语言沟通已成翻译的艺术

在当今全球化浪潮中，跨语言沟通的需求如潮水般汹涌。从商务领域的跨国谈判，到文化交流中的思想碰撞，高效、精准的语言翻译成为关键桥梁。随着技术的不断发展与迭代，时空壶有望持续引领行业变革，推动全球交流合作迈向新的高度，真正实现跨越语言障碍，让世界沟通无阻。

跨语言沟通 AI 翻译设备
时空壶接入DeepSeek、豆包等大语言模型，翻译准确度再次跃升

在全球跨语言沟通需求持续攀升的当下，时空壶再次以创新之举震撼行业。时空壶正式宣布接入DeepSeek、豆包等大语言模型，为其同传耳机产品带来了前所未有的体验升级，彻底改写了同传翻译的游戏规则，也让传统机翻模式成为历史。这一创新举措不仅满足了当下各行业对高质量跨语言沟通的迫切需求，更为未来跨语言交流的发展指明了方向，有望推动整个行业向更加智能、精准、自然的方向迈进，助力全球交流合作开启全新篇章。

跨语言沟通同传耳机大语言模型
大型科技公司审查更加严苛，苹果和 Meta 遭欧天价罚款

针对苹果和 Meta 的行动可能仅仅是一个开始。谷歌和 X 也正在欧盟监管机构的监管之下 —— 立法者正在推动采取坚定、一致的措施……

苹果公司 meta 数字市场法
提升大模型自动修Bug能力豆包正式开源首个多语言类SWE数据集

今日，字节跳动豆包大模型团队宣布，正式开源首个多语言类SWE数据集Multi-SWE-bench，可用于评估和提升大模型自动修Bug”能力。在SWE-bench基础上，Multi-SWE-bench首次覆盖Python之外的7种主流编程语言，是真正面向全栈工程”的评测基准。相比于以往聚焦Python的单语言任务，Multi-SWE-bench更贴近现实中的多语言开发场景，也更能反映当前模型在自动化软件工程”方向上的实际能力边界。

字节跳动多语言数据集大模型自动修复
荐AI日报：智谱开源32B/9B系列GLM模型并启用Z.ai域名；OpenAI发布GPT-4.1系列模型；阿里魔搭上线MCP广场

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解:https://top.aibase.com/1、智谱AI启用全新域名Z.ai 并开源32B/9B 系列 GLM 模型智谱技术团队近期宣布开源32B和9B系列的GLM模型，并推出全新交互体验平台Z.ai。这些模型遵循MIT许可协议，支持商业用途，提升了

人工智能开源模型 GLM模型
荐被吉卜力刷屏的背后：OpenAI模型行为负责人揭秘GPT-4o新生成策略

为什么我们会被吉卜力刷屏?原来是OpenAI故意放宽限制。OpenAI革新的GPT-4o图像功能给大家带来了不少乐趣，各路社交媒体都被「吉卜力」风格的图像、视频刷了屏。如果你有更合理的猜想，欢迎在评论区留言。

吉卜力 OpenAI GPT-4o
DeepSeek领航大模型普惠化浪潮，xAI/微美全息加速开源AI布局打造新格局

DeepSeek 作为当前最受关注的大模型之一，凭借其技术创新正在加速 AI 普惠化进程。根据机构新报告显示，DeepSeek已经成为全球增长最快的AI工具，其每月新增网站访问量已经超过OpenAI的ChatGPT。DeepSeek市场份额全球第三目前，DeepSeek市场份额6.58%，仅次于ChatGPT和Canva。DeepSeek是继ChatGPT之后的又一现象级AI产品，它的市场份额从2.34%快速增长至6.58%，展现出强劲的增长态势。全球著名�

DeepSeek AI工具技术创新
低端显卡登上AI的大船！6GB显存就能生成高质量视频

快科技4月20日消息，GitHub的Lvmin Zhang联合斯坦福大学的Maneesh Agrawala，发布了一项突破性的新技术FramePack，通过在视频扩散模型中使用固定长度的时域上下文，可以更高效地生成时间更长、质量更高的视频。根据实测，基于FramePack构建的130亿参数模型，只需一块6GB显存的显卡，就能生成60秒钟的视频。FramePack是一种神经网络架构，使用多级优化策略，完成本地AI视频生成。目前，�
AI 大模型的困境：数据才是真正的“燃料”

一旦掉入AI坟场，幻觉将永远存在，噩梦才刚开始。最近有许多客户在考虑上AI大模型一体机、AI私有化、AI大模型部署等项目，但小心进入AI大模型的坟场，在光鲜亮丽的背后，AI大模型也面临着诸多困境，其中最为核心的问题便是数据。只有拥有高质量、多样化、易于管理的数据，AI大模型才能发挥出其真正的潜力，为企业带来更大的价值。

AI 大模型数据质量
荐AI暂时生成不了鲁迅和张爱玲，但别高兴太早

“你看看篇文章，像不像是AI写的?”一个普通的工作日，我把一篇稿子发给编辑部的同事，随后对此展开AI文风大讨论。这篇稿子短短两千字，却出现了三个“有人认为”，外加三个“有网友认为”。倘若不加以修正，人类语料所要经受的“大屠杀”，或许也将成为AI时代的固有可能。

AI写作文风分析媒体讨论

热文

3 天
7天

BiTA：创新AI方法加速大型语言模型生成

时空壶接入大语言模型，跨语言沟通已成翻译的艺术

时空壶接入DeepSeek、豆包等大语言模型，翻译准确度再次跃升

大型科技公司审查更加严苛，苹果和 Meta 遭欧天价罚款

提升大模型自动修Bug能力豆包正式开源首个多语言类SWE数据集

荐AI日报：智谱开源32B/9B系列GLM模型并启用Z.ai域名；OpenAI发布GPT-4.1系列模型；阿里魔搭上线MCP广场

荐被吉卜力刷屏的背后：OpenAI模型行为负责人揭秘GPT-4o新生成策略

DeepSeek领航大模型普惠化浪潮，xAI/微美全息加速开源AI布局打造新格局

低端显卡登上AI的大船！6GB显存就能生成高质量视频

AI 大模型的困境：数据才是真正的“燃料”

荐AI暂时生成不了鲁迅和张爱玲，但别高兴太早

热文

“你可能患了血癌……” 医生诊断错误，而 ChatGPT 是对的！

郭明錤：iPhone17有望全系配12GB内存！但，有个前提……

Adobe 发布 Firefly 系列产品，涵盖图片、视频、矢量等

Anthropic警告：距离无人干涉的 “AI员工” 时代，只剩一年了！

Meta AI眼镜“实时翻译”功能全面开放，不联网也能用！

反垄断案中，谷歌披露 Gemini 月活达3.5亿，日流量为3500万

“你可能患了血癌……” 医生诊断错误，而 ChatGPT 是对的！

郭明錤：iPhone17有望全系配12GB内存！但，有个前提……

4chan 之“死”：互联网最狂野的角落逐渐消逝！

Adobe 发布 Firefly 系列产品，涵盖图片、视频、矢量等

英特尔本周宣布裁员超20%计划，陈立武上任后的首次重大重组

马斯克回归消息传出后，特斯拉股价飙升10%

“两年后，垃圾邮件问题将被解决”，谁在 2004 年说了这样的话

站长商机