首页 > 业界 > 关键词  > 正文

BiTA:创新AI方法加速大型语言模型生成

2024-02-02 13:56 · 稿源:站长之家

**划重点:**

- 🚀 **加速语言模型推理:** BiTA通过双向调优和简化的SAR草稿验证,实现对自回归语言模型(AR)的无损加速,为公开可访问的基于transformer的LLMs提供插拔式模块,特别适用于聊天机器人等实时应用。

- 🌐 **双向调优与树状解码:** BiTA采用双向调优和树状解码技术,通过在单个前向传递中同时生成和验证多个标记,提高了LLMs的生成效率。。

- 🤖 **通用架构与可插拔设计:** BiTA的通用架构使其成为一个可插拔的方法,可用于加速任何公开可访问的transformer-based LLMs,而不会削弱其卓越的生成能力。

站长之家(ChinaZ.com)2月2日 消息:近年来,基于transformer架构的大型语言模型(LLMs)已经崭露头角。Chat-GPT和LLaMA-2等模型展示了LLMs参数的迅速增加,从几十亿到数万亿。尽管LLMs是非常强大的生成器,但由于所有参数的计算负载,它们在推理延迟方面存在问题。因此,人们一直在努力加速LLMs的推理,尤其是在像边缘设备和实时应用(如聊天机器人)等资源受限的情境中。

image.png

最近的研究表明,大多数仅解码器的LLMs遵循逐标记生成模式。由于标记生成的自回归(AR)性质,每个标记必须经过推理执行,导致许多transformer调用。这些调用针对内存带宽限制运行,常常导致降低计算效率和较长的墙钟周期。

通过在单个模型推理步骤中同时合成多个标记,半自回归(SAR)解码减少了推理执行的高需求。问题在于,大多数LLMs只能生成AR模型,而不能生成SAR模型。由于SAR目标和AR预训练不同步,重新训练SAR模型似乎是一项艰巨的任务。

Intellifusion Inc.和哈尔滨工业大学的研究人员希望通过他们的新加速方法,即双向调优以实现无损SAR解码的Bi-directional Tuning for lossless Acceleration(BiTA),通过学习少量额外的可训练参数,甚至只有0.01%。BiTA的两个主要部分是建议的双向调优和简化的SAR草稿候选验证。为了预测未来的标记,AR模型的双向调优将提示和掩码标记一起纳入考虑,超越了下一个标记。标记序列中的可学习前缀和后缀嵌入是这种方法的一个隐喻。在变换后的AR模型中,通过复杂的基于树的注意机制,生成和验证在单个前向传递中同时进行,无需额外的验证程序或第三方验证模型。建议的方法使用快速调优,可作为插拔模块用于加速任何公开可访问的基于transformer的LLMs,特别是那些经过良好指导的聊天机器人,而不削弱其出色的生成能力。

该模型使用基于树的解码技术在并行中执行高效的创建和验证。BiTA的这两个方面共同作用,加速LLMs的同时保持原始输出不变。在对不同大小的LLMs进行了广泛的生成任务测试后,研究发现其印象深刻的加速效果范围为2.1×至3.3×。此外,当资源受限或需要实时应用时,BiTA的可调提示设计使其成为一种可插即用的方法,可用于加速任何公开可用的LLMs。

论文网址:https://arxiv.org/pdf/2401.12522.pdf

举报

  • 相关推荐
  • 大家在看
  • August:, 你的健康伴侣

    August 是一个免费的健康人工智能平台,提供24/7的咨询服务。无论你面临健康问题、心理健康问题、营养与健身问题,还是需要支持和指导,August 都可以帮助你。它可以回答你的健康问题、提供个性化建议、定期关怀你的健康状态等。

  • robotika.ai:通过AI辅助做出明智的投资决策

    RoboFin是您的AI动力投资分析师。它通过分析大量的数据,提供基于数据分析的清晰可行的投资建议,帮助您做出明智的投资决策。RoboFin的优势包括减轻压力、节约时间、提高投资回报等。

  • GpuMall智算云:面向AI开发者的GPU云平台,高性价比,极致体验,计费灵活

    GpuMall智算云是一个面向AI开发者的GPU云平台,提供高性价比的计算资源,灵活的计费方式,以及弹性的调度能力,可以满足AI开发者的各种需求。用户可以在这里快速租用GPU资源进行AI模型训练和推理,并且可以根据实际使用情况灵活调整资源配置,达到最佳性价比。平台还提供了丰富的使用文档和在线客服支持,让用户使用起来更加便捷。

  • ACEPAL:个性化营销建议

    ACEPAL 是一个个性化营销建议平台,为数千个营销任务提供个性化建议。它利用动态提示生成器和优化聊天机器人来提升营销效果。ACEPAL 可以帮助分析Facebook、Twitter、LinkedIn、Instagram、Pinterest、TikTok和YouTube等平台的数据,并根据不同任务和变量提供定制化的营销建议。它的功能包括分析受众洞察、分析竞争对手策略、优化内容策略、提供最佳时机建议等。ACEPAL的价格根据用户需求定制,请联系我们获取详细定价信息。

  • LLM Transparency Tool:分析Transformer语言模型的内部工作机制

    LLM Transparency Tool(LLM-TT)是一个开源的交互式工具包,用于分析基于Transformer的语言模型的内部工作机制。它允许用户选择模型、添加提示并运行推理,通过可视化的方式展示模型的注意力流动和信息传递路径。该工具旨在提高模型的透明度,帮助研究人员和开发者更好地理解和改进语言模型。

  • JetMoE-8B:以低成本实现高性能的大型语言模型

    JetMoE-8B是一个开源的大型语言模型,通过使用公共数据集和优化的训练方法,以低于10万美元的成本实现了超越Meta AI LLaMA2-7B的性能。该模型在推理时仅激活22亿参数,大幅降低了计算成本,同时保持了优异的性能。

  • CTRL-F-VIDEO:在视频中快速搜索特定单词或短语

    CTRL-F-VIDEO 是一个开源项目,通过Chrome扩展实现在YouTube视频中搜索特定单词或短语的功能。它利用OpenAI的Whisper模型将音频转换为文本,并在视频时间条上标记出匹配词汇的位置,帮助用户节省查找信息的时间。

  • Breezemail:整理你的收件箱,AI分类

    Breezemail帮助你保持重要的邮件在收件箱内,并通过AI分类整理其余的邮件。我们训练了AI来识别对你重要的邮件,将其标记为重要邮件,并将其余的邮件自动组织到智能分类中。你可以使用预定义的分类,也可以创建自己的智能分类。Breezemail使用ChatGPT查询来组织你的邮件,不再需要复杂的过滤器和编程运算符来构建邮件标签。现在,你可以使用自然语言轻松创建自己的个性化超级高级分类。例如:“所有关于金融和投资的邮件”。Breezemail还提供了预定义的分类,帮助你无需努力就可以整理收件箱。订阅Breezemail,让我们的AI发挥魔力,相信你的收件箱会感谢你的。安全与隐私方面,Breezemail致力于保护您的安全和隐私。我们不会保留、出售或分析您的数据,除非与我们的公开可访问功能相关。我们不会展示广告,因为我们会为我们的服务收取公平的订阅费用。我们不会共享、出售或试图使您的数据匿名化,您的数据包括您的电子邮件地址、在您的邮箱中发现的电子邮件地址,以及电子邮件内容和附件。您的电子邮件内容仅由ChatGPT处理。我们使用ChatGPT来处理和分类您的电子邮件内容,所有包括文本、图片、附件等的电子邮件内容都直接发送到ChatGPT API,Breezemail不在服务器上处理或保留您的任何内容。您可以随时授予Breezemail访问您的邮箱,并且可以随时撤销。所有访问令牌都经过加密,仅用于执行与我们功能相关的操作。您的凭据也经过加密,以保护您的邮箱访问细节,使其对Breezemail内部的任何人都无法访问。订阅我们的通讯,获取有关Breezemail的更新。谢谢!

  • Somi AI:AI写作与助手工具

    Somi AI是最受欢迎的高等教育、市场营销人员、企业主、影响者和作家的AI写作软件工具。我们的AI助手引擎帮助您更好、更快地写作。

  • S&C - Gemini™ AI chat for Google™ search:在Google™搜索中与Gemini™ AI聊天

    S&C - Gemini™ AI chat for Google™ search是一款能够在Google™搜索中与Gemini™ AI进行聊天的插件。它提供Gemini™、ChatGPT™、Claude™和Pi™等多个聊天机器人,可以在搜索页面上直接与它们进行对话。插件支持Google™、Yahoo™和DuckduckGo™等搜索引擎,并且提供无限制的免费查询次数。

  • Jinno: code any React component with AI:用AI开发HTML或React组件,并与GPT4聊天

    Jinno是一个使用AI开发HTML或React组件的插件。它可以修改React、HTML和CSS代码。它支持React、CSS和JavaScript,并提供了颜色选择器、字体选择器、页面标尺等功能。可以导出React、HTML和CSS代码,适用于开发人员和设计师。

  • Free Email Extractor from Website:强大的免费网络电子邮件抓取工具,自动访问网站以快速提取批量电子邮件、电话号码和社交资料,支持域名到电子邮件查找。

    My Email Extractor是一个强大的免费网络电子邮件抓取工具,它可以自动访问网站并快速提取电子邮件、电话号码和社交资料。它支持从不同域名提取电子邮件,并将结果保存到CSV文件中。用户可以使用它来生成销售线索、进行市场研究以及数据自动化。My Email Extractor的准确性取决于数据来源,它实时从网页中收集电子邮件。

  • WizardLM-2:新模型,多种型号,AI驱动合成数据训练

    WizardLM-2是WizardLM推出的新一代大型语言模型,包含三种型号:8x22B、70B和7B。该产品采用AI驱动的合成数据训练系统,通过数据分析、加权抽样、渐进式学习和AI互校AI等方法,优化模型性能。它能够自动生成高品质的指令和响应,提供多样化的对话能力,适用于多种编程和开发场景。

  • idefics-80b:一个通用的多模态模型,可用于问答、图像描述等任务

    HuggingFaceM4/idefics-80b-instruct是一个开源的多模态模型,它可以接受图像和文本的输入,输出相关的文本内容。该模型在视觉问答、图像描述等任务上表现出色,是一个通用的智能助手模型。它由Hugging Face团队开发,基于开放数据集训练,提供免费使用。

  • Video2Game:从单一视频创建实时互动游戏环境

    Video2Game是一项技术,可以将单一视频转换成具有实时、互动、真实感和浏览器兼容性的高质量虚拟环境。它通过构建大规模的NeRF模型来实现高质量的表面几何形状,然后将该模型转换为带有对应刚体动力学的网格表示,以支持交互。使用UV映射的神经纹理,既能表达丰富,又与游戏引擎兼容。最终得到的是一个虚拟环境,虚拟角色可以与之互动,响应用户控制,并能从新的相机视角实时提供高分辨率渲染。

  • Cohere Compass:多方面数据索引与搜索模型

    Cohere Compass是一款新型的多方面嵌入模型,专为解决企业数据中的多重概念和关系检索挑战而设计。它能够将数据以JSON格式传递至嵌入模型,转换后存储在向量数据库中,保持元数据和文本的同时,捕捉多方面数据中概念间的关系。与传统的RAG流程相比,Compass通过其SDK将电子邮件及其附件解析为单一JSON,生成包含多方面表示的嵌入输出,从而在搜索时能够准确理解和匹配查询中的不同方面。

  • Ctrl-Adapter:视频生成的精细控制工具

    Ctrl-Adapter是一个专门为视频生成设计的Controlnet,提供图像和视频的精细控制功能,优化视频时间对齐,适配多种基础模型,具备视频编辑能力,显著提升视频生成效率和质量。

  • Reka Core:强大的多模态LLM,商业解决方案

    Reka Core是一个GPT-4级别的多模态大型语言模型(LLM),具备图像、视频和音频的强大上下文理解能力。它是目前市场上仅有的两个商用综合多模态解决方案之一。Core在多模态理解、推理能力、编码和Agent工作流程、多语言支持以及部署灵活性方面表现出色。

  • 2txt:快速将图片中的文字转换为可编辑文本

    2txt是一个在线OCR工具,能够将图片中的文字内容快速识别并转换成可编辑的文本格式。它支持多种语言的识别,并且操作简单,用户只需上传图片即可获得结果。该工具不存储用户上传的图片,保证了用户数据的隐私安全。

  • 法行宝:AI智能法律分析工具

    法行宝是一款集成了人工智能技术的法律服务平台,旨在为用户提供专业的法律意见和文书参考。通过预设问题引导用户提供必要信息,结合《中华人民共和国民法典》等相关法律法规,生成详细的法律意见书。法行宝不仅提供离婚流程指导、文书模板下载,还包含人性化的行动建议和扩展资料,帮助用户全面理解并应对法律问题。

今日大家都在搜的词: