Meta研究人员提出轻量级微调方法RA-DIT 以增强语言模型知识检索能力

2023-10-08 15:46 · 稿源：站长之家

文章概要:
1. RA-DIT通过两阶段调优提升语言模型利用检索信息的能力和检索器提供相关结果的能力。
2. RA-DIT在知识密集的零样本和少样本学习基准测试中优于现有检索增强模型。
3. RA-DIT65B在需要利用知识的任务中表现显著提升，展现调优带来的效果。

站长之家(ChinaZ.com) 10月8日消息:最近，Meta的研究人员提出了一种名为检索增强双指令调优（RA-DIT）的新型人工智能方法，用于提升语言模型的知识检索能力。该方法试图解决大型语言模型在捕获较为冷门知识时的局限性以及大规模预训练的高计算成本问题。

RA-DIT是一个轻量级的两阶段微调方法，旨在为任何语言模型赋予高效的检索能力。它通过两种不同的微调方式，每种方式都能带来可观的性能提升。首先，它会优化语言模型利用检索到的信息的能力。其次，它会优化检索器提供的内容相关性，使其能够提供更符合语言模型偏好的相关结果。通过同时提升语言模型使用检索信息的效果和检索器提供内容的相关性，RA-DIT能有效地增强语言模型的知识检索能力。

科幻机器人

图源备注：图片由AI生成，图片授权服务商Midjourney

研究人员采用了在大规模数据集上进行过预训练的LLAMA语言模型，并使用初始化为DRAGON模型的双编码器检索架构。此外，他们还提到了使用并行上下文检索增强，以更有效地计算语言模型的预测。

实验结果显示，RA-DIT65B在知识密集的零样本和少样本学习任务中设置了新的基准，大幅超过现有的上下文检索增强语言模型。这证明了轻量级指令调优在提高检索增强语言模型性能方面的效果，特别是在需要访问大量外部知识源的场景中。在需要利用知识和语境感知的任务中，RA-DIT65B的表现有了大幅提升。此外，与基础LLAMA模型相比，RA-DIT在8个常识推理评估数据集中表现更好。

RA-DIT为预训练语言模型带来了检索能力的提升。它在知识密集的零样本和少样本评估中取得了最先进的结果，超过了未调优的上下文检索增强语言模型，与大规模预训练的方法展现出竞争力。RA-DIT显著改善了对知识利用和语境感知的要求较高的任务的表现。该研究证明了轻量级指令调优对检索增强语言模型的有效性，特别是在涉及大规模外部知识源的场景中。

论文网址:https://arxiv.org/abs/2310.01352

（举报）

相关推荐
大家在看

关键词：

【腾讯云】11.11云上盛惠！云服务器首年1.8折起，买1年送3个月！

11.11云上盛惠！海量产品 · 轻松上云！云服务器首年1.8折起，买1年送3个月！超值优惠，性能稳定，让您的云端之旅更加畅享。快来腾讯云选购吧！

Docker容器镜像
去看看

Docker容器镜像 60元/15天

爆款产品组合购
去看看

爆款产品组合购低至1元

腾讯云x NVIDIA加速计划
去看看

腾讯云x NVIDIA加速计划最高获赠10万元扶持基金

2核2G云服务器
去看看

2核2G云服务器 112元/1年

查看更多相关信息>>

腾讯云 12-20

广告
南加州大学提出通道式轻量级重编码CLR 解决大语言模型灾难性遗忘问题

在持续学习领域，南加州大学和GoogleResearch提出了一项创新的方法，通道式轻量级重编码，旨在解决模型在持续学习新任务时出现的灾难性遗忘问题。持续学习的关键挑战是如何在学习新任务后仍然保持对旧任务的性能CLR方法提供了一种有前景的解决方案。这一创新方法有望为未来的持续学习研究和应用提供更多的可能性。

大模型
AI研究人员发现了主要大语言模型中关键漏洞可低成本复制

大型语言模型如ChatGPT和Bard在全球范围内引起了广泛的关注，众多公司投资数百万美元用于开发这些人工智能工具一些领先的AI聊天机器人的估值已达到了数十亿美元。这些LLM主要被应用于AI聊天机器人，它们通过整合互联网上的大量信息来学习和为用户提供请求的答案，这些请求通常被称为“提示”。”这项研究为我们提醒了虽然AI技术带来了巨大的机会，但也伴随着一系列潜在的威胁，因此必须谨慎行事。
微软研究人员用儿童故事进行训练：微型语言模型进入成熟期

学习英语并不容易，许多学生都深有体会。但当学生是一台计算机时，有一种方法表现出奇地出色：只需将大量来自互联网的文本输入到一个名为神经网络的巨大数学模型中。他们的研究结果暗示了可能有助于训练更大型模型并理解其行为的新研究方向。

微型语言模型人工智能微软
DistilBERT：更小、更快、更便宜的大型语言模型压缩方法

大型语言模型的发展迅猛，BERT成为其中最受欢迎和高效的模型，但其复杂性和可扩展性成为问题。为了解决这些问题，市面上目前由三种常见的模型压缩技术:知识蒸馏、量化和剪枝。DistilBERT通过知识蒸馏技术在保持性能的同时显著压缩了大型语言模型，为在资源受限设备上的部署提供了可能性。

DistilBERT
Meta AI提出视频抠图新方法OmnimatteRF:结合动态2D前景图层和3D背景模型

Omnimatte是迄今为止最有前景的视频抠图方法。它使用单应性建模背景，因此只适用于背景为平面或仅有旋转运动的视频。它也可助力构建沉浸式的虚拟环境。

Meta
研究人员发现使用少见语言即可绕过GPT-4的限制

布朗大学的计算机科学研究人员发现了OpenAI的GPT-4存在的安全性问题。通过使用不常见的语言，如祖鲁语和盖尔语，他们成功绕过了GPT-4的限制性设置。尽管他们意识到这一研究可能会给网络犯罪分子提供想法，但他们仍然认为将这一漏洞公之于众是必要的，因为利用现有的翻译API轻松实施这些攻击，因此那些试图绕过安全防护的恶意行为者最终会发现这一漏洞。

GPT-4
Meta悄然发布Llama 2 Long AI模型

Meta最近发布了Llama2LongAI模型，该模型在一些任务上超越了GPT-3.5Turbo和Claude2。通过改进训练方法和编码技术，Meta的研究人员提高了这个AI模型的性能，使其能够更好地处理长文本和复杂任务。强调了合作的重要性，指出不是每个企业都拥有高级的数据工程和数据科学技能，因此需要与具有相关技术和深刻了解整个领域的合作伙伴合作来解决这一问题。

Meta
Meta提出CoVe提示工程方法减少ChatGPT等聊天机器人幻觉问题

MetaAI研究人员提出了一种新的基于提示的方法，称为链式验证，可显著减少ChatGPT等语言模型产生的错误信息。ChatGPT和其他语言模型会重复复制不正确的信息，即使它们已经学到了正确的信息。总Meta的研究为减少类似ChatGPT等对话系统中的错误信息提供了新的思路。

CoVe 提示工程 Meta
LongLoRA：超长上下文，大语言模型高效微调方法

麻省理工学院和香港中文大学联合发布了LongLoRA，这是一种全新的微调方法，可以增强大语言模型的上下文能力无需消耗大量算力资源。想增加大语言模型的上下文处理能力，需要更多的算力支持。LongLoRA在大型语言模型领域提出了创新方法，在处理大量信息时，也可以更轻松、更高效地微调这些模型必须消耗更多的算力资源。

LongLoRA 大语言模型
谷歌、CMU研究表明：语言模型通过使用良好的视觉tokenizer首次击败了扩散模型

来自谷歌、CMU的研究发现，语言模型在图像、视频生成领域的性能一直不如扩散模型，主要原因是缺乏有效的视觉表示。通过引入一种名为MAGVIT-v2的视频tokenizer，采用无查找量化和增强功能的设计，研究者成功改进了图像和视频生成的质量，超越了现有技术。通过这一研究，我们可以看到语言模型在视觉生成领域的潜力，以及如何通过创新的设计和改进来实现更好的性能。

语言模型

今日大家都在搜的词：

热文

3 天
7天

Meta研究人员提出轻量级微调方法RA-DIT 以增强语言模型知识检索能力

今日大家都在搜的词：

热文

站长商机