首页 > 业界 > 关键词  > 正文

Meta研究人员提出轻量级微调方法RA-DIT 以增强语言模型知识检索能力

2023-10-08 15:46 · 稿源:站长之家

文章概要:

1. RA-DIT通过两阶段调优提升语言模型利用检索信息的能力和检索器提供相关结果的能力。

2. RA-DIT在知识密集的零样本和少样本学习基准测试中优于现有检索增强模型。

3. RA-DIT65B在需要利用知识的任务中表现显著提升,展现调优带来的效果。

站长之家(ChinaZ.com) 10月8日 消息:最近,Meta的研究人员提出了一种名为检索增强双指令调优(RA-DIT)的新型人工智能方法,用于提升语言模型的知识检索能力。该方法试图解决大型语言模型在捕获较为冷门知识时的局限性以及大规模预训练的高计算成本问题。

RA-DIT是一个轻量级的两阶段微调方法,旨在为任何语言模型赋予高效的检索能力。它通过两种不同的微调方式,每种方式都能带来可观的性能提升。首先,它会优化语言模型利用检索到的信息的能力。其次,它会优化检索器提供的内容相关性,使其能够提供更符合语言模型偏好的相关结果。通过同时提升语言模型使用检索信息的效果和检索器提供内容的相关性,RA-DIT能有效地增强语言模型的知识检索能力。

科幻 机器人

图源备注:图片由AI生成,图片授权服务商Midjourney

研究人员采用了在大规模数据集上进行过预训练的LLAMA语言模型,并使用初始化为DRAGON模型的双编码器检索架构。此外,他们还提到了使用并行上下文检索增强,以更有效地计算语言模型的预测。

实验结果显示,RA-DIT65B在知识密集的零样本和少样本学习任务中设置了新的基准,大幅超过现有的上下文检索增强语言模型。这证明了轻量级指令调优在提高检索增强语言模型性能方面的效果,特别是在需要访问大量外部知识源的场景中。在需要利用知识和语境感知的任务中,RA-DIT65B的表现有了大幅提升。此外,与基础LLAMA模型相比,RA-DIT在8个常识推理评估数据集中表现更好。

RA-DIT为预训练语言模型带来了检索能力的提升。它在知识密集的零样本和少样本评估中取得了最先进的结果,超过了未调优的上下文检索增强语言模型,与大规模预训练的方法展现出竞争力。RA-DIT显著改善了对知识利用和语境感知的要求较高的任务的表现。该研究证明了轻量级指令调优对检索增强语言模型的有效性,特别是在涉及大规模外部知识源的场景中。

论文网址:https://arxiv.org/abs/2310.01352

举报

  • 相关推荐
  • 京东开源图像模型JoyAI-Image-Edit:达到世界一流水平

    京东探索研究院近日开源了自研的JoyAI-Image-Edit图像模型,其核心突破在于能理解图像的三维空间结构,解决了传统AI修图空间逻辑混乱的问题。该模型具备三大空间编辑能力:视角变换、空间漫游和物体空间关系操控,并兼容15类通用编辑功能。应用场景广泛,尤其在具身智能领域,可为机器人理解世界提供关键底层能力。京东近期在AI领域动作频频,持续推动AI与产业深度融合。

  • AI日报:智谱发布GLM-5V-Turbo多模态Coding大模型;Seedance 2.0 API正式全量开放;美团 LongCat-AudioDiT 开源

    本期AI日报聚焦多领域进展:智谱发布GLM-5V-Turbo多模态编程模型,实现视觉与编程深度融合;字节跳动火山引擎开放Seedance 2.0视频生成API;美团开源LongCat-AudioDiT,刷新语音克隆SOTA;字节豆包大模型日消耗Token破120万亿,国产模型调用量持续增长;蚂蚁数科推出专业级AI智能体DTClaw;Anthropic测试常驻代理Conway,支持独立UI与Webhook;谷歌即将开源120B参数Gemma 4模型;通义实验室发布Qwen3.6-Plus,提升编程智能体稳定性。

  • 最高659元/月!小米推出MiMoToken套餐 16亿Credit随便刷

    小米4月3日推出MiMo Token Plan,统一Credit点数体系,按token使用量直接换算credit消耗量,简化开发者计费流程。不同模型token消耗比例不同,如MiMo-V2-Omni 256k上下文消耗1x,MiMo-V2-Pro 256k消耗2x,更长上下文消耗4x,TTS限时免费。计划取消5小时token使用限额,支持集中消耗token,提升使用灵活性。购买套餐用户还可获得新模型优先内测体验权。Token Plan共推出四档套餐:Lite(39元/月,0.6亿Credits)、Standard(99元/月,2亿Credits)、Pro(329元/月,7亿Credits)、Max(659元/月,16亿Credits),分别面向不同使用强度的开发者和用户。

  • 腾讯版小龙虾WorkBuddy突发故障!官方紧急致歉:补偿1000Credits

    腾讯云WorkBuddy及CodeBuddy团队今日发布公告,回应部分国内用户登录异常事件。 公告显示,今日(4月2日)9时10分起,腾讯平台监测到部分国内用户出现504服务错误、无法登录、闪退或加载失败等问题。 腾讯团队迅速介入处理,11时45分问题逐步修复,目前服务已全面恢复稳定,并对故障给用户带来的不便与困扰深表歉意。 作为补偿,腾讯表示将向所有受影响的国内用户发放10

  • 龙虾记忆能力暴涨!腾讯云发布Agent Memory 准确率较原生OpenClaw提升近6成

    今日,腾讯云宣布正式发布龙虾”记忆服务TencentDB Agent Memory,为OpenClaw补上长期记忆能力。 对于简单的日常对话上下文跟随,OpenClaw毫无压力,但一旦面对长周期、跨会话的复杂项目,由于缺乏稳定的长期记忆系统,AI极易出现早期设定被冲淡、新开窗口就失忆的情况,导致用户常常需要反复重喂背景信息。 为解决该难题,腾讯云数据库团队自研Agent Memory,引入独创的四层渐

  • 微算法科技(NASDAQ :MLGO)量子增强区块链联邦学习:基于量子拜占庭协议的技术革新

    微算法科技(NASDAQ: MLGO)创新性地将量子拜占庭协议与区块链联邦学习深度融合,构建了抗量子攻击、高容错性的分布式学习框架。该框架以量子拜占庭协议为核心共识引擎,通过量子数字签名与纠缠特性突破传统共识容错极限,并借助区块链分布式账本实现训练过程可追溯,使联邦学习在去中心化协作中兼具抗量子攻击能力与高容错性,保障模型训练的安全性、一致性与隐�

  • 国内首个本土化AI知识库在京上线

    随着AI技术从单纯的 “对话交互” 向 “知识深度协作” 逐步演进,个人AI知识库工具已悄然成为科技圈的新竞争热点。4月7日,网易有道正式官宣,推出旗下首款AI知识库产品 —— 有道宝库。这款产品定位为AI研究助手与思考伙伴,在业内被看作中国版 “NotebookLM”,核心聚焦知识的深度理解与结构化重构,能够为用户提供一站式知识管理、AI智能问答及多模态内容生成服务,

  • 声网对话式AI ×ClawStage:让大模型成为你的专属家庭智能体

    当前智能家居仍停留在“你下指令,我执行”的被动模式,功能虽多却各自为战。随着大模型进入家庭,交互逻辑正发生根本变化:用户无需逐个控制设备,而是以AI为核心,实现家庭设备的统一协同,只需与大模型对话即可。这推动了家庭运行方式从“被动触发”走向“主动服务”。未来智能家居将向“家庭智能体”演进,如ClawStage这类具身AI终端,为大模型提供可定位、可感知、可执行的物理接口,解决AI长期“悬浮”在云端、无法干预真实世界的痛点。声网等实时互动技术让用户与AI的对话更自然流畅,推动大模型能力在家庭场景中落地为可感知的服务。

  • 华为乾崑智驾ADS Pro增强版高阶功能包限时优惠:最高省6000元

    华为乾崑智能汽车解决方案宣布,其ADS Pro增强版高阶功能包推出限时优惠,最高可省6000元。一次性购买原价18000元,优惠后仅需12000元;年卡价格从3599元/年降至2499元/年;月卡保持359元/月不变,但连续包月价为249元/月。优惠活动从4月8日持续至6月30日。ADS Pro增强版相比基础版新增城区领航辅助功能,大幅提升日常驾驶便利性。已搭载ADS 4的车型可后续升级至ADS 5的Pro版本,而ADS 4 SE基础版暂不支持升级。

  • 直击2026CMEF,科大国创智能助行机器人爆火

    智行S5智能助行机器人亮相第93届中国国际医疗器械博览会,将汽车级智驾技术应用于个人出行领域。它拥有“智慧大脑”,可识别路况、预警风险、自动刹停,并配备ACC自适应续航系统,保障安全。座舱设计人性化,采用零重力座椅,支持按摩、通风、加热等功能,并配备可收纳小桌板、蓝牙音响等,打造移动智能生活空间。该产品不仅可作为日常代步工具,还适用于社区康养、景区代步等场景,为医疗大健康领域提供全新出行选择。

今日大家都在搜的词: