首页 > 业界 > 关键词  > DRAGIN最新资讯  > 正文

新机器学习框架DRAGIN:用于大语言模型中的动态检索增强,胜过传统方法

2024-04-03 09:30 · 稿源:站长之家

划重点:

⭐️ DRAGIN 是一种适用于大型语言模型的动态检索增强生成框架,能够根据实时信息需求动态确定何时以及如何检索外部信息。

⭐️ 该框架包括两个关键组件:实时信息需求检测(RIND)和基于自注意力的查询构建(QFS),在四个知识密集型数据集上表现优异。

⭐️ DRAGIN 在提高语言模型性能方面具有明显优势,通过优化检索激活时机和查询精度,有效增强了语言模型的生成能力。

站长之家(ChinaZ.com)4月3日 消息:研究人员从清华大学和北京理工大学开发了 DRAGIN,这是一种针对大型语言模型设计的动态检索增强生成框架。

该框架旨在通过在文本生成过程中实时确定何时以及如何检索外部信息,从而提高语言模型的性能。为了解决当前方法在确定何时进行检索和检索内容方面过于静态的问题,DRAGIN 引入了 RIND 和 QFS 两个关键组件。其中,RIND 主要用于确定检索时机,考虑语言模型的不确定性和令牌重要性;而 QFS 则用于构建查询,利用上下文的自注意力机制优先选择与当前上下文相关的令牌。通过这种动态检索的方式,DRAGIN 在四个知识密集型数据集上表现出色,而且无需额外的训练或提示工程。

image.png

传统的单轮检索增强方法通过将初始输入作为查询,将外部知识引入到语言模型中。以往的研究已经深入探讨了这种方法,例如 REPLUG 使用语言模型生成检索模型的训练数据,UniWeb 则自我评估是否需要检索。然而,对于需要大量外部知识的复杂任务,多轮检索变得至关重要。DRAGIN 则采用了新颖的多轮检索方法,通过 FLARE 在遇到不确定令牌时触发检索,从而提高检索相关性,同时考虑了语言模型的实时信息需求。

DRAGIN 是一个旨在解决语言模型动态检索增强方法的框架。通过 RIND 和 QFS 优化检索激活时机和查询精度,使得在知识密集型任务上取得更好的性能。尽管它依赖于基于 Transformer 的语言模型的自注意力机制,但 DRAGIN 展现出了显著的有效性。未来的工作旨在克服与自注意力可访问性相关的限制,并对查询构建技术的影响进行评估。

论文:https://arxiv.org/abs/2403.10081

举报

  • 相关推荐
  • 高通发布全新产品品牌“跃龙Dragonwing”

    高通近日正式揭晓了其全新产品品牌——“跃龙”。这一品牌的英文名称为“Dragonwing”,寓意“龙之翼”,旨在与现有的骁龙品牌形成互补,共同开拓工业与嵌入式物联网、网络解决方案以及蜂窝移动通信基础设施等全新领域。两大品牌均基于高通广泛且先进的技术组合,包括OryonCPU架构、AdrenoGPU架构、HexagonDSP架构、基带和射频技术、FastConnect无线连接技术等,为用户提供前沿的AI能力、高能效计算以及广泛的连接解决方案。

  • 2025全球机器学习技术大会即将召开:汇聚全球AI顶尖专家,共话未来技术趋势

    由CSDN与Boolan联合主办的「2025全球机器学习技术大会」将于4月18日至19日在上海虹桥西郊庄园丽笙大酒店隆重举行。本次大会汇聚全球AI领域的顶级学者、行业领袖和技术专家,共同探讨大模型技术演进、智能体、代码大模型、多模态技术等前沿话题,为参会者提供全方位的技术解读与行业洞察。参会报名与联系方式参会席位现已开放,欢迎登陆大会官网2025全球机器学习技术大�

  • 靠游戏“Carry”语言学习App,吸量还赚钱?

    2月18日日本iOS教育下载榜|图片来源:点点数据上个月,一款AI教育产品《麦格纳与神秘少女》,登上了日本iOS教育下载榜Top5,上升了404位。这款产品出现在教育分榜中有些突兀,无论是名字还是Icon,它都更像是一款手游,简单的试用了一下,大思路就是将学习过程融入到游戏当中,让用户“无痛学习”。但如何不喧宾夺主,平衡好兴趣和学习效果,则是实操层面需要一步步去�

  • DeepSeek第二炸:开源首个用于 MoE 模型训练通信库

    今天是DeepSeek开源周第二日,一早,DeepSeek如约就放出了开源代码库DeepEP王炸。DeepEP是首个用于MoE模型训练和推理的开源EP通信库,它填补了MoE模型专用通信工具的空白,为大规模分布式AI训练和实时推理场景提供了更高效的底层支持。6、深度优化场景针对NVLink到RDMA的非对称带宽转发场景进行专项优化,提升异构网络下的传输性能;此外,它还支持SM数量动态控制,平衡不同任务的吞吐量需求。

  • 稚晖君预告揭晓!智元机器人发布首个通用具身基座模型GO-1

    刚填完坑就又埋下“惊喜预告”??预告多日之后,稚晖君正式官宣首个通用具身基座模型——智元启元大模型,将具身智能迈向通用全能的门槛进一步降低了。且剧透明天还有惊喜。此外团队还单独验证了ViLLA架构中LatentPlanner的作用,可以看到增加LatentPlanner可以提升12%的成功率。

  • 同济大学回应825万采购10台宇树机器人:将用于学生培训

    近日,据官方采购网公示信息显示,上海同济大学与杭州宇树科技有限公司签订了一份价值825.66万元的采购合同。同济大学本次采购包含了10台宇树H1-2通用人形机器人和高精度深度相机、激光雷达等8项价值125.66万元的零配件。据同济大学智能机器人与计算感知实验室官网显示,该实验室依托自主智能无人系统全国重点实验室,曾自主研发了多个智能机器人、多模融合检测与认知、智能逻辑分析平台,取得了重大原创成果。

  • AI大模型赋能智能学习机,作业帮引领教育科技新浪潮

    在新世纪的科技浪潮中,人工智能技术的飞速发展正深刻改变着各行各业,教育领域也不例外。随着AI技术的日益成熟和教育需求的不断升级,智能平板学习机市场迎来了前所未有的爆发式增长。随着AI大模型技术的不断进步,作业帮将继续深耕教育科技领域,推动智能学习机的创新与升级,为更多学生带来优质的学习体验,引领教育行业迈向智能化、个性化的新时代。

  • 华为离职天才少年创业项目 智元机器人发布首个通用具身基座大模型

    今日,稚晖君”创业项目智元机器人发布了首个通用具身基座模型智元启元大模型。该大模型开创性地提出了Vision-Language-Latent-Action架构,该架构由VLMMoE组成,实现了可以利用人类视频学习,完成小样本快速泛化,降低了具身智能门槛,并成功部署到智元多款机器人本体。2020年,彭志辉以华为天才少年计划”最高档年薪201万元,加入华为团队,从事昇腾AI芯片和AI算法相关研究工作,2022年年底从华为离职,2023年2月联合创立智元机器人。

  • Web前端开发是否可以简化?AXUI前端框架是个解决方案

    采访媒体:本站编辑,小何被采访人:AXUI工程师,锋哥采访时间:2025年3月14日采访地点:深圳引言前端开发是指用户与软件或网页直接交互的界面设计和开发,涉及文字、图片、视频、音频、游戏等多媒体内容的整合与呈现。随着前端项目的复杂化,前端工程师不仅需要掌握HTML、CSS和JavaScript等基础语言需熟练使用Webpack、rollup等打包工具,以及VUE、React等技术框架和UI框架。前端技术更新很快,对于前端工程师言,或许专注前端技术标准,以不变应万变是个很好的选择。

  • 小米汽车单台平均亏损4.5万元 卢伟冰:目前处于大规模投入阶段

    在昨日的财报电话会议上,小米集团总裁卢伟冰透露了小米汽车业务的最新进展及未来展望。到2025年,小米汽车业务的毛利率将至少达到或超过2024年第一季度的水平。去年11月13日,小米汽车更是实现了第10万辆整车的下线,用时230天,创造了国内新势力10万台量产车最快下线纪录。