首页 > 业界 > 关键词  > DRAGIN最新资讯  > 正文

新机器学习框架DRAGIN:用于大语言模型中的动态检索增强,胜过传统方法

2024-04-03 09:30 · 稿源:站长之家

划重点:

⭐️ DRAGIN 是一种适用于大型语言模型的动态检索增强生成框架,能够根据实时信息需求动态确定何时以及如何检索外部信息。

⭐️ 该框架包括两个关键组件:实时信息需求检测(RIND)和基于自注意力的查询构建(QFS),在四个知识密集型数据集上表现优异。

⭐️ DRAGIN 在提高语言模型性能方面具有明显优势,通过优化检索激活时机和查询精度,有效增强了语言模型的生成能力。

站长之家(ChinaZ.com)4月3日 消息:研究人员从清华大学和北京理工大学开发了 DRAGIN,这是一种针对大型语言模型设计的动态检索增强生成框架。

该框架旨在通过在文本生成过程中实时确定何时以及如何检索外部信息,从而提高语言模型的性能。为了解决当前方法在确定何时进行检索和检索内容方面过于静态的问题,DRAGIN 引入了 RIND 和 QFS 两个关键组件。其中,RIND 主要用于确定检索时机,考虑语言模型的不确定性和令牌重要性;而 QFS 则用于构建查询,利用上下文的自注意力机制优先选择与当前上下文相关的令牌。通过这种动态检索的方式,DRAGIN 在四个知识密集型数据集上表现出色,而且无需额外的训练或提示工程。

image.png

传统的单轮检索增强方法通过将初始输入作为查询,将外部知识引入到语言模型中。以往的研究已经深入探讨了这种方法,例如 REPLUG 使用语言模型生成检索模型的训练数据,UniWeb 则自我评估是否需要检索。然而,对于需要大量外部知识的复杂任务,多轮检索变得至关重要。DRAGIN 则采用了新颖的多轮检索方法,通过 FLARE 在遇到不确定令牌时触发检索,从而提高检索相关性,同时考虑了语言模型的实时信息需求。

DRAGIN 是一个旨在解决语言模型动态检索增强方法的框架。通过 RIND 和 QFS 优化检索激活时机和查询精度,使得在知识密集型任务上取得更好的性能。尽管它依赖于基于 Transformer 的语言模型的自注意力机制,但 DRAGIN 展现出了显著的有效性。未来的工作旨在克服与自注意力可访问性相关的限制,并对查询构建技术的影响进行评估。

论文:https://arxiv.org/abs/2403.10081

举报

  • 相关推荐
  • 数字资产时代的智能预测:微云全息比特币价格走势机器学习算法

    微云全息(NASDAQ: HOLO)开发了一种基于机器学习的高精度比特币价格预测算法,整合了逻辑回归、支持向量机、人工神经网络、朴素贝叶斯和随机森林等多种方法。该算法在连续和离散数据集上均表现优异,为投资者和金融机构提供可靠的决策支持。随着比特币市场规模的扩大,准确预测价格波动成为重要需求。该技术通过模型融合、特征集成和参数优化等方法,提高了预测的准确性和稳定性,为数字资产市场的健康发展提供了创新解决方案。

  • IBM被评为2025年Gartner数据科学和机器学习平台魔力象限领导者

    IBM宣布其数据科学与机器学习平台(DSML)入选Gartner 2025魔力象限领导者。文章指出,企业在实施AI项目时面临负责任AI部署、成本优化和规模化等挑战。IBM的watsonx产品组合通过提供统一的开源和专有框架、模型及部署选项,帮助数据科学家构建企业级AI解决方案。其中,watsonx.data作为混合数据湖解决方案,简化了AI数据管理;Granite AI模型开源且高效;AutoAI for RAG自动化了检索增强生成流程。IBM还通过收购DataStax增强向量搜索能力,持续为AI创新提供工具支持。

  • 动态域名解析全攻略:从原理到实用方法详解

    本文介绍了动态域名解析(DDNS)技术及其应用。DDNS通过将动态变化的公网IP地址与固定域名绑定,解决了远程访问动态IP设备的难题。文章详细解析了三种实用方法:1)使用专业DDNS服务商;2)利用路由器内置功能;3)安装专用软件如花生壳。重点推荐了花生壳软件,其支持多系统、智能DNS解析和端口映射等功能,拥有1800万用户。使用DDNS需注意选择可靠服务商、正确配置记录、定期检查更新等事项。动态域名解析技术极大便利了远程访问需求,而花生壳凭借强大功能成为理想选择。

  • 微云全息:基于区块链多任务学习的车联网优化技术框架,将为私家车通勤体验带来革新

    随着城市化进程加速和私家车数量激增,通勤体验成为一大挑战。微美全息公司推出基于区块链多任务学习的车联网优化技术框架,通过区块链保障数据安全与隐私,利用多任务学习算法分析车辆轨迹、交通流量等数据,精准预测用户出行需求并提供最优路线规划。该技术能有效缓解交通拥堵,提升通勤效率,同时为城市交通管理提供智能决策支持,推动交通系统向智能化、高效化方向发展。

  • GPTBots 迎来增强版 DeepSeek-R1-0528 模型

    GPTBots.ai平台宣布集成深度求索(DeepSeek)最新开源模型DeepSeek-R1-0528,该模型在推理能力上媲美OpenAI和Google的顶级模型,性能显著提升:数学竞赛准确率从70%提升至87.5%,编程性能从63.5%提升至73.3%。该模型支持JSON输出与函数调用,可无缝嵌入企业工作流,同时推出轻量级版本DeepSeek-R1-0528-Qwen3-8B,仅需16GB GPU内存即可运行。此次集成将强化GPTBots为企业提供金融、医疗、教育等领域的AI解决方案能力,助力企业构建定制化AI应用。平台秉持开源理念,采用MIT许可协议,支持商业使用与定制开发。

  • 全球首款生成式人形机器人运动大模型发布:可根据指令生成跑步、舞蹈等连贯动作

    今日上午,国家地方共建人形机器人创新中心联合复旦大学未来信息创新学院,正式发布了全球首款生成式人形机器人运动大模型 龙跃”(MindLoongGPT)。 龙跃大模型以自然语言驱动”为核心,构建了从多模态输入到高保真动作生成的完整闭环,颠覆传统运动控制范式。 也就是说,用户无需学习专业术语或操作复杂软件,仅需像与人类对话一样发出指令,例如以优雅的姿势递

  • 夏日鏖战渐酣,LG UltraGear™ OLED电竞显示器解锁游戏新境界

    LG电子推出两款UltraGear™ OLED电竞显示器:32GS95UV和45GX950A,为玩家带来沉浸式游戏体验。32GS95UV支持4K 240Hz与FHD 480Hz一键切换,配备多尺寸模式个性化设置;45GX950A采用800R曲率5K2K超宽屏,支持165Hz至330Hz双模式切换。两款产品均搭载先进显示技术,包括VESA DisplayHDR True Black 400认证、98.5% DCI-P3色域覆盖,并兼容多种同步技术。独特设计包含可调节支架、防眩光技术和护眼功能,内置7W×2 DTS Virtual:X™扬声器提供沉浸音效。LG通过创新显示技术助力玩家突破常规,开启非凡游戏冒险。

  • 再也不怕被假客服骗了!抖音推出官方动态验证口令

    近年来,打着平台客服”幌子进行诈骗的现象时有发生,抖音客服”是重灾区。 很多诈骗分子假冒抖音客服”,谎称为用户取消所谓抖音会员”百万保障”直播会员”等子虚乌有的扣费服务,继而诱导用户下载手机第三方软件,进行屏幕共享、远程控制窃取手机账户内钱财。 为了帮助用户精准识别真假客服,防范网络诈骗,抖音日前再次升级验证工具,在官方验证助手基础�

  • 方寸之间,无界艺廊:三星以动态美学激活客厅艺术脉搏

    三星艺术画廊服务2025年迎来重大升级,推出动态名画功能,将梵高《自画像》等经典作品赋予生命律动。该服务覆盖Neo QLED产品线,通过量子点矩阵技术精准呈现艺术品原貌,获得德国莱茵TÜV认证。The Frame画壁电视采用哑光屏显技术,获彩通艺术认证,确保色彩精准还原。平台整合全球顶级博物馆千余幅典藏名画,用户可一键生成AI数字艺术。三星NQ8 AI Gen3芯片提供强大算力支持,神经处理单元提升至768个,实现流畅艺术观赏体验。这一创新将尖端显示技术与海量艺术资源、智能互动融合,重新定义家居美学场景。

  • 被雷军选中的明月镜片,什么来头

    6月26日,小米发布首款AI眼镜,定位为战略新品和个人智能设备入口。产品采用亚洲脸型优化设计,重量仅40g,提供多种镜片选择。小米与明月镜片达成独家合作,为近视用户提供专业配镜服务。AI眼镜定价1999元,主打"亲民+专业+时尚+科技"融合概念。明月镜片作为国内镜片领导品牌,拥有完整产业链和技术优势。此次合作标志着AI眼镜行业进入新阶段,产品将线上线下同步销售,提供一站式配镜服务。