新机器学习框架DRAGIN:用于大语言模型中的动态检索增强，胜过传统方法

2024-04-03 09:30 · 稿源：站长之家

划重点:
⭐️ DRAGIN 是一种适用于大型语言模型的动态检索增强生成框架，能够根据实时信息需求动态确定何时以及如何检索外部信息。
⭐️ 该框架包括两个关键组件:实时信息需求检测（RIND）和基于自注意力的查询构建(QFS)，在四个知识密集型数据集上表现优异。
⭐️ DRAGIN 在提高语言模型性能方面具有明显优势，通过优化检索激活时机和查询精度，有效增强了语言模型的生成能力。

站长之家（ChinaZ.com）4月3日消息:研究人员从清华大学和北京理工大学开发了 DRAGIN，这是一种针对大型语言模型设计的动态检索增强生成框架。

该框架旨在通过在文本生成过程中实时确定何时以及如何检索外部信息，从而提高语言模型的性能。为了解决当前方法在确定何时进行检索和检索内容方面过于静态的问题，DRAGIN 引入了 RIND 和 QFS 两个关键组件。其中，RIND 主要用于确定检索时机，考虑语言模型的不确定性和令牌重要性;而 QFS 则用于构建查询，利用上下文的自注意力机制优先选择与当前上下文相关的令牌。通过这种动态检索的方式，DRAGIN 在四个知识密集型数据集上表现出色，而且无需额外的训练或提示工程。

传统的单轮检索增强方法通过将初始输入作为查询，将外部知识引入到语言模型中。以往的研究已经深入探讨了这种方法，例如 REPLUG 使用语言模型生成检索模型的训练数据，UniWeb 则自我评估是否需要检索。然而，对于需要大量外部知识的复杂任务，多轮检索变得至关重要。DRAGIN 则采用了新颖的多轮检索方法，通过 FLARE 在遇到不确定令牌时触发检索，从而提高检索相关性，同时考虑了语言模型的实时信息需求。

DRAGIN 是一个旨在解决语言模型动态检索增强方法的框架。通过 RIND 和 QFS 优化检索激活时机和查询精度，使得在知识密集型任务上取得更好的性能。尽管它依赖于基于 Transformer 的语言模型的自注意力机制，但 DRAGIN 展现出了显著的有效性。未来的工作旨在克服与自注意力可访问性相关的限制，并对查询构建技术的影响进行评估。

论文：https://arxiv.org/abs/2403.10081

（举报）

相关推荐
大家在看

关键词：

【腾讯云】11.11云上盛惠！云服务器首年1.8折起，买1年送3个月！

11.11云上盛惠！海量产品 · 轻松上云！云服务器首年1.8折起，买1年送3个月！超值优惠，性能稳定，让您的云端之旅更加畅享。快来腾讯云选购吧！

Docker容器镜像
去看看

Docker容器镜像 60元/15天

爆款产品组合购
去看看

爆款产品组合购低至1元

腾讯云x NVIDIA加速计划
去看看

腾讯云x NVIDIA加速计划最高获赠10万元扶持基金

2核2G云服务器
去看看

2核2G云服务器 112元/1年

查看更多相关信息>>

腾讯云 12-20

广告
苹果公司发布新型机器学习语言模型MLLLLM Ferret-UI 用于理解应用 UI 界面

苹果公司近日发布了一款名为MLLLLMFerret-UI的新型机器学习语言模型，旨在提升对移动应用用户界面的理解。这款模型经过特别优化，能够处理移动UI屏幕上的各种任务，并具备指向、定位和推理等能力。Ferret-UI还能够通过功能推断来解释屏幕的整体目的，显示出在理解和生成自然语言指令方面的高级能力。

模型 AI头条
Mini-Gemini:简单有效的AI框架，增强多模态视觉语言模型

中国香港中文大学和SmartMore的研究人员推出了一种名为Mini-Gemini的新颖框架，通过增强多模态输入处理来推动VLMs的发展。Mini-Gemini采用了双编码器系统和一种新颖的补丁信息挖掘技术，结合一个特别策划的高质量数据集，使其能够有效处理高分辨率图像并生成内容丰富的视觉和文本内容，从使其脱颖出。正如研究人员所承认的那样，Mini-Gemini在视觉理解和推理能力方面仍有改进�

Gemini Mini-Gemini AI头条
Meta 推出 LayerSkip：提升大语言模型推理速度

Meta公司最新发布了LayerSkip，这是一款端到端的解决方案，专门设计用于提升大型语言模型的推理速度。这一技术在不同规模的Llama模型上经过了广泛的训练实验，并在多个任务上展现了显著的性能提升。未来展望:随着LayerSkip技术的不断完善和应用，预计将为大语言模型的部署和使用带来更多可能性，特别是在需要快速处理大量语言数据的场合。

LayerSkip
谷歌AI研究人员提出噪声感知训练方法（NAT）用于布局感知语言模型

在文档处理中，特别是在视觉丰富的文档中，高效信息提取的需求变得越来越关键。VRDs，如发票、水电费单和保险报价，在业务工作流中随处可见，通常以不同的布局和格式呈现类似信息。他们的研究为使普通用户能够访问先进的文档处理功能铺平了道路，标志着该领域迈出了重要的一步。

AI 语言模型 AI头条
戴尔Precision工作站：助力客户更有效地使用GenAI大语言模型

如何配置个人电脑才能更有效地使用生成式AI大语言模型生成式人工智能彻底改变了计算世界，戴尔科技的用户都开始考虑借助大语言模型去开发能够提升其公司生产力、效率和创新力的新功能。戴尔科技拥有全球最丰富的AI基础设施产品组合，从云到客户端设备一应俱全[1]，因此能够为用户提供满足其一切AI需求的端到端AI解决方案和服务。[1]基于戴尔科技集团的内部分析，2023年8月。

生成式AI 大语言模型戴尔科技
StableDrag：简易点击编辑器可以轻松调整蒙娜丽莎脸部表情

南京大学和腾讯的研究人员开发了一种名为StableDrag的新型基于AI的图像编辑方法，允许元素轻松移动到新位置，并保持正确的透视，根据他们的论文。该方法基于近期AI图像编辑的进展，如FreeDrag、DragDiffusion和Drag-GAN，并在基准测试中取得了显著更好的结果。苹果正在采用不同的操纵方法，MGIE使用文本提示添加、删除或更改对象无需选择特定区域。

AI图像生成器图像修补基于点的编辑
Meta新大语言模型LLama 3将在英特尔和高通硬件上运行

Meta最近发布了LLama3，这是一款新的大型语言模型，用于实现更安全、更准确的生成式人工智能体验。除了LLM，Meta还推出了LlamaGuard2、CodeShield和CyberSecEval2等信任和安全工具，以帮助确保符合行业和用户安全期望。随着400亿参数显示出更高的准确性，可以推断出更高的AI硬件需求不会很快减少。

Meta LLama3 AI头条
Meta即将推出新一代Llama3大语言模型

MetaPlatforms公司计划在下周推出Llama3大语言模型的两个小参数版本，作为即将在2024年夏天推出的Llama3最大版本的前奏。Llama3最高版本可能拥有超过1400亿个参数，这将使其性能有望赶上OpenAI最新的GPT-4Turbo版本。Meta正在全力推进Llama3的开发，这不仅体现了该公司在AI领域的野心，也为用户带来了更加智能和开放的AI服务的期待。

语言模型 Llama3 多模态技术
苹果开发设备内运行的大型语言模型优先考虑速度和隐私

苹果公司正在开发自己的大型语言模型。这款模型将能够在设备上本地运行，从优先考虑速度和隐私保护。苹果更广泛的人工智能战略预计将在6月份的WWDC上与主要软件更新预览一起公布。
Cohere推出大模型Command R+ 优化高级检索增强生成功能

Cohere推出了专为企业级工作负载设计的大型语言模型CommandR，该模型优化了高级检索增强生成功能，以减少错误生成，并支持10种关键语言的多语言覆盖。地址:https://dashboard.cohere.com/CommandR引入了多步骤工具使用功能，允许模型在多个步骤中结合多种工具来完成困难的任务。CommandR首先在MicrosoftAzure上提供，未来也将在OracleCloudInfrastructure以及其他云平台上提供，以满足更广泛的用

Command AI头条

Chat UI:开源代码库，为HuggingChat应用提供动力

chat-ui是一个开源的聊天界面，使用开源模型如OpenAssistant或Llama。它是一个SvelteKit应用程序，为hf.co/chat上的HuggingChat应用提供支持。该产品允许用户通过自定义配置来运行和部署自己的Chat UI实例，支持多种语言模型和功能，如Web搜索、自定义模型等。

开源聊天应用 SvelteKit

360AI浏览器APP:360AI 浏览器，AI 赋能，秒懂一切。

360AI 浏览器利用人工智能技术，提供智能搜索、PDF、视频、网页总结等功能，旨在帮助用户高效获取知识，提升阅读体验。

智能搜索 PDF 阅读视频播放

FAQ Generator:免费AI生成FAQ，无需注册即可创建网站FAQ模板。

AI FAQ Generator是一款利用先进AI技术，通过分析常见问题自动生成FAQ列表的工具。它能够快速高效地生成FAQ，节省时间和资源，同时提供准确的答案，帮助提高客户满意度，并改善SEO效果。

AI技术自动化 FAQ创建

BrickCenter:一个创意无限的乐高设计平台，让你的想象力变为现实。

BrickCenter是一个在线平台，允许用户免费创建自己的乐高套装和迷你人物。它提供了一个将创意转化为详细乐高设计的工具，无论是复杂的场景还是个性化的迷你人物，用户都可以在这个平台上实现自己的设计梦想。该平台以其用户友好的界面和强大的定制功能而受到乐高爱好者的欢迎。

创意设计乐高

100 UI/UX Tips:在一个小时内学习如何制作令人印象深刻的应用程序界面。

《100 UI/UX Tips》提供了设计界面所需的所有提示，让用户感到满意。强调产品的主要优点、背景信息、价格和定位。

设计用户界面用户体验

whatwide.ai:提高生产力的AI助手，简单易用

whatwide.ai是一个提高生产力的AI助手，使用人工智能技术来节省时间并提高工作效率。它提供了50多种AI模型，包括文本生成、网站帮助、社交媒体分析、编程辅助等多种功能。whatwide.ai的优点在于高质量的内容生成、快速且安全的操作，以及多种AI类型供用户选择。

生产力文本生成网站帮助

Stream of Consciousness:一个展示想象中艺术家思绪的日常表演，通过创作和分享图像来表达创造力。

Stream of Consciousness是一个记录并分享艺术家思维的项目，通过创作和分享图像来展示创造力。它提供了一个深入艺术家思维的窗口，让人们了解艺术创作的过程和灵感的来源。

艺术创作思绪

Neurelo:是一种用于PostgreSQL、MongoDB和MySQL的云数据API平台，通过自动生成REST和GraphQL数据API、AI辅助的自定义查询API、查询可观察性等功能，简化和加速现代云应用程序开发。

Neurelo是一个专为云数据库而设计的平台，通过使用云API和人工智能技术，提供自动生成API、自定义查询API、查询可观察性和Schema as Code等功能，以提高开发人员的生产力。Neurelo能够简化数据库编程相关的复杂性，并具备可伸缩性、安全性和查询优化能力。

数据库云应用程序 API

EdrawMax:智能且风格多样的图表解决方案，简化您的想法可视化过程。

EdrawMax是一款功能强大的图表设计软件，它提供一站式的图表解决方案，适用于流程图、思维导图、组织结构图、甘特图、平面图和ER图等210多种图表类型。它具有简洁的用户界面，类似于MS Office的干净、整齐的界面，直观且易于导航的工具集，以及无缝的拖放功能。此外，EdrawMax还提供了23000多个用户制作的模板，850个精心制作的内置模板，以及26000多个免费符号，覆盖所有图表类型。它还具备AI功能，可以生成和分析22种类型的图表，包括文本到绘图和图片到绘图以及AI聊天。EdrawMax支持跨平台集成，可以在云端保存文件并通过链接共享，支持通过社交媒体或电子邮件发送作品，并能以13种格式导出图表，包括VSDX、PPTX和SVG等。此外，EdrawMax遵循GDPR标准，使用最高级别的256位SSL加密，确保用户隐私和数据安全。

图表设计 AI生成跨平台

Notta Showcase:通过AI技术，轻松实现视频的多语言翻译和配音，连接全球观众。

Notta Showcase是一款在线视频翻译和配音工具，它通过AI技术帮助用户将视频内容翻译成15种不同的语言，同时保持原始的语音风格和情感，以提供自然的听觉体验。该产品的主要优点包括高效率、成本效益、用户友好的界面、高准确度的转录和翻译，以及支持多种文件格式和平台。它适用于营销、社交媒体和教育等多个领域，可以显著扩大内容的全球影响力。

AI翻译视频配音内容本地化

SunoAI API:开源项目，实现AI音乐服务的API接口

Suno API是一个开源项目，允许用户设置自己的Suno AI音乐服务API。它实现了app.suno.ai的创建API，兼容OpenAI的API格式，支持自定义模式，一键部署到Vercel，并且拥有开放源代码许可证，允许自由集成和修改。

AI音乐 API 开源

x-crawl:灵活的 Node.js AI 辅助爬虫库，让爬虫工作更高效、智能、便捷。

x-crawl 是一款基于 Node.js 的 AI 辅助爬虫库，它通过强大的 AI 辅助功能，使得爬虫工作变得更加高效、智能和便捷。它支持对动态页面、静态页面、接口数据以及文件数据的爬取，同时提供了自动化操作、键盘输入、事件操作等控制页面的能力。此外，它还具备设备指纹、异步同步、间隔爬取、失败重试、轮换代理、优先队列和记录爬取等功能，以适应不同的爬取需求。x-crawl 拥有类型，通过泛型实现完整的类型，基于 MIT 许可发布，适合需要进行数据爬取的开发者和企业。

爬虫 AI辅助自动化

MetaCLIP:一种用于图像和文本数据的先进机器学习模型，专注于数据质量和透明度。

MetaCLIP是一个开源的机器学习模型，用于图像和文本的联合表示学习。它通过一个简单算法对CLIP数据进行筛选，不依赖于先前模型的过滤，从而提高了数据的质量和透明度。MetaCLIP的主要贡献包括无过滤的数据筛选、透明的训练数据分布、可扩展的算法和标准化的CLIP训练设置。该模型强调数据质量的重要性，并提供预训练模型，以支持研究人员和开发者进行控制实验和公平比较。

机器学习图像识别文本处理

AITown:一个虚拟城镇，AI角色在这里生活、聊天和社交。

AI Town是一个基于MIT许可的可部署启动套件，用于构建和定制您自己的AI城镇版本。这个项目受到了研究论文'Generative Agents: Interactive Simulacra of Human Behavior'的启发，旨在提供一个强大的基础平台，旨在被扩展。后端原生支持共享全局状态、事务和模拟引擎，适用于从简单的项目到可扩展的多人游戏。

AI 虚拟城镇聊天模拟

Vanna:通过自然语言生成SQL查询，简化数据库交互。

Vanna是一个使用Retrieval-Augmented Generation (RAG) 技术的开源Python框架，用于SQL生成和相关功能。它通过训练RAG模型，将自然语言问题转换为SQL查询，从而允许用户以提问的形式与数据库进行交互。Vanna的主要优点包括高准确度、安全性、私有性、自学习能力，并且支持任何SQL数据库。

SQL 自然语言处理数据库

Fal AI:AI图片生成式开发者平台

fal.ai 是一款面向开发者的生成媒体平台，提供了业界最快的推理引擎，可以让您以更低的成本运行扩散模型，创造出全新的用户体验。它拥有实时、无缝的 WebSocket 推理基础设施，为开发者带来了卓越的使用体验。fal.ai 的定价方案根据实际使用情况灵活调整，确保您只为消耗的计算资源付费，实现了最佳的可扩展性和经济性。

生成媒体推理引擎开发者工具

Chat With Llama 3:一个开源的聊天机器人，能够解释概念、写诗、编程、解逻辑谜题。

Chat With Llama 3 是一个开源的聊天机器人，由Meta AI开发。它能够进行多种智能对话，包括解释复杂概念、创作诗歌、编写代码、解决逻辑谜题，甚至帮助用户给宠物起名。这个聊天机器人的主要优点在于它的多功能性和开源性，使其可以被广泛地应用于各种场景，并且可以根据需要进行定制和改进。

人工智能聊天机器人开源

AI图片生成与搜索:释放创意，一键生成或搜索超过200万张AI图片。

AI图片生成与搜索是一个在线平台，利用先进的人工智能技术，允许用户快速生成或搜索各种风格的AI图片。该技术的重要性在于它能够极大提高设计和创意工作的效率，同时降低成本。产品的主要优点包括丰富的图片资源、高效的生成速度、以及用户友好的界面。产品背景信息显示，这是一个面向广大创意工作者和设计师的工具，旨在帮助他们快速实现创意构想。目前，该产品提供免费试用，但具体价格和定位信息未在页面中提供。

AI技术图像生成创意工具

OpenPerplex:，您的知识门户

OpenPerplex是一个提供广泛知识资源的在线平台，它通过整合多种信息源，为用户提供了一个便捷的知识获取渠道。该产品以其丰富的信息量、高效的检索能力和友好的用户界面而受到用户的青睐。它不仅适用于个人学习，也适合专业人士进行深入研究。

知识获取信息检索在线学习

JavaVision:基于Java的全能视觉智能识别项目

JavaVision是一个基于Java开发的全能视觉智能识别项目，它不仅实现了PaddleOCR-V4、YoloV8物体识别、人脸识别、以图搜图等核心功能，还可以轻松扩展到其他领域，如语音识别、动物识别、安防检查等。项目特点包括使用SpringBoot框架、多功能性、高性能、可靠稳定、易于集成和灵活可拓展。JavaVision旨在为Java开发者提供一个全面的视觉智能识别解决方案，让他们能够以熟悉且喜爱的编程语言构建出先进、可靠且易于集成的AI应用。

新机器学习框架DRAGIN:用于大语言模型中的动态检索增强，胜过传统方法

今日大家都在搜的词：

热文

站长商机