小红书提出创新框架:充分利用负样本提升大语言模型推理能力

2024-01-24 16:44 · 稿源：站长之家

要点:
小红书搜索算法团队在AAAI2024上提出了一种创新框架，利用负样本知识来提升大语言模型（LLMs）的推理能力。
他们设计了一个模型专业化框架，包括负向协助训练（NAT）、负向校准增强(NCE)和动态自洽性(ASC)等序列化步骤，全面利用负样本在知识蒸馏中的关键作用。
该框架通过在训练和推理过程中充分利用负样本，使得小模型能够更好地处理复杂的数学推理问题，避免大模型的黑盒属性和庞大参数量的限制。

站长之家（ChinaZ.com）1月24日消息:在AAAI2024上，小红书搜索算法团队推出了一项创新框架，旨在解决大语言模型（LLMs）在推理任务中的黑盒属性和庞大参数量带来的问题。传统研究方法主要关注正样本，而这项工作强调了负样本在知识蒸馏中的价值。通过负向协助训练(NAT)、负向校准增强(NCE)和动态自洽性(ASC)等序列化步骤，他们构建了一个全方位利用负样本的模型专业化框架。

论文地址:https://arxiv.org/pdf/2312.12832.pdf

首先，他们提出了负向协助训练（NAT）方法，通过设计dual-LoRA结构，从正向和负向两方面获取知识。这一步骤在训练中动态地集成正、负LoRA模块的知识，以构建更全面的推理能力。其次，他们设计了负向校准增强(NCE)，利用负知识来帮助自我增强过程，通过KL散度来度量正、负推理链路之间的不一致性，以选择性地学习和增强嵌入的知识。

除了训练阶段，他们还在推理过程中利用负向信息，提出了动态自洽性（ASC）方法，通过排序模型在正、负样本上进行训练，为正确答案的推理链路分配更高的权重。整体来说，这一框架通过充分挖掘负样本的宝贵信息，使得小模型能够更有效地进行复杂的算术推理，从而在实际应用中更广泛地部署大语言模型的推理能力。

这一研究为提高大语言模型应用性能提供了新思路，通过引入负样本的知识，弥补了传统研究方法的不足，为推理任务的应用提供了更可靠和高效的解决方案。

（举报）

相关推荐
大家在看

关键词：

小红书

【腾讯云】11.11云上盛惠！云服务器首年1.8折起，买1年送3个月！

11.11云上盛惠！海量产品 · 轻松上云！云服务器首年1.8折起，买1年送3个月！超值优惠，性能稳定，让您的云端之旅更加畅享。快来腾讯云选购吧！

Docker容器镜像
去看看

Docker容器镜像 60元/15天

爆款产品组合购
去看看

爆款产品组合购低至1元

腾讯云x NVIDIA加速计划
去看看

腾讯云x NVIDIA加速计划最高获赠10万元扶持基金

2核2G云服务器
去看看

2核2G云服务器 112元/1年

查看更多相关信息>>

腾讯云 12-20

广告
Meta 推出 LayerSkip：提升大语言模型推理速度

Meta公司最新发布了LayerSkip，这是一款端到端的解决方案，专门设计用于提升大型语言模型的推理速度。这一技术在不同规模的Llama模型上经过了广泛的训练实验，并在多个任务上展现了显著的性能提升。未来展望:随着LayerSkip技术的不断完善和应用，预计将为大语言模型的部署和使用带来更多可能性，特别是在需要快速处理大量语言数据的场合。

LayerSkip
新机器学习框架DRAGIN:用于大语言模型中的动态检索增强，胜过传统方法

研究人员从清华大学和北京理工大学开发了DRAGIN，这是一种针对大型语言模型设计的动态检索增强生成框架。该框架旨在通过在文本生成过程中实时确定何时以及如何检索外部信息，从提高语言模型的性能。未来的工作旨在克服与自注意力可访问性相关的限制，并对查询构建技术的影响进行评估。

DRAGIN AI头条
报告称：OpenAI和Meta即将发布具有人类推理能力的AI模型

OpenAI和Meta据称正在准备发布更先进的AI模型，这些模型将能够帮助解决问题并承担更复杂的任务。OpenAI的首席运营官BradLightcap告诉《金融时报》，公司下一个版本的GPT将在解决"困难问题"方面取得进展，例如推理。马斯克表示，"有感知计算的总量"——这个概念可能指的是AI独立思考和行动——将在五年内超过所有人类。

OpenAI Meta AI模型
荐城市探索从纽约到东京，小红书为什么还没放弃日本？

这也成为小红书继Uniik、Takib、habU后，在日本推出的第四款产品。我们此前曾撰写《上市前景不明的「小红书」，正在偷偷出海》《日本只是幌子，小红书抢滩东南亚》《项目再次关停、新品如期上线，小红书坚持做垂类社区》《小红书第五次出海，剑指纽约城市社区》等多篇文章，详细讲述了小红书为什么出海、小红书的出海思路以及各个产品的定位和运营策略，因此在本文

小红书海外市场
荐马斯克即将发布Grok-1.5，推理能力更强

3月29日，马斯克旗下的AI公司x.ai在官网宣布，未来几天内即将发布Grok-1.5。x.ai开源了Grok-1的权重和网络架构，成为大模型开源领域的一匹黑马。训练数据方面，Grok-1发布版本所使用的训练数据截至2023年第三季度的互联网数据以及xAI人工智能导师提供的数据。

Grok
荐你在小红书上关注的美女博主，可能是AI

虚拟偶像、虚拟主播似乎已经不是什么新鲜事，人们就算没有成为虚拟偶像的粉丝，也一定都曾听说过初音未来的名字。一提及“初音未来们”，人们脑海里首先出现的标签或许还是“二次元”。平台方该如何监管这些AI博主，也将成为一项挑战与考验。

小红书小红书博主 AI
戴尔Precision工作站：助力客户更有效地使用GenAI大语言模型

如何配置个人电脑才能更有效地使用生成式AI大语言模型生成式人工智能彻底改变了计算世界，戴尔科技的用户都开始考虑借助大语言模型去开发能够提升其公司生产力、效率和创新力的新功能。戴尔科技拥有全球最丰富的AI基础设施产品组合，从云到客户端设备一应俱全[1]，因此能够为用户提供满足其一切AI需求的端到端AI解决方案和服务。[1]基于戴尔科技集团的内部分析，2023年8月。

生成式AI 大语言模型戴尔科技
荐库克来了都得进货，华强北“新特产”爆火小红书

“听说你很要强，以后你不用再要强了，因为你的强来了。”这句曾流传于相亲市场里的土味情话，被“好事儿”的网友们安置在了华强北的头上。屏幕耳机的背后，是依然跃跃欲试，等待着下一个新机会的商家们。

小红书
谷歌AI研究人员提出噪声感知训练方法（NAT）用于布局感知语言模型

在文档处理中，特别是在视觉丰富的文档中，高效信息提取的需求变得越来越关键。VRDs，如发票、水电费单和保险报价，在业务工作流中随处可见，通常以不同的布局和格式呈现类似信息。他们的研究为使普通用户能够访问先进的文档处理功能铺平了道路，标志着该领域迈出了重要的一步。

AI 语言模型 AI头条
荐万粉店铺月销千万，商家该怎么做小红书电商？

哪些商家在小红书突围?据新播场整理的小红书3月店铺热销榜，排名前三的商家月销售额已突破2500万上榜的的商家月销售额均不低于1000万。对这些店铺进行研究之后，可看到有以下两个特点:第一，从上榜店铺的类型来看，除了“儒黛家居旗舰店”是家具店铺之外，其他店铺均为服饰、美妆和零食类。但无论如何，这都无法阻止小红书成为众多机构和商家抢滩的新阵地。

小红书

今日大家都在搜的词：

热文

3 天
7天

小红书提出创新框架:充分利用负样本提升大语言模型推理能力

今日大家都在搜的词：

热文

站长商机