研究表明：大语言模型从人类反馈中学得更快更智能

2024-02-20 15:53 · 稿源：站长之家

划重点:
1. 🧠 大型语言模型（LLMs）通过在线上下文学习展现了广泛的机器学习能力，使非专家能够通过语言指令编写机器人代码，根据反馈修改行为或组合执行新任务。
2. 🔄 通过Language Model Predictive Control（LMPC）框架，研究团队成功通过对机器人代码编写LLMs进行微调，提高其适应人类输入的效率，从而加速学习过程。
3. 🤖 实验证明，LMPC不仅提高了未见任务的成功率，还通过优化适应性和响应性，为多轮对话中的机器人适应性学习提供了强大支持。

站长之家（ChinaZ.com）2月20日消息:近期研究表明，大型语言模型（LLMs）在通过在线上下文学习方面表现出许多强大的能力，其中包括从语言命令中编写机器人代码的技能。这使得非专家用户能够直接指导机器人行为，根据反馈进行修改，甚至组合行为以执行新任务。然而，这些能力主要限于短期交互，因为用户的反馈只在LLM上下文大小范围内保持相关，且在较长时间的交互中可能被遗忘。

为了解决这一问题，研究团队着手对机器人代码编写LLMs进行微调，以记住其上下文交互并提高其可教学性，即它们对人类输入的适应效率（以用户认为任务成功之前的平均更正次数为度量）。

研究观察到，当将人机交互形式化为部分可观察的马尔科夫决策过程时（其中人类语言输入是观察值，而机器人代码输出是动作），训练LLM以完成先前的交互可以被视为训练一个过渡动态模型。这个模型可以与经典的机器人技术结合使用，如模型预测控制(MPC)，以发现通往成功的更短路径。这就是Language Model Predictive Control(LMPC)框架的产生，通过对PaLM2进行微调，它在5个机器人实体上的78个任务中提高了未见任务的非专家教学成功率，同时将人类更正的平均次数从2.4降低到1.9。

LMPC的成功在于其对用户教学新任务的成功率提高了26.9%，同时在未见机器人实体和API上的实验中，通过提高上下文学习新任务的成功率，提高了31.5%。通过LMPC-Rollouts和LMPC-Skip这两个变体，研究团队加速了机器人通过上下文学习进行快速适应的能力。实验证明LMPC-Rollouts在多轮对话中更具通用性，对于首次响应不正确的反馈更易于纠正。为了最大程度地提高实际性能，研究建议使用LMPC-Skip来响应初始用户指令，然后使用LMPC-Rollouts来响应后续用户反馈。

研究团队在78个机器人任务中进行了实验，覆盖了5个机器人实体的模拟环境和2个真实硬件实体。实验中探讨了微调策略对在线上下文学习的影响，包括提高教学效果、LMPC-Rollouts和LMPC-Skip的比较、Top-User Conditioning的好处、微调是否实现跨机器人实体的泛化以及迭代微调是否进一步提高可教学性。

在真实世界中，研究团队对移动操纵器和机器狗的子集任务进行了评估，要求用户直接在真实机器人上进行四次教学会话。结果显示，LMPC-Rollouts在所有任务上的成功率均高于PaLM2-S。尽管在这些任务上，PaLM2-S和LMPC-Rollouts的成功会话的平均聊天轮次大致相同，但LMPC-Rollouts取得了更高的成功率。

通过实际演示，研究团队展示了他们的系统如何教授多个机器人实体复杂的行为，同时还展示了在教学前后机器人行为的显著差异。这个创新的方法不仅在模拟环境中取得了显著成果，而且在真实机器人上也取得了令人瞩目的效果。

这项研究通过LMPC框架的应用，成功提高了机器人代码编写LLMs的可教学性，为人机交互中机器学习的快速适应性开辟了新的道路。

论文网址:https://robot-teaching.github.io/

（举报）

相关推荐
大家在看

关键词：

大语言模型

【腾讯云】11.11云上盛惠！云服务器首年1.8折起，买1年送3个月！

11.11云上盛惠！海量产品 · 轻松上云！云服务器首年1.8折起，买1年送3个月！超值优惠，性能稳定，让您的云端之旅更加畅享。快来腾讯云选购吧！

Docker容器镜像
去看看

Docker容器镜像 60元/15天

爆款产品组合购
去看看

爆款产品组合购低至1元

腾讯云x NVIDIA加速计划
去看看

腾讯云x NVIDIA加速计划最高获赠10万元扶持基金

2核2G云服务器
去看看

2核2G云服务器 112元/1年

查看更多相关信息>>

腾讯云 12-20

广告
Meta 推出 LayerSkip：提升大语言模型推理速度

Meta公司最新发布了LayerSkip，这是一款端到端的解决方案，专门设计用于提升大型语言模型的推理速度。这一技术在不同规模的Llama模型上经过了广泛的训练实验，并在多个任务上展现了显著的性能提升。未来展望:随着LayerSkip技术的不断完善和应用，预计将为大语言模型的部署和使用带来更多可能性，特别是在需要快速处理大量语言数据的场合。

LayerSkip
Hume AI EVI对话人工智能体验入口情感大语言模型eLLM使用地址

Hume.AI专注于开发能够理解人类情感和表情的技术，提供表情测量API和自定义模型API，以预测和改善人类福祉。近日发布的EVI是一款具有情感感知能力的对话AI，采用了情感大语言模型技术。如果您是研究人员、开发者或企业，不妨尝试Hume.AI提供的技术，探索其在情感计算领域的应用和潜力。

Hume.AI
戴尔Precision工作站：助力客户更有效地使用GenAI大语言模型

如何配置个人电脑才能更有效地使用生成式AI大语言模型生成式人工智能彻底改变了计算世界，戴尔科技的用户都开始考虑借助大语言模型去开发能够提升其公司生产力、效率和创新力的新功能。戴尔科技拥有全球最丰富的AI基础设施产品组合，从云到客户端设备一应俱全[1]，因此能够为用户提供满足其一切AI需求的端到端AI解决方案和服务。[1]基于戴尔科技集团的内部分析，2023年8月。

生成式AI 大语言模型戴尔科技
Meta新大语言模型LLama 3将在英特尔和高通硬件上运行

Meta最近发布了LLama3，这是一款新的大型语言模型，用于实现更安全、更准确的生成式人工智能体验。除了LLM，Meta还推出了LlamaGuard2、CodeShield和CyberSecEval2等信任和安全工具，以帮助确保符合行业和用户安全期望。随着400亿参数显示出更高的准确性，可以推断出更高的AI硬件需求不会很快减少。

Meta LLama3 AI头条
Meta即将推出新一代Llama3大语言模型

MetaPlatforms公司计划在下周推出Llama3大语言模型的两个小参数版本，作为即将在2024年夏天推出的Llama3最大版本的前奏。Llama3最高版本可能拥有超过1400亿个参数，这将使其性能有望赶上OpenAI最新的GPT-4Turbo版本。Meta正在全力推进Llama3的开发，这不仅体现了该公司在AI领域的野心，也为用户带来了更加智能和开放的AI服务的期待。

语言模型 Llama3 多模态技术
新机器学习框架DRAGIN:用于大语言模型中的动态检索增强，胜过传统方法

研究人员从清华大学和北京理工大学开发了DRAGIN，这是一种针对大型语言模型设计的动态检索增强生成框架。该框架旨在通过在文本生成过程中实时确定何时以及如何检索外部信息，从提高语言模型的性能。未来的工作旨在克服与自注意力可访问性相关的限制，并对查询构建技术的影响进行评估。

DRAGIN AI头条
谷歌AI研究人员提出噪声感知训练方法（NAT）用于布局感知语言模型

在文档处理中，特别是在视觉丰富的文档中，高效信息提取的需求变得越来越关键。VRDs，如发票、水电费单和保险报价，在业务工作流中随处可见，通常以不同的布局和格式呈现类似信息。他们的研究为使普通用户能够访问先进的文档处理功能铺平了道路，标志着该领域迈出了重要的一步。

AI 语言模型 AI头条
苹果开发设备内运行的大型语言模型优先考虑速度和隐私

苹果公司正在开发自己的大型语言模型。这款模型将能够在设备上本地运行，从优先考虑速度和隐私保护。苹果更广泛的人工智能战略预计将在6月份的WWDC上与主要软件更新预览一起公布。
研究：人工智能在提供情感支持方面优于人类

在快节奏的现代生活中，真正感到被倾听和理解是一件罕见的事情。许多人并没有从周围的人那里得到他们需要的情感支持、共鸣和认可。这种分辨出正确类型的回应的能力很可能促成了其积极影响。

人工智能 AI头条
字节跳动发布图像模型蒸馏算法Hyper-SD 推理速度更快更完美

字节跳动的Lightning团队发布的新图像模型蒸馏算法Hyper-SD，是一项在图像处理和机器学习领域的重要进展。这项技术通过创新的方法提升了模型在不同推理步骤下的性能，同时保持了模型大小的精简。随着进一步的研究和开发，Hyper-SD及其衍生技术有望在多个领域内推动AI技术的发展和应用。

Hyper AI头条

今日大家都在搜的词：

热文

3 天
7天

研究表明：大语言模型从人类反馈中学得更快更智能

今日大家都在搜的词：

热文

站长商机