首页 > 业界 > 关键词  > 增强语言模型最新资讯  > 正文

ReWOO:新方法使增强语言模型更高效

2023-06-07 10:57 · 稿源:站长之家

站长之家(ChinaZ.com)6月7日 消息:目前,增强语言模型最突出的例子是带有 Internet 浏览器或插件的ChatGPT 。得益于这些工具,ChatGPT 可以检索当前信息或可靠地解决计算任务。

ReWOO框架旨在提高此类增强模型的效率。在逻辑推理的多级基准 HotpotQA 测试中,它的准确率提高了4%,令牌消耗减少了5倍。

image.png

ReWOO 通过将语言模型的推理与对工具的访问分离来实现这一点。因此,提示中的标记只需传递给该工具一次,而不是多次。

目前,语言模型通过调用工具、传递请求、等待响应、接受响应,然后继续生成响应来访问工具。模型运行、停止、运行、停止等。这需要时间和处理能力,并且需要多次向工具发送提示令牌。

ReWOO 通过使用允许语言模型预测推理并定义响应中需要工具的位置的规划模块,使该过程更加高效。然后,该模型会生成包含所有问题和完整文本的所有子任务,即使来自工具的信息尚不可用。

粗略地说,这可以比作一个填空文本,然后一步一步用工具中的信息填充。这组作者说,大型预训练语言模型对工具响应的“形状”有足够的了解,可以进行这种预测。

因为语言模型将对工具的查询存储为子任务,并且只询问一次,然后直接询问所有问题,所以生成过程不必多次停止和重新启动。

这种工具任务的“批量”处理节省了计算能力,使增强的 LLM 更加高效。通过这种基于规划的高效工具使用,小型模型可以产生更高质量的结果。

举报

  • 相关推荐
  • 大家在看
  • 开源大模型食用指南官网地址入口 详细环境配置、模型部署、高效微调方法教程

    开源大模型食用指南是一个旨在帮助用户学习和应用开源大模型的全流程指导教程。它提供了详细的环境配置、模型部署、高效微调等方法,以简化开源大模型的使用和应用,让更多普通学习者能够轻松上手。要获取更多详细信息并开始您的开源大模型之旅,请访问开源大模型食用指南官网。

  • ​谷歌AI研究人员提出噪声感知训练方法(NAT)用于布局感知语言模型

    在文档处理中,特别是在视觉丰富的文档中,高效信息提取的需求变得越来越关键。VRDs,如发票、水电费单和保险报价,在业务工作流中随处可见,通常以不同的布局和格式呈现类似信息。他们的研究为使普通用户能够访问先进的文档处理功能铺平了道路,标志着该领域迈出了重要的一步。

  • Meditron:先进的医学大语言模型

    Meditron是一个基于Llama的大型医学语言模型,由Meta公司更新并发布。Meditron项目是完全开源的,包括数据、模型权重和配置,这意味着全球的研究人员和开发者都可以自由地访问、使用、修改和改进这一技术。在紧急情况下快速提供医疗响应,或在基础设施不足的地区辅助医疗工作,Meditron可以发挥重要作用。

  • 智能、便捷 | SW-RDMS 助力企业实现更高效、优质的成果产出

    医药行业是一个高度专业化、技术密集型的行业,其研发活动的质量和效率直接影响到企业的生存和发展。然而,随着新药审评审批难度的增大以及新技术在医药行业的应用,医药企业的研发管理面临着许多挑战,传统的新药研发管理模式已经无法满足现代医药企业的需求,医药研发信息化建设迫在眉睫。一、 医药企业研发管理的现状与问题目前,医药企业的研发管理主要存�

  • 苹果开发设备内运行的大型语言模型 优先考虑速度和隐私

    苹果公司正在开发自己的大型语言模型。这款模型将能够在设备上本地运行,从优先考虑速度和隐私保护。苹果更广泛的人工智能战略预计将在6月份的WWDC上与主要软件更新预览一起公布。

  • 更深入、更高效、更精准,神策数据海外媒介效果分析能力升级

    如何在数据安全与合规的前提下,高效地追踪海外多媒体平台的投放流量,有效归因分析投放效果,持续优化企业在海外媒体的一系列营销动作?针对企业客户的这一需求,神策数据从专业性和效率最佳两个角度综合考虑,接入多家第三方MMP,例如AppsFlyer、Adjust等,为企业提供强大的数据分析和营销优化工具,帮助企业获得更深入的洞察力、更高效的营销活动评估能力,以及更精准的用户行为分析能力。一、聚焦企业海外经营,三大价值解密神策分析最新能力1.跨渠道数据打通和关联,看数与决策效率双重提升神策数据作为专业的数字化客户经营软件提供商,能够为企业提供强大的数据合规采集与多维分析能力,通过结合第三方MMP的归因数据,可以帮助企业精确衡量营销活动ROI、识别并优化成本效益最高的营销策略、定位活动中需要改进的策略等,从实现数据驱动决策、优化营销预算。如果您对以上内容感兴趣,欢迎关注神策数据公众号,或者搜索进入神策数据官网咨询客服立即免费体验。

  • Meta 推出 LayerSkip:提升大语言模型推理速度

    Meta公司最新发布了LayerSkip,这是一款端到端的解决方案,专门设计用于提升大型语言模型的推理速度。这一技术在不同规模的Llama模型上经过了广泛的训练实验,并在多个任务上展现了显著的性能提升。未来展望:随着LayerSkip技术的不断完善和应用,预计将为大语言模型的部署和使用带来更多可能性,特别是在需要快速处理大量语言数据的场合。

  • Meta新大语言模型LLama 3将在英特尔和通硬件上运行

    Meta最近发布了LLama3,这是一款新的大型语言模型,用于实现更安全、更准确的生成式人工智能体验。除了LLM,Meta还推出了LlamaGuard2、CodeShield和CyberSecEval2等信任和安全工具,以帮助确保符合行业和用户安全期望。随着400亿参数显示出更高的准确性,可以推断出更高的AI硬件需求不会很快减少。

  • 作业帮旗下云思智学亮相中国装备展,科技赋能让教育更高效

    4月19日,由中国教育装备行业协会主办,重庆市教育委员会、重庆市两江新区管委会、重庆市渝北区人民政府共同承办的第83届中国教育装备展示会,在重庆国际博览中心举行。展会为期3天,围绕“数字赋能教育、创新引领未来”为主题,汇聚行业精英交流分享最 新研究成果和实践经验,共同探讨教育数字化转型和教育教学创新的发展路径和前沿趋势。作业帮旗下教育数字化�

  • INDEMIND机器人导航解决方案,让开发更简单,让机器人更高效

    随着机器人进入到越来越多的生产生活场景中,作业任务和环境变得更加复杂,机器人需要更精准、更稳定、更智能、更灵敏的自主导航能力。自主导航技术作为机器人技术的核心,虽然经过了多年发展,取得了长足进步,但在实践过程中,依然面临较多难题,如面对特殊障碍物难以避障、复杂场景精度降低稳定性下降、智能交互支持不足等问题,且地图构建大多仍为传统的2D栅格地图、拓扑地图,缺乏机器人用于理解环境、人机交互等业务的高层次语义信息。结合INDEMIND提供成熟的硬件参考设计和量产设计服务及相对成熟的作业单元技术,整机从立项到量产最快可以控制到2个月以内,大大降低企业的研发周期和投入成本。

今日大家都在搜的词: