首页 > 业界 > 关键词  > MemWalker最新资讯  > 正文

Meta推大模型记忆增强方法MemWalker 靠prompt就能完成,无需额外训练

2023-10-25 10:08 · 稿源:站长之家

要点:

1. 研究团队开发了名为MemWalker的树形记忆策略,使大型语言模型能够突破窗口长度限制,实现长文本的阅读和回答问题,而无需额外训练。

2. MemWalker的工作原理分为记忆树构建和导航检索两个阶段,其中长文本被分割成小段,大模型对每段进行总结形成"叶子节点"和"非叶节点",非叶节点用于定位答案,叶子节点用于推理答案。

3. MemWalker还引入了工作记忆机制,将已经访问的节点内容加入到当前内容的上下文中,以提高准确度,而且整个过程只依赖于prompt,不需要额外训练。

站长之家(ChinaZ.com)10月25日 消息:一项名为MemWalker的新技术,使大型语言模型能够克服其窗口长度的限制,从而可以处理更长的文本并回答相关问题,而无需进行额外的训练。这一技术的开发团队使用了一种树形记忆策略,该策略的工作原理包括两个主要阶段:记忆树构建和导航检索。

2_1698200025836_ai2023_Technology_Tree_Futurism_Technology_BlueThe_image_featur_2e08d71e-2f2f-41e9-8c05-cc16656d7383.png

图源备注:图片由AI生成,图片授权服务商Midjourney

在记忆树构建阶段,长文本被分割成多个小段,每个小段都由大型语言模型进行总结,形成了"叶子节点"和"非叶节点"。这些叶子节点包含原始信息,而非叶节点只包含概括信息。非叶节点用于定位答案所在的叶子节点,而叶子节点用于推理出答案。整个过程是逐步的,从叶子节点到非叶节点,直到建立完整的树形结构。

image.png

论文地址:https://arxiv.org/abs/2310.05029

导航检索阶段涉及从根节点开始,逐一读取下一级子节点的内容,然后推理出是否继续前进或返回。这个过程一直持续,直到找到合适的叶子节点生成答案或达到最大步数。如果模型发现进入了错误的路径,还可以进行导航回退。此外,MemWalker还引入了工作记忆机制,将已经访问的节点内容加入到当前内容的上下文中,以提高准确度。

重要的是,整个过程只依赖于prompt,不需要进行额外的训练。理论上,只要有足够的算力,MemWalker可以处理无限长的文本,但记忆树构建时的时间和空间复杂度会随着文本长度的增长呈指数型增加。这一技术的发展由普林斯顿大学NLP实验室的华人博士生Howard Chen领衔,得到了导师陈丹琦和Meta AI实验室的学者的参与。整个研究成果使大型语言模型在处理长文本方面迈出了重要一步。

举报

  • 相关推荐
  • 摸着Meta过河,百度再战AI眼镜

    因为缺少真正的出圈产品,导致外界对百度仍持有固有印象,认为其在AI硬件赛道正逐渐掉队。“GoogleGlass什么都能干一点,但是什么也没有做好”,十年前,百度智能眼镜BaiduEye产品团队的一名成员坦言,“我们想至少在一点上做好,能把它用起来”。在这场“战役”中,那些跑得快的企业,是成为“领头羊”还是“炮灰”?可能只在一念之间。

  • 亚马逊联合英伟达举办AI路演大赛,AI新星PromptBio入围6强

    由亚马逊云服务和英伟达联合举办的AI路演大赛在亚马逊奥斯汀总部圆满落幕。此次竞赛旨在吸引北美地区快速发展的AI初创公司,为它们提供一个向人工智能行业及风险投资人展示AI前沿技术应用的平台。公司致力于将前沿人工智能和多组学技术应用于生物数据分析,为生命科学用户、药企和医疗机构提供专业全面的解决方案,推动医学和生物科学的前沿发展。

  • 首个可保留情感的音频LLM!Meta重磅开源7B-Spirit LM,一网打尽「音频+文本」多模态任务

    【新智元导读】Meta最近开源了一个7B尺寸的SpiritLM的多模态语言模型,能够理解和生成语音及文本,可以非常自然地在两种模式间转换,不仅能处理基本的语音转文本和文本转语音任务能捕捉和再现语音中的情感和风格。在纯文本大模型取得进展的同时,其他模态数据,如语音与文本结合的语言模型也成为了一个热门的研究领域,但现有的模型要么在仅包含语音的数据上进行训练,要么是关注特定任务,如文本转语音、自动语音识别或翻译,在其他模态数据和任务上的泛化能力十分有限。研究人员还直接评估了模型对输入提示的处理能力,结果发现,无论是哪种提示,模型都能得到很高的评分,表明还有很大的空间来进一步提高模型在保持情感表达方面的能力,也意味着,智能体在理解和生成情感丰富的内容方面还有很大的潜力可以挖掘。

  • 刚刚,沈向洋官宣通用视觉大模型无需提示,就能识别万物

    无需用户提示,AI就可以识别万物!且精度更高、速度更快。IDEA研究院创院理事长沈向洋官宣IDEA研究院最新成果:通用视觉大模型DINO-X。另一方面结合自研的“视觉提示优化”方法,无需更改模型结构,不用重新训练模型,实现小样本下的场景化定制。

  • RockAI国内首个「非Transformer架构大模型」Yan通过网信办备案

    上海岩芯数智人工智能科技有限公司的Yan架构大模型成功通过《生成式人工智能服务管理暂行办法》备案,这是国内首个非Transformer架构大模型通过备案。Yan模型简介Yan架构大模型是国内首个非Transformer架构、非Attention机制的大模型。Yan架构大模型的备案通过是RockAI践行使命的重要里程碑,未来,我们期待Yan架构大模型在更多设备单元部署应用,让群体智能引领走向通用人工智能,与合作伙伴一起,领先一步开拓更加广阔的市场空间。

  • 三星XR智能眼镜2025年面世 功能强大或超雷朋Meta

    三星与谷歌合作开发的扩展现实智能眼镜预计将在2025年下半年发布,初期生产50万台。这款眼镜将搭载高通AR1芯片组,与雷朋Meta眼镜使用相同硬件平台,并配备1200万像素摄像头和155毫安时电池。据预测,三星可能会在2025年正式发布前,通过活动进行预热,比如在GalaxyS25发布会上首次展示XR眼镜,以吸引更多关注。

  • OpenAI世界最贵大模型上热搜:每月200美元 ChatGPT Pro拥有无限使用权

    OpenAI公司在“12天12场直播”活动的首秀中宣布了推理大模型o1的完整版本和进阶模式,同时推出了每月200美元的ChatGPTPro订阅服务。ChatGPTPlus用户将逐步获得完整版o1模型的使用权限,该模型以o1预览版形式于9月上线,其特点在于回答用户问题时会形成类似人类思维方式的内部思维链条,提高回答专业问题时的准确性。OpenAI计划未来为这一订阅服务添加更多强大、计算密集型的功能。

  • ChatGPT两周年,国产o1大模型们紧追不舍

    ChatGPT诞生的第二年,OpenAI和国内的一众企业正在试着“抛弃”它。在ScalingLaw被质疑能力“见顶”的情况下,今年9月,OpenAI带着以全新系列命名的模型o1一经发布,“会思考的大模型”再度成为焦点。在如何不过度思考的情况下,平衡大模型的推理进化和用户对效率的需求?这是杨植麟几个月前在云栖大会上的提问,这个问题需要留给国内大模型厂商们继续解决。

  • 699元 努比亚Watch GT发布:接入混元AI大模型

    努比亚WatchGT今日正式发布,首发699元。努比亚WatchGT采用金属与玻璃对撞设计,中框材质为半透明玻璃,科技感满满。内置450mAh容量电池,续航可达15天。