首页 > AI头条  > 正文

Meta 发布新型记忆层技术:突破参数限制,大幅提升 AI 事实准确性

2025-01-06 11:24 · 来源: AIbase基地

Meta 公司近日发布了一项突破性的研究成果,他们开发出一种新型的记忆层技术,可以显著提升大型语言模型(LLM)的事实准确性,并在参数规模上实现了前所未有的扩展。这项技术不仅挑战了传统神经网络的扩展方式,还为未来的 AI 架构设计提供了新的方向。

这项研究的核心在于利用可训练的键值查找机制,为模型增加额外的参数,而无需增加计算量(FLOPs)。这种方法的核心思想是,通过稀疏激活的记忆层来补充计算密集的前馈层,从而提供专门的存储和检索信息的能力。

image.png

与传统的稠密网络相比,记忆层在处理信息存储方面更具效率。例如,语言模型需要学习人名生日、国家首都等简单的关联信息,记忆层可以通过简单的键值查找机制实现,这种方式比使用前馈网络更高效。

该研究的主要贡献在于将记忆层的规模扩展到了前所未有的程度,达到了1280亿个参数。实验结果表明,在下游任务中,配备改进型记忆层的语言模型不仅优于计算量翻倍的稠密模型,在计算量和参数量匹配的情况下,也胜过混合专家模型。尤其在事实性任务上,性能提升更为显著。

image.png

Meta 的研究人员通过将 Transformer 网络中的一个或多个前馈网络(FFN)替换为记忆层来实现这一目标。这种替换方式在不同基础模型大小(从1.34亿到80亿参数)和记忆容量(高达1280亿参数)上都表现出了一致的优势。实验结果显示,记忆层可以将语言模型的事实准确性提高100%以上,同时在代码编写和一般知识方面也有显著提高。在许多情况下,配备记忆层的模型甚至可以达到需要4倍计算量的稠密模型的性能。

研究人员还对记忆层进行了多项改进,以克服其在规模化应用中的挑战:

采用乘积键查找机制:为了解决大规模记忆层中查询键检索的瓶颈,该研究采用了可训练的乘积量化键,从而避免了对每个查询键对进行比较。

并行化记忆层:为了在多 GPU 环境下实现记忆层的并行化,研究人员将嵌入查找和聚合操作分布在多个 GPU 上。

共享记忆机制:为了最大限度地共享参数,研究人员在所有记忆层之间使用共享的记忆参数池。

优化性能和稳定性:研究人员使用自定义的 CUDA 内核优化了 EmbeddingBag 操作,显著提高了内存带宽利用率。此外,还引入了带有 silu 非线性的输入相关门控机制,以提高训练性能和稳定性。

image.png

实验结果还揭示了以下关键发现:

记忆层的大小对性能有显著影响:随着记忆层大小的增加,事实性问答的性能持续提高。

多个记忆层优于单个记忆层:使用多个共享参数的记忆层可以提高性能,但过多的记忆层会降低性能。最佳的记忆层数量为三个。

记忆层能更快地学习事实:在训练初期,配备记忆层的模型性能提升更快,表明记忆层有助于模型更快地学习事实.

记忆层与稠密层互补:实验表明,稀疏的记忆层和稠密的前馈层都是必不可少的。

为了验证记忆层技术的有效性,研究人员在多个基准测试上进行了评估,包括:

事实性问题回答(NaturalQuestions, TriviaQA)

多跳问题回答(HotpotQA)

科学和常识性知识(MMLU, HellaSwag, OBQA, PIQA)

代码编写(HumanEval, MBPP)

结果显示,配备记忆层的模型在这些测试中均优于基线模型,尤其是在事实性问题回答上,性能提升最为明显。

Meta 的这项研究不仅为 AI 模型的扩展提供了新的思路,也为解决事实性问题和提高模型性能开辟了新的道路。研究人员认为,记忆层技术具有很强的可扩展性,未来有望在各种 AI 应用中得到广泛应用。他们还指出,虽然记忆层在硬件加速方面仍面临挑战,但相信通过持续的研究和优化,其性能可以与传统前馈网络相媲美甚至超越.

此外,Meta 的研究团队还希望通过新的学习方法进一步提升记忆层的性能,减少模型的遗忘、幻觉,并实现持续学习.

这项研究的发布无疑为 AI 领域注入了新的活力,也让我们对未来 AI 的发展充满了期待。

论文:https://arxiv.org/pdf/2412.09764

  • 相关推荐
  • VITA平台赋能AI办公,沸蛇AI语音鼠标提升办公效率

    云决科技推出VITA一站式AI办公平台,结合自研AI语音鼠标,通过软硬件协同创新提升企业效率。该平台集成DeepSeek等大模型,用户无需切换工具,语音即可调用文字处理、数据分析、创意设计等多元功能,实现会议纪要生成、PPT自动制作、视频一键合成等操作,节省80%工作时间。针对教育、IT、行政等不同行业提供专属解决方案,整合100多个AI应用场景和200多种模板,持续优化产品功能,致力于成为职场人士提升效率的智能助手。

  • 雷军:REDMI K90第一次从大屏改中屏 手感大幅度提升

    Redmi K90将于10月23日发布,首次从中大屏改为6.59英寸黄金尺寸,兼顾单手操作与视觉体验。研发团队通过用户调研确定该尺寸最符合3K价位段消费者对便携与沉浸感的需求。配置未妥协:搭载小米17 Pro Max同款超像素技术,内置7100mAh电池支持100W快充,并带来五大升级——iPhone 17同款一体冷雕工艺、Bose调音双扬、K系列首增2.5X长焦镜头等,全面提升质感与功能。

  • 如何提升品牌在AI回答中的提及率?GEO优化3招,让ChatGPT主动提及你的品牌

    本文探讨AI搜索时代品牌面临的"隐身危机",指出AI搜索用户年增538.7%,但品牌在AI回答中提及率不足20%。提出三大核心策略:1)构建权威背书矩阵,通过知乎等高权重平台获取自然提及;2)优化AI友好内容,采用对话式标题和结构化数据;3)建立数据监测闭环,通过A/B测试持续迭代。强调需善用监测工具实时追踪品牌在豆包、文心一言等AI模型的曝光表现,避免内容"注水"。最终实现从"被动等待"到主动抢占AI"第一屏"的转变。

  • OpenAI推出AI浏览器ChatGPT Atlas 开启个性化上网新体验

    OpenAI于10月22日推出首款AI驱动浏览器ChatGPT Atlas,以个性化上网体验为核心。用户点击“Ask ChatGPT”即可在侧边栏实时互动,实现网页摘要生成、航班预订、文档编辑等多样化任务。目前仅支持macOS,未来将扩展至Windows和移动端。高级代理功能暂限付费用户使用,其特色包括自动捕捉页面上下文、分屏浏览及记忆用户操作历史,旨在通过自然对话提升网络使用效率。

  • 数据智能体 TabTabAI 正式上线,零门槛上手,让 “数据分析” 人人可用

    AI数据智能体TabTabAI正式上线,以“零门槛交互+全流程自主处理”为核心优势,打破数据分析技术壁垒。该工具通过自然语言对话,支持多源数据采集、智能处理、深度洞察与可视化,让普通职场人无需编程背景即可完成复杂分析任务。其多智能体协同架构与自动化能力,覆盖从数据收集到决策建议的全链路,助力用户将原始数据高效转化为精准决策依据,真正实现“人人都是数据分析师”。

  • 重磅预告:全链路自主进化 AI 数据分析师 TabTab 将于10月24日上线

    灵快科技推出的AI数据分析师TabTab将于10月24日上线。该产品通过Multi-Agent系统实现全链路自动化数据分析,覆盖数据获取、建模到可视化全流程。用户可用自然语言交互,系统自主规划任务并输出可维护结果,支持Excel、PPT等多种报告格式。核心定位为智能数据分析助手,旨在降低分析门槛,助力企业高效挖掘数据价值,适用于数据分析师、营销人员等各类用户。

  • 小鹅通赋能美学创业:从线下到线上,帮女性美学培训师实现 0 到 1 高口碑突破

    小鹅通《老鲍对话标杆客户》栏目聚焦美学领域创业者Elan的创业实践。她从服装陈列师转型私人造型师,2023年独立创业后借助小鹅通实现从线下到线上的业务转型,构建"实践训练+实时互动+个性化点评"的培训体系,核心服务35-45岁具备经济自主权的女性群体。通过标准化产品与灵活运营结合,既保障服务效果又降低运营成本,形成"轻量化启动+规模化链接"的创业范式。未来计划深耕美学赛道,探索AI技术与团队化升级,持续助力个体创业者实现可持续事业突破。

  • AI日报:腾讯发布全新ima2.0;微软发布 Copilot 一系列重磅更新;阿里夸克AI眼镜开启预售

    本文汇总近期AI领域重要动态:月之暗面再获数亿美元融资,显示资本对国产大模型的信心;Anthropic为Claude推出记忆功能,兼顾个性化与隐私保护;中科大与字节发布MoGA长视频生成模型,实现分钟级高质量生成;腾讯ima2.0升级任务模式,可自主拆解复杂流程;阿里夸克AI眼镜开启预售,融合拍摄与智能功能;微软Copilot新增群聊、记忆与Edge AI模式;Opera推出深度研究代理ODRA提升�

  • 专访金蝶智慧记:AI赋能小微商户,实现智能经营突破

    金蝶集团推出“智慧记AI”系统,专为小微商户设计。该系统通过五个AI角色(收银员、仓库管家、营销助手、财务顾问和生意参谋)提供全方位经营支持,能自动识别滞销商品、生成经营诊断报告。深圳一家零食店使用三周后,毛利率提升5%,库存周转从23天缩短至16天。目前产品已覆盖300万商户,并拓展至东南亚和中东市场,助力全球小微商户实现高效经营与数字化转型。

  • 苹果M5芯片正式发布:CPU提升15%、图形性能提升30%!

    苹果正式发布了其全新的M5处理器,这款芯片基于台积电的N3P制程工艺,配备了10核CPU和10核GPU。 从CPU来看,M5采用了与M4相同的10核配置,不同的是采用了6个性能核心和4个效率核心,虽然核心数量没有变化,但苹果表示M5的CPU的多线程性能相比M4提高了15%。 在GPU方面,M5配备了10核GPU

今日大家都在搜的词: