MIT斯坦福Transformer研究：过度训练会让中度模型“结构顿悟”

2023-12-08 14:35 · 稿源：站长之家

要点:
经过过度训练，中度模型如Transformer表现出结构性泛化能力，被称为"结构顿悟"（Structural Grokking）。
研究发现，对于Transformer类模型，长时间训练后，模型在泛化到新结构输入时能够有效地捕捉到句子的层级结构。
结果显示，模型的深度对结构顿悟呈倒U形缩放，中深度模型的泛化能力较深度和浅度模型更强。

站长之家（ChinaZ.com）12月8日消息:最新研究指出，经过过度训练，中度的Transformer模型能够展现出结构性泛化能力，这一现象被称为"结构顿悟"。在自然语言处理中，先前的研究认为像Transformer这样的神经序列模型在泛化到新的结构输入时难以有效地捕捉句子的层级结构。

论文地址:https://arxiv.org/pdf/2305.18741.pdf

然而，斯坦福和MIT的研究人员发现，通过对Transformer类模型进行长时间的训练，模型能够获得这种结构性的泛化能力。他们将这一现象命名为"结构顿悟"，形容为神经网络经历了一个"aha moment"，在训练的某一刻忽然实现了对层级结构的理解。这种现象的发生被证明在不同数据集上呈现出倒U形的深度缩放，中深度模型的泛化能力表现最佳。

研究进一步指出，提前停止训练会导致泛化性能被低估，而中度深度的Transformer模型在泛化到新结构输入时呈现出显著的优势。研究还分析了结构顿悟的内部属性，包括参数权重的L2norm、注意力稀疏性和模型的树结构性。结果显示，中度深度模型在这些属性上表现出最佳的结构顿悟，而权重范数和注意力稀疏性的动态变化与模型的泛化性能密切相关。

这项研究为理解神经序列模型的泛化机制提供了新的视角。通过揭示结构顿悟的存在，研究强调了模型深度与泛化性能之间的关系，并为改善自然语言处理模型的泛化能力提供了有价值的启示。这一发现有望在未来的深度学习研究中引起更多关注，为模型设计和训练策略提供指导。

（举报）

相关推荐
大家在看

关键词：

Transformer

【腾讯云】11.11云上盛惠！云服务器首年1.8折起，买1年送3个月！

11.11云上盛惠！海量产品 · 轻松上云！云服务器首年1.8折起，买1年送3个月！超值优惠，性能稳定，让您的云端之旅更加畅享。快来腾讯云选购吧！

Docker容器镜像
去看看

Docker容器镜像 60元/15天

爆款产品组合购
去看看

爆款产品组合购低至1元

腾讯云x NVIDIA加速计划
去看看

腾讯云x NVIDIA加速计划最高获赠10万元扶持基金

2核2G云服务器
去看看

2核2G云服务器 112元/1年

查看更多相关信息>>

腾讯云 12-20

广告
荐首个基于SSM-Transformer混合架构，开源商业大模型Jamba

3月29日，知名AI研究实验室AI21在官网开源了，首个基于SSM-Transformer混合架构的商业大模型——Jamba。ChatGPT、StableDifusion、Lyria等产品使用的皆是Transformer架构，虽然在捕捉序列内长距离依赖关系、泛化能力、特征提取等方面非常优秀，但在处理长序列、训练大参数模型时存在AI算力消耗大、过拟合、内存占用大等缺点。耐克、Zoom、沃尔玛、三星、阿迪达斯、airbnb等知名企业在使�

大模型
荐谷歌更新Transformer架构，更节省计算资源！50%性能提升

谷歌终于更新了Transformer架构。最新发布的Mixture-of-Depths，改变了以往Transformer计算模式。这篇论文目前被引次数超过3500次，论文核心定义了Inductivebias概念。

Transformer 谷歌 AI
斯坦福团队大模型Octopus v2火了：手机就能运行准确性超越GPT-4

斯坦福大学研究人员发布的Octopusv2模型引起了开发者社区的极大关注，其20亿参数的模型一夜下载量超过2k。这一模型可以在智能手机、汽车、个人电脑等端侧设备上运行，并在准确性和延迟方面表现超越了GPT-4，同时将上下文长度减少了95%。设备端AI智能体时代即将到来，Octopusv2的发布为这一趋势注入了新的活力。

Octopusv2 AI头条
斯坦福推可以在手机端跑的大模型 Octopusv2超越GPT-4一夜爆火

斯坦福大学的研究团队近日推出了一款名为Octopusv2的新型人工智能模型，这款模型以其在端侧设备上的强大运行能力受到广泛关注。论文:Octopusv2:On-devicelanguagemodelforsuperagent论文地址:https://arxiv.org/abs/2404.01744模型主页:https://huggingface.co/NexaAIDev/Octopus-v2Octopusv2的推出，标志着设备端AI智能体时代的来临。对于那些对AI技术充满热情的开发者和企业来说，Octopusv2无疑提供了一个全新的�

Octopusv2
荐奥特曼斯坦福演讲：专注当前AI局限性没用，GPT-5让一切努力过时

黄仁勋亲自为OpenAI送来了全球第一台NvidiaDGXH200超级计算机，三人合影引得大家津津乐道。奥特曼也没闲着，现身斯坦福大学的Nvidia礼堂发表演讲，大约超过1000名学生排起了长队。奥特曼表示一年前他们推出的GPT-4曾引发了人们两周的恐慌，人们认为这是一件疯狂的事，世界被永远改变了。

GPT-5
荐刚刚，Mistral AI最新磁力链放出！8x22B MoE模型，281GB解禁

【新智元导读】初创团队MistralAI再次放出一条磁力链，281GB文件解禁了最新的8x22BMoE模型。一条磁力链，MistralAI又来闷声不响搞事情。最新的8x22BMoE模型也在抱抱脸平台上上线，社区成员可以基于此构建自己应用。

Mistral MoE模型
荐李飞飞团队年度报告揭底大模型训练成本：Gemini Ultra是GPT-4的2.5倍

如何复盘大模型技术爆发的这一年?除了直观的感受，你还需要一份系统的总结。斯坦福HAI研究所发布了第七个年度的AIIndex报告，这是关于人工智能行业现状的最全面的报告之一。该指数中的其他图表显示，不同人群的观点存在显著差异，年轻人更倾向于乐观地看待人工智能将如何改变他们的生活。

李飞飞 GeminiUltra GPT-4
谷歌AI研究人员提出噪声感知训练方法（NAT）用于布局感知语言模型

在文档处理中，特别是在视觉丰富的文档中，高效信息提取的需求变得越来越关键。VRDs，如发票、水电费单和保险报价，在业务工作流中随处可见，通常以不同的布局和格式呈现类似信息。他们的研究为使普通用户能够访问先进的文档处理功能铺平了道路，标志着该领域迈出了重要的一步。

AI 语言模型 AI头条
干货！斯坦福发布《2024 年人工智能指数报告》

斯坦福大学人工智能研究院发布的《2024年人工智能指数报告》提供了对2023年人工智能领域进展的全面分析，覆盖了技术进步、经济影响、政策制定和公众舆论等多个方面。以下是报告的一些关键要点:技术进步:行业研究贡献:行业在AI研究方面发挥了重要作用，2023年贡献了51个重要的机器学习模型学术界仅贡献了15个。报告也强调了需要关注AI的伦理、责任和社会影响，以确保其发展能够造福全人类。

斯坦福大学人工智能 AI头条
破解36年前魔咒！Meta推出反向训练大法消除大模型「逆转诅咒」

【新智元导读】大语言模型的「逆转诅咒」，被解开了。来自MetaFAIR的研究人员推出了反向训练大法，让模型从反方向上学到了事实之间的逻辑，终于改进了这个困扰人们已久的问题。36年前的预言1988年，Fodor和Pylyshyn在《认知》刊物上发了一篇关于思维的系统性的文章。

Meta 大模型

今日大家都在搜的词：

热文

3 天
7天

MIT斯坦福Transformer研究：过度训练会让中度模型“结构顿悟”

今日大家都在搜的词：

热文

站长商机