首页 > 业界 > 关键词  > Transformer最新资讯  > 正文

MIT斯坦福Transformer研究:过度训练会让中度模型“结构顿悟”

2023-12-08 14:35 · 稿源:站长之家

要点:

  • 经过过度训练,中度模型如Transformer表现出结构性泛化能力,被称为"结构顿悟"(Structural Grokking)。

  • 研究发现,对于Transformer类模型,长时间训练后,模型在泛化到新结构输入时能够有效地捕捉到句子的层级结构。

  • 结果显示,模型的深度对结构顿悟呈倒U形缩放,中深度模型的泛化能力较深度和浅度模型更强。

站长之家(ChinaZ.com)12月8日 消息:最新研究指出,经过过度训练,中度的Transformer模型能够展现出结构性泛化能力,这一现象被称为"结构顿悟"。在自然语言处理中,先前的研究认为像Transformer这样的神经序列模型在泛化到新的结构输入时难以有效地捕捉句子的层级结构。

image.png

论文地址:https://arxiv.org/pdf/2305.18741.pdf

然而,斯坦福和MIT的研究人员发现,通过对Transformer类模型进行长时间的训练,模型能够获得这种结构性的泛化能力。他们将这一现象命名为"结构顿悟",形容为神经网络经历了一个"aha moment",在训练的某一刻忽然实现了对层级结构的理解。这种现象的发生被证明在不同数据集上呈现出倒U形的深度缩放,中深度模型的泛化能力表现最佳

研究进一步指出,提前停止训练会导致泛化性能被低估,而中度深度的Transformer模型在泛化到新结构输入时呈现出显著的优势。研究还分析了结构顿悟的内部属性,包括参数权重的L2norm、注意力稀疏性和模型的树结构性。结果显示,中度深度模型在这些属性上表现出最佳的结构顿悟,而权重范数和注意力稀疏性的动态变化与模型的泛化性能密切相关。

这项研究为理解神经序列模型的泛化机制提供了新的视角。通过揭示结构顿悟的存在,研究强调了模型深度与泛化性能之间的关系,并为改善自然语言处理模型的泛化能力提供了有价值的启示。这一发现有望在未来的深度学习研究中引起更多关注,为模型设计和训练策略提供指导。

举报

  • 相关推荐
  • 华为云盘古预测大模型首创 Triplet Transformer 统一预训练架构

    6月20日,华为发布盘古大模型5.5,五大基础模型全面升级。该模型采用业界首创的Triplet+Transformer统一预训练架构,能跨行业处理表格数据、时间序列数据和图片数据,显著提升预测精度和泛化能力。已在水泥、钢铁、电解铝、供热等多个工业场景落地应用:海螺水泥实现熟料强度预测,宝武钢铁高炉出铁温度合格率超90%,云南铝业年省电2600万度,天津供热能耗降低10%。模型聚焦工业领域,通过工艺优化和系统寻优,助力企业降本增效,推动行业智能化转型。

  • 小鹏G7 Ultra行业首发本地端VLA+VLM大模型 9月起推送上车

    小鹏G7 Ultra今日上市,行业首发本地端VLA VLM”大模型。 搭载了VLA大模型,也就拥有了主动思考、迅速决策能力。 在VLA大模型的加持下,小鹏G7能够解决多种行驶场景,如遇上拥堵路线不傻等,主动绕行最佳路线;途遇积水路面主动减速,安全涉水礼貌避让。

  • 猛玛携全新极影生态,支持FIRST训练营青年电影创作

    2025年6月17日,猛玛发布新一代无线图传监视器极影5,标志着"极影图传生态"进入2.0阶段。该产品配备1500nit超高亮屏、160°超广视角、双频协同+自动跳频等七大功能,专为中小型影视团队设计。极影5与极影全系图传设备和"立声PRO"通话系统共同构建无线音视频支持体系,服务青年电影人创作实践。同时,猛玛宣布成为第十九届FIRST青年电影展官方指定无线音视频技术品牌,将为42位入选青年电影人提供技术支持。猛玛自2017年推出首款专业无线图传以来,已服务《流浪地球》《长安十二时辰》等头部剧组,逐步确立"国产专业图传首选品牌"的行业地位。

  • iQOO 15/15 Ultra首曝:全系标配骁龙8 Elite 2

    博主数码闲聊站爆料,iQOO 15全系标配骁龙8 Elite 2处理器,全系标配5000万像素3C潜望长焦,这是iQOO最强悍的高端旗舰。 据悉,高通骁龙8 Elite 2采用了第二代自研Oryon CPU架构,其GeekBench 6单核成绩有望突破4000分,多核成绩有望突破11000分,其中多核成绩大概率会超过A19 Pro。 除了升级处理器,iQOO 15系列另一大变化是将同时推出两款机型,分别是标准版和Ultra版,而上一代iQOO 13只�

  • 超凡性能,卓越设计——三星Galaxy Watch Ultra的诞生之路

    三星Galaxy Watch Ultra智能手表全新升级,融合"天圆地方"设计美学与户外性能。采用圆形表盘与方形底座结合,配备专属快捷按键,支持一键切换运动模式。表带采用无表耳设计,提升佩戴舒适度,并提供水上运动、越野运动等专业表带选择。搭载超级模拟表盘,可显示9项运动数据,支持个性化设置。2025款新增"钛岭蓝"配色,7月25日正式发售,预约可享表带赠品或分期免息优惠。这款兼具设计美感与实用功能的智能手表,重新定义了户外运动装备标准。

  • AI日报:夸克发布首个高考志愿大模型;Trae月活跃用户破100万;Manus推出免费无限聊天模式

    【AI日报】今日AI领域热点速览: 1. 夸克APP推出高考志愿大模型,免费提供个性化填报指导 2. Manus AI开放免费无限聊天模式,挑战行业巨头 3. Trae开发者平台月活破百万,累计交付60亿行代码 4. 迪士尼环球起诉Midjourney侵犯影视版权 5. 维基百科暂停AI生成摘要实验 6. 360发布"纳米AI超级搜索智能体",内置80多款大模型 7. PartCrafter项目实现单张图片生成高精度3D模型 8. Meta推出AI视频编辑工具,支持50多种预设效果 9. 阿里工程师放弃春节假期全力追赶DeepSeek技术 10. 火山引擎发布PromptPilot智能提示优化平台 11. OpenAI洽谈400亿美元融资,拓展AI生态系统 12. 新一代o3-pro推理模型发布并调整API定价策略

  • AI日报:百度发布“绘想”平台与MuseSteamer;阿里音频驱动全身数字人模型OmniAvatar

    【AI日报】今日AI领域重要动态:1.开源语音大模型Step-Audio-AQAA发布,实现音频到语音的端到端自然转换;2.百度推出"绘想"平台与MuseSteamer,通过AI一键生成专业级视频;3.浙大与阿里联合发布OmniAvatar,音频驱动数字人技术取得突破;4.百度搜索迎十年来最大改版,新增智能框、百看和AI助手功能;5.xAI开发者控制台新增Grok4及Grok4Code引用,预示新一代AI模型即将发布;6.Gemin

  • 国际汽车媒体TopGear点赞小米SU7 Ultra 纽北记录 雷军:我非常开心

    小米SU7 Ultra在纽北赛道以7分04.95秒成绩打破量产电动车圈速纪录,超越Rimac Nevera成为新晋冠军。英国权威汽车节目《Top Gear》报道称,小米首次尝试便创下这一佳绩。此前保时捷和特斯拉长期垄断该榜单,这是中国汽车品牌首次登顶。雷军发文表示对获得国际认可感到非常开心。该车今年早些时候就因性能强劲获得"大胆"徽章认证。《Top Gear》作为BBC旗下知名汽车节目,以其专业测评和大胆挑战闻名全球。

  • 前OpenAI研究员:有时,ChatGPT为了“自救”,会选择牺牲用户

    他对OpenAI最新GPT-4o模型进行的一系列实验。这些实验旨在测试AI是否会偏向“自我保护”,甚至可能以牺牲用户利益为代价……

  • 小米史上最强大手机!小米16 Ultra Max型号首曝

    ,目前小米数字系列旗舰基本固定,以小米15系列为例,包括有小米15、小米15Pro、小米15Ultra。 这三个产品线算是小米数字系列的正统迭代。 S系列则是换芯小迭代,比如小米15S Pro就是各方面参数与小米15Pro保持一致,更换了玄戒O1芯片。 需要注意的是,最新爆料称小米16系列将新增两款机型:小米16Ultra Max、小米16S Ultra。