3月17日,特斯拉首席执行官埃隆·马斯克在社交媒体上对中国科技公司Kimi近期发布的一项技术研究成果表示赞赏。随后,Kimi官方账号以轻松的语气回应称:“你的火箭造得也不错!”
据悉,Kimi研究团队近日公布了一份技术报告,提出了一种名为“注意力残差”的新机制。该机制对深度学习领域长期使用的经典残差连接方式进行了重要改进,引发了业内的广泛关注。

在传统的深度模型架构中,信息通常以固定的方式在层与层之间传递,这可能导致模型在加深时,早期层的信息被稀释,进而影响训练效率和稳定性。
Kimi团队提出的新方法,引入了一种动态筛选机制。它允许模型在深度方向上,自主决定如何组合来自前面各层的信息,从而更高效地传递关键内容,抑制冗余。
为了控制计算资源的消耗,团队采用了分块处理的策略。在块内部沿用稳定可靠的传统方式,而在块与块之间则应用新的动态加权方法。报告指出,这一设计仅使模型推理过程的延迟增加了不足2%,较好地平衡了性能提升与运行效率。

根据公布的测试结果,采用新机制的480亿参数模型,其训练效率达到了原有水平的1.25倍。在科学推理和数学解题等特定任务上,模型的表现也分别提升了7.5%和3.6%,显示出其在改善模型训练均衡性方面的潜力。
马斯克在转发相关报告时评论称“Kimi的工作令人印象深刻”。目前,其旗下的人工智能公司xAI正处于调整阶段,此番表态引起了业界对该技术价值的关注。
此外,人工智能领域知名学者、前OpenAI研究副总裁杰里·托雷克也对此评价道:“这标志着深度学习进入了新的阶段。”
(举报)
