首页 > AI头条  > 正文

字节Seed 团队推出 PHD-Transformer,成功扩展预训练长度,解决 KV 缓存问题!

2025-04-28 16:20 · 来源: AIbase基地

近日,字节跳动的 Seed 团队在人工智能领域再传佳音,推出了一种新型的 PHD-Transformer(Parallel Hidden Decoding Transformer),这项创新突破了预训练长度的限制,有效解决了推理过程中的 KV 缓存膨胀问题。随着大型推理模型的迅速发展,研究人员在后训练阶段尝试通过强化学习方法来生成更长的推理链,并在复杂的推理任务上取得了显著成果。受到启发,字节 Seed 团队决定探索在预训练阶段进行长度扩展的可能性。

传统的长度扩展方法常常涉及在序列中插入文本或潜在向量,这些方式往往导致 KV 缓存占用过多内存,推理速度慢。而 PHD-Transformer 则采用了一种更为简便的策略 —— 直接重复输入的 tokens。尽管这种方法在训练损失和模型性能上有明显的提升,却也带来了 KV 缓存线性增长、内存压力加大和解码延迟等新问题。

image.png

为了解决这些挑战,PHD-Transformer 通过创新的 KV 缓存管理策略,保留了与原始 Transformer 相同的缓存大小。在推理时,PHD-Transformer 只保留由原始 tokens 生成的 KV 缓存,而对重复的 tokens 则在预测后立即丢弃,显著加快了推理速度。此外,研究团队还引入了滑动窗口注意力机制,称之为 PHD-SWA,以保持局部滑动窗口缓存的性能优势。为进一步优化预填充时间,研究者提出了逐块滑动窗口注意力机制 PHD-CSWA,限制了每个块内的顺序依赖,从而大幅缩短了预填充时间。

在一系列实验中,PHD-CSWA 表现出色,在多个公开基准测试集上均实现了准确率的提升。研究团队表示,PHD-CSWA 在保持原有效率的同时,为模型带来了更大的性能提升,标志着在大规模推理任务中,预训练长度扩展取得了实质性进展。

  • 相关推荐
  • AI日报:国内首个多模态AI程序员上岗;字节启动Top Seed计划招募AI人才;DeepSeek R1T Chimera上线OpenRouter

    【AI日报】今日AI领域重要动态:1.百度发布文心快码3.5及多模态AI程序员"文心快码Comate Zulu",提升开发效率;2.字节跳动启动"Top Seed"计划,招募30名AI博士人才;3.DeepSeek开源R1T Chimera模型上线OpenRouter平台;4.阿里AI工程师余亮获"全国劳动模范"称号;5.开源图像编辑工具Step1X-Edit登陆Hugging Face,性能媲美GPT-4o;6.谷歌被曝每月向三星支付巨额资金预装Gemini应用

  • 字节和DeepSeek争抢“天才少年”

    当年轻人还在想着怎么靠AI赚钱时,AI已经开始帮助老板提升身家了。近期胡润研究院发布的《2025胡润全球富豪榜》显示,字节跳动创始人张一鸣取代“瓶装水大王”钟睒睒,成为中国新首富。对当下的字节和张一鸣言,如果靠砸钱就能解决大模型的技术突破难题,那无疑将是一笔划算的投资。

  • Trae国内版怎么用?Trae IDE 内置 MCP 市场配置使用指南

    字节跳动旗下Trae+IDE发布新版本,通过MCP协议实现AI智能体与外部工具的深度集成。MCP作为标准化桥梁,让开发者能灵活接入Supabase、FireCrawl等第三方服务,只需@符号即可调用智能体完成数据库操作、文档搜索等复杂任务。新版本内置MCP市场,支持Token快速配置,并演示了如何通过Figma+AI自动生成前端代码。该技术可应用于Blender建模、K8s管理等多元场景,显著提升开发效率。Trae+IDE将持续扩展工具生态,推动AI协作开发新时代。

  • 诚意满满!小米为SU7 Ultra Club首批会员推出限定礼盒

    小米汽车这次真是诚意满满!SU7 Ultra Club首批会员收到了一份专属的限定礼盒。里面的东西可不少:SU7 Ultra的1:43合金车模,做工精致,完全按照真车比例打造;除此之外,还有纽北成绩限定车牌和冰箱贴,再加上专属会员卡,这身份感瞬间拉满。100%; word-break: break-word;"据悉,SU7 Ultra Club会员俱乐部是2月27日成立的,年费3999元,首批限量2000人,入会就能拿到6

  • 小米澎湃OS问题处理公告:小米14 Ultra影像风格预设消失等已解决

    快科技4月21日消息,小米近日公布了对澎湃OS的问题处理进展,其中提到了小米15、14Ultra机型的体验问题优化情况,主要针对Beta版本系统。具体如下:已优化问题Beta版本部分场景自动锁屏的问题Beta版本部分场景充电与使用时长时间不准的问题Beta版本部分场景Xiaomi152.0.200.10版本徕卡水印不支持后期关闭的问题Beta版本部分场景Xiaomi14Ultra2.0.200.5版本影像风格预设消失的问题处理中�

  • iPhone 17 Pro Max保护壳撞脸小米11 Ultra:外观近乎一样

    快科技4月15日消息,有博主在社交平台上晒出了iPhone 17 Pro Max的保护壳,其摄像头开孔跟小米11 Ultra近乎一致,因为两款机型都是横向大矩阵相机DECO设计,拥有极高的辨识度。不过两款机型的按键开孔并不一致,小米11 Ultra的电源键、音量键位于同一侧,iPhone 17 Pro系列的电源键和音量键位于机身两侧,并且iPhone还多了一枚拍照按键。这次iPhone 17 Pro系列不仅仅是改变了工业设计�

  • 反击DeepSeek失败!Llama 4效果不好,Meta承认有问题

    今天凌晨1点半,Meta生成式AI领导者AhmadAl-Dahle在社交平台发布了一篇长文,对前天刚开源的Llama4质疑进行了官方回应。Ahmad表示,Llama4一开发完就发布了,所以,不同服务中模型质量难免会有一些差异。由于关税大战的原因,Meta的股票遭遇重创,他们也需要一个利好消息来拉升股票,现在适得其反。

  • 努比亚Z70S Ultra摄影师版官宣:今年唯一真全面屏Ultra

    快科技4月18日消息,今天,努比亚宣布努比亚AI双旗舰新品发布会将于4月28日举行,努比亚Z70S Ultra摄影师版和努比亚首款神秘新品将同时亮相。本次发布会的重头戏是努比亚Z70S Ultra摄影师版,对比其它Ultra机型,Z70S Ultra摄影师版采用1.5K真全面屏形态,是今年唯一一款真全面屏Ultra。据悉,这块屏幕采用全屏蓝钻排列,通过FIAA极致压缩走线技术实现超高屏占比,加上内置UDC Ultra

  • OPPO Find X8 Ultra堪称电子阿胶:拍照直出气血感

    今日晚间,OPPOFindX8Ultra正式亮相。该机带来全新夜神五摄影像系统,包括5000万超广角、5000万1英寸LYT900主摄、5000万像素3X镜头、5000万像素6X望远镜头以及丹霞原彩镜头,同时配备OPPO超晶态蓝玻璃,配合分区色温感知技术和多模态协同计算技术,一次性解决夜景人像细节糊、色彩偏、肤色怪的三大难题。根据官方实拍的对比样张,FindX8Ultra能准确还原人脸的肤色以及人像背后的环境,然后分别处理,让人像看上去更有气血感”,相比之下,iPhone16ProMax的人像样张噪点较多,肤色质感跟OPPO有明显差距。

  • AI日报:阿里通义万相首尾帧生视频模型;豆包开源Seed智能体模型UI-TARS-1.5;OpenAI首发“智能体实践指南”

    欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解:https://top.aibase.com/1、阿里通义万相首尾帧生视频模型Wan2.1-FLF2V-14B开源阿里巴巴的通义实验室在Hugging Face和GitHub上开源了Wan2.1-FLF2V-14B模型,标志着AI视频生成技术的重大进步。该模型支持高清视频生成

今日大家都在搜的词: