首页 > AI头条  > 正文

​腾讯混元 TurboS 技术报告全面揭秘,560B参数混合Mamba架构

2025-05-22 16:23 · 来源: AIbase基地

腾讯发布了混元 TurboS 技术报告,揭示了其旗舰大语言模型 TurboS 的核心创新与强大能力。

根据全球权威大模型评测平台 Chatbot Arena 的最新排名,混元 TurboS 在239个参赛模型中位列第七,成为国内仅次于 Deepseek 的顶尖模型,并在国际上仅落后于谷歌、OpenAI 及 xAI 等几家机构。

image.png

混元 TurboS 模型的架构采用了创新的 Hybrid Transformer-Mamba 结构,这种新颖的设计结合了 Mamba 架构在处理长序列上的高效性与 Transformer 架构在上下文理解上的优势,从而实现了性能与效率的平衡。该模型总共包含128层,激活参数量高达560亿,成为业界首个大规模部署的 Transformer-Mamba 专家混合模型(MoE)。通过这样的架构创新,TurboS 在国际权威评测中取得了整体高分1356。

为了进一步提升模型的能力,混元 TurboS 引入了自适应长短思维链机制,能够根据问题的复杂度自动切换响应模式。这一机制让模型在处理简单问题时能够迅速响应,而在面对复杂问题时,则会深入分析并给出高准确度的答案。此外,团队还设计了包含监督微调、自适应长短 CoT 融合等四个关键模块的后训练流程,进一步增强了模型的表现。

image.png

在预训练阶段,混元 TurboS 在16万亿 Token 的语料上进行训练,确保了模型的数据质量和多样性。其核心架构包含 Transformer、Mamba2和前馈神经网络(FFN)组件,层级构成合理,最大程度上提升了训练和推理的效率。

此次技术报告的发布,不仅展示了腾讯在大语言模型领域的技术实力,也为今后大模型的发展提供了新的思路与方向。

论文链接: https://arxiv.org/abs/2505.15431

划重点:

🌟 TurboS 模型在 Chatbot Arena 中排名第七,展现了强大的竞争力。  

💡 创新的 Hybrid Transformer-Mamba 架构实现了性能与效率的最佳平衡。  

🔍 自适应长短思维链机制提升了模型在不同复杂度问题下的响应能力。

  • 相关推荐
  • A日报:月之暗面开源大模型Kimi K2;智源全面开源RoboBrain2.0;通义千问发布Qwen Chat桌面客户端

    本期AI日报重点报道了多项AI领域突破性进展:1.月之暗面推出万亿参数开源大模型Kimi K2,展现强大智能能力;2.智源研究院开源RoboBrain2.0和RoboOS2.0机器人系统;3.通义千问发布桌面客户端Qwen Chat;4.IndexTTS2实现影视级语音合成;5.HuggingFace开源机器人Reachy Mini热销;6.Meta推出实时视频生成模型StreamDiT;7.PixVerse新增多关键帧视频生成功能;8.特斯拉推出仅支持AMD处理器的Grok AI助手;9.OpenAI推迟开源大模型发布以加强安全测试;10.Liquid AI开源边缘AI模型LFM2;11.AI"时间穿越"特效在社交媒体走红。

  • OPPO K13 Turbo系列外观公布:自带RGB风扇 EVA初号机配色

    OPPO今天正式公布了OPPO K13 Turbo系列新机外观,展示了新机的风扇等外观细节,以及全新配色。 该机后摄模组造型比较简洁,只有主摄和下放的风扇凸起,风扇外圈自带RGB灯效。

  • 拓总揭秘:eBay矩阵策略,助力跨境电商腾飞

    本文介绍了eBay矩阵策略在跨境电商中的应用。该策略通过在eBay平台建立多个店铺、类目和产品线,形成多元化电商矩阵,帮助企业实现三大目标:提升品牌知名度、降低运营风险和拓展全球市场。实施要点包括:选择企业店铺类型、根据市场需求确定产品线、进行多元化运营(多店铺、多类目、多产品线布局)以及优化运营(精细化运营、提升客户体验和数据分析)。该策略能有效助力跨境电商企业实现全球化布局,但需持续优化运营以提升竞争力。

  • 王腾:REDMI Turbo 4 Pro非常成功 很多友商都在关注

    REDMI总经理王腾发文表示,REDMI上半年发布的Turbo 4 Pro非常成功,受到了广大用户的喜爱,也收到了很多友商的关注。 据悉,REDMI Turbo 4 Pro于4月份发布,首发起售价是1999元,该机上市不到一个月累计销量突破100万台,成为行业内最火的Turbo手机。 随着REDMI Turbo系列的热销,各大品牌纷纷推出Turbo系列手机,主打高性能,对此王腾表示,领先的一种体现就是被模仿,说明REDMI这几�

  • 苹果19年来首次!今年等不到新款MacBook Pro了

    据报道,苹果似乎正在重新考虑其下一代MacBook Pro和MacBook Air的发布时间。 这两款笔记本电脑原定于2025年推出,搭载全新的M5芯片,然而据知情人士透露,苹果目前正在权衡是否推迟发布,可能会将发布时间延后到2026年。 自2006年以来,苹果每年都会推出MacBook Pro机型,如果苹果真的跳过2025年,这将是19年来首次没有推出MacBook Pro的一年。

  • OPPO K13 Turbo系列真机亮相:自带风扇+RGB

    OPPO K13 Turbo系列真机已经现身在bilibili world《胜利女神:NIKKE》展区。 从图片来看,OPPO K13 Turbo系列系列后摄区域有点类似一加13T,采用了矩形金属方案,主摄下方就是散热风扇,同时外圈还自带RGB等效。 这个设计方案可以明显看出,该机是主打电竞体验。 风扇模组采用电镀镍工艺,放弃普通喷涂,带来更好的防水、防锈效果,并且号称风力提升120%,从而实现更强、更持久�

  • 首款满级防水风冷手机!OPPO K13 Turbo系列实测 风扇能水洗了

    OPPO K13 Turbo系列将于7月21日发布,这是OPPO首款内置主动散热风扇的手机。 根据OPPO最新预热,OPPO K13 Turbo系列支持IPX9IPX8IPX6防水,号称首个满级防水风冷散热手机。 今日,OPPO K系列产品经理鳃鳃晒出新机在水下开启风扇的测试视频,即使在水中,风扇也能正常工作,水从两个风口排出。

  • AI日报:美图发布影像AI Agent RoboNeo;1.8bit量化Kimi K2模型上线;亚马逊推AI代码编辑器 Kiro

    【AI日报】今日AI领域重要动态:1)美图推出RoboNeo,通过自然语言指令实现图片精修、品牌设计等全能影像处理;2)Unsloth AI将Kimi K2模型量化至1.8bit,体积缩减78%保持性能;3)谷歌Gemini嵌入模型登顶MTEB榜单,超越OpenAI;4)亚马逊发布免费AI代码编辑器Kiro,集成Claude模型;5)Claude新增应用工具目录功能提升工作效率;6)MiniMax完成近3亿美元融资,估值超40亿美元;7)UTCP新协议让AI代理直

  • 各大厂商都开始推Turbo手机 王腾用一句广告词调侃友商

    博主数码闲聊站爆料称,各大厂商都开始推Turbo系列产品,中端产品线竞争逐渐加剧,电池不断刷新行业纪录。 对此,REDMI总经理王腾表示,想起一句广告词,有人模仿我的脸,有人模仿我的面。 据了解,这句广告词出自统一食品,统一率先在行业内推出老坛酸菜系列,随后不少企业也跟风推出类似的方便面。 统一食品便邀请知名主持人汪涵拍摄广告片,这句经典广告语有�

  • BW2025狂欢盛典,技嘉AORUS展台玩法终极揭秘

    技嘉AORUS将在2025年7月11-13日上海BW展会打造电竞盛宴,展区位于国家会展中心3H馆3A08。活动亮点包括:1)七大嘉宾助阵,包括青鸢Cyan、前TEC.B1ackovo等电竞红人及音乐人;2)五大互动体验区,可畅玩《鸣潮》《漫威争锋》等热门游戏;3)限定Coser形象展示,涵盖多种风格角色;4)集章打卡活动,每日有机会赢取AORUS周边及主机大奖;5)现场暗号"雕门永存"可领取限定福利。活动融合二次元文化与电竞基因,打造今夏最炸裂科技派对。

今日大家都在搜的词: