首页 > AI头条  > 正文

开源 DeepSeek R1 增强版:推理效率提升200%,降低成本

2025-07-04 08:52 · 来源: AIbase基地

近日,德国知名技术咨询公司 TNG 发布了 DeepSeek 的增强版 ——DeepSeek-TNG-R1T2-Chimera,标志着深度学习模型在推理效率和性能上的又一次重大突破。这一新版本不仅在推理效率上提升了200%,而且通过创新的 AoE 架构显著降低了推理成本。

创新的 AoE 架构

Chimera 版本是基于 DeepSeek 的 R1-0528、R1和 V3-0324三大模型的混合开发,采用了全新的 AoE(Adaptive Expert)架构。这一架构通过对混合专家(MoE)架构的细致优化,能够高效地利用模型参数,从而提升推理性能并节省 token 输出。

在多项主流测试基准(如 MTBench、AIME-2024)中,Chimera 版本的表现优于普通 R1版本,展现出显著的推理能力和经济性。

image.png

MoE 架构的优势

在深入了解 AoE 架构之前,我们需要了解混合专家(MoE)架构。MoE 架构将 Transformer 的前馈层划分为多个 “专家”,每个输入标记仅会路由到部分专家。这种方法有效提高了模型的效率和性能。

例如,2023年 Mistral 推出的 Mixtral-8x7B 模型,尽管激活的参数数量仅为13亿,却能够与拥有700亿参数的 LLaMA-2-70B 模型相媲美,推理效率提高了6倍。

AoE 架构利用 MoE 的细粒度特性,允许研究者从现有的混合专家模型中构建具有特定能力的子模型。通过插值和选择性合并父模型的权重张量,生成的新模型不仅保留了优良特性,还能够根据实际需求灵活调整其性能表现。

研究者选择了 DeepSeek-V3-0324和 DeepSeek-R1作为父模型,基于不同的微调技术,使得这两个模型在推理能力和指令遵循方面都表现卓越。

权重合并与优化

在构建新的子模型过程中,研究者首先需要准备父模型的权重张量,并通过解析权重文件进行直接操作。接着,通过定义权重系数,研究者可以平滑地插值和合并父模型的特征,生成新的模型变体。

在合并过程中,研究者引入了阈值控制与差异筛选机制,确保只有在显著差异的情况下,才将相关张量纳入合并范围,从而减少模型复杂性和计算成本。

在 MoE 架构中,路由专家张量是至关重要的组成部分,它决定了输入标记在推理过程中选择的专家模块。AoE 方法特别关注这些张量的合并,研究者发现,通过优化路由专家张量,可以显著提升子模型的推理能力。

最终,通过 PyTorch 框架,研究者实现了模型的合并。合并后的权重被保存到新的权重文件中,生成了新的子模型,展现出高效性和灵活性。

image.png

开源地址: https://huggingface.co/tngtech/DeepSeek-TNG-R1T2-Chimera

  • 相关推荐
  • 服务中小微企业,哪家城商行更优?DeepSeek答案是这样的

    文章指出中小企业是中国经济的"毛细血管",贡献了50%以上税收、60%以上GDP、70%以上技术创新和80%以上城镇就业。在融资难题下,城商行是关键一环。宁波银行凭借差异化战略定位、数字化赋能、产品创新和区域深耕,成为服务中小企业的标杆。其通过"四专"模式、智能风控系统和本土化服务,实现普惠小微贷款余额2199亿元,不良率连续18年低于1%。文章认为宁波

  • 【Neo上新】CRM+企微会话上线AI三大能力,让销售沟通效率提升200%

    文章主要介绍了企业在使用企微服务客户过程中遇到的三大痛点及解决方案:1)销售人员需手动翻查话术库耗时耗力,回复慢且不规范;2)客户标签维护滞后,人工打标签耗时且存在主观偏差;3)需单独打开CRM系统撰写活动记录,信息不准确。销售易CRM通过整合企业微信AI能力,提供智能话术推荐、智能客户标签、智能会话总结三大功能,实现从"人找知识"到"知识找人"的转变,提升沟通效率200%。AI能自动识别客户意图匹配场景话术,实时更新客户画像,自动生成会话摘要沉淀客户数据资产,帮助企业实现精细化运营。

  • 秘塔AI也终于悄悄上线了DeepResearch。

    测试完以后,我觉得这玩意,还是值得我将近通宵写一篇的。 深度研究,也就是DeepResearch。 我过去写过很多次秘塔AI了,因为我自己的搜索习惯,现在基本就是,大活上ChatGPT用DeepResearch,常识问答直接找豆包,一般的AI搜索就是秘塔AI。 当然很多ChatBot产品都有AI搜索,但是我自己这两年,还是习惯用秘塔AI和Perplexity这样形态的原生AI搜索产品了,这可能就是习惯的力量吧。

  • 循环2000次后仍可保持80%容量 三星多款手机电池通过欧盟EPREL认证

    三星多款手机通过欧盟EPREL认证,电池循环2000次后仍保持80%以上容量。包括Galaxy S25/S24系列、A56/A36等机型,远超欧盟800次的最低标准。测试采用完整充放电循环,偏差不超过20次。新发布的Z Flip7和Z Flip7 FE也通过认证,分别配备4300mAh和4000mAh电池。按每日一充计算,2000次循环可支撑5.5年高强度使用。该认证体现三星在电池材料(如硅基负极)和电源管理系统方面的技术优势,有助于延长设备寿命、减少电子废弃物,为消费者提供更透明的选购依据。

  • 小红书跑出带货黑马,情侣博主“劝退式直播”卖出2200万

    ​明明是带货,主播让粉丝“先别买”,先把缺点列一遍? 近日,小红书头部博主李嗲夫妇在一场直播中喊了47遍“听完缺点再买”,最后卖出了2200万。 当用户厌倦了“321上链接”的嘶喊,反感浮夸的“演技式”带货,这场通过硬核测评、客观评价的带货直播,一下子圈粉无数。这也让这对情侣博主一跃成为小红书的新带货顶流。 这个案例不仅印证这种新带货模式的亮点,�

  • 拍卖史上最昂贵包袋诞生!原版爱马仕7200万天价成交

    拍卖史上最贵的包袋诞生了,成交价高达7200万元人民币! 据苏富比拍卖行通报,在上周四举行的巴黎拍卖会上,一爱马仕原版柏金包以858.25万欧元(约合1000万美元,当前约合7200万元人民币,包含佣金和手续费)成交。 据悉,这款黑色皮革爱马仕手袋是1984年由时任爱马仕首席执行官的让路易迪马(Jean-Louis Dumas)为已故英国歌手兼演员简柏金(Jane Birkin)特别定制。

  • 企业如何低成本搭建可快速响应的远程技术支持平台?

    文章探讨了极端天气下企业技术支持的转型需求,重点介绍了远程技术支持的解决方案。传统线下服务面临出行困难、安全隐患等问题,而远程技术支持能实现设备监测、故障排查等操作,保障人员安全。贝锐向日葵推出的远程控制方案具有高效稳定、快速响应等特点,支持文件传输、工单流转等功能,并与ITSM平台深度整合,形成闭环服务体系。方案还提供团队版共享机制,适合初创团队低成本使用。在极端天气频发的当下,远程方案能显著提升企业抗灾能力,实现降本增效。

  • 燕荚专业健康顾问团队:人均超 20000 小时服务,为您排忧解难

    文章强调健康是现代生活的基石,介绍健康管理品牌"燕萍"提供全方位健康服务。该品牌拥有专业顾问团队,针对不同年龄段和健康需求提供个性化方案,包括孕期护理、慢性病管理等。通过严格的产品筛选流程和全国仓储布局,确保高品质健康产品的供应。同时配备资深健康顾问团队,提供一对一咨询和科学指导,帮助用户建立健康生活方式。文章倡导选择燕萍作为健康生活伙伴,共同追求健康美好生活。

  • 一天净赚2000元!知了猴怎么就火出圈了

    媒体报道,当夏季夜幕降临,山间树林、公园河堤便悄然出现一群夜行者。他们手持电筒、拎着塑料袋,目光如炬地扫视每一棵树这99.99%是在捕捉知了猴,即蝉的幼虫。 在青岛等地,有人一晚上能捕获12-15斤,按当前每斤105元的市价计算,可净赚2000余元,价格较二十年前暴涨6倍。 这种藏在树枝间的暗夜美味,蛋白质含量远超普通食材,尤以刚褪壳时的口感最为鲜嫩。民间素

  • 抓住人们对“Soulmate”的渴望,20天入账200万美金?

    6月17日,一款 AI 占星产品 Starla-Call the Universe 进入了 iOS 美国下载总榜前10,当笔者以为这又是一个昙花一现的产品时,它不仅能够持续坚守榜单 Top10长达半个月,而且到了6月24日,另一款产品 Astra-Life Advice 也进入了美榜前10,两款同类产品相继进入 Top10,并双双持续在榜超1周的时间。

今日大家都在搜的词: