首页 > 业界 > 关键词  > 英伟达最新资讯  > 正文

英伟达提出新技术Tied-LoRA 减少模型训练参数

2023-11-24 13:44 · 稿源:站长之家

要点:

1. Nvidia的研究人员提出了一种名为Tied-LoRA的新技术,旨在改善低秩适应(LoRA)方法的参数效率。

2. Tied-LoRA利用权重绑定和选择性训练,在性能和可训练参数之间寻找最佳平衡。

3. 在对不同任务和基础语言模型进行实验后,研究人员发现在效率和性能之间存在权衡,Tied-LoRA方法可以使用比标准LoRA方法少13%的参数获得相当的性能。

站长之家(ChinaZ.com)11月24日 消息:近期,Nvidia的研究人员提出了一种名为Tied-LoRA的新技术,旨在改善低秩适应(LoRA)方法的参数效率。该方法通过将权重绑定和选择性训练结合起来,寻找了在性能和可训练参数之间的最佳平衡。

LoRA方法是一种提高参数效率的微调技术,通过对低秩矩阵进行逼近来减少可训练参数。Tied-LoRA方法通过将权重绑定应用于LoRA中的低秩矩阵,跨基础语言模型的层共享相同的权重,从而减少可训练参数的数量。

image.png

论文地址:https://arxiv.org/pdf/2311.09578.pdf

通过在不同任务和基础语言模型上进行系统实验,研究人员确定了特定的Tied-LoRA配置,相较于标准LoRA方法,仅利用13%的参数即可达到可比较的性能。在多个任务上进行的实验显示,Tied-LoRA方法在提高参数效率的同时保持了竞争性能,特定配置(vBuA)在性能上表现优异,减少了87%的参数。

Tied-LoRA是一种有效的方法,通过权重绑定和选择性训练提高了LoRA方法的参数效率,为在实践中应用AI提供了新的可能性。然而,对比其他参数效率方法、讨论局限性并确定未来探索的潜在领域仍然是重要的。

举报

  • 相关推荐
  • 微软定制 AI 芯片遭遇延期 为英伟达提供更多发展空间

    微软 Braga 芯片因研发挫折不断,无法在 2026 年前问世……

  • 英伟达股价创新高 市值3.89万亿美元

    在7月4日美国独立日假期前的短暂交易日中,英伟达(NVDA.US)股价强劲上涨1.33%,盘中一度触及历史新高160.98美元,最终市值定格在3.89万亿美元,这一成绩不仅彰显了英伟达在资本市场的非凡实力,更标志着其成为全球科技产业的新标杆。

  • AI与量子科技融合浪潮来袭,英伟达/微美全息竞速抢抓量子计算战略机遇期

    湖南湘江新区正加速推动量子科技从实验室走向应用,量子产业初具规模。湖南长期深耕量子技术研发,推动量子科技实现从技术到产业的跨越。量子计算作为前沿技术,已在金融、医药等领域进入应用探索阶段。英伟达CEO黄仁勋预测量子计算将迎来拐点,未来几年可解决现实问题。微美全息等企业正构建量子计算生态,开发基于FPGA的数字量子协处理器,突破现有硬件局限。量子计算商用仍需10-20年发展,但已成为大国核心技术竞争领域,各国加大政策支持力度。量子科技发展将增强技术自主能力,是科技创新的重要里程碑。

  • REDMI K Pad杀到!首发多项新技术 4K内配置最豪华小平板

    今日,REDMI官宣旗下首款旗舰小平板REDMI K Pad。 小米中国区市场部总经理、REDMI品牌总经理王腾表示,REDMI K Pad全面超越iPad mini,做到4K以内配置最豪华的小平板”,推动安卓小平板全面进入旗舰时代。 据了解,REDMI K Pad采用LCD屏幕,与手机只需一颗DDIC驱动屏幕不同,K Pad为了让屏幕更清晰、采用超高分辨率,需要两颗IC来驱动屏幕。 王腾指出,双驱动IC的难度在于数据、亮度�

  • 华为云盘古预测大模型首创 Triplet Transformer 统一预训练架构

    6月20日,华为发布盘古大模型5.5,五大基础模型全面升级。该模型采用业界首创的Triplet+Transformer统一预训练架构,能跨行业处理表格数据、时间序列数据和图片数据,显著提升预测精度和泛化能力。已在水泥、钢铁、电解铝、供热等多个工业场景落地应用:海螺水泥实现熟料强度预测,宝武钢铁高炉出铁温度合格率超90%,云南铝业年省电2600万度,天津供热能耗降低10%。模型聚焦工业领域,通过工艺优化和系统寻优,助力企业降本增效,推动行业智能化转型。

  • ColorOS陈希评iOS 26:缺席的AI是最大短板

    ColorOS设计总监陈希发文指出,iOS 26的最大短板依然是缺席的AI,但UI设计更新较大。 此前在去年的WWDC开发者大会上,苹果大肆宣传Apple Intelligence,不过从后续iOS 18的一系列更新来看,苹果在AI方面的表现并不成功,尤其是国行版,进度缓慢。 因此,在今年的WWDC大会上,关于AI的升级内容并不算很多,苹果软件工程高级副总Craig Federighi承认,Siri的AI功能短期内不会推出,因为�

  • 从游泳训练到水陆影音,鲸语训练耳机2代首创三模合一

    专业运动音频品牌鲸语推出第二代骨传导训练耳机,创新实现"三模一体"功能:训练模式支持16频分组教学;蓝牙模式可秒连手机播放流媒体;MP3模式内置32GB存储。产品通过IP69防水认证,续航提升50%,水下训练达9小时。新增晴海蓝、竞速黄、珊瑚橙三色,采用液态硅胶材质提升佩戴舒适度。与洲克联名款同步上市,延续专业游泳装备基因。6月18日起全渠道发售,限时尝鲜价469元。

  • 猛玛携全新极影生态,支持FIRST训练营青年电影创作

    2025年6月17日,猛玛发布新一代无线图传监视器极影5,标志着"极影图传生态"进入2.0阶段。该产品配备1500nit超高亮屏、160°超广视角、双频协同+自动跳频等七大功能,专为中小型影视团队设计。极影5与极影全系图传设备和"立声PRO"通话系统共同构建无线音视频支持体系,服务青年电影人创作实践。同时,猛玛宣布成为第十九届FIRST青年电影展官方指定无线音视频技术品牌,将为42位入选青年电影人提供技术支持。猛玛自2017年推出首款专业无线图传以来,已服务《流浪地球》《长安十二时辰》等头部剧组,逐步确立"国产专业图传首选品牌"的行业地位。

  • 破解高密散热难题, 维谛技术(Vertiv) 360AI混合制冷方案重塑AI时代热管理

    文章主要探讨AI大模型训练带来的高温危机及解决方案。随着GPU集群全功率运转,数据中心面临前所未有的散热挑战,单机柜功率密度突破10kW,传统散热手段力不从心。维谛技术(Vertiv)提出"360AI高效混合制冷方案",整合风冷、液冷和自然冷却三种方式,构建全链路温控体系。方案覆盖从服务器到户外的不同场景需求,包括风液混合型、液液CP组合等多元方案,能精准应对10-130kW不同功率密度需求。同时,维谛推出业界首创风液氟泵一体机,支持快速部署,并创新研发适配AI的自然冷高温冷机,单框架制冷能力近3MW。该方案兼顾算力需求与节能政策要求,为智算时代构建更可靠的温控底座。

  • DigitalOcean 携手 AMD 推出 AMD Instinct MI300X GPU Droplet,加速 AI 创新

    DigitalOcean与AMD达成合作,将推出搭载AMD Instinct MI300X GPU的云服务器,支持AI/ML/HPC工作负载。该GPU具备192GB HBM3内存,能完整加载数十亿参数模型,显著提升训练和推理效率。服务定价每小时1.99美元起,支持1-8个GPU配置,并与Kubernetes无缝集成。未来还将推出MI325X GPU,并面向中国市场提供服务。此次合作旨在为开发者提供经济高效的AI开发解决方案,简化云端GPU部署流程。