首页 > 业界 > 关键词  > Tied-Lora最新资讯  > 正文

NVIDIA提出 Tied-Lora:提高LoRA方法的参数效率 用13%参数实现性能与标准LoRA方法相媲美

2023-11-24 11:08 · 稿源:站长之家

**划重点:**

1. 🚀 NVIDIA的研究人员开发了一种名为Tied-LoRA的新技术,旨在提高LoRA方法的参数效率。

2. 🔄 Tied-LoRA通过权重绑定和选择性训练,寻找性能和可训练参数之间的最佳平衡。

3. 📊 在不同任务和基础语言模型上进行的实验证明,Tied-LoRA可以在只使用标准LoRA方法13%的参数的情况下实现可比较的性能。

站长之家(ChinaZ.com)11月24日 消息:一组来自NVIDIA的研究人员近日提出了一种名为Tied-LoRA的新技术,旨在改善低秩适应(LoRA)方法的参数效率。该方法采用了权重绑定和选择性训练的策略,以寻找性能和可训练参数之间的最佳平衡。

最近,对于参数高效微调技术的不断进展包括LoRA,通过低秩矩阵逼近减少可训练参数。AdaLoRA是LoRA的扩展,引入了动态秩调整,并将适配器调整与LoRA相结合。另一种技术是由Kopiczko提出的VeRA,通过冻结矩阵和可训练的缩放向量减少参数。QLoRA使用量化的基础模型实现内存高效的LoRA。该研究对低秩权重矩阵应用权重绑定,进一步增强了参数效率。

为了解决为下游任务对语言模型进行微调的计算开销,Tied-LoRA是一种结合了权重绑定和选择性训练的新方法,旨在提高LoRA的参数效率。通过在不同研究和基础语言模型上进行系统实验证明,研究人员确定了一个特定的Tied-LoRA配置,其性能可与标准LoRA方法相媲美,但只使用了13%的参数。

Tied-LoRA是一种通过将权重绑定和选择性训练结合起来,增强LoRA方法参数效率的方法。它通过将权重绑定应用于LoRA中的低秩矩阵,使基础语言模型中的各层共享相同的后果,从而降低了可训练参数的数量。

该方法探索了参数训练/冻结和权重绑定的各种组合,以实现性能和可训练参数之间的最佳平衡。在不同任务和两个基础语言模型上进行的实验中,不同的Tied-LoRA配置展示了效率和性能之间的权衡。特定的Tied-LoRA配置vBuA在性能方面表现优异,相较于其他配置减少了87%的参数。在抽取式问答、摘要和数学推理等任务的评估中,展示了Tied-LoRA在提高参数效率的同时显著保持了竞争性能。

通过在各种任务上进行实验后,发现Tied-LoRA是一种通过利用权重绑定和选择性训练增强LoRA方法参数效率的新范例。

image.png

结果表明,Tied-LoRA可以替代通识NLI、抽取式QA和摘要等功能。此外,它在不影响性能的情况下提供了改进的参数效率,仅使用标准LoRA的13%的参数。然而,讨论与其他参数效率方法的限制和比较对于确定未来探索的潜在领域至关重要。

论文网址:https://arxiv.org/abs/2311.09578

举报

  • 相关推荐
  • RTX 5060/Ti重启黑屏有救了!NVIDIA发布紧急固件更新

    快科技5月25日消息,NVIDIA近期针对RTX 5060和RTX 5060 Ti显卡发布了一项紧急固件更新,旨在解决部分用户在重启系统时遇到的黑屏问题。这一问题自RTX 5060系列显卡发布以来一直困扰着部分用户,尤其是在系统重启时,显卡无法正常显示图像,导致用户无法正常使用。此次更新并非通过驱动程序发布,而是直接对显卡的vBIOS进行更新,NVIDIA强调,只有遇到黑屏问题的用户才需要更新固件,正常使用的设备无需进行此操作。NVIDIA的技术文档显示,黑屏问题可能是由于特定主板的BIOS/UEFI版本与新显卡的兼容性冲突所致。如果用户的主板不支持UEFI启

  • 超擎数智协办的2025 NVIDIA 创业企业展示——澳门站“首秀”圆满收官!

    5月22日,2025 NVIDIA创业企业展示活动在澳门永利皇宫成功举办。活动聚焦AI智能体、物理AI和机器人等前沿技术,展示NVIDIA Omniverse、NIM等最新技术应用。超擎数智作为协办单位全程参与,其总经理唐春峰出席活动并担任路演评委。活动期间还启动了第三届NVIDIA DPU中国黑客松竞赛,旨在挖掘BlueField DPU在AI等领域的潜力。37家会员企业将在BEYOND EXPO展示创新成果。NVIDIA专家探讨了物理AI推动数字化转型的趋势,强调计算、存储和网络是AI基础设施的关键。活动为创业生态搭建了交流平台,促进AI技术商业化落地。

  • ColorOS陈希评iOS 26:缺席的AI是最大短板

    ColorOS设计总监陈希发文指出,iOS 26的最大短板依然是缺席的AI,但UI设计更新较大。 此前在去年的WWDC开发者大会上,苹果大肆宣传Apple Intelligence,不过从后续iOS 18的一系列更新来看,苹果在AI方面的表现并不成功,尤其是国行版,进度缓慢。 因此,在今年的WWDC大会上,关于AI的升级内容并不算很多,苹果软件工程高级副总Craig Federighi承认,Siri的AI功能短期内不会推出,因为�

  • 曝苹果全面重命名操作系统:同样的事也发生在ColorOS上

    5月29日快科技消息,苹果计划全面重命名操作系统,下一代系统将采用年份命名(如iOS26)。ColorOS设计总监陈希透露,2020年ColorOS曾为与安卓版本号统一,将ColorOS8更名为ColorOS11。目前ColorOS团队已进入ColorOS16开发阶段,去年发布的ColorOS15因流畅性获"机圈德芙"美誉,新版本表现值得期待。

  • DigitalOcean 携手 AMD 推出 AMD Instinct MI300X GPU Droplet,加速 AI 创新

    DigitalOcean与AMD达成合作,将推出搭载AMD Instinct MI300X GPU的云服务器,支持AI/ML/HPC工作负载。该GPU具备192GB HBM3内存,能完整加载数十亿参数模型,显著提升训练和推理效率。服务定价每小时1.99美元起,支持1-8个GPU配置,并与Kubernetes无缝集成。未来还将推出MI325X GPU,并面向中国市场提供服务。此次合作旨在为开发者提供经济高效的AI开发解决方案,简化云端GPU部署流程。

  • 谷歌投资TAE Technologies,再次押注核聚变发电

    TAE Technologies 宣布完成新一轮融资,筹集了 1.5 亿美元,谷歌已参与 TAE 两轮融资……

  • 透过英国零售渠道布局,看 Vida Glow 如何引领全球口服美容市场的发展与革新

    全球口服美容市场年复合增长率达7.7%,预计2031年规模将突破98亿美元。欧洲市场趋于成熟,消费理念从功效价格转向品质理念。澳大利亚品牌Vida Glow表现亮眼,通过科技创新提供高品质口服美容产品,已入驻英国Harrods、Selfridges等高端百货及Space NK、Boots等美妆零售渠道,覆盖600多家线上线下门店。品牌坚持科技创新与全球渠道布局,树立行业品质标杆,引领口服美容潮流发展。创始人Anna Lahey希望通过内外兼修的理念,帮助更多人绽放自信美丽。

  • 2.5K档内最强性能!真我Neo7 Turbo明天发布:参数汇总来了

    真我Neo7+Turbo将于5月29日发布,搭载天玑9400e芯片,号称挑战2.5K档最强性能。新机采用6.8英寸京东方Q10直屏,支持144Hz高刷和4608Hz超高频PWM调光。配备7200mAh电池+100W快充,支持边充边用不发烫。外观延续Neo7设计,但新增透明后壳和晶刻纹理工艺。核心配置包括台积电4nm工艺天玑9400e,跑分达245万,配备电竞网络芯片提升游戏体验。其他亮点包括IP68防水、realme UI 6.0系统,预计售价可能低于1999元起。

  • AI日报:腾讯语音数字人模型HunyuanVideo-Avatar;Trae国际版开启付费订阅模式;Claude网页搜索功能全面开放

    本文汇总了AI领域最新动态:1)腾讯开源数字人模型HunyuanVideo-Avatar,支持图像转视频创作;2)Trae国际版开启付费订阅,首月3美元;3)Claude网页搜索功能向免费用户开放;4)印度AI初创Builder.ai破产,亏损超5亿美元;5)腾讯元宝接入微信读书平台;6)快手计划加大AI投入但预计影响利润率;7)Mistral推出智能代理API;8)Claude移动端上线语音对话测试版;9)OpenAI拟推ChatGPT第三方登录功能;10)掘金发布AI项目一键部署工具;11)多模态模型视觉推理能力评估显示准确率仅25.8%;12)中石油发布3000亿参数昆仑大模型,推动油气产业智能化。

  • 从TradingView到AiCoin,WEEX用户尽享专业分析与高效交易

    5月28日,加密货币交易平台WEEX与行情分析平台AiCoin达成战略合作,实现行情数据与K线图的全面对接。此前WEEX已完成与TradingView的集成,为用户提供专业图表分析工具。WEEX成立于2018年,现支持15种语言,服务全球130多个国家超620万用户,合约交易量排名全球前十。平台设立1000BTC投资者保护基金,定期公布储备金证明(PoR)。此次合作将借助AiCoin的专业数据和分析工具,提升用户�