首页 > 业界 > 关键词  > 大模型最新资讯  > 正文

南加州大学提出通道式轻量级重编码CLR 解决大语言模型灾难性遗忘问题

2023-10-13 13:50 · 稿源:站长之家

要点:

1. 南加州大学和Google Research提出了通道式轻量级重编码(Channel-wise Lightweight Reprogramming)方法,用于解决持续学习问题,通过在固定任务不变的模型背骨干中添加轻量级可训练模块,对每层通道的特征图进行重编程,以适应新任务,仅占0.6%的额外参数。

2. 通道式轻量级重编码方法采用动态网络方式,可以持续学习多个新任务而不会出现灾难性遗忘,使模型在不同任务之间灵活转换。

3. 这项研究的动机是持续学习中的遗忘问题,提出了一种更轻量级但更强大的重编程方法,通过通道线性映射和卷积核的重编码,使模型能够适应多个新任务,实现更好的性能。

站长之家(ChinaZ.com)10月13日 消息:在持续学习领域,南加州大学和Google Research提出了一项创新的方法,通道式轻量级重编码(Channel-wise Lightweight Reprogramming,CLR),旨在解决模型在持续学习新任务时出现的灾难性遗忘问题。持续学习的关键挑战是如何在学习新任务后仍然保持对旧任务的性能,而CLR方法提供了一种有前景的解决方案。

与传统的多任务学习不同,持续学习是在一个接一个的任务中进行学习,模型需要逐个适应新的任务,同时尽量避免遗忘之前学到的知识。

image.png

  • 论文地址: https://arxiv.org/pdf/2307.11386.pdf

  • 项目地址: https://github.com/gyhandy/Channel-wise-Lightweight-Reprogramming

  • 数据集地址: https://ilab.usc.edu/andy/skill102

CLR的创新之处在于它通过在模型的固定骨干(backbone)中引入可训练的轻量级模块,对每一层的通道特征图进行重编程,使其适用于新任务。这些轻量级模块仅占整个模型的0.6%额外参数,但为每个新任务提供了定制的特征。这意味着模型可以连续学习无数个新任务,而不会受到灾难性遗忘的困扰。

image.png

CLR方法采用了动态网络的方式,通过通道线性映射对卷积核产生的特征图进行重编程,实现了多个新任务之间的平滑切换。该方法的灵活性使其在持续学习中表现出色,即使面对众多新任务,每个轻量级模块所需的训练参数仍然非常有限,这使得模型的规模保持相对较小。

CLR方法通过引入轻量级重编程参数,使模型能够以更轻量级但更强大的方式适应不同的新任务。它解决了持续学习中的遗忘问题,为模型提供了更好的性能和灵活性。

通道式轻量级重编码(CLR)方法为持续学习领域带来了新的机会,使模型能够在不断学习新任务的同时,有效地保持对旧任务的性能,为多任务学习领域带来了新的突破。这一创新方法有望为未来的持续学习研究和应用提供更多的可能性。

举报

  • 相关推荐
  • 苹果自研AI模型难产:改用第三方大语言模型

    苹果可能会跟OpenAI或Anthropic合作,双方正在谈判讨论一项潜在交易,苹果希望调用OpenAI或Anthropic的第三方大语言模型来为Siri提供技术支持。 据悉,OpenAI或Anthropic正在训练适配苹果私有云计算服务器的模型,苹果也在进行测试,目前苹果发现Anthropic的AI模型最适合Siri,且与Anthropic初步讨论了一些财务条款,消息称Anthropic要求苹果每年支付数十亿美元的费用,且该费用会随时间�

  • AI日报:腾讯混元推3D生成大模型Hunyuan3D-PolyGen;钉钉AI表格重磅来袭;阿里推多模态大语言模型HumanOmniV2

    本文介绍了AI领域多项重要进展:1)腾讯推出首个美术3D生成大模型Hunyuan3D-PolyGen,显著提升建模效率;2)阿里发布多模态大模型HumanOmniV2,准确率达69.33%;3)钉钉AI表格实现1小时处理千项任务;4)百度PaddleOCR3.1版本在多语种识别和文档翻译方面升级;5)微软推出Deep Research智能体,自动化研究流程;6)香港理工与OPPO联合开源视频超清框架DLoRAL;7)谷歌开源MCP工具箱简化AI与数据库集成;8)Win11将推出AI动态壁纸功能。这些创新展示了AI在3D生成、多模态理解、办公效率、视觉处理等领域的突破性进展。

  • 「6月27日AI日报」腾讯开源轻量级混元-A13B模型;可灵AI推“视频音效”功能

    AI日报主要内容: 1. 腾讯开源混元A13B模型,采用MoE架构,总参数量800亿,激活参数130亿,支持低端GPU部署 2. 可灵AI推出"视频音效"功能,实现所见即所听的沉浸体验 3. Black Forest开源图像编辑模型FLUX.1Kontext,支持消费级硬件运行 4. OpenAI发布Deep Research API新模型o3/o4-mini,支持自动化网页搜索和数据分析 5. 小米推出1999元起AI眼镜,集成拍摄、支付、音乐等功能 6. 迅雷推出下载MCP服务,一句话指令让AI自动完成下载任务 7. HeyGen推出AI视频Agent,几分钟内生成专业级视频内容 8. 谷歌开源端侧多模态大模型Gemma3n,手机也能运行云端AI性能

  • 三星AI神系列洗护产品:一站式解决洗衣难题 解锁夏日运动穿搭自由

    三星推出AI神+黑钻热泵洗烘旗舰与衣物护理机,解决运动爱好者夏季洗衣难题。洗烘一体机98分钟完成全流程,配备AI智能感知衣物重量和面料,自动调节水位和洗涤剂用量,避免混洗染色问题。衣物护理机采用双气流+双蒸汽系统,能除菌除味、抚平褶皱,内置香氛盒让运动衣物清新如新。两款产品通过创新科技简化家务流程,让用户轻松保持运动装备洁净,随时享受清爽穿搭体验,实现运动热情与精致生活的完美结合。

  • WEY斩获EAC双料大奖,“零重力座椅+易清洁织物”亮点突出

    在EAC2025易贸汽车产业展上,WEY品牌旗下全新高山和蓝山凭借创新技术斩获两项大奖。全新高山的"零重力座椅"获"EAC2025年度创新座椅奖",采用NASA定义的零重力悬浮设计,大幅提升乘坐舒适性;全新蓝山的"易清洁织物"获"E-Design Awards2025材料创新奖",解决了传统织物难清洁痛点。这两项创新展现了WEY品牌在内饰科技领域的领先实力,也印证了其"为用户而改变"的核心理念。全新高山上市后销量持续攀升,24小时订单突破5900辆,迅速站稳30-40万新能源MPV市场。

  • 三星推出面向未来的移动安全解决方案,赋能个性化AI体验

    三星推出Knox增强加密保护(KEEP)和抗量子加密Wi-Fi等多项安全创新功能,为新一代Galaxy设备提供更强大的隐私保护。KEEP通过独立加密存储空间隔离应用数据,结合Knox Vault硬件级防护,确保AI功能数据安全。安全Wi-Fi引入抗量子加密技术,抵御未来网络威胁,并在公共网络自动激活防护。这些升级将隐私保护从可选功能提升为系统级设计原则,通过多层防护机制为用户数据安全提供可靠保障。

  • 日本末世预言倒计时 学者:当地人不在乎 日本盛行“灾难文化”

    据媒体报道,日本画家龙树谅在其小众作品《我所看见的未来》中预言2025年7月5日将发生比日本大地震规模大三倍的海啸”,但随着预言日期的临近,日本社会对此反应平淡。 有民众未曾听闻这一预言,部分人甚至一笑置之。 日本气象厅长官野村龙一公开驳斥 灾难预言”,强调以目前的科学知识水平,根本无法预测地震发生的时间、地点和震级大小,这类所谓的预测信息就�

  • 聚焦AI新赛道,elexcon深圳国际电子展暨嵌入式展设 AI 机器人专区

    2025年深圳国际电子展暨嵌入式展(ELEXCON)将于8月26-28日举办,聚焦"All for AI, All for GREEN"主题。展会特设AI机器人专区,汇聚越疆、大疆等400+产业链企业,展示从芯片到整机的全产业链技术。同期举办第七届中国嵌入式技术大会,探讨具身机器人嵌入式系统等前沿议题。预计吸引600+机器人领域决策者参与,覆盖AI芯片、汽车电子等热点领域。依托深圳电子产业集群优势,展会将成为行业技术交流与资源对接的重要平台。

  • 有道14B低成本轻量模型“子曰3”开源,数学推理性能超越大模型

    网易有道6月23日开源国内首个专注数学教育的"子诳3"大模型系列数学模型(Confucius3-Math)。该模型在单块消费级GPU上高效运行,在多项数学推理任务中性能超越更大规模的通用模型,高考数学题测试得分达98.5分。其训练成本仅2.6万美元,推理性能是DeepSeek+R1的15倍,服务成本低至每百万token0.15美元,大幅降低教育AI应用门槛。该开源模型为教育公平提供低成本、高性能的AI�

  • 明略科技研究成果被ACM MM 2025接收,攻克个性化注视点预测难题

    明略科技与北京大学、吉林大学合作研发的PRE-MAP模型被ACM MM2025接收。该研究针对现有视觉注意力模型在个性化注视点预测中的局限性,提出新方法PRE-MAP和大规模多模态数据集SPA-ADV,能更好捕捉个体差异并提升高分辨率视频中的多属性注视点预测精度。该成果是明略科技在AI大模型应用领域的又一突破,此前其超图多模态大模型(HMLLM)曾获ACM MM2024最佳论文提名。研究团队通过4500名不同背景用户的真实视觉行为数据,结合多模态大模型技术,实现了"某类人会看哪里"的精准预测,为广告创意优化和投放效果评估提供科学依据。