首页 > 业界 > 关键词  > 大模型最新资讯  > 正文

南加州大学提出通道式轻量级重编码CLR 解决大语言模型灾难性遗忘问题

2023-10-13 13:50 · 稿源:站长之家

要点:

1. 南加州大学和Google Research提出了通道式轻量级重编码(Channel-wise Lightweight Reprogramming)方法,用于解决持续学习问题,通过在固定任务不变的模型背骨干中添加轻量级可训练模块,对每层通道的特征图进行重编程,以适应新任务,仅占0.6%的额外参数。

2. 通道式轻量级重编码方法采用动态网络方式,可以持续学习多个新任务而不会出现灾难性遗忘,使模型在不同任务之间灵活转换。

3. 这项研究的动机是持续学习中的遗忘问题,提出了一种更轻量级但更强大的重编程方法,通过通道线性映射和卷积核的重编码,使模型能够适应多个新任务,实现更好的性能。

站长之家(ChinaZ.com)10月13日 消息:在持续学习领域,南加州大学和Google Research提出了一项创新的方法,通道式轻量级重编码(Channel-wise Lightweight Reprogramming,CLR),旨在解决模型在持续学习新任务时出现的灾难性遗忘问题。持续学习的关键挑战是如何在学习新任务后仍然保持对旧任务的性能,而CLR方法提供了一种有前景的解决方案。

与传统的多任务学习不同,持续学习是在一个接一个的任务中进行学习,模型需要逐个适应新的任务,同时尽量避免遗忘之前学到的知识。

image.png

  • 论文地址: https://arxiv.org/pdf/2307.11386.pdf

  • 项目地址: https://github.com/gyhandy/Channel-wise-Lightweight-Reprogramming

  • 数据集地址: https://ilab.usc.edu/andy/skill102

CLR的创新之处在于它通过在模型的固定骨干(backbone)中引入可训练的轻量级模块,对每一层的通道特征图进行重编程,使其适用于新任务。这些轻量级模块仅占整个模型的0.6%额外参数,但为每个新任务提供了定制的特征。这意味着模型可以连续学习无数个新任务,而不会受到灾难性遗忘的困扰。

image.png

CLR方法采用了动态网络的方式,通过通道线性映射对卷积核产生的特征图进行重编程,实现了多个新任务之间的平滑切换。该方法的灵活性使其在持续学习中表现出色,即使面对众多新任务,每个轻量级模块所需的训练参数仍然非常有限,这使得模型的规模保持相对较小。

CLR方法通过引入轻量级重编程参数,使模型能够以更轻量级但更强大的方式适应不同的新任务。它解决了持续学习中的遗忘问题,为模型提供了更好的性能和灵活性。

通道式轻量级重编码(CLR)方法为持续学习领域带来了新的机会,使模型能够在不断学习新任务的同时,有效地保持对旧任务的性能,为多任务学习领域带来了新的突破。这一创新方法有望为未来的持续学习研究和应用提供更多的可能性。

举报

  • 相关推荐
  • 余承东回母校清华大学演讲:我是理工科脑子 做文科就是灾难

    余承东在清华演讲中表示自己是典型的理工科思维,认为做文科是"灾难"。谈及鸿蒙系统开发时,他坦言开发操作系统虽难但"不至于登天那么难",而构建生态更具挑战性。他强调华为开发鸿蒙不是跟风做"me too"产品,而是瞄准下一代操作系统理念。余承东还分享个人经历:1988年以全县理科第一考入西北工业大学,后留校任教,又考入清华无线通信系研究生,1993年加入华为,1997年带队推出华为主力GSM产品,打破专利零局面。他呼吁清华学子加入华为完善鸿蒙系统。

  • Vibe编码公司:有了Claude 4,语法错误减少25%、提速40%

    Vibe 旗下的编码公司 Lovable 宣布,部署了 Claude 4 之后,其代码错误减少了 25%,速度提高了 40%……

  • AI日报:Anthropic推最强编码AI模型Claude4;苹果计划推AI智能眼镜;QQ浏览器上线首个高考Agent

    【AI日报】今日AI领域重要动态:1)Anthropic发布Claude4系列AI模型,编程能力超越竞争对手;2)苹果计划2026年推出集成AI技术的智能眼镜;3)字节跳动与清华合作推出时序多模态大模型ChatTS;4)3DTown框架实现单张照片生成逼真3D场景;5)OpenAI秘密开发无屏幕AI设备;6)商汤科技推出儿童AI下棋机器人;7)微软记事本新增AI写作功能;8)深圳设立70亿元基金支持AI硬件初创企业;9)谷歌发布3D视频通信平台Beam;10)阿联酋推出"星际之门"计划,免费提供ChatGPT服务;11)法国Mistral推出开源模型Devstral;12)Anthropic API新增四大功能;13)美国众议院通过法案限制各州监管AI;14)QQ浏览器推出高考AI助手。

  • 中文大模型忠实性幻觉评测:豆包大模型幻觉率仅4%,位居全球收之首

    SuperCLUE+最新评测显示,豆包大模型1.5Pro以仅4%的幻觉率和96%的准确率位居全球榜首,超越DeepSeek、Gemini-2.5-pro和GPT-4o等主流模型。该模型在文本摘要、多文本问答等关键任务中表现优异,尤其在中文理解任务上国内领先。基于MoE架构设计,其综合性能超过多款超大规模预训练模型,推理成本显著降低。截至2025年3月,豆包大模型日均调用量达12.7万亿tokens,是一年前的106倍。IDC报告指出火山引擎以46.4%市场份额领跑中国公有云大模型市场。据悉,6月11日将发布豆包大模型最新升级进展。

  • AICosts.ai深度评测:一站式AI成本管理解决方案

    随着ChatGPT等大模型的爆发式发展,企业AI支出正成为新的财务黑洞。AICosts.ai应运而生,这款专为AI密集型团队设计的成本管理平台,能聚合所有AI服务商的账单数据,提供可视化分析和优化建议。核心解决三大痛点:1)碎片化账单管理;2)异常监控;3)跨平台优化。通过实时仪表盘、多维筛选和预算预警等功能,某客户使用三个月后总支出降低28%。专业版定价49.99美元/月,特别适合月AI支出超1000美元的团队和使用多个AI服务的开发者。平台计划Q3推出Slack/Teams实时通知和AI优化方案自动生成功能。

  • 思必驰RTOS大模型解决方案丨当玩具遇上AI,陪伴更有温度

    文章介绍了多款AI陪伴机器人产品,如LOVOT、Moflin、FoloToy等,它们通过创新交互方式引领消费新潮流。针对不同场景需求,思必驰推出RTOS大模型解决方案,融合智能对话技术与DFM-2大模型,整合第三方内容资源,赋予产品情感陪伴与寓教于乐功能。该方案具备智能打断、上下文记忆、多轮对话等能力,实现自然流畅的人机交互。在儿童教育领域,AI玩具可成为智慧伙伴,提供个性化学习支持。未来,AI赋能玩具将解锁更多应用场景,持续优化用户体验。

  • o3模型的“叛变”:拒绝人类“中断”命令、自行篡改内部代码

    o3 出现了“叛变”的情况:其他模型都中止了解题任务,唯独 o3 模型继续进行,甚至还被发现篡改了内部代码 —— 将“接到中断命令时应停止操作”的程序逻辑改成了“跳过中断命令”……

  • 九号电动 Q 系列破局 “颜值内卷”:用技术温度解决女性骑行真需求

    近年来女性电动车用户数量激增,2023年占比已达45%。传统品牌对女性需求长期停留在"粉色涂装"等表面设计,而九号电动车全新Q系列通过技术创新精准解决痛点:首创"零力推行"功能解决上下坡难题,配备行业首个SOS紧急呼叫功能提升安全性,搭载TCS牵引力控制系统增强雨天稳定性。产品突破"颜值竞争"转向技术深耕,以智能化为核心实现"体验无感化",如情绪盲盒、动态壁纸等情感化设计。该系列虽定位女性友好,但覆盖通勤族、宝妈等泛场景用户,证明女性市场不应是简单细分赛道,而是驱动行业技术升级的入口。

  • 全球首款生成式人形机器人运动大模型发布:可根据指令生成跑步、舞蹈等连贯动作

    今日上午,国家地方共建人形机器人创新中心联合复旦大学未来信息创新学院,正式发布了全球首款生成式人形机器人运动大模型 龙跃”(MindLoongGPT)。 龙跃大模型以自然语言驱动”为核心,构建了从多模态输入到高保真动作生成的完整闭环,颠覆传统运动控制范式。 也就是说,用户无需学习专业术语或操作复杂软件,仅需像与人类对话一样发出指令,例如以优雅的姿势递

  • 高考数学全卷重赛!一道题难倒所有大模型,新选手Gemini夺冠,豆包DeepSeek并列第二

    本次AI高考数学测试评估了7个大模型的表现,包括Doubao、DeepSeek、Qwen3等。测试包含14道客观题和5道解答题,总分150分。结果显示:1)客观题各模型差距不大,最大分差仅3分;2)解答题成为主要失分区,仅Gemini2.5Pro获得满分;3)图像识别题(第6题)难倒所有多模态模型,暴露AI图文理解短板。最终Gemini2.5Pro以145分居首,Doubao和DeepSeek R1以144分并列第二。测试表明大模型在数学推理能力上有进步,但在复杂论证和多步骤计算方面仍需提升。