首页 > 业界 > 关键词  > ScaleLong最新资讯  > 正文

中山大学等提出ScaleLong扩散模型 scaling操作可以稳定模型训练

2024-03-01 09:10 · 稿源:站长之家

要点:

1. UNet的long skip connection上的scaling操作可以稳定模型训练。

2. Scaling系数的设置影响模型性能,可以通过学习或固定的方式实现。

3. 对扩散模型任务在训练过程中特征和参数的可视化有助于理解模型稳定性。

站长之家(ChinaZ.com)3月1日 消息:扩散模型中,UNet的long skip connection上的scaling操作被证实能够稳定模型训练。在一些流行的扩散模型中,如Imagen和Score-based generative model中,已经观察到设置scaling系数可以有效加速模型的训练过程。

但是,过去这种操作缺乏具体的分析,只是经验性地认为能够起到加速作用。现有研究发现,合理设置scaling系数可以缓解特征不稳定,进而提高模型对输入扰动的鲁棒性。

image.png

项目地址:https://github.com/sail-sg/ScaleLong

这项研究也揭示了scaling系数对梯度量级的控制以及对输入扰动的稳定性的影响。通过对扩散模型任务中特征和参数的可视化,研究人员发现了模型训练过程中的不稳定现象,这一发现促使他们在long skip connection上进行Scaling来进行统一地缓解。

通过引入可学习的模块,如Learnable Scaling (LS) Method,可以自适应地调整scaling系数,进一步稳定模型的训练。

此外,研究人员提出了一种无需额外参数的Constant Scaling (CS) Method,简化了模型实现过程。虽然LS在稳定训练上表现更好,但CS仍然是一种值得尝试的策略。这些方法的实现非常简洁,只需几行代码即可实现。最近的一些后续工作也进一步验证了skip connection上scaling的重要性,为这一领域的发展提供了新的思路和方向。

举报

  • 相关推荐
  • ISC.AI PARK:科技博主集体打卡!AI原来可以这么“酷”

    ISC.AI2025大会8月6-7日在北京国家会议中心成功举办,以"ALL IN AGENT"为主题。展会全新升级为"ISC.AI PARK",吸引超万名观众参观。360集团、华为、百度智能云等科技巨头及行业领军企业参展,集中展示了AI与数字安全领域的前沿技术和创新应用。AI互动区设置办公、生活、娱乐等场景体验,机器人表演、智能设备等吸引观众驻足。科技博主现场互动体验AI赋能安全行业的产品,直观感受AI技术带来的变革。大会展现了AI技术在各领域的融合应用,推动构建更安全智能的世界。

  • 内外双屏 随心定义 快用Good Lock“打扮”你的三星Galaxy Z Flip7

    三星Galaxy Z Flip7折叠屏手机凭借精致设计和出色体验获得消费者青睐。文章重点介绍了通过"Good Lock"应用深度定制手机的方法:1)Home Up和主题公园提供主屏幕布局和主题综合定制;2)LockStar可自定义锁屏界面,添加常用APP快捷入口;3)Keys Cafe打造个性化键盘效果;4)ClockFace为外屏时钟添加文字/图片/GIF动图;5)MultiStar新增FlipShot功能,为自拍用户提供动态背景特效。这些工具让用户能根据个人喜好,从界面布局到细微功能进行全面定制,将手机打造成彰显个性的专属设备。

  • 安全智能体引领防御变革 ISC.AI 2025论坛呈现多维度实践成果

    ISC.AI2025安全智能体技术论坛在北京召开,聚焦AI赋能网络安全新范式。论坛汇集专家与企业代表,围绕安全智能体的实战应用、技术架构及行业落地展开研讨。360集团提出安全智能体需具备感知、推理、决策等四大能力,并展示了终端防护、流量分析等场景的智能解决方案。专家指出,AI驱动的攻击防御已成趋势,需构建自动化、通用化的安全体系。论坛成果为数字时代安全防御体系的智能化升级提供了实践路径。

  • ISC.AI 2025 人工智能安全治理与创新实践论坛圆满召开

    ISC.AI2025人工智能安全论坛在北京召开,聚焦AI安全治理与创新实践。论坛汇集顶尖专家,探讨大模型安全评估与防护、智能体安全、AI治理等前沿议题。360集团张向征指出,随着Agent技术爆发式应用,AI安全已成为产业核心焦点。专家们强调需构建AI安全防护体系,应对大模型直接访问核心系统带来的全新挑战。中国电子院彭健提出企业合规建设需关注九大要素,清华大学苏航揭示智能体安全风险远超传统AI。华为云范建军倡导端到端大模型安全防护,中国信通院杨哲超呼吁构建协同治理框架。论坛为构建安全、普惠、负责任的人工智能未来贡献智慧。

  • WEEX亮相里约热内卢Blockchain.RIO:以社区为核心驱动全球化进程

    拉美地区Web3盛会Blockchain.RIO在巴西里约热内卢成功举办,WEEX交易所作为铂金赞助商亮相。WEEX首席运营官Andrew发表主题演讲,重点介绍WXT经济设计理念和平台生态发展战略,强调"流动性建设与平台生态发展"的运营思路。此次活动标志着WEEX全球化战略在拉美市场的深化推进,通过"技术稳健、社区参与、合规发展"三位一体策略构建品牌竞争力。WEEX将持续强化本地�

  • ISC.AI 2025智能体驱动产业创新论坛圆满召开

    8月6日,第十三届互联网安全大会智能体驱动产业创新论坛在北京召开。论坛汇聚产学研专家,围绕AI技术前沿、智能体研发与产业落地展开研讨,探讨技术创新与产业融合趋势。与会专家指出,智能体发展需兼顾技术突破与安全可控,构建开放协同的产业生态。会议展示了智能体在金融、制造等领域的应用成果,强调技术安全双轮驱动的重要性,呼吁共建智能体发展共同体,推动产业变革。

  • ISC.AI 2025在京开幕:开启智能化时代全球发展新纪元

    8月6日,第十三届互联网安全大会(ISC.AI2025)在北京国家会议中心开幕。大会以"ALL IN AGENT"为主题,聚焦智能体技术创新与产业融合,探讨人工智能与网络安全协同发展。来自政府、企业、学术界的代表就AI安全治理、技术突破、产业应用等议题展开讨论。会议指出,AI技术正重构安全攻防体系,需在推动创新的同时确保安全性、可靠性和公平性。大会由360等机构承办,采用纳米AI智能体技术支持,通过虚实融合方式呈现创新成果,并设置特色活动展示前沿技术应用。

  • ISC.AI 2025周鸿祎:应对“超级黑客”威胁 安全智能体成破局关键

    8月6日,360集团创始人周鸿祎在ISC.AI2025大会上提出"ALL IN AGENT"战略,强调AI时代需要安全智能体应对"超级黑客"威胁。安全智能体以安全大模型为核心大脑,配合工具调用等实操功能,能精准复制人类安全专家能力,实现安全防护从量变到质变的突破。周鸿祎回顾360二十年深耕安全领域的历程,指出当前企业面临安全人才短缺和AI黑客威胁双重挑战。360已实现全线产品智能化,通过自主研发的"智能体工厂"打造安全智能体解决方案,帮助政企单位快速弥补人才短板。安全智能体不仅是传统安全的补充,更是重构数字安全体系的核心力量。

  • ColorOS 16 Beta开启尝鲜招募 首批机型含一加13等

    今日,ColorOS开启Beta测试版本招募,数码博主数码闲聊站”透露,此次Beta测试为全新ColorOS 16。 本次招募首批机型为一加13、一加13T、OPPO Find X8系列、OPPOFind N5,每款机型均招募300人,符合机型条件的可在8月12日17:00之前报名。

  • AI日报:可灵2.1推出全新首尾帧功能;昆仑万维上线AI音乐模型Mureka V7.5;腾讯云推出AI开发工具CloudBase AI CLI

    本文介绍了AI领域最新动态:1)快手可灵2.1推出首尾帧功能,提升视频生成效果;2)昆仑万维发布Mureka V7.5音乐模型,优化人声表现;3)腾讯云推出AI开发工具CloudBase AI CLI,可减少80%编码量;4)海外新品MuleRun通过虚拟机和AI Agent带来创新游戏体验;5)Meta开源DINOv3视觉模型,无需标注即可实现卓越性能;6)宇树科技人形机器人H1获1500米赛跑金牌;7)谷歌Gemini新增记忆功能和隐私聊天模式;8)香港大学开源OpenCUA框架,打造个性化电脑助手;9)OpenAI考虑在ChatGPT引入广告;10)谷歌发布超小型开源模型Gemma 3 270M,支持手机端运行。

今日大家都在搜的词: