首页 > 业界 > 关键词  > ScaleLong最新资讯  > 正文

中山大学等提出ScaleLong扩散模型 scaling操作可以稳定模型训练

2024-03-01 09:10 · 稿源:站长之家

要点:

1. UNet的long skip connection上的scaling操作可以稳定模型训练。

2. Scaling系数的设置影响模型性能,可以通过学习或固定的方式实现。

3. 对扩散模型任务在训练过程中特征和参数的可视化有助于理解模型稳定性。

站长之家(ChinaZ.com)3月1日 消息:扩散模型中,UNet的long skip connection上的scaling操作被证实能够稳定模型训练。在一些流行的扩散模型中,如Imagen和Score-based generative model中,已经观察到设置scaling系数可以有效加速模型的训练过程。

但是,过去这种操作缺乏具体的分析,只是经验性地认为能够起到加速作用。现有研究发现,合理设置scaling系数可以缓解特征不稳定,进而提高模型对输入扰动的鲁棒性。

image.png

项目地址:https://github.com/sail-sg/ScaleLong

这项研究也揭示了scaling系数对梯度量级的控制以及对输入扰动的稳定性的影响。通过对扩散模型任务中特征和参数的可视化,研究人员发现了模型训练过程中的不稳定现象,这一发现促使他们在long skip connection上进行Scaling来进行统一地缓解。

通过引入可学习的模块,如Learnable Scaling (LS) Method,可以自适应地调整scaling系数,进一步稳定模型的训练。

此外,研究人员提出了一种无需额外参数的Constant Scaling (CS) Method,简化了模型实现过程。虽然LS在稳定训练上表现更好,但CS仍然是一种值得尝试的策略。这些方法的实现非常简洁,只需几行代码即可实现。最近的一些后续工作也进一步验证了skip connection上scaling的重要性,为这一领域的发展提供了新的思路和方向。

举报

  • 相关推荐
  • 京东云升级JoyScale AI算力平台:支持超10万卡调度

    京东云在上海发布九大AI产品,包括智能体2.0、大模型开发平台和算力平台等,助力企业重构AI基础设施。针对AI应用深化带来的技术挑战,京东云推出以GPU为核心的JoyScale算力平台,具备两大优势:极致算力性能,支持单集群万卡调度和超10万卡全局调度,大模型算力利用率提升至75%;灵活异构算力管理,适配十余种国产算力,集群利用率提升70%。基于京东复杂场景实践,京东云构建一站式大模型产品矩阵,从底层算力设施到上层应用开发,支持企业快速部署大模型及应用。未来将持续深耕技术,以开放协同的生态理念拓展大模型技术边界,助力企业重塑AI生产力。

  • Meta拟重金加码AI赛道,传将斥资超百亿美元投资Scale AI

    Meta 正与人工智能数据服务公司 Scale AI 商讨一项巨额投资,金额可能高达或超过 100 亿美元……

  • 雷军凌晨为小米打Call 清晨打卡健身 难怪周鸿祎钦佩!

    快科技5月24日消息,昨晚23:39分,小米集团创始人雷军发文向网友道晚安,并表示这个世界不会永远是强者恒强,后来者总有机会!”博文中,雷军发布的配图,正是小米15周年战略新品发布会上,他介绍完搭载小米自研芯片的三款旗舰产品后,谈到了小米11年造芯之路的艰辛,身后的配图写到,后来者一开始肯定不完美,总会被嘲笑、被怀疑,但后来者总有机会。”今日早间7:10分,雷军又晒出了健身房打卡照,并分享了疾风知劲草,路遥知马力”这句同样在小米15周年战略新品发布会上曾让他激动呐喊的话语。从深夜到清晨,两条微博相距不到6小时,这?

  • Meta拟百亿美元投资Scale AI,微美全息(WIMI.US)端侧多模态AI加速开启科技新局

    Meta正与AI初创企业Scale AI洽谈数十亿美元投资,估值或超100亿美元,有望创下私营企业融资纪录。Scale AI为微软、OpenAI等提供数据标注服务,是生成式AI热潮主要受益者。这将是Meta史上最大规模外部AI投资,标志其战略转向。Meta CEO扎克伯格宣布将AI确立为战略重心,2024年将投入650亿美元推进相关项目,重点打造Llama模型成为行业标准。同时,谷歌推出Gemini助手"计划操作"新功能,支持任务自动化管理。科技巨头纷纷重金布局AI,微软向OpenAI注资逾130亿美元,亚马逊投资Anthropic数十亿美元。行业观察认为AI技术普及将推动效率革命,微美全息等企业正通过技术创新赋能产业转型,共同探讨人工智能技术突破新动态。AI正以前所未有的速度重塑全球发展格局。

  • AI日报:阿里开源长文本深度思考模型QwenLong-L1;GPT-4o语音模式上线唱歌功能;秘塔AI搜索推出全新“极速”模型

    本文汇总了AI领域最新动态:1)中国信通院发布智能体开发标准,推动AI商业化进程;2)阿里推出QwenLong-L1-32B长文本推理模型,性能媲美Claude-3;3)GPT-4o语音模式升级,新增唱歌功能;4)秘塔AI搜索推出极速模型,响应速度达400tokens/秒;5)谷歌发布LMEval评估框架,统一大模型评测标准;6)Chrome浏览器集成Gemini AI助手;7)阿联酋全民免费使用ChatGPT Plus;8)苏州成立60亿元AI产业基金;9)法国Kyutai实验室推出10秒定制语音的Unmute系统;10)UAV-Flow项目实现无人机语音精准控制;11)Claude将升级支持百万字上下文和记忆功能;12)百度心响iOS版上线;13)夸克推出高考深度搜索功能;14)Chrome v137开发者工具升级;15)美团AI业务接近GPT-4o水平;16)Direct3D-S2实现3D生成速度提升10倍;17)OpenAI计划2026年推出首款AI硬件。

  • 苹果开放 AI 模型……计划于下个月在 WWDC 上发布

    尽管“Apple Intelligence”的首次亮相反响平平,但通过向开发者开放模型,苹果希望激发更多创新使用场景,提升平台的吸引力……

  • 绿舟:FSC认证证书有效期多久?过期后如何续证?费用是多少?

    FSC认证是国际森林管理委员会颁发的可持续林业认证体系,适用于木制品、纸制品、竹制品和天然橡胶制品。认证优势包括:1)获得亚马逊绿标资格,享受流量扶持;2)符合欧盟木材法规等国际法规要求;3)享受部分国家进口税率优惠;4)提升企业ESG形象。申请条件需满足:1)产品需带有FSC标签;2)企业需持有产销监管链认证或宣传许可。认证流程包含预评估、现场审核等环节,有效期5年。绿舟提供专业FSC认证服务,覆盖60%头部跨境企业,承诺认证失败全额退款,并提供1V1售后保障。

  • 传统有氧正在吃掉你的腹直肌!SRW-Msc¹塑型粉重写燃脂算法

    文章探讨了都市健身人群面临的减脂瓶颈问题:即使坚持运动和控制饮食,体脂率仍难下降。分析指出这是身体代谢机制与能量利用效率的深层博弈——当身体适应固定运动强度后,会本能降低能量消耗效率,导致脂肪分解减缓。传统减脂方案往往陷入两难:单纯高强度有氧可能流失肌肉,而过度控制热量则触发代谢保护性下降。SRW-Msc¹塑形粉通过三大核心成分的科学配比实现突破:myHMB®保护肌肉完整性,OKG加速脂肪代谢,BHB控制食欲。三者协同作用能提升脂肪燃烧效率至普通运动的2-3倍,同时避免肌肉流失,实现减脂与塑形的双重效果。研究显示,使用该配方后每减1公斤脂肪仅伴随0.1公斤肌肉流失,远优于传统方式0.3公斤的肌肉损耗比例。

  • Anthropic 发布 Claude 4 系列 AI 模型,有啥重大突破?

    Anthropic 表示,这两款 AI 模型在多个行业基准测试中表现出色,是目前业内最强的模型之一……

  • 点亮昌平“夜经济”新篇章:首开LONG街打造盛唐不夜城

    昌平区将于2025年6月28日在回龙观·首开LONG街举办"把夏天的夜交给昌平"主题夜经济活动。活动将持续2个月,通过汉唐历史场景复刻、长安主题夜市、传统文化演艺等40+沉浸式体验活动,打造650米长的开放式街区商业综合体。亮点包括:1)与热播剧《长安的荔枝》联动打造2000㎡唐风街区;2)引入西安特色文创美食;3)中央七七夕乐团与汉舞团联袂演出;4)小米之家旗舰店入驻并推出多重消费福利。项目已完成超万平米空间改造,新增宠物草坪、共享花园等设施,致力于构建"商产融合+成长社区+文化体验"的多元场景,打造北京城市更新标杆项目。