首页 > 业界 > 关键词  > ScaleLong最新资讯  > 正文

中山大学等提出ScaleLong扩散模型 scaling操作可以稳定模型训练

2024-03-01 09:10 · 稿源:站长之家

要点:

1. UNet的long skip connection上的scaling操作可以稳定模型训练。

2. Scaling系数的设置影响模型性能,可以通过学习或固定的方式实现。

3. 对扩散模型任务在训练过程中特征和参数的可视化有助于理解模型稳定性。

站长之家(ChinaZ.com)3月1日 消息:扩散模型中,UNet的long skip connection上的scaling操作被证实能够稳定模型训练。在一些流行的扩散模型中,如Imagen和Score-based generative model中,已经观察到设置scaling系数可以有效加速模型的训练过程。

但是,过去这种操作缺乏具体的分析,只是经验性地认为能够起到加速作用。现有研究发现,合理设置scaling系数可以缓解特征不稳定,进而提高模型对输入扰动的鲁棒性。

image.png

项目地址:https://github.com/sail-sg/ScaleLong

这项研究也揭示了scaling系数对梯度量级的控制以及对输入扰动的稳定性的影响。通过对扩散模型任务中特征和参数的可视化,研究人员发现了模型训练过程中的不稳定现象,这一发现促使他们在long skip connection上进行Scaling来进行统一地缓解。

通过引入可学习的模块,如Learnable Scaling (LS) Method,可以自适应地调整scaling系数,进一步稳定模型的训练。

此外,研究人员提出了一种无需额外参数的Constant Scaling (CS) Method,简化了模型实现过程。虽然LS在稳定训练上表现更好,但CS仍然是一种值得尝试的策略。这些方法的实现非常简洁,只需几行代码即可实现。最近的一些后续工作也进一步验证了skip connection上scaling的重要性,为这一领域的发展提供了新的思路和方向。

举报

  • 相关推荐
  • 云天励飞“算力积木”联手OISA,突破万亿级MoE大模型推理集群的Scale up瓶颈

    云天励飞近日加入OISA生态,携手产业伙伴共建国产AI芯片互联体系,为中国算力生态注入新动力。OISA是中国移动提出的开放互联标准体系,旨在打造全向、对等、智能的互联新范式,解决智算集群内存互访难题,为大规模并行计算提供技术基石。云天励飞凭借在AI芯片与算力架构的长期积累,将依托“算力积木”架构的模块化优势,在大规模推理集群中实现高效互联,助力突破万级MoE大模型推理瓶颈,推动国产算力生态发展。

  • 美团发布高效推理模型LongCat-Flash-Thinking:部分性能接近GPT5

    9月23日,美团LongCat团队发布全新高效推理模型LongCat-Flash-Thinking。该模型在保持极致速度的同时,性能更强大、更专业,在逻辑、数学、代码、智能体等多个领域的推理任务中达到全球开源模型最先进水平(SOTA),部分任务性能接近闭源模型GPT5-Thinking。它增强了智能体自主调用工具能力,扩展了形式化定理证明能力,成为国内首个结合深度思考、工具调用与非形式化、形式化推理的大语言模型。在数学、代码、智能体等高复杂度任务上表现尤为突出,多项基准测试成绩领先开源及闭源顶尖模型,已在HuggingFace、Github全面开源。

  • AI日报:美团发布推理大模型LongCat-Flash-Thinking;阿里Wan-Animate开源;字节推豆包翻译大模型

    AI日报栏目聚焦人工智能领域最新动态。美团推出高性能推理大模型LongCat-Flash-Thinking;阿里开源Wan-Animate模型革新AI视频生成;字节跳动发布豆包翻译模型,支持28种语言互译;华为与浙大联合推出安全大模型DeepSeek-R1-Safe;阿里云即将发布跨模态模型Qwen3-Omni;xAI推出计算成本降低98%的Grok4Fast模型;YouTube发布多项AI创作辅助功能;IBM推出轻量级文档处理模型Granite-Docling-258M;中科院发布类脑大模型SpikingBrain实现百倍速度突破;OpenAI将推出仅限Pro用户的计算密集型新功能。

  • ColorOS 16阶段性爆料总结:拥有安卓首个跨级融合编译技术

    ColorOS 16将于10月15日正式发布,流畅度、AI、设计、互联四大方面全面升级。系统带来安卓首个无缝架构和芯片级动态追帧技术,确保全场景流畅体验;AI功能全面覆盖相册、便签等日常应用,新增AI人像补光、AI写作等实用功能;设计语言全新升级,图标动画交互全面优化;生态互联支持通知流转、电脑投屏等跨设备协同。目前Beta版已开启招募,支持一加13、Find X8系列等多款机型。

  • 天网杯纳米AI视频创作赛圆满落幕,ISC.AI学苑推动“教育AI+”新范式

    9月23日,第三届“天网杯”网络安全大赛在天津落幕,吸引全国顶尖战队角逐,同期举办纳米AI视频创作赛。赛事聚焦个人信息保护、防诈 骗等网络安全议题,通过“以赛促学”模式提升学生防护意识与AI应用能力。ISC.AI学苑作为平台支持,依托“纳米AI”技术降低创作门槛,推动“安全+AI”人才培养。大赛评选出24个奖项,并联合多所高校深化合作,促进AI技术在教育场景的落

  • BOE(京东方)携手UNESCO联合主办WCBR“科学十年”分会 彰显中国科技企业可持续发展实力

    9月22日,第五届世界生物圈保护区大会在杭州开幕,这是该会议首次在中国及亚太地区举办。BOE(京东方)作为首个支持联合国“科学十年”倡议的中国科技企业,携手联合国教科文组织联合主办“科学十年”分会,展示其以技术创新赋能非洲等欠发达地区科学发展的实践成果。会议期间,BOE通过“Windows to STEM”倡议推动非洲STEM教育能力建设,并发布可持续发展品牌“ONE”,彰显其全球化布局与可持续发展理念。未来,BOE将持续携手全球伙伴践行可持续发展,为全球科学普及与绿色低碳贡献力量。

  • Reviews.ai 依托 DigitalOcean 高效实现 AI 业务扩展

    Reviews.ai是一个消费者反馈聚合平台,帮助品牌将客户评论转化为可执行的洞察。该平台专注于评论分析,通过AI驱动功能(如按需报告、主题分类和智能代理)提升产品与服务。近期从Review Monitor更名后,团队迁移至DigitalOcean云平台,解决了原有专用服务器架构的扩展瓶颈。迁移过程在合作伙伴Aquazeel支持下高效完成,仅用数周,成本降低近30%。新架构采用Droplets、托管数据库和负载均衡器,支持灵活扩展。未来计划利用GPU Droplets增强AI能力,进一步优化大型语言模型处理效率。

  • 小米17 Pro系列攻克手机逆光摄影难题:搭载第三代高动态技术LOFIC

    小米14 Pro系列搭载第三代LOFIC技术,通过横向溢出积分电容解决逆光拍摄难题。该技术让单帧影像实现高动态HDR,有效保留高光细节,避免过曝,动态范围达16.5EV。配备光影猎人950传感器与光学镀膜,显著改善鬼影、发雾等问题。样张显示逆光照片纯净,高光不过曝,暗部细节清晰,告别传统逆光“黑脸”照。

  • 腾讯云马文霜:Cloud Mate:助力企业高效管云、用云,让云上业务坚如磐石

    9月17日,腾讯云在2025全球数字生态大会上宣布智算全面升级,推出面向Agent的AI基础设施解决方案。腾讯云副总裁李力强调“同源同构”为核心原则,通过统一技术架构支撑自研业务与外部客户,实现产品标准化与全球化服务一致性。升级方案包括Agent Runtime云沙箱、Cloud Mate智能运维体及全链路安全能力,旨在提升模型推理效率、工具集成灵活性和系统稳定性,助力企业降低AI应用门槛。李力指出,未来两年AI+Agent部署将大幅增长,腾讯云已服务国内90%的大模型厂商,并为多行业提供高效智算支持。

  • ​OPPO Pad5官宣10月16日发布 首发ColorOS 16

    OPPO Pad5将于10月16日发布,搭载全新ColorOS 16系统,主打流畅体验。系统升级三大核心技术引擎,实现无缝动画效果,并首次将原生级流畅能力开放给第三方应用。硬件方面配备12.1英寸3K高刷屏和联发科天玑9400处理器,支持67W快充,兼顾高性能与长续航。针对海外用户优化虚拟键盘操作,提升切换效率。产品定位“丝滑板王”,旨在引领安卓平板体验新高度。

今日大家都在搜的词: