首页 > 业界 > 关键词  > 推理最新资讯  > 正文

HuggingFace diffusers轻量快速推理引擎stable-fast上线

2023-10-19 10:19 · 稿源:站长之家

站长之家(ChinaZ.com)10月19日 消息:不久前,HuggingFace 的 diffusers 轻量快速推理引擎已经在GitHub上发布。这个引擎通过一系列小幅改进,已经实现了显著提高推理速度的目标,宣称每秒可达到60步,较之前的23步有了显著提升。在自然语言处理任务中,这一引擎表现出色,赢得了众多开发者的青睐。

目前,stable-fast处于测试阶段,可能存在一些问题,但它承诺为深度学习爱好者带来颠覆性的变革。

image.png

项目地址:https://github.com/chengzeyi/stable-fast

stable-fast的设计目标是优化HuggingFace Diffusers在NVIDIA GPU上的推理。它利用一组强大的技术来确保高效的性能。其中一个显著特点是CUDNN卷积融合,它能够实现卷积、偏差、加法和激活计算模式的无缝融合。这确保了您的模型运行尽可能高效。

另一个显著特点是实现了低精度和融合的GEMM。通过在计算时使用fp16精度,同时在fp16下读写,stable-fast超越了PyTorch的默认性能。该库还擅长实现NHWC和融合GroupNorm,借助OpenAI的triton,提供了高度优化的融合NHWC GroupNorm + GELU操作符,消除了内存格式排列操作的需求,进一步提高了效率。

4_1697682412180_ai2023_Particle_beam_traveling_through_an_acceleratorscience_an_346adae8-721a-4144-8ef4-9e392d6a70d3.png

图源备注:图片由AI生成,图片授权服务商Midjourney

此外,stable-fast引入了完全跟踪模型的概念。它改进了torch.jit.trace接口,以使其更适合跟踪复杂模型。几乎可以跟踪和转换StableDiffusionPipeline的每个部分为TorchScript。它比torch.compile更稳定,CPU开销明显更低,并支持ControlNet和LoRA。

它还引入了融合多头注意力,使其与TorchScript兼容。与其他加速库相比,stable-fast的卓越速度是其独特之处,尤其在针对HuggingFace Diffusers进行优化时。此性能比较显示了其卓越的性能。作为PyTorch的极简主义插件框架,它无缝集成了现有的PyTorch功能和基础设施,同时支持各种加速和微调技术。总之,stable-fast准备为深度学习从业者的推理优化带来革命性的速度和效率。

举报

  • 相关推荐
  • 探索AI时代出海新范式!impact.com荣获TopDigital创新营销奖「年度营销技术公司」

    2025年7月1日,impact.com在第十三届TopDigital创新营销盛典上荣获"年度营销技术公司"大奖。该平台凭借技术能力、商业影响和全球化战略的综合表现获得认可,其AI技术正深刻改变品牌营销工作方式,尤其在效率提升与流程优化方面成效显著。impact.com通过智能推荐、智能审批等功能,将AI能力引入合作伙伴管理核心环节,帮助出海企业构建全球化合作网络。大中华区总裁Jennifer Zhang表示,AI不是替代营销人,而是释放其判断力与创造力。作为全球合作伙伴经济核心引擎,impact.com已服务众多中国出海品牌,未来将继续深化AI在营销管理平台的应用。

  • 苹果iOS26 FaceTime可检测裸露行为 违规将紧急暂停通话

    近日,苹果在最新推送的iOS26测试版系统中,对FaceTime功能进行了重要安全升级,新增实时内容检测机制以保障视频通话安全。据测试用户反馈,当系统通过AI算法识别到通话画面中出现裸露行为时,将立即暂停音视频传输,同时冻结通话画面并弹出警告窗口,要求用户终止不当行为。 该技术源于苹果此前推出的通信安全功能,此前主要应用于未成年人保护场景。例如,系统会

  • 数智驱动 全球增长:RixEngine(睿力引擎)邀您共聚2025 ChinaJoy BTOB馆

    RixEngine将在2025 ChinaJoy(展位W3-B502)展示旗下三大智能广告产品:RixSaaS一站式程序化广告平台,10分钟即可部署自有广告系统;RixDesk智能营销平台,日均处理500亿+请求,覆盖1.3亿DAU;RixDev流量变现方案,连接全球头部DSP资源提升填充率。现场提供专家1v1咨询、专属解决方案及互动好礼。该全链路智能广告引擎通过大数据和深度学习技术,为广告主、开发者和平台运营商提供从系统搭建到流量变现的全方位服务。

  • AI时代的营销答卷:淘宝天下摘得TopDigital桂冠

    淘宝天下凭借AI技术在营销领域的创新实践,在第十三届TopDigital创新营销盛典上斩获两项大奖。其获奖案例《淘宝蛇年"一起上春晚"云参演证互动传播》通过AIGC技术生成个性化"云参演证",结合明星联动和裂变式传播策略,实现超45亿曝光量,累计生成1.18亿张参演证,重塑了传统春节文化互动模式。同时,与神州租车合作的小米SU7 Ultra上新营销案例,通过头部KOL传播和社交化内容裂变,达成2.36亿+曝光量,获"社会化营销"铜奖。淘宝天下已布局AI驱动的全链路营销解决方案"淘天智家平台",支持从创意生成到多媒介内容生产的全流程,持续推动数字营销创新。

  • 豆包上线“深入研究”功能:快速、全面地处理高难度的复杂任务

    豆包宣布上线了深入研究”功能,正式开启测试,用户可免费体验。 将豆包更新到最新版后,打开App或PC端,选择深入研究”,输入详细指令,等待几分钟,即可生成一份报告。 据介绍,深入研究”能够帮助大家快速、全面地处理高难度的复杂任务,并支持以报告文档和可视化网页两种方式呈现研究结果。

  • 英伟达Blackwell Ultra芯片商用落地,微美全息以“算力+开源”领航AI科技新程

    英伟达与CoreWeave合作推出新一代AI芯片Blackwell Ultra,该芯片已实现商业部署,采用液冷技术,包含72个GPU和36个CPU。Blackwell Ultra的AI内容生成能力是前代产品的50倍,预计今年批量出货。英伟达凭借高性能AI芯片近乎垄断市场,年利润超5000亿元,市值逼近4万亿美元,有望成为全球市值最高公司。微软推迟自研AI芯片发布,转向过渡性设计方案。微美全息专注AI芯片技术布局,构建多元化技术生态,推动产业协同,成为全球AI芯片竞赛重要参与者。当前AI产业进入大规模商业化关键阶段,算力需求持续高涨,推动企业向算力数智化迁移。消费电子领域,AI赋能传统智能终端,新型智能硬件结合AI创造增量需求,关注算力产业链技术创新配套机遇。

  • 运动疲劳如何快速缓解?iRest艾力斯特按摩椅为专业运动疲劳恢复提供全新方案

    文章探讨运动性疲劳问题及其解决方案。传统消除疲劳方式包括营养补充和物理放松两类,但专业按摩人员短缺且费用较高。iRest艾力斯特按摩椅提供更便捷高效的恢复手段,经与温州医科大学合作研究证实,能有效改善运动员肌肉疲劳状况,降低肌肉硬度,促进恢复。按摩椅操作简便、性价比高,适合专业运动员和普通运动爱好者使用,为大众健康生活提供了智能便捷的解决方案。

  • AI日报:百度发布“绘想”平台与MuseSteamer;阿里音频驱动全身数字人模型OmniAvatar

    【AI日报】今日AI领域重要动态:1.开源语音大模型Step-Audio-AQAA发布,实现音频到语音的端到端自然转换;2.百度推出"绘想"平台与MuseSteamer,通过AI一键生成专业级视频;3.浙大与阿里联合发布OmniAvatar,音频驱动数字人技术取得突破;4.百度搜索迎十年来最大改版,新增智能框、百看和AI助手功能;5.xAI开发者控制台新增Grok4及Grok4Code引用,预示新一代AI模型即将发布;6.Gemin

  • 小米15迎来首个安卓大版本更新:安卓16 Beta版上线

    今天,小米15迎来安卓首个大版本更新,基于安卓16定制的澎湃OS 2定向内测版正式上线,版本号为OS2.0.230.6.WOCCNXM Beta,安装包大小是7.3GB。 新版澎湃OS优化了部分场景动效策略,提升系统流畅度;同时新增双指上滑唤起自定义无障碍功能的快捷方式。 需要注意的是,这次更新是安卓跨版本升级,建议用户提前备份个人数据,部分第三方应用可能没有适配安卓16,这一点需要注�

  • 企业如何低成本搭建可快速响应的远程技术支持平台?

    文章探讨了极端天气下企业技术支持的转型需求,重点介绍了远程技术支持的解决方案。传统线下服务面临出行困难、安全隐患等问题,而远程技术支持能实现设备监测、故障排查等操作,保障人员安全。贝锐向日葵推出的远程控制方案具有高效稳定、快速响应等特点,支持文件传输、工单流转等功能,并与ITSM平台深度整合,形成闭环服务体系。方案还提供团队版共享机制,适合初创团队低成本使用。在极端天气频发的当下,远程方案能显著提升企业抗灾能力,实现降本增效。