首页 > 业界 > 关键词  > 正文

阿里巴巴通义实验室开源AI图像生成微调框架SCEdit

2024-01-05 08:48 · 稿源:站长之家

站长之家(ChinaZ.com) 1月5日 消息:SCEdit 是一个高效的生成式微调框架,由阿里巴巴通义实验室基础视觉智能团队提出。该框架可以用于图像生成任务的微调,并支持快速迁移到特定的生成场景中。相比于其他方法,SCEdit 能够节省30%-50% 的训练显存开销。

该框架的核心思想是利用 U-Net 中的跳跃连接进行编辑,通过调整跳跃连接上的中间特征来实现高效的微调。SCEdit 还引入了名为 SC-Tuner 的轻量级微调模块,可以在编码器和解码器之间聚合远距离信息,从而提升图像生成的内容和质量。

微信截图_20240105085116.png

除了支持文生图下游任务的微调,SCEdit 还可以直接扩展到可控图像生成任务中。通过注入不同的条件,如边缘图、深度图、分割图、姿态、颜色图等,可以实现对生成结果的精准控制。而且,仅需使用 ControlNet 条件生成7.9% 的参数量,并节省30% 的显存开销。

SCEdit 在文生图和可控图像生成任务上进行了广泛实验,结果表明该方法在效率和性能方面具有优势。在文本到图像生成任务中,SCEdit 的 FID 得分和质量结果优于现有方法,并在训练阶段减少了52% 的内存消耗。在可控生成任务中,SCEdit 可以实现对生成结果的精准控制,并节省30% 的内存使用。

项目地址:https://github.com/ali-vilab/SCEdit

新鲜AI产品点击了解https://top.aibase.com/

举报

  • 相关推荐
  • 阿里巴巴总市值重回3万亿港元 股价年内近乎翻倍

    今日,阿里巴巴在港股市场表现强劲,开盘即高开2.74%,截至发稿时,涨幅已扩大至3.13%,最新股价报158.3港元,这一价格续创近4年新高。 随着股价的攀升,阿里巴巴港股总市值也成功重回3万亿港元大关。值得一提的是,今年以来,阿里巴巴股价累计涨幅已接近100%,展现出强劲的复苏势头。

  • 阿里巴巴宣布与英伟达开展合作:股价大涨9% 创4年新高

    9月24日,阿里巴巴股价大涨近9%,市值突破3.3万亿港元,创2020年以来新高。市场普遍认为,此次股价异动与公司在人工智能领域的战略布局密切相关。在当日举行的2025阿里云栖大会上,阿里巴巴宣布与英伟达达成全面Physical AI合作,覆盖数据处理、模型训练优化等核心技术环节。集团CEO吴泳铭首次提出“阿里云要做AI时代的安卓”的战略定位,强调将推进通义千问大模型开源生

  • AI日报:腾讯重磅发布混元图像3.0;快手发布KAT系列Agentic Coding大模型;苹果悄然研发ChatGPT式应用

    快手发布KAT系列代码大模型,腾讯推出“混元图像3.0”实现多模态突破,苹果研发类ChatGPT应用升级Siri,谷歌更新Gemini 2.5 Flash Lite提升效率。苹果还推出Manzano图像模型,YouTube Music测试AI音乐主播功能,VideoFrom3D框架简化3D视频生成,Moondream 3.0在多项基准测试中超越GPT-5等顶尖模型,展现强大性能。

  • Panduit 泛达网络无锡光纤实验室盛大启幕,打造全球领先的光通信测试中心

    2025年9月19日,泛达网络在无锡工厂隆重举行光纤实验室开幕典礼,50余位行业嘉宾共同见证。实验室分三期建设,首期投资1500万,占地200平方米,专注于光纤连接器、光跳线、分光器等产品的综合性验证。该实验室严格遵循国际标准,具备全方位测试能力,旨在提升产品一致性与可靠性,缩短开发周期,以超越国际标准的品质响应AI及数据中心光通信的激增需求。此举彰显泛达对中国市场的坚定信心,进一步巩固其在光通信领域的领先地位。

  • AI日报:国产版Nano Banana?即梦图片4.0发布;阿里巴巴发布 Qwen3-Max-Preview;上海重磅发布AI广告扶持政策

    AI日报栏目聚焦人工智能领域最新动态。主要内容包括:即梦图集4.0发布,新增文生图、图像编辑等功能;阿里巴巴推出超万亿参数语言模型Qwen3-Max-Preview;小米AI眼镜上线支付宝“看一看”支付功能;微软开源14B参数模型rStar2-Agent在数学推理领域表现突出;MiniMax启动股权激励计划覆盖核心员工;谷歌明确Gemini使用限制,免费用户每日最多5次提示;上海发布AI广告扶持政策,最高补贴500万元。这些进展展示了AI技术在图像处理、语言模型、智能支付等领域的创新应用。

  • AI日报:阿里云开源通义DeepResearch;夸克推医师考试大模型

    本期AI日报聚焦多项前沿动态:阿里云开源轻量级AI代理DeepResearch,性能媲美OpenAI;夸克推出国内首个全阶段医师考试大模型测试集;微软Copilot将上线类ChatGPT记忆管理功能;迪士尼等巨头起诉MiniMax侵犯版权;OpenAI提升ChatGPT搜索准确性;Notion推出个性化AI助手;谷歌发布更小巧高效的时间序列预测模型TimesFM-2.5;Figma推出AI设计功能简化创作流程。整体展现AI技术在开源、医疗、�

  • Reviews.ai 依托 DigitalOcean 高效实现 AI 业务扩展

    Reviews.ai是一个消费者反馈聚合平台,帮助品牌将客户评论转化为可执行的洞察。该平台专注于评论分析,通过AI驱动功能(如按需报告、主题分类和智能代理)提升产品与服务。近期从Review Monitor更名后,团队迁移至DigitalOcean云平台,解决了原有专用服务器架构的扩展瓶颈。迁移过程在合作伙伴Aquazeel支持下高效完成,仅用数周,成本降低近30%。新架构采用Droplets、托管数据库和负载均衡器,支持灵活扩展。未来计划利用GPU Droplets增强AI能力,进一步优化大型语言模型处理效率。

  • 免费生成10秒高清视频!通义App接入通义万相2.5

    在2025云栖大会上,阿里发布通义万相Wan2.5 Preview系列模型,覆盖文生视频、图生视频、文生图和图像编辑四大功能。其视频生成模型首次实现音画同步,可生成匹配画面的人声、音效和BGM,时长从5秒提升至10秒,支持24帧/秒的1080P高清输出,降低影视级创作门槛。模型指令遵循能力增强,支持运镜等复杂连续变化控制。用户通过通义App输入指令即可自动生成10秒高清视频,每日免费使用15次,支持导出无水印视频。同时,图像生成能力全面升级,可生成中英文字符和图表,支持图像编辑功能,一句话即可完成P图。

  • AI日报:美团发布推理大模型LongCat-Flash-Thinking;阿里Wan-Animate开源;字节推豆包翻译大模型

    AI日报栏目聚焦人工智能领域最新动态。美团推出高性能推理大模型LongCat-Flash-Thinking;阿里开源Wan-Animate模型革新AI视频生成;字节跳动发布豆包翻译模型,支持28种语言互译;华为与浙大联合推出安全大模型DeepSeek-R1-Safe;阿里云即将发布跨模态模型Qwen3-Omni;xAI推出计算成本降低98%的Grok4Fast模型;YouTube发布多项AI创作辅助功能;IBM推出轻量级文档处理模型Granite-Docling-258M;中科院发布类脑大模型SpikingBrain实现百倍速度突破;OpenAI将推出仅限Pro用户的计算密集型新功能。

  • Qwen3-Max成阿里通义“地表最强”:性能超GPT5 数学推理直接满分

    9月24日,2025云栖大会开幕,阿里通义千问旗舰模型Qwen3-Max重磅亮相,性能超越GPT-5、Claude+Opus 4等,跻身全球前三。该模型包含指令和推理两大版本,预训练数据量达36T tokens,总参数超万亿,具备极强编程和工具调用能力。在SWE-Bench测试中,指令版斩获69.6分全球第一;Tau2-Bench工具调用测试达74.8分,超越同类模型。推理增强版Qwen3-Max-Thinking在数学推理测试中获满分,国内首次突破。通义千问系列已实现全尺寸覆盖,包含三百多个模型。即日起,用户可在QwenChat免费体验Qwen3-Max,或通过阿里云百炼平台调用API服务。

今日大家都在搜的词: