首页 > AI头条  > 正文

Step1X-Edit:开源图像编辑新标杆 媲美GPT-4o等闭源模型

2025-04-27 08:53 · 来源: AIbase基地

2025年4月27日,AIbase报道:由Stepfun AI团队推出的Step1X-Edit图像编辑模型于近日正式开源,引发业界广泛关注。这一通用图像编辑框架以其卓越性能和实用的开源特性,展现了媲美GPT-4o和Gemini 2 Flash等闭源模型的潜力。

以下是对Step1X-Edit的全面解析,涵盖其技术亮点、应用场景及未来影响。

QQ_1745715180413.png

创新技术架构

Step1X-Edit采用多模态大语言模型(MLLM)与扩散变换器(DiT)的结合,通过处理用户提供的参考图像和编辑指令,生成高质量的目标图像。其核心创新在于将多模态语言模型的语义理解能力与扩散模型的图像生成能力相融合。模型通过提取潜在嵌入并与扩散图像解码器集成,能够精准响应多样化的编辑需求。

训练过程中,团队构建了包含超过100万高质量三元组(参考图像、指令、目标图像)的数据管道,覆盖11种编辑类型,确保模型在复杂场景下的鲁棒性。

GEdit-Bench:真实场景的评测标杆

为更真实地评估图像编辑模型的性能,Stepfun AI团队发布了全新基准GEdit-Bench。该基准基于现实世界的用户指令设计,涵盖广泛的编辑场景,从简单的色彩调整到复杂的对象添加或场景重构。

实验结果显示,Step1X-Edit在GEdit-Bench上的表现大幅超越现有开源基线模型,接近领先的闭源模型水平。这一基准的开源发布为图像编辑领域的研究提供了更贴近实际需求的评测工具,标志着行业评估标准的进步。

开源资源与高性能表现

Step1X-Edit的代码、模型权重及GEdit-Bench评测数据已于2025年4月25日通过Hugging Face和ModelScope平台开放。模型支持在单块H800 GPU上运行,推荐使用80GB显存以获得最佳生成质量。

对于512x512分辨率的图像,模型可在42GB显存下于5秒内完成编辑;1024x1024分辨率则需50GB显存,耗时约22秒。官方提供的推理代码和安装脚本进一步降低了使用门槛,支持Python 3.10及以上版本,兼容主流深度学习框架如PyTorch 2.3.1及2.5.1。

广泛的应用前景

Step1X-Edit的灵活性和高精度使其适用于多种场景。无论是专业设计师优化创意作品,还是普通用户进行照片美化,该模型都能通过简单指令实现复杂编辑。

例如,用户可以通过文本描述实现背景替换、对象移除或风格迁移,生成专业品质的图像。此外,模型已在fal.ai等平台上线,用户可通过在线演示体验其功能。这一开源模型的发布为内容创作者、开发者和研究人员提供了强大的工具,助力图像编辑的普及和创新。

对行业的深远影响

Step1X-Edit的开源不仅推动了图像编辑技术的发展,也为开源社区注入了新的活力。相较于依赖专有数据的闭源模型,Step1X-Edit通过透明的训练流程和高可复现性,为学术界和开发者提供了研究和优化的基础。

业界人士认为,该模型的发布可能促使更多企业探索开源AI的商业化路径,同时激励闭源模型提供商进一步提升性能。

未来优化与期待

尽管Step1X-Edit已展现出强大实力,但其高显存需求可能限制部分用户的访问。未来,团队计划优化模型效率,降低硬件门槛,并扩展支持更多编辑类型和分辨率。此外,GEdit-Bench的持续更新将进一步丰富评测场景,助力行业形成统一的性能标准。AIbase将持续关注Step1X-Edit的进展,为您带来开源AI领域的最新动态。

体验地址:https://huggingface.co/spaces/stepfun-ai/Step1X-Edit


  • 相关推荐
  • AI日报:通义千问开源Qwen3向量模型;字节跳动图像编辑模型SeedEdit 3.0;ElevenLabs推v3语音模型

    本文汇总了近期AI领域的重要动态:1)通义千问发布Qwen3-Embedding系列模型,在多语言文本处理表现优异;2)字节跳动推出图像编辑模型SeedEdit3.0,提升细节保持能力;3)ElevenLabs发布情感语音合成系统Eleven v3 Alpha;4)Anthropic推出面向国家安全的Claude Gov模型;5)可灵AI月收入连续两月超1亿元;6)Meta公布智能眼镜Aria Gen2技术细节;7)爱诗科技上线AI视频工具"拍我AI";8)富国银行预测2030年ChatGPT广告收入将达千亿美元。

  • AI日报:阿里开源长文本深度思考模型QwenLong-L1GPT-4o语音模式上线唱歌功能;秘塔AI搜索推出全新“极速”模型

    本文汇总了AI领域最新动态:1)中国信通院发布智能体开发标准,推动AI商业化进程;2)阿里推出QwenLong-L1-32B长文本推理模型,性能媲美Claude-3;3)GPT-4o语音模式升级,新增唱歌功能;4)秘塔AI搜索推出极速模型,响应速度达400tokens/秒;5)谷歌发布LMEval评估框架,统一大模型评测标准;6)Chrome浏览器集成Gemini AI助手;7)阿联酋全民免费使用ChatGPT Plus;8)苏州成立60亿元AI产业基金;9)法国Kyutai实验室推出10秒定制语音的Unmute系统;10)UAV-Flow项目实现无人机语音精准控制;11)Claude将升级支持百万字上下文和记忆功能;12)百度心响iOS版上线;13)夸克推出高考深度搜索功能;14)Chrome v137开发者工具升级;15)美团AI业务接近GPT-4o水平;16)Direct3D-S2实现3D生成速度提升10倍;17)OpenAI计划2026年推出首款AI硬件。

  • ChatGPT重磅升级GPT-4.1:编程专家模型登场

    OpenAI于5月15日正式推出GPT-4.1模型,采用差异化推送策略:付费用户可体验完整版,普通用户使用轻量级GPT-4.1 mini。新版模型在编程任务表现突出,能精准遵循指令,避免冗长输出。测试显示其响应速度提升30%,输出稳定性提高40%,部分性能超越GPT-4o。同时OpenAI宣布将斥资30亿美元收购编程工具Windsurf,强化开发者生态,与Google同日发布的Gemini-GitHub形成直接竞争。两大巨头的动作标志着AI编程助手进入生态竞争新阶段。

  • Reddit 起诉 Anthropic,称其未支付AI训练数据费用

    OpenAI 首席执行官山姆·奥特曼(Sam Altman)持有 Reddit 8.7% 的股份,是该公司第三大股东,并曾是 Reddit 董事会成员……

  • 把搜索变Reddit?谷歌正在测试“搜索论坛”功能

    谷歌似乎正计划在其搜索应用中添加一个讨论论坛,也许,“谷歌搜索论坛”就快要来了……

  • 理想汽车OTA7.4正式推送!自研MindGPT-4o-preview模型首次上车

    理想汽车5月28日发布OTA 7.4版本升级,主要亮点包括:1)首次搭载自研MindGPT-4o大模型,智能助手"理想同学"升级为3D毛绒形象,新增双手交互动作,语音交互更自然生动;2)新增"小同桌"多角色对话功能,支持连续聊天和情商引导;3)升级为生活助手Agent,能自主操作车机完成复杂任务,支持支付宝小程序操作;4)新增家庭账号系统、面容识别和对话历史功能;5)影音体验优化,支持前后排独立音区;6)推出儿童节专属"小主人"模式,新增斑马百科应用;7)新增超充站降锁、冰箱定时开关等实用功能;8)优化L6车型CDC悬架系统,提升操控性。

  • AI日报:GPT-4.1正式上线ChatGPT;阿里通义万相Wan2.1-VACE开源;可灵大模型视频生成量约占30%份额

    本文报道了AI领域最新动态:1)阿里通义万相开源视频编辑统一模型VACE;2)OpenAI发布GPT-4.1增强编码能力;3)Stability AI推出超轻量341M文字转语音模型;4)快手可灵视频生成模型占据30%市场份额;5)微软WizardLM团队整体加入腾讯混元大模型研发体系;6)腾讯宣布混元图像2.0将于5月16日发布;7)上海成立人工智能标识生态联盟;8)Lightricks发布13B参数视频生成模型LTX-Video;9)谷歌DeepMind推出AlphaEvolve优化AI训练速度;10)腾讯元宝浏览器插件上线Chrome平台。这些进展展示了AI技术在视频处理、大模型、语音合成等领域的快速发展。

  • AI日报:DeepSeek开源新版R1-0528;字节发布图像Agent小云雀AI;可灵2.1重磅上线

    本期AI日报聚焦多项AI领域突破:1)DeepSeek发布R1-0528模型,支持128K上下文且性能媲美GPT-4;2)字节推出"小云雀AI"图像创作工具;3)可画2.1版本价格降65%性能提升;4)Opera发布全球首款AI浏览器Neon;5)Meta推出多模态空间理解模型;6)北大团队研发ZeroSearch框架降低大模型训练成本88%;7)字节推出AI视频剪辑应用"剪小映";8)MotionPro实现40ms/帧精准视频控制;9)xAI与Telegram达成3亿美元合作部署Grok聊天机器人;10)OpenAI重组架构为IPO铺路;11)像素蛋糕"方糖大模型"获国内首个影像行业备案;12)Paper2Poster实现论文自动转海报;13)Resemble AI开源TTS模型性能比肩ElevenLabs;14)蚂蚁集团开源对标GPT-4o的多模态模型Ming-lite-omni。

  • 低成本、高速度、1080p高清 可灵2.1打造视频大模型新标杆

    快手可灵AI推出全新2.1系列视频生成模型,包含标准版(720p)和高品质版(1080p),主打高性价比与高效生成。大师版则提供更卓越的运动表现和语义响应,分辨率提升至1080p。新模型在成本控制方面优势明显,5秒视频生成仅需20-35灵感值,速度不到1分钟,处于行业领先水平。模型质量全面提升,动态细节更丰富、物理模拟更真实、提示词响应更精准。目前可灵AI全球用户突破2200万,累计生成超1.68亿视频,商业化进程加速,2025年Q1营收超1.5亿元。新系列将满足从短视频创作到专业影视制作的多场景需求。

  • GPTBots 迎来增强版 DeepSeek-R1-0528 模型

    GPTBots.ai平台宣布集成深度求索(DeepSeek)最新开源模型DeepSeek-R1-0528,该模型在推理能力上媲美OpenAI和Google的顶级模型,性能显著提升:数学竞赛准确率从70%提升至87.5%,编程性能从63.5%提升至73.3%。该模型支持JSON输出与函数调用,可无缝嵌入企业工作流,同时推出轻量级版本DeepSeek-R1-0528-Qwen3-8B,仅需16GB GPU内存即可运行。此次集成将强化GPTBots为企业提供金融、医疗、教育等领域的AI解决方案能力,助力企业构建定制化AI应用。平台秉持开源理念,采用MIT许可协议,支持商业使用与定制开发。

今日大家都在搜的词: