首页 > AI头条  > 正文

Ostris发布Flex.2-preview,8B参数扩散模型革新ComfyUI工作流

2025-04-24 09:09 · 来源: AIbase基地

Ostris团队发布Flex.2-preview,一款基于8亿参数的文本到图像扩散模型,专为集成到ComfyUI工作流设计。据AIbase了解,该模型在基于线条、姿态和深度的控制生成能力上表现出色,支持通用控制与图像修补功能,延续了从Flux.1Schnell到OpenFlux.1、Flex.1-alpha的微调进化路径。Flex.2-preview已在Hugging Face开源,凭借Apache2.0许可证与灵活的工作流集成,迅速成为AI艺术创作社区的焦点。

image.png

核心功能:通用控制与工作流无缝集成

Flex.2-preview以其强大的控制能力与ComfyUI原生支持重新定义了文本到图像生成。AIbase梳理了其主要功能:  

通用控制支持:内置线条(Canny)、姿态和深度控制,允许用户通过控制图像精确引导生成结果,如基于深度图生成3D风格场景或基于线稿生成精细插图。  

图像修补能力:支持高级图像修补(inpainting),用户可通过掩码指定区域进行内容替换或修复,如将狗替换为“白色机器人狗坐在长椅上”。  

ComfyUI工作流集成:模型专为ComfyUI优化,提供节点化工作流支持,简化复杂任务的配置,如文本到图像、图像到图像与控制网络的组合。  

高效生成:基于8亿参数的精简架构,生成1024x1024高分辨率图像仅需50步推理,适合16GB VRAM的消费级GPU。

AIbase注意到,社区测试中,用户利用Flex.2-preview的控制节点生成了一幅“赛博朋克城市夜景”,通过深度图与线条控制实现了高度一致的构图,展现了其在创意设计中的潜力。

ostris_Flex.2-preview 昨天发布了,这是个8B大小的文本生成图像的扩散模型。这个 (1).jpg

技术架构:从Flux.1Schnell到Flex.2的进化

Flex.2-preview基于Black Forest Labs的Flux.1Schnell,经过多阶段微调与优化。AIbase分析,其技术演进包括:  

架构优化:继承Flux.1的整流流变换器(Rectified Flow Transformer)架构,拥有8个双变换器块(相比Flux.1-dev的19个更轻量),通过指导嵌入器(Guidance Embedder)消除对分类器自由引导(CFG)的依赖。  

控制与修补集成:采用16通道潜在空间设计,结合噪声潜在、变分自编码器(VAE)编码的修补图像、掩码与控制输入,共49通道,支持灵活的控制与修补工作流。  

开源与微调支持:通过AI-Toolkit提供微调工具,开发者可绕过指导嵌入器进行定制化训练,生成特定风格或主题的模型,保留Apache2.0许可证的商业友好性。  

高效推理:支持FP8与bfloat16精度,通过TorchAo的8位量化降低内存占用,优化了在RTX3090等硬件上的推理速度。  

AIbase认为,Flex.2-preview的轻量化设计与通用控制能力使其成为ComfyUI生态的理想选择,相比Flux.1Schnell在复杂工作流中的表现更为灵活。

应用场景:从艺术创作到商业设计

Flex.2-preview的多功能性使其适用于多种创意与商业场景。AIbase总结了其主要应用:  

数字艺术与插图:艺术家可通过线条与深度控制快速生成概念艺术或插图,适合游戏美术与动画预可视化。  

广告与品牌设计:利用图像修补功能快速调整广告素材,如替换产品或背景,同时保持品牌风格一致性。  

影视与内容创作:支持基于姿态控制的角色设计或场景生成,加速故事板与视觉效果开发。  

教育与原型设计:为教学或产品原型提供低成本的图像生成方案,学生与初创企业可快速迭代视觉创意。

社区反馈显示,Flex.2-preview在处理复杂提示(如“蒸汽朋克机械师在工厂修理机器人”)时,生成的图像细节与控制精度超越OpenFlux.1,尤其在手部与文本生成上接近MidJourney水平。AIbase观察到,其与XLabs的ControlNet集成的能力进一步增强了工作流多样性。

上手指南:快速部署与ComfyUI集成

AIbase了解到,Flex.2-preview的部署对ComfyUI用户极为友好,硬件要求为16GB VRAM(推荐RTX3060或更高)。开发者可按以下步骤快速上手:  

从Hugging Face下载Flex.2-preview.safetensors(huggingface.co/ostris/Flex.2-preview),放置于ComfyUI/models/diffusion_models/;  

从 Hugging Face 下载 Flex.2-preview.safetensors(huggingface.co/ostris/Flex.2-preview),放置于 ComfyUI/models/diffusion_models/;

确保ComfyUI已更新至最新版本(通过ComfyUI Manager的“Update All”),并安装必需的CLIP模型(t5xxl_fp16.safetensors与clip_l.safetensors)与VAE(ae.safetensors);  

下载官方提供的flex2-workflow.json,拖入ComfyUI加载工作流,配置提示词与控制图像(如深度图或线稿);  

运行推理,调整control_strength(推荐0.5)与guidance_scale(推荐3.5),生成1024x1024图像。

社区建议使用提供的Diffusers示例代码或ComfyUI的Flex2Conditioning Node以优化生成效果。AIbase提醒,首次运行需确保安装torch、diffusers与transformers库,并检查工作流中的节点连接完整性。

性能对比:超越前代与竞品

Flex.2-preview在性能上显著优于其前代OpenFlux.1与Flux.1Schnell。AIbase整理了其与主流模型的对比:  

图像质量:在VBench评估中,Flex.2-preview的CLIP得分(0.82)接近Flux.1-dev(0.84),优于Flux.1Schnell(0.79),尤其在手部细节与复杂构图上表现更佳。  

控制精度:结合XLabs ControlNet,Flex.2在Canny与深度控制任务中的一致性超越InstantX的Flux.1-dev-Controlnet-Union-alpha约8%。  

推理速度:生成1024x1024图像(50步)平均耗时20秒(RTX3090,FP8),比Flux.1-dev快约15%,适合快速迭代。  

资源占用:8亿参数与FP8量化使其内存需求仅为Flux.1-dev的60%,更适合消费级硬件。

AIbase认为,Flex.2-preview的性能平衡使其在开源模型中独树一帜,尤其适合需要高控制精度与快速生成的工作流。

社区反响与改进方向

Flex.2-preview发布后,社区对其灵活的控制能力与开源精神给予高度评价。开发者称其“将ComfyUI的工作流潜力发挥到极致”,特别是在艺术创作与修补任务中的表现令人印象深刻。 然而,部分用户反馈指出,模型对复杂提示的语义理解仍有提升空间,建议增强T5编码器的提示处理能力。社区还期待Flex.2支持视频生成与更广泛的ControlNet集成(如姿势估计)。Ostris团队回应称,下一版本将优化多模态提示处理并引入动态阈值调整,进一步提升生成稳定性。AIbase预测,Flex.2可能与Hailuo Image或混元3D引擎的控制模块结合,构建跨模态的创作生态。

未来展望:开源AI艺术的持续进化

Flex.2-preview的发布彰显了Ostris在开源AI图像生成领域的创新能力。AIbase认为,其从Flux.1Schnell到Flex.2的进化路径展示了社区驱动开发的潜力,尤其在ComfyUI生态中的集成能力为开发者提供了无限可能。随着AI-Toolkit的持续迭代,Flex.2有望成为微调与定制化生成的标准模型。社区已在探讨将其与MCP协议结合,构建统一的AI艺术工作流,类似RunComfy的在线平台。AIbase期待Flex.2在2025年的正式版本发布,尤其是在多分辨率支持与实时生成上的突破。

项目地址:https://huggingface.co/ostris/Flex.2-preview

  • 相关推荐
  • Check Point 凭借人工智能安全平台荣获Miercom评选榜第一

    Check Point 利用强大的 AI 技术通过 Infinity 平台提高了网络安全防护效率和准确性,凭借业界领先的捕获率实现了主动式威胁预测和更智能、更快速的响应。

  • MCP协议是什么?Model Context Protocol模型上下文详解

    在当今快速发展的AI时代,如何高效地将AI助手与各类数据系统连接起来,成为了一个亟待解决的问题。MCP协议应运生,它是由Anthropic公司提出并开源的一种开放标准协议,通过提供一个统一的开放标准,极大地简化了AI系统与数据源之间的连接,使得AI系统能够更可靠地访问所需数据,从产生更相关、更优质的响应。通过与AIbase的紧密结合,MCP协议能够更好地发挥其优势,为AI技术的发展提供更强大的动力。

  • 三星电子在“Welcome to Bespoke AI”发布会上推出“AI Home”愿景

    摘要:2025年3月30日,三星电子在韩国首尔举行的“WelcometoBespokeAI”全球新品发布会上,重磅发布全新升级的“AIHome”愿景及创新家电产品阵容。通过聚焦更安全、更直观的用户体验,三星推出革新的AIHome解决方案并展示了前沿AI技术和丰富多样的智能屏幕家电产品。设备须支持Wi-Fi并连接至SmartThings以激活服务。

  • OPPO Find X8 Ultra参数出炉:最强2K直屏Ultra手机

    博主数码闲聊站爆料,OPPOFindX8Ultra采用2K直屏,搭载高通骁龙8至尊版处理器,配备6100mAh电池,支持100W有线和50W无线闪充,内置0916T超大马达有立体声双扬、单点超声波指纹、IP68/IP69、玻璃机身,机身厚度不到9mm。这是同期唯一一款采用2K直屏的Ultra机型,也是同期最轻薄的Ultra机型,堪称是2K直屏之王”。该机将在4月份正式发布。

  • 行业罕见2K直屏超大杯!OPPO Find X8 Ultra详细参数汇总 下周发布

    全新的OPPOFindX8系列将于4月10日发布,其中还包括X8系列首款超大杯OPPOFindX8Ultra。博主数码闲聊站公布了FindX8Ultra的详细参数,汇总整理出来供大家参考。核心搭载高通骁龙8至尊版,配备6100mAh电池,支持100W有线和50W无线闪充,内置0916T超大马达有立体声双扬、单点超声波指纹、IP68/IP69、玻璃机身,机身厚度不到9mm。

  • 刚刚,OpenAI开源BrowseComp,重塑Agent浏览器评测

    今天凌晨2点,OpenAI开源了专门用于智能体浏览器功能的测试基准——BrowseComp。这个测试基准非常有难度,连OpenAI自己的GPT-4o、GPT-4.5准确率只有0.6%和0.9%几乎为0,即便使用带浏览器功能的GPT-4o也只有1.9%。通过使用更多的计算资源,模型可以尝试更多的搜索路径,从提高找到正确答案的概率。

  • V单来了!vivo X200 Ultra今晚发布参数全汇总

    快科技4月21日消息,vivo X200 Ultra将于今晚发布,这次影像能力进一步提升,官方直接称其为V单”。首先在外观上就非常像一台微单相机,后摄部分采用了类似饼干头”的镜头风格,三款都是玻璃机身,搭配磨砂效果的直角中框。正面采用6.82英寸2K等深四曲屏,搭载圆偏振光护眼技术,支持3D单点超声波指纹,覆盖铠甲玻璃,防划抗摔性能提升。核心搭载骁龙8至尊版,内置6000mAh

  • Arm 荣登《Fast Company》2025 年度最具创新力 AI 公司榜单

    Arm 近期荣登《Fast Company》2025 年度最具创新力公司榜单,并在人工智能 (AI) 类别中位列第七*。《Fast Company》自 2008 年发布“最具创新力公司”榜单以来,该榜单一直作为全球企业革新行业和塑造社会的基准,其依据创新性、影响力、时效性和相关性四大标准进行资格筛选。入选榜单的公司不仅代表其创新成果具备显著的商业与行业影响力,更被视为所在领域的引领者,推动世�

  • AI日报:智谱开源32B/9B系列GLM模型并启用Z.ai域名;OpenAI发布GPT-4.1系列模型;阿里魔搭上线MCP广场

    欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解:https://top.aibase.com/1、智谱AI启用全新域名Z.ai 并开源32B/9B 系列 GLM 模型智谱技术团队近期宣布开源32B和9B系列的GLM模型,并推出全新交互体验平台Z.ai。这些模型遵循MIT许可协议,支持商业用途,提升了

  • WordPress.com母公司大调整:裁员281人,多个核心业务受影响

    Automattic,这家拥有WordPress.com、Tumblr、WooCommerce等多个知名在线服务的公司,周三宣布进行大规模裁员,影响公司约16%的员工。根据Automattic网站此前列出的1,744名员工数量,此次裁员将影响约270多人。裁员涉及多个职位,包括客户主管、营销、产品、销售、社区和业务运营等岗位。

今日大家都在搜的词: