首页 > 业界 > 关键词  > PixArt-Σ最新资讯  > 正文

华为PixArt-Σ放出模型文件 可在Comfyui使用

2024-04-29 14:55 · 稿源:站长之家

站长之家(ChinaZ.com)4月29日 消息:最近,华为的4K图像模型PixArt-Σ放出了模型文件,而且diffusers也支持了这个架构,用户可以在Comfyui上尝试。

尽管他们XL-1024版本的模型大小只有2G,但在图像表现和提示词理解方面,它与SD3模型相当接近。可以在Comfyui上尝试。

image.png

工作流地址:https://civitai.com/models/420163

项目地址:https://github.com/PixArt-alpha/PixArt-sigma

据悉,PixArt-Σ模型采用了先进的弥散Transformer技术,通过弱到强的训练方法,专注于生成4K分辨率的高质量图像。

模型特点:

  • 轻量化设计:PixArt-Σ的XL-1024模型大小仅为2G,相较于其他同类模型,它在保持较小体积的同时,图像表现力和提示词理解能力却毫不逊色。

  • 风格多样性:在一些特定风格的表现上,PixArt-Σ与著名的SD3模型相比也显得颇具竞争力。

  • Diffusers支持:PixArt-Σ模型支持Diffusers框架,这使得用户可以在Comfyui等平台上尝试使用该模型,并通过使用patches来加速生成过程,提升用户体验。

技术实现:

PixArt-Σ通过弥散Transformer进行训练,该技术允许模型从低分辨率逐渐过渡到高分辨率的图像生成,有效提升了生成图像的细节和质量。

应用场景:

该模型的应用场景广泛,不仅适用于艺术创作和设计领域,还能满足游戏开发和营销等不同行业的需求。PixArt-Σ为用户提供了一种高质量的图像生成工具,能够根据文本提示生成具有特定风格的4K分辨率图像。

举报

  • 相关推荐
  • 全球图生视频榜单第一,爱诗科技PixVerse V5如何改变一亿用户的视频创作

    好玩好用的明星视频生成产品再更新,用户操作基础,模型技术就不基础。 熟悉生成领域的读者们最近都被谷歌的一只纳米香蕉 nano-banana 刷了屏。 在图像生成领域,纳米香蕉在短期内获得了巨量的影响力,凭着「照片变手办」的超高真实感的创意玩法横扫整个社交媒体,尤其触动了毛孩子家长们的心。

  • Matrixport 加密基金获 FCA 营销许可,机构化投资通道加速成型

    2025年9月11日,Matrixport旗下旗舰产品Crypto Market Index Fund获得英国FCA营销许可,成为首个可在英国向专业投资者私募销售的瑞士加密基金。该基金追踪瑞士SIX交易所的CMI10指数,覆盖BTC、ETH等十大主流加密资产,采用合规基金结构,由FINMA监管。此次突破体现了Matrixport"双轮驱动"战略:持续优化产品结构与深化合规运营,为机构提供透明安全的数字资产配置工具。

  • Netflix日本十周年,如何将自己炼成IP

    十年前,Netflix在日本上线时,谁也没想到会在短短十年间成为这个市场不可忽视的玩家。剧集、电影动画、纪录片、真人秀,从全球爆款到本土制作,它几乎无处不在。 而到了2025年9月,这个时间点恰好是Netflix进入日本市场整整十周年。它选择在东京最繁华的涉谷中心地带,从9月5日至14日举办为期十天的线下庆典活动,把自己十年来的代表作品和未来新作浓缩成一个巨大的�

  • AI眼镜的痛,Meta也治不了

    对于全球科技从业者而言,Meta Connect大会是一年一度的重要时刻。 不少人早早守在电脑前,想知道扎克伯格此次会带来哪些前沿技术产品,更对会上即将亮相的新款AI眼镜充满关注。 事实上,AI眼镜这类消费电子产品,在过去一年里已快速从“小众科技产品”走进大众视野,但看似火热的市场背后,AI眼镜当下的发展却陷入了明显瓶颈。 此前,国内AI眼镜市场曾掀起“百镜大

  • 小米澎湃OS 3第二批Beta版开启招募:覆盖REDMI K80、小米MIX Flip2等五款

    据小米官方消息,澎湃OS 3第二批Beta版已经开启招募,覆盖五款机型,包括:小米MIX Flip 2、REDMI K80、小米平板7 Ultra、小米平板7、REDMI K Pad。 据了解,澎湃OS 3采用自研底层内核技术平台,深入微架构流水线,识别CPU空转时长,通过一体化调频技术提升效率,整体任务执行效率提升19%。 同时,澎湃OS 3终于登岛”,命名为小米超级岛”,支持三岛并存,能显示待取快递提醒、登�

  • AI日报:快手推出AI视频制作助手Kwali;字节跳动推出USO模型;OpenAI推出ChatGPT开发者模式

    本文介绍了AI日报栏目,聚焦AI领域最新动态。快手推出Kwali视频助手,简化视频制作流程;字节跳动发布USO模型,解决图像生成中风格与主题的矛盾;微软推出Copilot Audio音频模式,提供个性化语音交互;Stability AI升级Stable Audio 2.5,支持高质量音频生成;阿联酋推出开源大模型K2 Think,拥有320亿参数;微信上线智能回复功能,提升公众号运营效率;OpenAI推出ChatGPT开发者模式,支持AI控制外部工具;字节跳动Seed团队发布AgentGym-RL框架,提升语言模型决策能力;月之暗面开源Checkpoint Engine中间件,优化LLM推理效率;B站开源IndexTTS-2.0文本转语音系统,支持情感与时长控制;Replit推出Agent 3编程助手,自主性提升10倍。

  • HTTP 402与微支付:一段沉睡三十年的代码,在AI时代觉醒

    30年前HTTP 402协议因交易成本高、体验割裂和技术缺失而失败,如今AI时代带来消费原子化、决策流线化和主体去人化三大变革,使微支付成为可能。AI代理通过钱包身份、风控机制和无缝支付协议实现高频小额交易,重构互联网经济逻辑,让HTTP 402从理想变为AI经济的支付基石。

  • 腾讯云李力:坚持同源同构,为企业打造更贴近Agent的AI原生云

    9月17日,腾讯云在2025全球数字生态大会上宣布智算全面升级,推出“更贴近Agent的AI+Infra”解决方案,包括Agent+Runtime、云专家服务智能体Cloud Mate及全链路安全能力。腾讯云副总裁李力强调,“同源同构”是核心原则,确保产品服务一致性与全球化布局。方案旨在提升模型推理效率、工具集成灵活性和系统稳定性,助力AI从实验室走向生产级应用。腾讯云通过硬件多元支持、软件加速优化及智能运维服务,降低企业技术门槛,已服务国内90%大模型厂商及千行百业。

  • StarRocks Connect 2025 圆满落幕:AI Native 时代,数据分析未来已来

    StarRocks Connect 2025峰会圆满落幕,聚焦AI Native时代的数据分析未来。活动汇聚全球开发者与行业专家,分享StarRocks在复杂业务场景中的实践,探讨技术演进方向。从性能引擎到AI原生平台,StarRocks 4.0将支持多智能体协作框架,提升数据分析效率。多家企业展示应用案例,覆盖电商、金融、旅游等领域,验证了其高性能与成本优势。开源精神推动技术创新,共同探索数据智能的无限可能。

  • 美团发布高效推理模型LongCat-Flash-Thinking:部分性能接近GPT5

    9月23日,美团LongCat团队发布全新高效推理模型LongCat-Flash-Thinking。该模型在保持极致速度的同时,性能更强大、更专业,在逻辑、数学、代码、智能体等多个领域的推理任务中达到全球开源模型最先进水平(SOTA),部分任务性能接近闭源模型GPT5-Thinking。它增强了智能体自主调用工具能力,扩展了形式化定理证明能力,成为国内首个结合深度思考、工具调用与非形式化、形式化推理的大语言模型。在数学、代码、智能体等高复杂度任务上表现尤为突出,多项基准测试成绩领先开源及闭源顶尖模型,已在HuggingFace、Github全面开源。

今日大家都在搜的词: