首页 > 业界 > 关键词  > PixArt最新资讯  > 正文

华为发布图像生成模型PixArt-\Sigma 可直出4K图像

2024-03-08 11:42 · 稿源:站长之家

站长之家(ChinaZ.com)3月8日 消息:华为近日发布了一项名为 PixArt-\Sigma 的图像生成模型,该模型采用了 DiT 架构,可以直接生成4K 分辨率的图像。相比于其前身 PixArt-\alpha,PixArt-\Sigma 在图像保真度上有了明显的提升,并改善了与文本提示的一致性。

QQ截图20240308114531.png

项目地址:https://top.aibase.com/tool/pixart

PixArt-\Sigma 的一个关键特点是其训练效率。借助 PixArt-\alpha 的基础预训练,它通过整合更高质量的数据,从"较弱"的基线逐步演变为"较强"的模型,这个过程被称为"弱到强训练"。

PixArt-\Sigma 的进步主要体现在两个方面:高质量的训练数据和高效的 Token 压缩。PixArt-\Sigma 结合了更高质量的图像数据,配对更精确和详细的图像标题,同时在 DiT 框架内提出了一个新的注意力模块,可以压缩键(Key)和值(Value),显著提高效率,促进超高分辨率图像的生成。

由于这些改进,PixArt-\Sigma 以较小的模型规模(6亿参数)实现了优于现有文本到图像扩散模型(如 SDXL(26亿参数)和 SD Cascade(51亿参数))的图像质量和用户提示遵从能力。此外,PixArt-\Sigma 能够生成4K 图像,为创建高分辨率海报和壁纸提供了支持,有效地增强了电影和游戏等行业中高质量视觉内容的制作。

举报

  • 相关推荐
  • AI日报:智谱上线PPT生成功能AI Slides;可灵 AI 发布可图2.1模型

    本文介绍了AI日报栏目及近期AI领域多项突破性进展:1)智谱推出免费AI Slides工具,基于GLM模型快速生成高质量PPT;2)可灵AI发布可图2.1模型,支持180多种风格图像生成;3)NVIDIA推出DiffusionRenderer技术,实现视频到可编辑3D场景转换;4)墨刀AI新增30秒生成高保真原型功能;5)Higgsfield推出Soul ID工具,10张照片即可生成虚拟形象;6)谷歌DeepMind开源GenAI Processors工具库;7)谷歌Veo新增图像转视频功能;8)Mistral AI发布专为代码建模的Devstral2507系列模型。这些创新展示了AI在内容生成、3D建模、产品设计等领域的快速发展。

  • AI日报:阿里通义推Qwen-TTS模型;Cursor已支持网页和手机端;字节发布图像合成技术XVerse

    【AI日报】今日AI领域7大突破:1)阿里通义Qwen-TTS实现方言语音合成重大突破;2)Cursor发布Web版AI编程工具;3)字节XVerse技术实现多对象精准图像生成;4)NoteGen跨平台AI笔记工具革新知识管理;5)ManimML动画库可视化Transformer架构;6)TEN+Agent开源语音交互技术降低延迟;7)Chai-2抗体设计模型将药物研发周期缩短至两周。淘宝同时上线RecGPT推荐模型提升购物体验。

  • AI日报:阿里通义开源音频生成模型ThinkSound;谷歌Veo3支态图片生成视频;昆仑万维发布 Skywork-R1V 3.0

    【AI日报】今日AI领域重要动态:1)阿里开源支持链式推理的音频生成模型ThinkSound,实现高保真空间音频生成;2)谷歌Veo3升级,支持静态图片生成生动视频;3)Hugging Face发布30亿参数小模型SmolLM3,性能优于Llama-3.2-3B;4)阿里开源网络智能体WebSailor,展现强大推理和检索能力;5)Moonvalley发布原生1080P视频生成模型Marey Realism v1.5;6)Vidu Q1支持最多七张参考图像生成一致性视频;7)苹果�

  • AI 图像神器 Luminar Neo 中国官网上线!正版授权价仅 399 元起

    AI图像编辑软件Luminar Neo正式登陆中国市场,由思杰马克丁作为官方授权经销商。该软件整合前沿AI技术,提供六大核心功能:智能换天、人像精修、智能结构优化、无损图层编辑、硬件加速和动态创意模板,显著提升专业摄影师和设计师的工作效率。中国用户现可通过官网以399元优惠价购买正版授权,比国际官网价格直降384元。软件提供完整本地化支持,包括中文指南和视频教程,并承诺持续更新和技术支持服务。Luminar Neo特别适合需要高效处理视觉内容的专业人士,将复杂编辑流程简化为几分钟操作,释放创意潜能。

  • 墨刀AI生成原型图,产品设计快人一步

    国内原型设计平台墨刀发布"AI生成原型图2.0"功能,30秒即可生成可编辑原型图,大幅提升产品设计效率。该功能通过AI技术解决传统原型设计周期长、效率低、修改繁琐等痛点,支持文字描述或图片上传自动生成高保真原型图,并可二次编辑优化。这一创新不仅标志着墨刀AI能力的全面升级,更代表产品设计方式的一次革新,显著加快产品迭代速度。未来,AI原型设计有望成为行业标配,助力企业更快响应市场需求,提升产品竞争力。

  • 国内首个!高德地图正式上线多语言地图:新增14种语言

    日前,高德地图正式上线多语言地图,在原有的中英文基础上,新增多达14种语言。 这14种语言包括西班牙语、葡萄牙语、法语、德语、泰语、日语、韩语、土耳其语、意大利语、俄语、阿拉伯语、马来语、印尼语、越南语。 此次多语言版的推出,使更多非英语国家的用户也能享受高德地图提供的优质出行服务。 高德地图多语言版实现了产品界面与地理信息的多语种适配,�

  • AI 浪潮下, 潮际好麦如何重塑电商出图新格局

    电商行业正经历AI技术带来的深刻变革。潮麦等AI工具通过一键生成虚拟模特、智能换背景、AI试衣等功能,大幅降低拍摄成本,提升出图效率。其AI模特技术解决了真人模特的版权困扰,试衣功能仅需上传服装平铺图即可生成超真实效果图,换背景功能支持快速适配不同营销场景。此外,AI智能抠图、换色等功能让商家每小时可处理上百张图片,效率提升数倍。这些AI解决方案�

  • A日报:B站升级动漫视频生成模型AniSora V3;字节开源4D视频生成框架EX-4D;DeepSWE开源AI Agent系统强势登顶

    AI日报栏目汇总了近期AI领域的重要进展:1)字节跳动开源EX-4D框架,可将单目视频转换为多视角4D视频;2)B站开源动漫视频生成模型AniSora V3,支持多种风格;3)DeepSWE+开源基于Qwen3-32B的AI Agent系统;4)字节开源3亿参数图像编辑模型VINCIE-3B;5)Stability AI推出移动端音频生成模型Stable Audio Open Small;6)谷歌发布免费教育AI工具套件Gemini for Education;7)Topview推出革命性AI数字人带货技术Avatar

  • 可灵AI推出可图2.1模型 多维能力跃升、会员限时7天免费

    可灵AI于7月10日上线可图2.1模型,图片生成能力全面升级:1)指令遵循能力显著提升,可精准捕捉复杂提示细节;2)新增180多种风格响应,支持特殊材质、数字艺术等创作需求;3)人像美感大幅优化,肌肤纹理与光影效果更自然;4)增强电影质感生成,能呈现大片级层次氛围;5)文字生成效果提升,支持中英文营销海报等设计。即日起面向会员免费开放7天,实测显示该模型在复杂场景还原和细节表现上达到新高度,累计已生成超3亿张图片。

  • 「6月30日AI日报」百度开源文心大模型4.5系列;通义千问发布多模态生成模型Qwen VLo

    AI日报精选:1)百度开源文心大模型4.5系列,含10款新模型,性能优异;2)通义千问发布多模态模型Qwen-VL,支持图文交互;3)阿里开源3亿参数多模态模型Ovis-U1;4)华为开源盘古7B稠密和72B混合专家模型;5)美图MOKI推出AI创意广告功能,一键生成专业视频;6)谷歌Gemini 2.5 Pro API重新免费开放;7)豆瓣上线"深入研究"AI功能;8)小米"AI百宝箱"结束内测;9)北京智研院开源多模态系统OmniGen2;10)知乎升级"直答"知识库功能。