华为发布图像生成模型PixArt-\Sigma 可直出4K图像

2024-03-08 11:42 · 稿源：站长之家

站长之家（ChinaZ.com）3月8日消息:华为近日发布了一项名为 PixArt-\Sigma 的图像生成模型，该模型采用了 DiT 架构，可以直接生成4K 分辨率的图像。相比于其前身 PixArt-\alpha，PixArt-\Sigma 在图像保真度上有了明显的提升，并改善了与文本提示的一致性。

QQ截图20240308114531.png

项目地址:https://top.aibase.com/tool/pixart

PixArt-\Sigma 的一个关键特点是其训练效率。借助 PixArt-\alpha 的基础预训练，它通过整合更高质量的数据，从"较弱"的基线逐步演变为"较强"的模型，这个过程被称为"弱到强训练"。

PixArt-\Sigma 的进步主要体现在两个方面:高质量的训练数据和高效的 Token 压缩。PixArt-\Sigma 结合了更高质量的图像数据，配对更精确和详细的图像标题，同时在 DiT 框架内提出了一个新的注意力模块，可以压缩键（Key）和值(Value)，显著提高效率，促进超高分辨率图像的生成。

由于这些改进，PixArt-\Sigma 以较小的模型规模（6亿参数）实现了优于现有文本到图像扩散模型(如 SDXL(26亿参数)和 SD Cascade(51亿参数))的图像质量和用户提示遵从能力。此外，PixArt-\Sigma 能够生成4K 图像，为创建高分辨率海报和壁纸提供了支持，有效地增强了电影和游戏等行业中高质量视觉内容的制作。

（举报）

相关推荐

关键词：

荐AI日报：字节OmniHuman-1.5发布；PixVerse V5模型上线；腾讯开源智能体框架Youtu-agent

本期AI日报聚焦多项技术突破：字节跳动发布OmniHuman-1.5实现图像音频秒变超真视频；爱诗科技PixVerse V5全球上线支持多场景创作；腾讯开源Youtu-agent框架提升AI开发效率；百度智能云发布百舸AI计算平台5.0；OpenAI将推出家长监控功能应对安全风险。同时涵盖硬件创新、市场预测及中国团队在全球AI应用领域的突出表现，展现人工智能领域快速发展的技术迭代与生态建设。

AI视频生成 OmniHuman-1.5 字节跳动
谷歌Pixel 10系列发布：首发Tensor G5芯片售价799美元起

今日凌晨，谷歌Pixel10系列正式发布，该系列包含Pixel10、Pixel10Pro及Pixel10Pro XL三款直板旗舰机型，起售价定为799美元（约合人民币5733元）。与此同时，谷歌还推出了首款折叠屏旗舰Pixel10Pro Fold，进一步丰富了产品线。在设计语言上，Pixel10系列延续了上代的经典

谷歌Pixel10 Pixel10系列折叠屏旗舰
Matrixport 受邀出席 Bitcoin Asia 2025，共议机构投资新趋势

Bitcoin Asia 2025峰会将于8月28-29日在香港举行，由BTC Media主办。预计吸引超1.5万名与会者，涵盖主题演讲、圆桌讨论及展览等活动，突显香港在全球数字资产领域的战略地位。会议将探讨亚太市场潜力、机构化进程及多元化投资机会，并邀请200余位全球重量级嘉宾参与。Matrixport作为亚洲领先加密金融服务平台，将持续推动资产数字化及Web3基础设施落地，助力行业创新与发展。

Bitcoin Asia2025 数字资产
Matrixport与复星财富控股达成战略合作，加速全球金融数字化进程

2025年8月28日，香港 —— 全球领先的一站式加密金融服务平台Matrixport今日宣布，与全球一站式Web5（Web2+ Web3）财富管理平台复星财富国际控股有限公司(以下简称“复星财富控股”)签署合作备忘录，正式达成战略合作。双方将围绕数字资产托管、场外交易、RWA、资产化及资管产品等核心业务展开深入合作。本次合作凸显了Web3基础设施与应用在传统金融中扮演的重要角色�

加密金融数字资产托管场外交易
荐AI日报：抖音打击AI技术滥用行为；OpenAI 收购开发数据分析平台 Statsig；ElevenLabs 音效模型更新

抖音打击AI技术滥用行为，对违规商家和达人采取下架、清退等措施。ElevenLabs音效模型升级至版本2，支持长音频和无缝循环。OpenAI收购数据分析平台Statsig，增强产品迭代能力。亚马逊推出Lens Live AI功能，实时扫描购物。谷歌AI推出Stax工具，帮助开发者评估大语言模型。WordPress推出AI工具Telex简化网站构建。Liquid AI发布LFM2-VL模型，提升手机视觉语言处理。苹果开源FastVLM与MobileCLIP2模型，优化边缘设备AI应用。MetaGPT推出自动化测试工具RealDevWorld，精准率达92%。瑞士发布开源大模型Apertus，提供多语言处理能力。

AI技术滥用抖音公告虚假商品展示
全球首款防尘折叠屏！谷歌Pixel 10 Pro Fold发布：12900元起

今天凌晨，谷歌新款折叠屏Pixel 10 Pro Fold正式发布，这是全球首款支持防尘的折叠屏旗舰，起售价1799美元（约合人民币12900元）。据悉，谷歌Pixel 10 Pro Fold拥有IP68防护等级，这意味着它能完全防尘防水，谷歌在防护能力方面引领行业。

谷歌Pixel 10 Pro
荐AI日报：苹果明年推出SiriAI搜索；OpenAI放开ChatGPT Projects功能；Kimi K2-0905 上线 Discord

本文汇总了AI领域最新动态：苹果与谷歌合作，计划在Siri中引入Gemini AI技术；OpenAI向免费用户开放Projects功能，提升任务管理效率；谷歌推出免费Gemini CLI工具，集成GitHub提升开发效率；OpenAI估值飙升至5000亿美元，二级股票售出103亿美元；苹果自研AI搜索引擎“世界知识问答”计划2026年上线；月之暗面发布Kimi K2-0905模型，提升编程与创意写作能力；Raycast推出Cursor Agent插件优化代码编辑；谷歌发布nano banana官方Prompt模板，助力创意设计。

AI Siri Gemini
微软发布AI截图工具，截图一键转PPT

微软电脑管家推出全新“智能圈选”功能，通过AI技术实现截图内容的智能识别与重构。用户只需圈选截图区域，即可一键完成文字提取、多语言翻译及PPT转换等操作，大幅提升办公和学习效率。该功能支持100多种语言，保留原始格式，并能智能修复遮挡内容，彻底改变了传统截图处理方式。

微软电脑管家智能圈选截图处理
荐AI日报：AI内容新规正式生效；美团推出开源大模型LongCat；阶跃发布语音大模型Step-Audio 2 mini

AI日报栏目每日更新AI领域热点内容，聚焦开发者需求。本期重点包括：阶跃星辰发布端到端语音大模型Step-Audio2 mini，在多项基准测试中表现优异；9月1日起AI生成内容需强制标识；美团推出开源大模型LongCat；上海AI实验室发布多模态大模型InternVL3.5；腾讯ARC团队推出音频生成模型AudioStory；OpenAI发布实时语音模型GPT-realtime；Meta与UCSD合作推出DeepConf技术；xAI代码库遭窃事件；阿里巴巴Qwen团队发布GUI自动化框架；微软推出Copilot Labs实验中心；小红书自动化工具xiaohongshu-mcp上线。

AI 语音大模型 Step-Audio2mini
推荐2025年必种草的AI一键ppt转视频创作工具

文章介绍了三款AI工具（课件帮、Visionstory、Fliki），可将静态PPT快速转换为动态视频微课。这些工具操作简便，支持自动生成口播稿、多语言配音、智能字幕及动画效果，适用于教育、企业培训等多种场景，无需专业技能即可上手，大幅提升视频制作效率。

PPT转视频视频创作工具 AI视频制作

今日大家都在搜的词：

热文

3 天
7天

华为发布图像生成模型PixArt-\Sigma 可直出4K图像

荐AI日报：字节OmniHuman-1.5发布；PixVerse V5模型上线；腾讯开源智能体框架Youtu-agent

谷歌Pixel 10系列发布：首发Tensor G5芯片售价799美元起

Matrixport 受邀出席 Bitcoin Asia 2025，共议机构投资新趋势

Matrixport与复星财富控股达成战略合作，加速全球金融数字化进程

荐AI日报：抖音打击AI技术滥用行为；OpenAI 收购开发数据分析平台 Statsig；ElevenLabs 音效模型更新

全球首款防尘折叠屏！谷歌Pixel 10 Pro Fold发布：12900元起

荐AI日报：苹果明年推出SiriAI搜索；OpenAI放开ChatGPT Projects功能；Kimi K2-0905 上线 Discord

微软发布AI截图工具，截图一键转PPT

荐AI日报：AI内容新规正式生效；美团推出开源大模型LongCat；阶跃发布语音大模型Step-Audio 2 mini

推荐2025年必种草的AI一键ppt转视频创作工具

今日大家都在搜的词：

热文

小米澎湃OS 3首批Beta版更新“3.0.0.24”发布

华为发布首款MateTV：超薄设计搭载旗舰性能 8999元起预售

三大运营商回应是否支持eSIM版iPhone：需等待通知

OPPO A6 Pro定档 9 月 9 日发布：开启手机六年耐用新时代

AI日报：苹果明年推出SiriAI搜索；OpenAI放开ChatGPT Projects

尊界S800选配星空顶涨价3万：价格上调至 8 万元

苹果折叠屏iPhone或将采用真全面屏形态：告别刘海与挖孔

全新问界M7开售1小时订单破10万售价28.8万元起

AI日报：拍我AI接入Nano Banana；腾讯智影暂停服务；京东自研京

华为FreeBuds 7i无线耳机开售：首发价499元

雷军凌晨3点就奔赴阅兵观礼台佩戴小米AI眼镜前往

小米澎湃OS 3首批Beta版更新“3.0.0.24”发布

AI日报：腾讯开源3D世界模型HunyuanWorld-Voyager；即梦AI系列

华为发布首款MateTV：超薄设计搭载旗舰性能 8999元起预售

华为MatePad Mini外观公布支持蜂窝网络通话功能

AI日报：AI内容新规正式生效；美团推出开源大模型LongCat；阶跃

三大运营商回应是否支持eSIM版iPhone：需等待通知

人去世了朋友圈会消失？微信客服回应：建议保持账号活跃

腾讯回应被米哈游起诉：没正式程序不能违规提供QQ用户资料

OPPO A6 Pro定档 9 月 9 日发布：开启手机六年耐用新时代

站长商机