阿里通义千问开源全新文生图模型Qwen-Image

2025-08-05 08:06 · 来源： AIbase基地

通义千问系列首次开源了一款名为Qwen-Image的20亿参数多模态扩散变换器（MMDiT）图像生成基础模型。这一创新成果不仅在复杂文本渲染和精确图像编辑方面取得了突破性进展，更是在多个公开基准测试中展现了卓越性能，成为图像生成与编辑领域的新星。

Qwen-Image以其强大的文本渲染能力脱颖而出，支持多行布局、段落级文本生成及细粒度细节呈现，无论是英语还是中文，均能实现高保真输出。例如，在渲染宫崎骏风格的动漫场景时，模型能够精准呈现店铺牌匾、人物姿势及神态，甚至酒缸上的细小文字也清晰可见。同样，在中文对联的渲染中，Qwen-Image不仅准确绘制了左右联和横批，还巧妙融入了书法效果，令人叹为观止。

微信截图_20250805080614.png

英文文本渲染方面，Qwen-Image同样表现出色。无论是书店橱窗的展示信息，还是复杂的信息图表，模型都能准确无误地生成文本内容，并巧妙融入整体构图，展现出高度的艺术性和信息性。更令人印象深刻的是，即便在处理更小或更多的文字时，Qwen-Image依然能够保持高度的准确性和清晰度，如准确生成手中纸张上的长段文字，或在玻璃板上完整呈现手写体段落。

除了文本渲染，Qwen-Image在图像编辑方面也展现了非凡实力。通过增强的多任务训练范式，模型在编辑过程中能出色保持一致性，支持风格迁移、物体增减、细节增强及人物姿态调整等多种操作。这使得普通用户也能轻松实现专业级的图像编辑，大大降低了视觉内容创作的技术门槛。

在多个公开基准测试中，Qwen-Image的表现更是令人瞩目。从通用图像生成的GenEval、DPG和OneIG-Bench，到图像编辑的GEdit、ImgEdit和GSO，Qwen-Image均取得了最先进的性能，展现了其在图像生成与编辑方面的全面优势。特别是在中文文本渲染上，Qwen-Image大幅领先现有最先进模型，凸显了其作为先进图像生成模型的独特地位。

目前，Qwen-Image已在魔搭社区、Hugging Face及GitHub等平台开源，并提供了详细的Technical report和Demo展示。用户可通过访问QwenChat（chat.qwen.ai）选择“图像生成”功能，亲身体验这款强大模型的魅力。

ModelScope:https://modelscope.cn/models/Qwen/Qwen-Image

Hugging Face:https://huggingface.co/Qwen/Qwen-Image

GitHub:https://github.com/QwenLM/Qwen-Image

Demo: https://modelscope.cn/aigc/imageGeneration?tab=advanced

相关推荐

荐AI日报：生数科技推出Vidu Q2；火山引擎推出炉米Lumi；通义千问开源300+模型

本文汇总了近期AI领域多项重要进展：生数科技推出Vidu Q2模型，显著提升视频生成中细微表情的真实感；火山引擎发布炉米Lumi平台，支持视觉模型LoRA微调以定制独特风格；阿里云通义千问开源超300个模型，下载量突破6亿次；百度开源多模态视觉理解模型Qianfan-VL，适配不同场景需求；微软在Copilot中引入Anthropic模型，拓展AI助手功能；OpenAI计划在美国新建五个数据中心以加速Stargate项目；英伟达开源Audio2Face模型，提升实时面部动画生成效果；Meta发布具备沙箱推演能力的32B代码世界模型CWM，优化代码调试效率。这些动态展示了AI技术在视觉、多模态、开源生态及硬件支持等方面的快速迭代与创新突破。

AI 视频生成细微表情
Qwen3-Max成阿里通义“地表最强”：性能超GPT5 数学推理直接满分

9月24日，2025云栖大会开幕，阿里通义千问旗舰模型Qwen3-Max重磅亮相，性能超越GPT-5、Claude+Opus 4等，跻身全球前三。该模型包含指令和推理两大版本，预训练数据量达36T tokens，总参数超万亿，具备极强编程和工具调用能力。在SWE-Bench测试中，指令版斩获69.6分全球第一；Tau2-Bench工具调用测试达74.8分，超越同类模型。推理增强版Qwen3-Max-Thinking在数学推理测试中获满分，国内首次突破。通义千问系列已实现全尺寸覆盖，包含三百多个模型。即日起，用户可在QwenChat免费体验Qwen3-Max，或通过阿里云百炼平台调用API服务。

云栖大会 Qwen3-Max 通义千问
荐AI日报：小米开源首个原生端到端语音大模型；通义万相Wan2.2-Animate正式开源；Suno v5即将上线

AI日报今日聚焦多项技术突破：小米开源首个端到端语音大模型Xiaomi-MiMo-Audio；通义万相推出全新动作生成模型Wan2.2-Animate；Suno即将发布革命性音乐模型v5；生数科技获数亿融资，视频生成技术商业化加速。同时关注OpenAI修复ChatGPT安全漏洞，谷歌将Gemini集成至Chrome浏览器，Luma AI发布支持16位色的Ray3视频生成模型，法国Mistral推出开源推理模型Magistral Small 1.2，Notion发布AI智能体，腾讯混元3D Studio提升3D创作效率。

AI 语音大模型小米开源
荐AI日报：阿里推多模态模型Qwen3-Omni；谷歌推出AP2协议；百度推出Qianfan-VL 模型

本期AI日报聚焦多领域技术突破：阿里云推出全球首个全模态AI模型Qwen3-Omni，支持文本、图像、音频和视频统一处理；百度发布多尺寸视觉理解模型Qianfan-VL，优化企业级应用。苹果扩展Image Playground平台，引入ChatGPT等第三方模型。谷歌与PayPal合作推出AP2协议，推动AI支付安全创新。钉钉上线AI表格助手，支持自然语言生成表格。DeepSeek开源V3.1-Terminus模型，性能显著提升。Kimi推出Agent会员服务，智元机器人开源全球首个通用具身智能模型GO-1，降低技术门槛促进行业创新。

AI模型全模态阿里云
荐AI日报：美团发布推理大模型LongCat-Flash-Thinking；阿里Wan-Animate开源；字节推豆包翻译大模型

AI日报栏目聚焦人工智能领域最新动态。美团推出高性能推理大模型LongCat-Flash-Thinking；阿里开源Wan-Animate模型革新AI视频生成；字节跳动发布豆包翻译模型，支持28种语言互译；华为与浙大联合推出安全大模型DeepSeek-R1-Safe；阿里云即将发布跨模态模型Qwen3-Omni；xAI推出计算成本降低98%的Grok4Fast模型；YouTube发布多项AI创作辅助功能；IBM推出轻量级文档处理模型Granite-Docling-258M；中科院发布类脑大模型SpikingBrain实现百倍速度突破；OpenAI将推出仅限Pro用户的计算密集型新功能。

AI日报美团大模型 LongCat-Flash-Thinking
荐AI日报：蚂蚁开源高性能思考模型Ring-flash-2.0；通义7款模型屠榜Hugging Face；Veo3视觉能力升级

蚂蚁百灵团队开源高性能思考模型Ring-flash-2.0，在多项基准测试中表现优异；阿里通义7款模型登顶Hugging Face榜单，Qwen3-Omni凭借多模态能力全球第一。谷歌Veo3突破视频生成局限，可自动完成视觉任务；特斯拉推进人形机器人量产，马斯克称其为最重要产品。马斯克第六次起诉OpenAI窃取商业机密，苹果内部测试聊天机器人Veritas优化Siri，YouTube推出AI音乐主播增强互动，LiquidAI发布轻量级模型Liquid Nanos优化边缘计算。

AI 开源模型高性能思考模型
荐AI日报：阿里云开源通义DeepResearch；夸克推医师考试大模型

本期AI日报聚焦多项前沿动态：阿里云开源轻量级AI代理DeepResearch，性能媲美OpenAI；夸克推出国内首个全阶段医师考试大模型测试集；微软Copilot将上线类ChatGPT记忆管理功能；迪士尼等巨头起诉MiniMax侵犯版权；OpenAI提升ChatGPT搜索准确性；Notion推出个性化AI助手；谷歌发布更小巧高效的时间序列预测模型TimesFM-2.5；Figma推出AI设计功能简化创作流程。整体展现AI技术在开源、医疗、�

AI 开源轻量级
性能超越GPT-4o及Qwen2.5-VL，百度超轻量小模型PP-OCRv5 Blog持续登顶Hugging Face热度第一

百度发布超轻量级文字识别模型PP-OCRv5，仅0.07B参数却实现媲美700亿参数大模型的OCR精度。在多项测试中超越GPT-4o等通用视觉大模型，尤其在文本定位和边界框精度上表现优异。该模型支持5种文字类型识别，适用于教育、医疗、法律等多行业数字化需求，累计下载量超900万，是GitHub上唯一Star数超5万的中国OCR项目。

PP-OCRv5 轻量级OCR 文字识别模型
荐AI日报：京东物流推出超脑大模型2.0；DeepSeek V3.1终结版发布；Kimi 推出全新 Agent 模式

本期AI日报聚焦多领域技术突破：京东物流发布“超脑大模型2.0”与“异狼具身智能机械臂系统”，推动物流行业迈向自主执行；DeepSeek推出V3.1终结版，修复漏洞并为V4架构铺路；Kimi上线Agent模式“OK Computer”，支持智能网站开发等复杂任务；ChatGPT新增个性化资讯功能，定制用户专属新闻；Exa Code发布代码索引工具，助力AI代理精准生成代码；Meta推出AI视频创作平台Vibes，简化短视频制作；蚂蚁数科发布隐私保护AI框架Gibbon，推理速度提升超百倍；OpenAI新基准测试显示GPT-5在多个行业逼近人类专家水平，覆盖九大行业44种职业。

京东物流超脑大模型2.0 异狼具身智能机械臂系统
GEO排名查询工具推荐:霸屏AI大模型答案的核心方法，做好AI大模型排名优化

随着AI大模型成为用户获取信息的主要入口，AIBase推出GEO排名查询工具，帮助品牌监测在豆包、DeepSeek、文心一言等主流AI平台中的曝光情况。该工具支持多平台检测、关键词追踪、可视化数据展示，可精准分析品牌是否被推荐、出现频次及具体场景，为制定AI大模型排名优化策略提供数据支撑。在GEO时代，抢占AI回答推荐位意味着获得全新流量入口。

AI大模型 GEO排名查询生成引擎优化

今日大家都在搜的词：

热文

3 天
7天

阿里通义千问开源全新文生图模型Qwen-Image

荐AI日报：生数科技推出Vidu Q2；火山引擎推出炉米Lumi；通义千问开源300+模型

Qwen3-Max成阿里通义“地表最强”：性能超GPT5 数学推理直接满分

荐AI日报：小米开源首个原生端到端语音大模型；通义万相Wan2.2-Animate正式开源；Suno v5即将上线

荐AI日报：阿里推多模态模型Qwen3-Omni；谷歌推出AP2协议；百度推出Qianfan-VL 模型

荐AI日报：美团发布推理大模型LongCat-Flash-Thinking；阿里Wan-Animate开源；字节推豆包翻译大模型

荐AI日报：蚂蚁开源高性能思考模型Ring-flash-2.0；通义7款模型屠榜Hugging Face；Veo3视觉能力升级

荐AI日报：阿里云开源通义DeepResearch；夸克推医师考试大模型

性能超越GPT-4o及Qwen2.5-VL，百度超轻量小模型PP-OCRv5 Blog持续登顶Hugging Face热度第一

荐AI日报：京东物流推出超脑大模型2.0；DeepSeek V3.1终结版发布；Kimi 推出全新 Agent 模式

GEO排名查询工具推荐:霸屏AI大模型答案的核心方法，做好AI大模型排名优化

今日大家都在搜的词：

热文

苹果iOS18.7.1正式版更新发布重要安全修复

苹果将推出iPhone 17e：搭载A19 芯片支持灵动岛

AI日报：蚂蚁开源高性能思考模型Ring-flash-2.0；通义7款模型屠

OPPO A6开售：售价1599元起搭载7000mAh六年长寿电池

AI日报：豆包大模型1.6-vision发布；DeepSeek发布V3.2-exp模型

罗永浩替小米说公道话：海报小字是行业陋习

卢伟冰称小米17首销结果很不错并回应小米17为何最初无1TB

京东双11购物节官宣：10月9日晚8点开启

小米澎湃OS 3穿戴设备适配升级计划公布：10月开启推送

苹果iOS 26.0.1正式版发布：修复iPhone 17系列Wi-Fi、拍照等Bu

微信新功能上线：长按图片“搜一搜” 检索购物转表一键达

小米17破今年国产手机首销纪录卢伟冰：需求远超预期

苹果iOS18.7.1正式版更新发布重要安全修复

AI日报：京东物流推出超脑大模型2.0；DeepSeek V3.1终结版发布

苹果将推出iPhone 17e：搭载A19 芯片支持灵动岛

理想i6正式上市：首销直减1万限时售价23.98万元

小米17系列开售5分钟破25年国产手机首销纪录

AI日报：腾讯重磅发布混元图像3.0；快手发布KAT系列Agentic Co

AI日报：蚂蚁开源高性能思考模型Ring-flash-2.0；通义7款模型屠

雷军大方推荐友商产品：不买YU7 可以考虑Model Y和理想i6

站长商机