通义千问发布多模态统一理解与生成模型Qwen VLo

2025-06-28 09:38 · 来源： AIbase基地

近日，Qwen VLo多模态大模型正式发布，该模型在图像内容理解与生成方面取得了显著进展，为用户带来了全新的视觉创作体验。

据介绍，Qwen VLo在继承原有Qwen-VL系列模型优势的基础上，进行了全面升级。该模型不仅能够精准“看懂”世界，更能基于理解进行高质量的再创造，真正实现了从感知到生成的跨越。用户现在可以在Qwen Chat（chat.qwen.ai）平台上直接体验这一新模型。

Qwen VLo的独特之处在于其渐进式生成方式。模型在生成图片时，采用从左到右、从上到下的逐步构建策略，过程中不断对预测内容进行优化调整，确保最终结果的和谐一致。这种生成机制不仅提升了视觉效果，还为用户提供了更灵活、可控的创作过程。

微信截图_20250628093705.png

在内容理解与再创造方面，Qwen VLo展现了强大的能力。与以往的多模态模型相比，Qwen VLo在生成过程中能够更好地保持语义一致性，避免将汽车误生成其他物体或无法保留原图关键结构特征的问题。例如，当用户输入一张汽车照片并要求更换颜色时，Qwen VLo能准确识别车型，保留原有结构特征，并自然转换色彩风格，使生成结果既符合预期又不失真实感。

此外，Qwen VLo还支持开放指令编辑修改生成。用户可以通过自然语言提出各种创意性指令，如改变画风、添加元素或调整背景等。模型能够灵活响应这些指令，并生成符合用户预期的结果。无论是艺术风格迁移、场景重构还是细节修饰，Qwen VLo都能轻松应对。

值得一提的是，Qwen VLo还具备多语言指令支持能力。该模型支持包括中文、英文在内的多种语言指令，为全球用户提供了统一且便捷的交互体验。无论用户使用哪种语言，只需简单描述需求，模型便能快速理解并输出理想结果。

在实际应用中，Qwen VLo展现了多样化的功能。它可以直接生成图像并进行修改，如替换背景、添加主体或进行风格迁移等。同时，模型还能完成基于开放指令的大幅修改，包括检测和分割等视觉感知任务。此外，Qwen VLo还支持多张图像的输入理解和生成，以及图像检测、标注等功能。

除了图文同时输入的情况外，Qwen VLo还支持文本到图像的直接生成，包括通用图像和中英文海报等。模型采用动态分辨率训练，支持任意分辨率和长宽比的图像生成，使用户能够根据实际需求生成适配不同场景的图像内容。

目前，Qwen VLo还处于预览阶段，虽然已展现出强大的能力，但仍存在一些不足之处。例如，在生成过程中可能存在不符合事实或不完全与原图一致的情况。研发团队表示，他们将持续迭代模型，不断提升其性能和稳定性。

体验地址:chat.qwen.ai

相关推荐

荐AI日报：通义千问开源Qwen3向量模型；字节跳动图像编辑模型SeedEdit 3.0；ElevenLabs推v3语音模型

本文汇总了近期AI领域的重要动态：1)通义千问发布Qwen3-Embedding系列模型，在多语言文本处理表现优异；2)字节跳动推出图像编辑模型SeedEdit3.0，提升细节保持能力；3)ElevenLabs发布情感语音合成系统Eleven v3 Alpha；4)Anthropic推出面向国家安全的Claude Gov模型；5)可灵AI月收入连续两月超1亿元；6)Meta公布智能眼镜Aria Gen2技术细节；7)爱诗科技上线AI视频工具"拍我AI"；8)富国银行预测2030年ChatGPT广告收入将达千亿美元。

人工智能深度学习文本处理
极氪接入通义千问3,知识库问答命中率达98%

极氪汽车接入通义千问3大模型，打造专属知识库"极氪知道"，问答准确率达98%。基于阿里云平台调用Qwen3-235B-A22B大模型，构建图文视三位一体的知识呈现系统，可提供标准化文本介绍及多媒体资源。通义千问3的快慢思考融合架构能提供更富逻辑性的车辆对比介绍，提升客户决策体验。极氪车联网、APP等核心业务已运行在阿里云平台。

极氪通义千问3 知识库
荐AI日报：通义千问3大模型全球爆火；即梦图片3.0智能参考全量上线；智谱AI企业级超级助手Agent CoCo上线

【AI日报】今日AI领域重要动态：1.通义千问3大模型全球下载量超1250万，衍生模型13万+；2.即梦图片3.0上线，AI设计进入"零门槛"时代；3.智谱AI发布企业级超级助手Agent CoCo；4.百度推出金融行业大模型"千帆慧金"；5.小红书开源首个大模型dots.llm1，含1420亿参数；6.Hugging Face开源LeRobot项目，降低机器人研发门槛；7.ChatGPT语音功能升级，支持更自然对话翻译；8.Google Gemini应用下载量超ChatGPT但活跃度不足；9.轻量级文档解析模型MonkeyOCR表现优异；10.Google Veo3推出高速视频生成模式；11.Google调整AI Studio政策，限制Gemini2.5Pro免费访问。

AI日报通义千问 AI产品应用
算力赋能营销革新，东信云与华为云签约共建多模态大模型应用标杆

6月21日，东信云与华为云在HDC2025大会上签署合作协议，双方将基于昇腾AI云服务深化合作，重点布局多模态大模型应用与数字人技术。合作内容包括：1）构建智能营销系统，整合文本、图像、视频等多元数据，提升市场分析和消费者行为预测能力；2）通过大模型实现营销内容自动化生成，包括新闻稿、社交媒体帖子和广告文案；3）优化大模型架构，提升训练和推理效率。东信云6月发布的"数字人智能引擎"已实现分钟级生成逼真数字人，显著提升推荐转化率。双方还将联合行业伙伴共建营销大模型生态系统，推动营销行业智能化升级。

华为云东信云科技 AI与大数据
荐多模态2025：技术路线“神仙打架”，视频生成冲上云霄

一场大会，聚集了中国多模态大模型的“半壁江山”。智源大会2025为期两天的论坛中，汇集了学界、创业公司和大厂等三方的热门选手，关于多模态的集中讨论达到了前所未有的热度。其中，创业公司就有爱诗科技、生数科技、Sand.ai、智象未来、Luma AI、智谱等六家公司创始人、CEO分享心得;隶属大厂队的字节、腾讯、百度的多模态技术负责人，以及学术界的人大和MIT（麻省�

多模态大模型智源大会2025 人工智能技术
OpenAI 提升o3多模态模型推理实力，微美全息（WIMI.US）加速引领产业新变革征程

OpenAI推出突破性的o3推理模型，首次实现图像直接融入推理过程，在多模态基准测试V* Bench上准确率达95.7%。DeepSeek完成R1模型升级，上下文窗口从12K扩展至23K，幻觉率降低45%-50%。行业呈现开源趋势，DeepSeek开源策略促使多家企业跟进，OpenAI也考虑开源。微美全息加速布局多模态大模型，计划提供实时多模态AI体验。专家指出AI发展重心正从大模型向智能体演进，开源技术显著降低训练门槛，提升泛化能力，为多模态智能探索开辟新路径。企业需紧跟趋势把握机遇，在大模型驱动的新时代找准定位。

OpenAI o3模型多模态推理
荐AI日报：阿里云通义灵码AI IDE上线；小米多模态大模型Xiaomi MiMo-VL开源；黑森林实验室推出FLUX.1Kontext

【AI日报】今日AI领域重要动态：1)阿里云推出通义灵码AI IDE，集成千问3模型，显著提升编程效率；2)小米开源多模态大模型MiMo-VL-7B，性能超越更大规模闭源模型；3)黑森林实验室发布FLUX.1Kontext图像生成模型，支持文本和参考图像多次编辑；4)Midjourney V7渲染速度提升40%，新增用户投票功能；5)DeepSeek R1-0528大模型在AGI领域取得突破，性能超越xAI等公司；6)Hugging Face进军机器人市场，推出开源人形机器人HopeJR；7)字节跳动火山方舟接入DeepSeek最新大模型；8)Anthropic开源"电路追踪"工具，揭示大模型决策过程；9)阿里巴巴开源自主搜索AI智能体WebAgent；10)Hume发布低延迟语音语言模型EVI3；11)Manus Slides支持一键生成专业幻灯片；12)Runway Gen-4 References支持手机照片艺术化处理。

人工智能 AI开发工具编程效率
AI触控云台浩瀚V3 Ultra发布，首发AI多模态追踪模块，定义手机云台轻旗舰标准！

6月6日，浩翰V3 Ultra智能影像稳定器正式发布。作为旗舰级产品，它搭载行业首创AI多模态万物原生跟拍技术，支持10米远程触控彩屏、AI可视化构图、360°无死角跟拍及三轴稳拍等功能。新品采用第九代iSteady增稳系统，折叠后体积小巧便携。配备22英寸触控彩屏，支持5米手势控制和隔空补光功能。售价999元起，同步推出含无线麦克风的创作者套装。浩翰深耕稳定器行业11年，产�

hohem 浩瀚V3 Ultra
荐AI日报：MiniMax-M1开源；阿里Qwen3升级版适配苹果MLX架构；月之暗面发布新模型Kimi-Dev-72B

《AI日报》汇总了近期AI领域多项重要进展：1)月之暗面推出开源编程模型Kimi-Dev-72B，在软件工程任务测试中创下新纪录；2)MiniMax开源M1模型，支持超长上下文推理且训练成本低；3)腾讯发布AI音乐模型LeVo，支持音色克隆和分轨生成；4)阿里云Qwen3升级版适配苹果MLX架构；5)豆包推出"AI播客"功能，可将PDF转为对话播客；6)夸克App上线个性化AI家教"夸克老师"；7)松下发布多模态大模型OmniFlow，实现文本/图像/音频自由切换；8)TikTok推出三款AI视频创作工具；9)极氪与火山引擎合作，将豆包大模型接入智能座舱系统；10)Meta的Llama3.1模型在文本记忆方面表现突出；11)Grok上线定时追踪X热门话题功能；12)Gemini2.5Pro即将更新Deep Think功能；13)谷歌地图引入AI技术升级导航和个性化推荐功能。

人工智能开源模型软件工程
Meta拟百亿美元投资Scale AI，微美全息（WIMI.US）端侧多模态AI加速开启科技新局

Meta正与AI初创企业Scale AI洽谈数十亿美元投资，估值或超100亿美元，有望创下私营企业融资纪录。Scale AI为微软、OpenAI等提供数据标注服务，是生成式AI热潮主要受益者。这将是Meta史上最大规模外部AI投资，标志其战略转向。Meta CEO扎克伯格宣布将AI确立为战略重心，2024年将投入650亿美元推进相关项目，重点打造Llama模型成为行业标准。同时，谷歌推出Gemini助手"计划操作"新功能，支持任务自动化管理。科技巨头纷纷重金布局AI，微软向OpenAI注资逾130亿美元，亚马逊投资Anthropic数十亿美元。行业观察认为AI技术普及将推动效率革命，微美全息等企业正通过技术创新赋能产业转型，共同探讨人工智能技术突破新动态。AI正以前所未有的速度重塑全球发展格局。

Meta投资 Scale AI

今日大家都在搜的词：

热文

3 天
7天

通义千问发布多模态统一理解与生成模型Qwen VLo

荐AI日报：通义千问开源Qwen3向量模型；字节跳动图像编辑模型SeedEdit 3.0；ElevenLabs推v3语音模型

极氪接入通义千问3,知识库问答命中率达98%

荐AI日报：通义千问3大模型全球爆火；即梦图片3.0智能参考全量上线；智谱AI企业级超级助手Agent CoCo上线

算力赋能营销革新，东信云与华为云签约共建多模态大模型应用标杆

荐多模态2025：技术路线“神仙打架”，视频生成冲上云霄

OpenAI 提升o3多模态模型推理实力，微美全息（WIMI.US）加速引领产业新变革征程

荐AI日报：阿里云通义灵码AI IDE上线；小米多模态大模型Xiaomi MiMo-VL开源；黑森林实验室推出FLUX.1Kontext

AI触控云台浩瀚V3 Ultra发布，首发AI多模态追踪模块，定义手机云台轻旗舰标准！

荐AI日报：MiniMax-M1开源；阿里Qwen3升级版适配苹果MLX架构；月之暗面发布新模型Kimi-Dev-72B

Meta拟百亿美元投资Scale AI，微美全息（WIMI.US）端侧多模态AI加速开启科技新局

今日大家都在搜的词：

热文

小米股票上热搜：盘中股价突破60港元创历史新高

红米REDMI K80 至尊版手机发布：售价 2599 元起

小米YU7 3分钟大定突破200000台雷军：YU7订单要高于SU7

京东回应外卖员帮扔垃圾每单0.5元：小范围测试未正式上线

小米 MIX Flip 2 小折叠手机发布：售价 5999 元起

REDMI 小平板 K Pad 发布：搭载天玑 9400+ 售价 2799 元起

小米手表S4 41mm发布：999元起

荣耀正式启动A股IPO 获上市辅导备案

小米Pad 7S Pro 发布：售价 3299 元起

2025新财富500创富榜发布：张一鸣问鼎首富梁文锋进前十

小米预告AI眼镜雷军：自带小爱同学啥都能直接问

小米MIX Flip 2外观公布：配备骁龙8至尊版、5165mAh电池

中消协发倡议抵制极端吃播：平台应严格识别、及时下架

小米股票上热搜：盘中股价突破60港元创历史新高

苹果官网首次支持国补目前仅限北京收货地址及上海线下购买

罗永浩回应为何总能融到钱并回击谩骂

雷军称YU7定价合理：希望大家猜测YU7价格要讲科学

红米REDMI K80 至尊版手机发布：售价 2599 元起

雷军分享小米端到端辅助驾驶进展：YU7全系搭载 SU7下月升级

站长商机