阿里云发布多模态大模型Qwen-VL-Max版本性能比肩GPT-4V

2024-01-26 10:59 · 稿源：站长之家

站长之家（ChinaZ.com）1月26日消息:阿里云公布了多模态大模型的最新研究成果，继Plus版本之后，再次推出Max版本。

Qwen-VL-Max模型在视觉推理方面展现出卓越的能力，可以理解并分析复杂的图片信息，包括识人、答题、创作和写代码等任务。此外，该模型还具备视觉定位功能，可根据画面指定区域进行问答。

在基础能力方面，Qwen-VL-Max能够准确描述和识别图片信息，并根据图片进行信息推理和扩展创作。这一特性使得该模型在多个权威测评中表现出色，整体性能堪比GPT-4V和Gemini Ultra。

微信截图_20240126110056.png

在文档分析（DocVQA）、中文图像相关(MM-Bench-CN)等任务上，Qwen-VL-Max同样超越了GPT-4V，达到了世界最佳水平。

此外，Qwen-VL-Max在图像文本处理方面也取得了显著进步，中英文文本识别能力显著提高。该模型支持百万像素以上的高清分辨率图和极端宽高比的图像，不仅能完整复现密集文本，还能从表格和文档中提取信息。

目前，Qwen-VL-Plus和Qwen-VL-Max限时免费向用户开放。用户可以在通义千问官网、通义千问APP直接体验Max版本模型的能力，也可以通过阿里云灵积平台（DashScope）调用模型API。

（举报）

相关推荐

关键词：

荐AI日报：阿里云通义灵码AI IDE上线；小米多模态大模型Xiaomi MiMo-VL开源；黑森林实验室推出FLUX.1Kontext

【AI日报】今日AI领域重要动态：1)阿里云推出通义灵码AI IDE，集成千问3模型，显著提升编程效率；2)小米开源多模态大模型MiMo-VL-7B，性能超越更大规模闭源模型；3)黑森林实验室发布FLUX.1Kontext图像生成模型，支持文本和参考图像多次编辑；4)Midjourney V7渲染速度提升40%，新增用户投票功能；5)DeepSeek R1-0528大模型在AGI领域取得突破，性能超越xAI等公司；6)Hugging Face进军机器人市场，推出开源人形机器人HopeJR；7)字节跳动火山方舟接入DeepSeek最新大模型；8)Anthropic开源"电路追踪"工具，揭示大模型决策过程；9)阿里巴巴开源自主搜索AI智能体WebAgent；10)Hume发布低延迟语音语言模型EVI3；11)Manus Slides支持一键生成专业幻灯片；12)Runway Gen-4 References支持手机照片艺术化处理。

人工智能 AI开发工具编程效率
魅族Flyme AIOS 2宣布接入阿里云端到端大模型Qwen Omni

Flyme AIOS2系统引入全新设计的智能助手Aicy，其界面设计更具呼吸感与动态效果，同时搭载升级后的思考引擎，可实现更精准的语义理解和场景响应。值得关注的是，该系统成为业内首家接入阿里云自主研发的Qwen Omni云端到端大模型的操作系统，支持超低延迟的自然语音交互，并覆盖多地

魅族Note16 Flyme AIOS2
荐AI日报：阿里通义千问Qwen3问鼎全球开源模型；Kimi长思考模型API发布；OpenAI发布新一代GPT-4.1模型

【AI日报】汇总了近期AI领域重要动态：1)阿里通义千问3开源模型上线7天即登顶全球开源模型榜首，在指令遵循和推理能力上超越闭源模型；2)月之暗面推出Kimi长思考模型API，可解决复杂代码和数学问题；3)OpenAI发布GPT-4.1模型，性能提升显著；4)Google推出Gemini2.5Pro模型，提升开发者编码能力；5)联想发布"天禧超级智能体"，具备多模态感知能力；6)腾讯元宝上线"对话分

AI日报通义千问3 开源模型
荐字节最强多模态模型登陆火山引擎！Seed1.5-VL靠20B激活参数狂揽38项SOTA

5月13日，火山引擎在上海搞了场 FORCE LINK AI 创新巡展，一股脑发布了5款模型和产品，包括豆包・视频生成模型 Seedance1.0lite、升级后的豆包1.5・视觉深度思考模型，以及新版豆包・音乐模型。同时，Data Agent 和 Trae 等产品也有了新进展。

火山引擎创新巡展多模态理解
荐AI日报：昆仑万维天工超级智能体APP上线;谷歌重磅发布三大Gemma模型变体;字节推出开源多模态模型BAGE

本文介绍了AI领域最新动态：1)昆仑万维推出全球首款AI+Agent架构的Office智能体应用；2)研究显示ChatGPT能提升K12学生成绩近87%；3)谷歌视频生成工具Veo3扩展至更多地区；4)谷歌发布三款Gemma模型变体，覆盖医疗、手语翻译和海豚语言研究；5)VideoTutor实现一句话生成定制教学视频；6)字节跳动开源多模态模型BAGEL；7)Rork支持无代码开发iOS/Android应用；8)AingDesk降低AI助手开发门槛；9)Claude4登陆亚马逊Bedrock平台；10)Youware通过MCP协议提升网页生成能力。这些创新展示了AI技术在各领域的快速发展和应用潜力。

人工智能移动办公 AI应用
荐AI日报：腾讯AI智能编程插件CodeBuddy；字节推Seed1.5-VL多模态模型；Manus母公司否认15亿美元融资传闻

《AI日报》今日聚焦多项AI领域突破：腾讯推出CodeBuddy 3.0编程助手，深度整合微信小程序开发工具；字节跳动发布仅20B参数的Seed1.5-VL多模态模型，性能达行业领先；通义千问上线"Deep Research"智能研究系统，免费开放体验。此外，苹果推出革命性3D建模工具Matrix3D，Anthropic即将发布Claude Neptune新模型，清华与面壁智能联合推出端侧GUI智能体AgentCPM-GUI。谷歌搜索正测试"AI Mode"新功能，或将取代传统"手气不错"按钮。

AI编程助手 CodeBuddy 腾讯AI产品
骁龙7Gen4发布 AI性能比前代提升65%

高通正式推出骁龙7系列新成员——第四代骁龙7（骁龙7Gen4），旨在为高端手机用户提供准旗舰级的性能、连接性与娱乐体验。全新的第四代骁龙7在多媒体体验上表现出色，多个IP模块协同工作，配合台积电4nm工艺，整体能效优异。CPU部分首次采用1+4+3的全新架构组合，包含一个2.8GHz的超级核心A720、四个2.4GHz的性能核心A720以及三个1.8GHz的能效核心A520，还搭配了更大的三级缓存

骁龙7系列高通手机性能
15万最强智能辅助驾驶！MONA 03 MAX版今天上市何小鹏：比肩友商50万旗舰车

近日，小鹏汽车宣布，小鹏MONA M03Max版已正式面向全国发运，预计将在5月28日（今日）上市后立即开启交付。据悉，此次推出的M03Max版，包括502长续航Max、600超长续航Max两个版型。

小鹏汽车 MONA M03Max
荐AI日报：阿里开源长文本深度思考模型QwenLong-L1；GPT-4o语音模式上线唱歌功能；秘塔AI搜索推出全新“极速”模型

本文汇总了AI领域最新动态：1)中国信通院发布智能体开发标准，推动AI商业化进程；2)阿里推出QwenLong-L1-32B长文本推理模型，性能媲美Claude-3；3)GPT-4o语音模式升级，新增唱歌功能；4)秘塔AI搜索推出极速模型，响应速度达400tokens/秒；5)谷歌发布LMEval评估框架，统一大模型评测标准；6)Chrome浏览器集成Gemini AI助手；7)阿联酋全民免费使用ChatGPT Plus；8)苏州成立60亿元AI产业基金；9)法国Kyutai实验室推出10秒定制语音的Unmute系统；10)UAV-Flow项目实现无人机语音精准控制；11)Claude将升级支持百万字上下文和记忆功能；12)百度心响iOS版上线；13)夸克推出高考深度搜索功能；14)Chrome v137开发者工具升级；15)美团AI业务接近GPT-4o水平；16)Direct3D-S2实现3D生成速度提升10倍；17)OpenAI计划2026年推出首款AI硬件。

人工智能软件开发 AI标准
慧科讯业AI赋能数据标签化，破局多模态数据治理难题

文章探讨了数字化浪潮下数据标签化的重要性及其商业应用。数据标签化作为大数据分析的基础，能帮助企业实现精准营销和智能决策。然而，多模态数据处理复杂、人工标注成本高、业务理解不足等问题制约了数据价值的释放。文章提出数据标签化在构建用户画像、舆情监控、市场趋势预测等场景中的核心价值，并分析了当前面临的挑战：包括传统NLP算法不精准、大语言模型成本高且不稳定等。慧科讯业通过TDaaS服务模式，结合行业领先的数据源、NLP技术和垂直知识图谱，为企业提供高效的数据标注解决方案，显著提升数据处理效率。未来，随着AI技术发展，知识图谱驱动的TDaaS模式将重新定义数据价值变现方式。

数据标签化数字化转型人工智能

热文

3 天
7天

阿里云发布多模态大模型Qwen-VL-Max版本性能比肩GPT-4V

荐AI日报：阿里云通义灵码AI IDE上线；小米多模态大模型Xiaomi MiMo-VL开源；黑森林实验室推出FLUX.1Kontext

魅族Flyme AIOS 2宣布接入阿里云端到端大模型Qwen Omni

荐AI日报：阿里通义千问Qwen3问鼎全球开源模型；Kimi长思考模型API发布；OpenAI发布新一代GPT-4.1模型

荐字节最强多模态模型登陆火山引擎！Seed1.5-VL靠20B激活参数狂揽38项SOTA

荐AI日报：昆仑万维天工超级智能体APP上线;谷歌重磅发布三大Gemma模型变体;字节推出开源多模态模型BAGE

荐AI日报：腾讯AI智能编程插件CodeBuddy；字节推Seed1.5-VL多模态模型；Manus母公司否认15亿美元融资传闻

骁龙7Gen4发布 AI性能比前代提升65%

15万最强智能辅助驾驶！MONA 03 MAX版今天上市何小鹏：比肩友商50万旗舰车

荐AI日报：阿里开源长文本深度思考模型QwenLong-L1；GPT-4o语音模式上线唱歌功能；秘塔AI搜索推出全新“极速”模型

慧科讯业AI赋能数据标签化，破局多模态数据治理难题

热文

DeepSeek更新R1推理AI模型，已发布Hugging Face

Opera发布“无所不能”的Neon AI代理浏览器，离线也能写代码

扎克伯格：“Meta AI 月活用户突破 10 亿……但仍远远不够”

再生狗皮肤初创公司说：生物打印器官还有“ 10 到 15 年”

三星Galaxy VS 苹果iPhone：谁家用户谁赚得更多？

站长商机

阿里云发布多模态大模型Qwen-VL-Max版本 性能比肩GPT-4V

热文

站长商机

阿里云发布多模态大模型Qwen-VL-Max版本性能比肩GPT-4V