首页 > 业界 > 关键词  > 多模态模型最新资讯  > 正文

阿里巴巴多模态模型Qwen-VL升级更新 推出这2个版本

2024-01-31 11:21 · 稿源:站长之家

站长之家(ChinaZ.com)1月31日 消息:阿里巴巴的多模态模型Qwen-VL经过升级更新,推出了Qwen-VL-Plus和Qwen-VL-Max版本。这两个版本在多个文本-图像多模态任务上与Gemini Ultra和GPT-4V相当。

image.png

试用地址:https://huggingface.co/spaces/Qwen/Qwen-VL-Max

Qwen-VL-Max在中文问答和中文文本理解任务上超越了GPT-4V和Gemini,同时在图像相关推理能力和识别、提取和分析图像细节上都有显著提升。这两个版本还支持处理高达一百万像素的高清图像以及各种宽高比的图像。

Qwen-VL-Plus针对细节识别和文本识别能力进行了显著升级,支持超高像素分辨率和任意宽高比的图像输入,在广泛的视觉任务上提供了显著的性能提升。

而Qwen-VL-Max则在视觉推理和指令跟随能力方面有所改进,提供了更高级别的视觉感知和认知理解,在更广泛的复杂任务上提供了最优性能。这两个版本甚至能识别Gif图,展现出了强大的识别能力。

举报

  • 相关推荐
  • 荣耀年度旗舰上新,火山引擎助力“YOYO助理”多模态智慧再升级

    10月15日,荣耀发布搭载全新MagicOS 10系统的Magic8系列手机、MagicPad3 Pro平板及荣耀手表5 Pro等旗舰新品。智能语音助手“YOYO助理”升级多模态交互能力,支持图文、语音、视频输入及多样化内容输出,结合火山引擎的豆包大模型技术,提供联网问答、智能识图、创意修图、出行规划等场景服务,实现“有问必答、答则精准”的智慧体验,成为用户贴身的“万能管家”。

  • 荣耀Magic 8系列上新,火山引擎助力“YOYO助理”多模态升级

    10月15日,荣耀发布搭载全新MagicOS 10系统的Magic8系列手机、MagicPad3 Pro平板及荣耀手表5 Pro等年度旗舰新品。智能语音助手“YOYO助理”升级多模态交互能力,结合火山引擎与豆包大模型技术,支持联网问答、识图、修图、闲陪伴、口语练习、出行规划等场景,提供图文、语音、视频等多种输入输出形式,实现秒级响应与沉浸式交互体验,成为用户“口袋里的万能管家”。

  • 【AI 智惠季】全模态大模型齐发优惠,GPU新客包月2.8折起

    阿里云启动双十一“AI智慧季”大型优惠活动,聚焦企业多元AI场景落地需求,推出7000万tokens大模型免费体验、GPU新客特惠等政策,助力企业降低开发成本。同时提供标准化AI产品与解决方案,覆盖内容创作、智能客服等高频应用场景,并举办系列技术分享活动,携手企业拥抱AI新时代。

  • 如何检查你的网站是否被大模型引用?AI排名查询工具推荐

    本文探讨AI搜索时代网站流量获取新逻辑:传统SEO因Google搜索"零点击"现象失效,而71%用户通过AI工具研究购买决策。文章指出被大语言模型引用成为新流量入口,并推荐使用AIBase等GEO工具监测网站在豆包、DeepSeek等国内主流AI平台的曝光情况。提出三步操作法和三个优化建议:建立监控基线、定期检查变化、聚焦高转化场景。强调在AI搜索时代,内容被LLM引用已成为新的流量生命线。

  • 免费 GEO品牌可见度查询——让大模型信得过就这么玩

    本文探讨在AI时代如何成为大模型信赖的信息源。关键点包括:可信信息源需具备数据来源清晰、内容结构化、可验证追踪等能力;提出五大实操要点——确保数据干净可追溯、采用RAG等技术增强可检索性、保持内容更新与时效性、强化品牌可见度、建立反馈优化机制。同时推荐使用AIBase平台的GEO排名查询工具免费监测内容可见度,通过持续优化提升在大模型入口的推荐概率。

  • 来教装展,看全栈自主可控国产教育大模型何以赋能教学?

    10月24-26日,第86届中国教育装备展在青岛举行。科大讯飞以“全栈自主可控国产教育大模型”为核心,展示五大智慧教育场景:智慧教学通过AI黑板实现师生协同,提升效率;科学教育推出AI虚拟科学家互动平台,激发探索精神;身心健康方案构建体育健康闭环与心理服务体系;教育治理推出数据驱动决策平台;学前教育引入游戏化学习产品。目前方案已覆盖全国5万余所学校,服务超1.3亿师生,展现AI从工具升级为“教育伴侣”的价值。

  • “大模型应用”新风口:“无人测试”趋势,CIO/CTO如何应对

    当前CIO面临的核心挑战是如何在有限IT预算下加速企业数字化转型。传统软件测试环节因人力密集、周期冗长成为效率瓶颈,而AI技术正推动测试模式从"辅助"向"无人化"演进。通过AI Agent实现全流程自主测试,可提升测试效率300%、降低成本30%,并将产品发布周期从"月"压缩至"周"。这不仅是技术升级,更是重构IT成本结构、实现降本增效的战略支点,助力IT部门从成本中心转型为价值创造中心。

  • 微算法科技(NASDAQ MLGO)研发基于AI的动态权重学习模型,开启区块链账户关联分析智能新时代

    微算法科技(NASDAQ MLGO)推出基于AI的动态权重学习模型,解决区块链账户关联分析中传统静态模型难以适应业务快速变化的问题。该模型采用分层架构,结合注意力机制LSTM、联邦学习等技术,实时捕捉交易模式演变,动态调整账户关联权重。在分片效率、风险控制、DeFi资源分配等领域应用效果显著,提升交易处理速度与欺诈识别率。未来计划融合多模态数据,探索量子机器学习,打造自适应区块链网络的智能图谱引擎。

  • 触觉增强世界模型引关注,一目科技IROS首秀定义机器人感知新维度

    在2025年IROS大会上,中国AI企业一目科技凭借触觉感知与具身智能领域的突破成为焦点。公司展示了全球最薄仿生视觉触觉传感器,厚度大幅缩减,实现0.005N三维力分辨率和120fps输出帧率。CEO李智强提出"视觉-触觉-语言-行动"新范式,指出触觉能捕捉物理世界的隐秘维度。通过创新仿真平台和生成式AI技术,突破传统数据收集限制,显著提升机器人操作技能训练效率。现场机械臂成功演示易碎品抓取等复杂任务,验证了触觉感知在精细操控中的核心价值,为"操控即服务"产业愿景提供技术支撑。

  • 百度升级文心助手AIGC创作能力:支持8种模态 一键调用多工具

    百度搜索近日宣布对文心助手进行全面升级,显著增强其AIGC多模态创作与智能任务解决能力。 目前,该平台已支持AI图片、视频、音乐、播客等8种内容形态的生成,并支持用户一键调用多种工具,应对生活、健康、教育、工作等多场景需求。 数据显示,百度搜索用户通过文心助手日均生成的AIGC内容量已突破千万。与此同时,百度还发布了行业首个开放式实时互动数字人智�

今日大家都在搜的词: