首个多模态开放世界检测大模型MQ-Det登场，精确率提升7.8%

2023-10-18 13:51 · 稿源：站长之家

要点:
1. MQ-Det是首个多模态开放世界检测大模型，通过融合文本描述和视觉示例查询，提升了目标检测精确率7.8%。
2. MQ-Det的设计包括门控感知模块和视觉为条件的掩码语言预测训练策略，使其兼容现有检测大模型且具备多模态查询能力。
3. 实验结果表明，MQ-Det在LVIS基准数据集上取得显著的性能提升，支持finetuning-free和小样本检测，展现了多模态查询目标检测的潜力。

站长之家（ChinaZ.com）10月18日消息:MQ-Det是一款革命性的多模态开放世界检测大模型，在NeurIPS2023首次亮相，引起广泛关注。该模型的核心创新在于融合了文本描述和视觉示例查询，以显著提升目标检测的精确率，整体性能提高了7.8%。

论文链接:https://arxiv.org/abs/2305.18980

代码地址:https://github.com/YifanXu74/MQ-Det

以往的目标检测模型主要采用文本查询的方式，通过类别文本描述在图像中查找目标。然而，这种方式存在一个问题，即无法处理细粒度的目标信息以及类别歧义。MQ-Det通过引入视觉示例查询功能，弥补了这些问题。视觉示例可以提供更丰富的目标特征线索，同时文本查询具有强大的泛化性能。MQ-Det的设计结合了这两种查询方式，使用户可以更灵活地适应不同场景的需求。

MQ-Det的设计包括门控感知模块（GCP）和视觉为条件的掩码语言预测训练策略。GCP模块嵌入在已有文本查询检测大模型中，用于接收视觉示例的输入，提升检测器的多模态查询性能。此外，MQ-Det采用了一种视觉为条件的掩码语言预测训练策略，解决了模型学习惰性的问题，从而更好地利用新加入的视觉查询特征。

实验结果表明，MQ-Det的性能在开放世界目标检测中表现出色。不仅支持传统的finetuning-free评估策略，还在小样本检测任务上表现出色。在LVIS基准数据集上，MQ-Det实现了显著的性能提升，特别是在GLIP精度上提高了超过7%。这表明多模态查询目标检测具有巨大的前景，可用于实际应用领域，弥补了以往文本查询模型在细粒度信息方面的不足。MQ-Det的问世为多模态目标检测带来了新的机遇，为开放世界检测领域注入了新的活力。

（举报）

相关推荐

关键词：

大模型

机器人“全能导航大脑”来了！银河通用发布NavFoM大模型

银河通用发布全球首个跨本体全域环视导航基座大模型NavFoM，实现机器人从“学会完成导航任务”到“真正理解移动”的跨越。该模型支持全场景、多任务、跨本体应用，通过统一“视频流+文本指令→动作轨迹”范式，融合800万条跨任务导航数据，在真实机器人上实现零样本自主避障、路径规划等复杂任务。其技术突破将推动具身智能从单一功能进化为基础设施，为规模化商业落地奠定关键基础。

机器狗导航大模型 TrackVLA
何小鹏首次披露物理AI巨大进展发布第二代VLA大模型

小鹏汽车在2025科技日发布第二代VLA大模型，颠覆传统“视觉-语言-动作”架构，实现端到端直接输出动作指令，开创物理模型新范式。该模型具备动作生成与物理世界理解能力，参数规模达数十亿级，训练数据近1亿clips。基于2250TOPS算力的Ultra车型成功搭载，推动智驾技术显著进化，同步发布“小径NGP”功能，复杂小路接管里程提升13倍。行业首发的无导航辅助驾驶Super+LCC实现全球覆盖。何小鹏表示，大模型将成为物理AI世界的操作系统，并宣布与大众汽车达成战略合作，共同推进智能出行发展。

小鹏汽车 VLA大模型智能出行
如何检查你的网站是否被大模型引用？AI排名查询工具推荐

本文探讨AI搜索时代网站流量获取新逻辑：传统SEO因Google搜索"零点击"现象失效，而71%用户通过AI工具研究购买决策。文章指出被大语言模型引用成为新流量入口，并推荐使用AIBase等GEO工具监测网站在豆包、DeepSeek等国内主流AI平台的曝光情况。提出三步操作法和三个优化建议：建立监控基线、定期检查变化、聚焦高转化场景。强调在AI搜索时代，内容被LLM引用已成为新的流量生命线。
来教装展，看全栈自主可控国产教育大模型何以赋能教学？

10月24-26日，第86届中国教育装备展在青岛举行。科大讯飞以“全栈自主可控国产教育大模型”为核心，展示五大智慧教育场景：智慧教学通过AI黑板实现师生协同，提升效率；科学教育推出AI虚拟科学家互动平台，激发探索精神；身心健康方案构建体育健康闭环与心理服务体系；教育治理推出数据驱动决策平台；学前教育引入游戏化学习产品。目前方案已覆盖全国5万余所学校，服务超1.3亿师生，展现AI从工具升级为“教育伴侣”的价值。

教育装备展示会人工智能+教育智慧教学
免费 GEO品牌可见度查询——让大模型信得过就这么玩

本文探讨在AI时代如何成为大模型信赖的信息源。关键点包括：可信信息源需具备数据来源清晰、内容结构化、可验证追踪等能力；提出五大实操要点——确保数据干净可追溯、采用RAG等技术增强可检索性、保持内容更新与时效性、强化品牌可见度、建立反馈优化机制。同时推荐使用AIBase平台的GEO排名查询工具免费监测内容可见度，通过持续优化提升在大模型入口的推荐概率。

文章搜索核心标签可信信息源
【AI 智惠季】全模态大模型齐发优惠，GPU新客包月2.8折起

阿里云启动双十一“AI智慧季”大型优惠活动，聚焦企业多元AI场景落地需求，推出7000万tokens大模型免费体验、GPU新客特惠等政策，助力企业降低开发成本。同时提供标准化AI产品与解决方案，覆盖内容创作、智能客服等高频应用场景，并举办系列技术分享活动，携手企业拥抱AI新时代。

AI技术阿里云双十一优惠
升级版“蓝心小V”亮相，豆包大模型助力vivo打造AI原生体验

vivo发布全新OriginOS 6系统，升级私人助手“蓝心小V”。该系统依托蓝心大模型与豆包大模型协同，实现精准意图识别与多模态交互，支持新闻、教育、天气等场景的智能问答。通过火山引擎联网搜索及内容整合，提供低延迟、高情感语音响应。同时拓展无障碍服务，为视障用户提供实时视觉辅助。未来将持续深化AI生态建设，打造更智能便捷的原生体验。

originOS6 蓝心小V AI原生操作系统
火山 AI 搜索引擎升级：大模型时代重塑用户体验与业务增长

火山引擎近日升级企业级AI搜索助手，底层模型升级至豆包大模型1.6，全面提升搜索、推荐、问答能力。该平台支持“开箱即用”，企业可快速构建专属对话式搜索助手，已在电商导购、视频新闻、AI搜图、智能硬件等多场景落地，帮助优化产品体验，为业务增长注入新动能。

火山AI搜索引擎豆包大模型1.6 企业级搜推AI助手
金融行业用好大模型，只有“垂直”一个解

文章探讨大模型在金融等复杂业务场景的落地挑战，指出通用模型难以满足行业对准确性、可解释性及合规性的高要求。垂直模型通过内化行业核心知识与能力，成为解决复杂业务问题的关键路径。实践显示，金融垂直模型已在营销、客服、风控等场景实现显著成效，如提升效率80%、降低风险。未来需通过数据飞轮、深度适配等技术实现模型持续迭代，构建一站式金融垂直模型生产工场。

金融大模型垂直模型 Agentic
京东11.11直播技术全面升级，立影3D技术、JoyAI大模型重构沉浸式购物体验

京东在双11期间升级直播技术，推出“立体3D技术”和“JoyAI大模型”等创新。立体3D技术实现裸眼360度商品展示，用户无需额外设备即可旋转查看产品细节；JoyAI生成虚拟偶像Aura，与真人明星跨次元互动，提升趣味性。AI工具还简化直播运营，支持智能脚本和选品。这些技术打破传统直播边界，增强沉浸感和互动效率，引领电商直播创新方向。

京东11.11 立影3D技术 JoyAI大模型

今日大家都在搜的词：

热文

3 天
7天

首个多模态开放世界检测大模型MQ-Det登场，精确率提升7.8%

机器人“全能导航大脑”来了！银河通用发布NavFoM大模型

何小鹏首次披露物理AI巨大进展发布第二代VLA大模型

如何检查你的网站是否被大模型引用？AI排名查询工具推荐

来教装展，看全栈自主可控国产教育大模型何以赋能教学？

免费 GEO品牌可见度查询——让大模型信得过就这么玩

【AI 智惠季】全模态大模型齐发优惠，GPU新客包月2.8折起

升级版“蓝心小V”亮相，豆包大模型助力vivo打造AI原生体验

火山 AI 搜索引擎升级：大模型时代重塑用户体验与业务增长

金融行业用好大模型，只有“垂直”一个解

京东11.11直播技术全面升级，立影3D技术、JoyAI大模型重构沉浸式购物体验

今日大家都在搜的词：

热文

阿里回应饿了么更名：正处于灰度测试阶段

AI日报：昆仑万维SkyReels V3模型上线；月之暗面推Kimi Linear

马斯克称若发现外星人证据就公开

vivo Y500 Pro官宣11月10日发布：同档首发2亿HP5主摄

鸿蒙智行新款享界S9官宣11月7日开订

小鹏机器人会走猫步太像人了！小鹏发布新一代人形机器人IRON

小米YU7全网首拆上热搜雷军回应：欢迎同行和专家指点

B站回应拉黑指定用户可屏蔽开屏广告：不实信息

问界M7提车关爱计划发布：等车超10周最高可补贴10000元

小米智能门锁M40 Pro发布：售价3229元起 33D人脸+掌静脉

鸿蒙HarmonyOS 6与iOS数据互传功能预计12月上线

AI日报：美团LongCat-Flash-Omni发布；Qwen3-Max上线深度思考功

DeepSeek崩了上热搜页面显示“服务器繁忙”

特斯拉Cybercab不配备方向盘和踏板预计2026年二季度下线

阿里回应饿了么更名：正处于灰度测试阶段

OPPO ColorOS 16正式版11月升级机型公布：支持23款机型

AI日报：昆仑万维SkyReels V3模型上线；月之暗面推Kimi Linear

马斯克称若发现外星人证据就公开

何小鹏：小鹏X9超级增程是全球续航最长的大七座车

卢伟冰评Air手机：大胆创新但极致薄牺牲用户体验

站长商机