多模态开放世界检测大模型MQ-Det登场，精确率提升7.8%

2023-10-18 13:51 · 稿源：站长之家

要点:
1. MQ-Det是首个多模态开放世界检测大模型，通过融合文本描述和视觉示例查询，提升了目标检测精确率7.8%。
2. MQ-Det的设计包括门控感知模块和视觉为条件的掩码语言预测训练策略，使其兼容现有检测大模型且具备多模态查询能力。
3. 实验结果表明，MQ-Det在LVIS基准数据集上取得显著的性能提升，支持finetuning-free和小样本检测，展现了多模态查询目标检测的潜力。

站长之家（ChinaZ.com）10月18日消息:MQ-Det是一款革命性的多模态开放世界检测大模型，在NeurIPS2023首次亮相，引起广泛关注。该模型的核心创新在于融合了文本描述和视觉示例查询，以显著提升目标检测的精确率，整体性能提高了7.8%。

论文链接:https://arxiv.org/abs/2305.18980

代码地址:https://github.com/YifanXu74/MQ-Det

以往的目标检测模型主要采用文本查询的方式，通过类别文本描述在图像中查找目标。然而，这种方式存在一个问题，即无法处理细粒度的目标信息以及类别歧义。MQ-Det通过引入视觉示例查询功能，弥补了这些问题。视觉示例可以提供更丰富的目标特征线索，同时文本查询具有强大的泛化性能。MQ-Det的设计结合了这两种查询方式，使用户可以更灵活地适应不同场景的需求。

MQ-Det的设计包括门控感知模块（GCP）和视觉为条件的掩码语言预测训练策略。GCP模块嵌入在已有文本查询检测大模型中，用于接收视觉示例的输入，提升检测器的多模态查询性能。此外，MQ-Det采用了一种视觉为条件的掩码语言预测训练策略，解决了模型学习惰性的问题，从而更好地利用新加入的视觉查询特征。

实验结果表明，MQ-Det的性能在开放世界目标检测中表现出色。不仅支持传统的finetuning-free评估策略，还在小样本检测任务上表现出色。在LVIS基准数据集上，MQ-Det实现了显著的性能提升，特别是在GLIP精度上提高了超过7%。这表明多模态查询目标检测具有巨大的前景，可用于实际应用领域，弥补了以往文本查询模型在细粒度信息方面的不足。MQ-Det的问世为多模态目标检测带来了新的机遇，为开放世界检测领域注入了新的活力。

（举报）

相关推荐
大家在看

关键词：

大模型

【腾讯云】11.11云上盛惠！云服务器首年1.8折起，买1年送3个月！

11.11云上盛惠！海量产品 · 轻松上云！云服务器首年1.8折起，买1年送3个月！超值优惠，性能稳定，让您的云端之旅更加畅享。快来腾讯云选购吧！

Docker容器镜像
去看看

Docker容器镜像 60元/15天

爆款产品组合购
去看看

爆款产品组合购低至1元

腾讯云x NVIDIA加速计划
去看看

腾讯云x NVIDIA加速计划最高获赠10万元扶持基金

2核2G云服务器
去看看

2核2G云服务器 112元/1年

查看更多相关信息>>

腾讯云 12-20

广告
理想汽车 Mind GPT 多模态认知大模型通过国家备案

理想汽车宣布其全自研的多模态认知大模型——MindGPT，已正式通过国家《生成式人工智能服务管理暂行办法》的备案。这一里程碑式的事件标志着理想汽车成为首个通过该备案的汽车厂商自研大模型。它不仅支持方言自由说、指令自由说具备简洁模式以及全时全车免唤醒的能力，为用户提供了更加便捷、智能的交互体验。

理想汽车多模态认知大模型 Mind
多模态大模型Reka Core发布性能与GPT-4相媲美

RekaCore是一款最新发布的多模态大型语言模型，其性能可与GPT-4相媲美，甚至在某些方面超越了现有的前沿模型。这一技术突破为人工智能领域带来了新的里程碑，特别是在图像、视频和音频的上下文理解能力方面。随着Core的进一步优化和应用，我们有理由相信，它将在多个领域产生深远的影响，推动人工智能技术的进步和社会的发展。

多模态大模型 AI头条
李未可科技正式推出WAKE-AI多模态AI大模型

4月18日，2024中国生成式AI大会上李未可科技正式发布为眼镜等未来终端定向优化等自研WAKE-AI多模态大模型，具备文本生成、语言理解、图像识别及视频生成等多模态交互能力。该大模型围绕GPS轨迹视觉语音打造新一代LLM-Based的自然交互，同时多模态问答技术的加持，能实现所见即所问、所问即所得的精准服务。李未可科技合伙人&AI负责人古鉴表示WAKE-AI将逐步开放平台能力，便于更多企业及开发者调用WAKE-AI能力，共建AI硬件生态。
Meta AI推MA-LMM:用于长视频理解的记忆增强多模态大模型

MetaAI近日推出了一种名为MA-LMM的新型模型，旨在解决长期视频理解中的挑战。LLMs在处理文本数据时表现出了令人印象深刻的能力，但在处理视频输入方面存在一些限制，例如上下文长度限制和GPU内存限制。其创新性的设计以及利用长期记忆库和顺序处理的方法使得该模型能够在各种复杂场景下取得显著成果，证明了其在多模态视频理解应用中的有效性和多功能性。

MA-LMM AI头条
MiniGPT4-Video官网体验入口视频理解多模态AI大模型使用地址

MiniGPT4-Video是什么？MiniGPT4-Video是为视频理解设计的多模态大模型，能处理时态视觉数据和文本数据，配标题、宣传语，适用于视频问答。用户可以上传视频，让模型生成标题与宣传语，理解特效处理，或作超美抒情诗。

MiniGPT4-Video
李未可WAKE-AI大模型：让多类终端能快速低成本的定制多模态AI

36kr研究院发布了《2024年AIGC行业研究:多模态大模型与商业应用》，文中基于AIGC产业生态现状和技术发展路径，深入分析AIGC商业化应用的方向与产业发展趋势。其中在36kr研究院梳理的产业图谱中，发现杭州李未可科技与字节跳动的豆包、腾讯云混元及华为云盘古等大模型等一起出现在闭源模型层，甚至在跨模态生成应用层也占据一地。李未可科技这类结合自身业务垂类场景，提前布局中间层及终端应用层的自研大模型或许能给市场带来不小的惊喜。

AIGC 商业化应用产业发展
钉钉 AI 升级：加入多模态、工作流等能力

3月28日，钉钉AI助理进行了重磅升级，新增了图片理解、文档速读、工作流等功能。这次升级使得钉钉AI助理率先尝试了多模态和长文本处理技术，展现出更强大的能力。用户可以在钉钉APP或PC客户端直接体验这些功能，享受AI带来的便捷与高效。

AI助理图片理解文档速读
谷歌推多模态视频模型VLOGGER，自动生成丰富动作视频

谷歌的研究人员最近推出了一款名为VLOGGER的多模态扩散模型，能够自动生成带语音、丰富动作的人物视频。用户只需向VLOGGER输入图像和语音，就可以获得逼真的视频效果。VLOGGER的推出为虚拟数字人的制作提供了更便捷、高效的解决方案，同时也在多模态视频生成领域取得了重要的技术突破。

VLOGGER 谷歌 AI头条
荐轻松拿捏4K高清图像理解！这个多模态大模型自动分析网页海报内容，打工人简直不要太方便

一个可以自动分析PDF、网页、海报、Excel图表内容的大模型，对于打工人来说简直不要太方便。上海AILab，香港中文大学等研究机构提出的InternLM-XComposer2-4KHD模型让这成为了现实。IXC2-4KHD将多模态大模型支持的分辨率提升到了4K的水平，研究人员表示目前这种通过增加切块个数支持更大图像输入的策略遇到了计算代价和显存的瓶颈，因此他们计划提出更加高效的策略在未来实现�

多模态大模型
代码、模型全开源！贾佳亚团队多模态模型 Mini-Gemini登上热榜

香港中文大学终身教授贾佳亚团队最近推出了一款名为Mini-Gemini的多模态模型，该模型在多模态任务榜单上取得了显著成绩，其性能堪比GPT-4与DALLE3的结合。Mini-Gemini模型以其更精确的图像理解能力、更高质量的训练数据和更强的图像解析推理能力著称。这一成果不仅为开源社区带来了新的活力，也为多模态模型的发展和应用开辟了新的可能性。

Mini-Gemini AI头条

今日大家都在搜的词：

热文

3 天
7天

多模态开放世界检测大模型MQ-Det登场，精确率提升7.8%

今日大家都在搜的词：

热文

站长商机