“全开源”多模态分割一切大模型APE

2023-12-10 09:59 · 稿源：站长之家

要点:
1、APE 是一种全开源的多模态分割模型，通过独立建模每个类别名实例、压缩 Word-Level Embeddings 为 Sentence-Level Embeddings、采用不同的特征融合方式以及统一前景和背景粒度来提高分割效果。
2、APE 的方法主要包括独立建模每个类别名实例、压缩 Word-Level Embeddings 为 Sentence-Level Embeddings、采用不同的特征融合方式、通过矩阵乘法进行 Object Embeddings 和 Prompt Embeddings 之间的相似度计算以及统一前景和背景粒度。在多个常见数据集上进行实验，APE 方法取得了强力的分割效果。
3、APE 方法在各个检测、分割和指向性检测数据集上都比之前的方法表现好，在 D3数据集上取得了显著的提升。在开集检测、开集分割和视觉定位等任务上，APE 方法也展现出竞争力，取得了新的 SOTA 结果。

站长之家（ChinaZ.com）12月10日消息:APE 是一种全开源的多模态分割模型，其独特之处在于采用了独立建模每个类别名实例的方法。以往的方法通常将多个类别名联结成一个单独的 Prompt，但 APE 通过对每个类别名或描述短语进行独立建模，可以学习到不同实例之间的差异。此外，APE 还通过压缩 Word-Level Embeddings 为 Sentence-Level Embeddings 来减少计算复杂度和内存消耗，从而有效地表达语义信息。

论文地址:https://arxiv.org/pdf/2312.02153.pdf

开源链接:https://github.com/shenyunhang/APE

Demo链接:https://huggingface.co/spaces/shenyunhang/APE_demo

APE 采用了不同的特征融合方式来处理不同类型的 Prompt。对于纯类别名的文本特征，采用一种 “zero” 文本 token 作为替代，以避免过拟合问题。而对于语言描述的文本特征，采用特定的融合方式将其与视觉特征进行语义级的理解。此外，APE 还通过矩阵乘法计算 Object Embeddings 和 Prompt Embeddings 之间的相似度，从而实现一次性检测和分割。

APE 还通过统一前景和背景粒度来提高分割效果。在分割任务中，前景和背景的粒度是不同的，但传统方法往往面临前背景冲突的问题。为此，APE 提出统一前景和背景的粒度，将背景的不同块视为独立的标签，从而使模型可以采用统一的架构训练前景和背景数据，并方便地融入大规模的 Class-Agnostic 数据。

APE 在各个检测、分割和指向性检测数据集上都取得了强力结果。特别是在 D3数据集上，APE 的表现显著优于其他方法。在开集检测任务中，APE 在常见数据集上的效果也明显优于其他方法。此外，APE 还在开集分割任务和视觉定位任务上取得了竞争性的结果，在 RoboFlow100和 ODinW 评测基准上取得了新的 SOTA。

APE 是一种非常有潜力的多模态分割模型，具有广泛的应用前景。通过独立建模每个类别名实例、压缩 Word-Level Embeddings 为 Sentence-Level Embeddings、采用不同的特征融合方式、通过矩阵乘法进行 Object Embeddings 和 Prompt Embeddings 之间的相似度计算以及统一前景和背景粒度，APE 在多个常见数据集上取得了强力的分割效果，并展现出竞争力的结果。未来的研究可以进一步探索 APE 在其他视觉任务中的应用，以及对其方法进行优化和改进。

（举报）

相关推荐
大家在看

关键词：

大模型

【腾讯云】11.11云上盛惠！云服务器首年1.8折起，买1年送3个月！

11.11云上盛惠！海量产品 · 轻松上云！云服务器首年1.8折起，买1年送3个月！超值优惠，性能稳定，让您的云端之旅更加畅享。快来腾讯云选购吧！

Docker容器镜像
去看看

Docker容器镜像 60元/15天

爆款产品组合购
去看看

爆款产品组合购低至1元

腾讯云x NVIDIA加速计划
去看看

腾讯云x NVIDIA加速计划最高获赠10万元扶持基金

2核2G云服务器
去看看

2核2G云服务器 112元/1年

查看更多相关信息>>

腾讯云 12-20

广告
代码、模型全开源！贾佳亚团队多模态模型 Mini-Gemini登上热榜

香港中文大学终身教授贾佳亚团队最近推出了一款名为Mini-Gemini的多模态模型，该模型在多模态任务榜单上取得了显著成绩，其性能堪比GPT-4与DALLE3的结合。Mini-Gemini模型以其更精确的图像理解能力、更高质量的训练数据和更强的图像解析推理能力著称。这一成果不仅为开源社区带来了新的活力，也为多模态模型的发展和应用开辟了新的可能性。

Mini-Gemini AI头条
理想汽车 Mind GPT 多模态认知大模型通过国家备案

理想汽车宣布其全自研的多模态认知大模型——MindGPT，已正式通过国家《生成式人工智能服务管理暂行办法》的备案。这一里程碑式的事件标志着理想汽车成为首个通过该备案的汽车厂商自研大模型。它不仅支持方言自由说、指令自由说具备简洁模式以及全时全车免唤醒的能力，为用户提供了更加便捷、智能的交互体验。

理想汽车多模态认知大模型 Mind
多模态大模型Reka Core发布性能与GPT-4相媲美

RekaCore是一款最新发布的多模态大型语言模型，其性能可与GPT-4相媲美，甚至在某些方面超越了现有的前沿模型。这一技术突破为人工智能领域带来了新的里程碑，特别是在图像、视频和音频的上下文理解能力方面。随着Core的进一步优化和应用，我们有理由相信，它将在多个领域产生深远的影响，推动人工智能技术的进步和社会的发展。

多模态大模型 AI头条
李未可科技正式推出WAKE-AI多模态AI大模型

4月18日，2024中国生成式AI大会上李未可科技正式发布为眼镜等未来终端定向优化等自研WAKE-AI多模态大模型，具备文本生成、语言理解、图像识别及视频生成等多模态交互能力。该大模型围绕GPS轨迹视觉语音打造新一代LLM-Based的自然交互，同时多模态问答技术的加持，能实现所见即所问、所问即所得的精准服务。李未可科技合伙人&AI负责人古鉴表示WAKE-AI将逐步开放平台能力，便于更多企业及开发者调用WAKE-AI能力，共建AI硬件生态。
李未可WAKE-AI大模型：让多类终端能快速低成本的定制多模态AI

36kr研究院发布了《2024年AIGC行业研究:多模态大模型与商业应用》，文中基于AIGC产业生态现状和技术发展路径，深入分析AIGC商业化应用的方向与产业发展趋势。其中在36kr研究院梳理的产业图谱中，发现杭州李未可科技与字节跳动的豆包、腾讯云混元及华为云盘古等大模型等一起出现在闭源模型层，甚至在跨模态生成应用层也占据一地。李未可科技这类结合自身业务垂类场景，提前布局中间层及终端应用层的自研大模型或许能给市场带来不小的惊喜。

AIGC 商业化应用产业发展
Meta AI推MA-LMM:用于长视频理解的记忆增强多模态大模型

MetaAI近日推出了一种名为MA-LMM的新型模型，旨在解决长期视频理解中的挑战。LLMs在处理文本数据时表现出了令人印象深刻的能力，但在处理视频输入方面存在一些限制，例如上下文长度限制和GPU内存限制。其创新性的设计以及利用长期记忆库和顺序处理的方法使得该模型能够在各种复杂场景下取得显著成果，证明了其在多模态视频理解应用中的有效性和多功能性。

MA-LMM AI头条
MiniGPT4-Video官网体验入口视频理解多模态AI大模型使用地址

MiniGPT4-Video是什么？MiniGPT4-Video是为视频理解设计的多模态大模型，能处理时态视觉数据和文本数据，配标题、宣传语，适用于视频问答。用户可以上传视频，让模型生成标题与宣传语，理解特效处理，或作超美抒情诗。

MiniGPT4-Video
钉钉 AI 升级：加入多模态、工作流等能力

3月28日，钉钉AI助理进行了重磅升级，新增了图片理解、文档速读、工作流等功能。这次升级使得钉钉AI助理率先尝试了多模态和长文本处理技术，展现出更强大的能力。用户可以在钉钉APP或PC客户端直接体验这些功能，享受AI带来的便捷与高效。

AI助理图片理解文档速读
谷歌推多模态视频模型VLOGGER，自动生成丰富动作视频

谷歌的研究人员最近推出了一款名为VLOGGER的多模态扩散模型，能够自动生成带语音、丰富动作的人物视频。用户只需向VLOGGER输入图像和语音，就可以获得逼真的视频效果。VLOGGER的推出为虚拟数字人的制作提供了更便捷、高效的解决方案，同时也在多模态视频生成领域取得了重要的技术突破。

VLOGGER 谷歌 AI头条
荐轻松拿捏4K高清图像理解！这个多模态大模型自动分析网页海报内容，打工人简直不要太方便

一个可以自动分析PDF、网页、海报、Excel图表内容的大模型，对于打工人来说简直不要太方便。上海AILab，香港中文大学等研究机构提出的InternLM-XComposer2-4KHD模型让这成为了现实。IXC2-4KHD将多模态大模型支持的分辨率提升到了4K的水平，研究人员表示目前这种通过增加切块个数支持更大图像输入的策略遇到了计算代价和显存的瓶颈，因此他们计划提出更加高效的策略在未来实现�

多模态大模型

今日大家都在搜的词：

热文

3 天
7天

“全开源”多模态分割一切大模型APE

今日大家都在搜的词：

热文

站长商机