Mini-Gemini:简单有效的AI框架，增强多模态视觉语言模型

2024-04-01 11:46 · 稿源：站长之家

划重点:
⭐️ Vision Language Models （VLMs）融合了计算机视觉(CV)和自然语言处理(NLP)的独特集成。
⭐️ Mini-Gemini 利用双编码器系统和新颖的补丁信息挖掘技术，优化多模态输入处理。
⭐️ Mini-Gemini 在多个零样本基准测试中表现出色，超越了现有模型。

站长之家（ChinaZ.com）4月1日消息:近期，中国香港中文大学和 SmartMore 的研究人员推出了一种名为 Mini-Gemini 的新颖框架，通过增强多模态输入处理来推动 VLMs 的发展。Mini-Gemini 采用了双编码器系统和一种新颖的补丁信息挖掘技术，结合一个特别策划的高质量数据集，使其能够有效处理高分辨率图像并生成内容丰富的视觉和文本内容，从而使其脱颖而出。

Mini-Gemini 的方法论包括一个双编码器系统，其中包括一个卷积神经网络，用于精细处理图像，增强视觉标记而不增加它们的数量。它利用补丁信息挖掘来提取详细的视觉线索。该框架在一个复合数据集上进行训练，将高质量的图像文本对和面向任务的指令相结合，以提高模型性能和应用范围。Mini-Gemini 兼容各种大型语言模型（LLMs），参数范围从2B 到34B，实现了高效的任意推断。这一设置使 Mini-Gemini 在零样本基准测试中取得了卓越的成绩，并支持高级多模态任务。

在评估 Mini-Gemini 的有效性时，该框架在几个零样本基准测试中展示了领先的表现。具体来说，在 MM-Vet 和 MMBench 基准测试中，它超越了 Gemini Pro 模型，分别获得了79.6和75.6的分数。当配置为 Hermes-2-Yi-34B 时，Mini-Gemini 在 VQAT 基准测试中取得了令人瞩目的70.1分，超过了现有的 LLaVA-1.5模型在所有评估指标上的表现。这些结果验证了 Mini-Gemini 在处理复杂的视觉和文本任务时的高效性和精度。

该研究介绍了 Mini-Gemini，通过双编码器系统、补丁信息挖掘和高质量数据集推动了 VLMs 的发展。Mini-Gemini 在多个基准测试中展现了出色的性能，超越了现有模型，标志着多模态人工智能能力的重要进步。

然而，正如研究人员所承认的那样，Mini-Gemini 在视觉理解和推理能力方面仍有改进空间，他们断言未来的工作将探索视觉理解、推理和生成的高级方法。

项目入口：https://top.aibase.com/tool/minigemini

论文地址：https://arxiv.org/abs/2403.18814

（举报）

Mini-Gemini:简单有效的AI框架，增强多模态视觉语言模型

谷歌ai垄断？谷歌每月向三星支付“巨额费用”，让其预装Gemini

谷歌发布新一代推理模型Gemini2.5：单次可处理百万token

谷歌首推Gemini 2.5 Flash：成本爆降600%

超过ChatGPT、Deepseek？谷歌发布 Gemini 2.5 Flash AI 模型

谷歌Gemini整合Veo 2视频生成模型，8秒720P视频轻松搞定

荐AI日报：OpenAI新图像生成模型可一句话P图；可灵AI营收超1亿；谷歌上线最强推理大模型Gemini 2.5

AI日报：阿里腾讯全面支持MCP协议；阶跃星辰多模态推理模型Step-R1-V-Mini；美图WHEE图像生成模型Miracle F1

迄今最贵！谷歌Gemini 2.5 Pro API定价公布：每百万输入tokens超9元

反垄断案中，谷歌披露 Gemini 月活达3.5亿，日流量为3500万

外媒：ChatGPT新模型 o4 mini 的“AI幻觉率”高达48%

热文

Meta AI眼镜“实时翻译”功能全面开放，不联网也能用！

反垄断案中，谷歌披露 Gemini 月活达3.5亿，日流量为3500万

4chan 之“死”：互联网最狂野的角落逐渐消逝！

“你可能患了血癌……” 医生诊断错误，而 ChatGPT 是对的！

郭明錤：iPhone17有望全系配12GB内存！但，有个前提……

Adobe 发布 Firefly 系列产品，涵盖图片、视频、矢量等

REDMI Turbo 4 Pro外观首次公布配备金属边框

Anthropic警告：距离无人干涉的 “AI员工” 时代，只剩一年了！

Meta AI眼镜“实时翻译”功能全面开放，不联网也能用！

“礼貌用语”太费钱？奥特曼：让 OpenAI 损失了数千万美元

反垄断案中，谷歌披露 Gemini 月活达3.5亿，日流量为3500万

4chan 之“死”：互联网最狂野的角落逐渐消逝！

“你可能患了血癌……” 医生诊断错误，而 ChatGPT 是对的！

荣耀GT Pro首发骁龙8至尊领先版跑分最高破344万

郭明錤：iPhone17有望全系配12GB内存！但，有个前提……

英特尔本周宣布裁员超20%计划，陈立武上任后的首次重大重组

站长商机