首页 > 业界 > 关键词  > Gemini最新资讯  > 正文

Mini-Gemini:简单有效的AI框架,增强多模态视觉语言模型

2024-04-01 11:46 · 稿源:站长之家

划重点:

⭐️ Vision Language Models (VLMs) 融合了计算机视觉(CV)和自然语言处理(NLP)的独特集成。

⭐️ Mini-Gemini 利用双编码器系统和新颖的补丁信息挖掘技术,优化多模态输入处理。

⭐️ Mini-Gemini 在多个零样本基准测试中表现出色,超越了现有模型。

站长之家(ChinaZ.com)4月1日 消息:近期,中国香港中文大学和 SmartMore 的研究人员推出了一种名为 Mini-Gemini 的新颖框架,通过增强多模态输入处理来推动 VLMs 的发展。Mini-Gemini 采用了双编码器系统和一种新颖的补丁信息挖掘技术,结合一个特别策划的高质量数据集,使其能够有效处理高分辨率图像并生成内容丰富的视觉和文本内容,从而使其脱颖而出。

image.png

Mini-Gemini 的方法论包括一个双编码器系统,其中包括一个卷积神经网络,用于精细处理图像,增强视觉标记而不增加它们的数量。它利用补丁信息挖掘来提取详细的视觉线索。该框架在一个复合数据集上进行训练,将高质量的图像文本对和面向任务的指令相结合,以提高模型性能和应用范围。Mini-Gemini 兼容各种大型语言模型(LLMs),参数范围从2B 到34B,实现了高效的任意推断。这一设置使 Mini-Gemini 在零样本基准测试中取得了卓越的成绩,并支持高级多模态任务。

在评估 Mini-Gemini 的有效性时,该框架在几个零样本基准测试中展示了领先的表现。具体来说,在 MM-Vet 和 MMBench 基准测试中,它超越了 Gemini Pro 模型,分别获得了79.6和75.6的分数。当配置为 Hermes-2-Yi-34B 时,Mini-Gemini 在 VQAT 基准测试中取得了令人瞩目的70.1分,超过了现有的 LLaVA-1.5模型在所有评估指标上的表现。这些结果验证了 Mini-Gemini 在处理复杂的视觉和文本任务时的高效性和精度。

该研究介绍了 Mini-Gemini,通过双编码器系统、补丁信息挖掘和高质量数据集推动了 VLMs 的发展。Mini-Gemini 在多个基准测试中展现了出色的性能,超越了现有模型,标志着多模态人工智能能力的重要进步。

而,正如研究人员所承认的那样,Mini-Gemini 在视觉理解和推理能力方面仍有改进空间,他们断言未来的工作将探索视觉理解、推理和生成的高级方法。

项目入口:https://top.aibase.com/tool/minigemini

论文地址:https://arxiv.org/abs/2403.18814

举报

  • 相关推荐
  • 自研遇阻!苹果考虑用谷歌Gemini升级Siri

    苹果正与谷歌就使用Gemini AI引擎为新一代Siri提供技术支持进行初步谈判,这一动向表明苹果可能进一步将人工智能能力外包,成为其AI战略的关键一步。 据知情人士透露,这家iPhone制造商近期已与Alphabet旗下谷歌接触,商讨合作构建一款定制化AI模型,以用于明年预计推出的新版本Siri。 谷歌目前已开始训练一款可在苹果服务器上运行的模型。苹果在生成式人工智能领域起步�

  • 当GPT-5遇上Gemini 2.5,谁更适合你的业务?这份对比报告说了算

    某跨境电商CTO复盘会上展示:GPT-5 Standard处理百万级商品描述时,费用比Gemini 2.5 Flash-Lite高35%,响应速度慢0.8秒。大模型选型面临参数迷雾、场景错配、隐藏成本三重困境。AIbase选型对比平台通过真实数据测试,提供透明价格拆解和性能雷达图,帮助规避预算陷阱。实测显示GPT-5在合同逻辑分析准确率高3.2%,而Gemini表格解析速度快40%、月总成本低26%。工具可动态追踪官方调价,生成定制化决策报告,用数据替代经验主义,提升技术选型效率。

  • 谷歌透露Gemini每次回答消耗能量:相当于微波炉运行1秒钟

    近日,谷歌发布了一份技术报告,详细说明了其Gemini大模型在每次查询中消耗的能源量。 据谷歌介绍,这是迄今为止大型人工智能公司发布的最透明估算,也是研究人员期待已久的报告。 报告称,Gemini应用的文字回答平均每次消耗0.24瓦特小时(Wh)的能量,大约相当于运行微波炉一秒钟,并排放0.03克二氧化碳当量。 据此前媒体报道,谷歌近日发布Gemini系列最轻量版本Gemma 3

  • Google Gemini vs Deepseek:谁更适合你的业务场景?AI大模型选型终极对比指南

    企业在选择大模型时面临两难:国际大厂的Gemini技术先进,但国内DeepSeek性价比突出。AIbase平台通过真实场景测试数据指出:1)跨境电商客服场景中,Gemini多语言识别准确率提升12%,但需注意API延迟问题;2)金融研报分析场景下,DeepSeek支持128K长文本且成本仅为Gemini的1/3。决策关键:抛开参数迷雾,聚焦成本、响应速度、语言支持和场景匹配四大维度。AIbase提供可视化对比工具,3分钟生成专属选型报告,让技术决策不再玄学。

  • 豆包1.5轻量版 vs Gemini 2.5闪存版:生成5000字深度文章,哪个模型更合适?

    AIbase选型工具通过多维度数据对比,帮助用户精准选择AI模型。文章以豆包和Gemini为例,展示平台如何解决模型选型痛点:自动生成对比报告,评估关键指标如术语准确性、本土案例适配度等。实际案例显示,使用该工具后内容团队效率提升40%,编辑成本下降65%。核心价值在于用数据驱动决策,规避局部优势导致的全局误判,实现场景化精准匹配。

  • Gemini 2.5 Flash-Lite与 DeepSeek-V3 深度对比:谁在性价比上更胜一筹?

    面对琳琅满目的大模型API,开发团队常陷入选择困境。文章指出,2024年既是机遇也是挑战的时代,闭源模型选择丰富但性能与成本平衡复杂。通过AIbase等数据驱动平台进行客观对比至关重要。以Gemini 2.5 Flash-Lite和DeepSeek-V3为例,前者综合能力强适合多语言场景,后者在代码生成和成本控制上优势明显。建议开发者明确需求,通过实际测试验证模型表现,理性选择最适合的方案。

  • 别再猜了!手把手教你用数据选择AI模型,我的Gemini 2.5 Flash-Lite vs DeepSeek选型心得

    开发者分享模型选择心路历程:从盲目试错到数据驱动。曾因追求低价模型导致成本飙升,后通过AIbase平台对比Gemini 2.5 Flash-Lite和DeepSeek-V3,基于价格、上下文长度和代码能力等数据,最终选择更适合代码生成任务的DeepSeek-V3。强调没有“最好”的模型,只有“最适合”的模型,建议开发者善用专业工具进行数据驱动决策,避免隐性成本。

  • AI日报:字节视频模型Waver 1.0发布;百度AI搜索APP“梯子AI”发布;谷歌推全新Gemini 2.5 Flash图像编辑模型

    本文汇总了AI领域最新动态:谷歌推出Gemini 2.5 Flash图像编辑模型,字节发布Waver 1.0视频生成工具;百度“梯子AI”提供无广告搜索;文心快码新增终端编码功能;腾讯游戏VISVISE工具集提升动画制作效率;自动驾驶配送机器人RM5进军外卖行业;DeepSeek V3.1出现字符Bug已修复;谷歌翻译升级实时同传和AI陪练;全球首现AI勒索软件PromptLock威胁网络安全;Anthropic推出Chrome浏览器AI助手Claude。

  • 华为MatePad Mini外观公布 支持蜂窝网络通话功能

    华为今日正式官宣,将于9月4日推出全新MatePad Mini小尺寸平板,并同步公开产品外观海报。这款被业界称为"大号手机"的新品,采用圆形后摄模组设计,内置双摄像头与闪光灯组件,正面配备侧边单挖孔全面屏,整体造型兼具便携性与辨识度。 海报细节透露关键功能突破——通话界面与信号标识的显示,证实MatePad Mini将支持蜂窝网络通话功能,实现平板与手机的形态融�

  • 华为MatePad Mini官宣9月4日发布

    今日,华为正式对外宣布,其首款旗舰小平板——华为MatePad Mini将于9月4日震撼登场,官方Slogan定为“超强,超Mini”,预示着这款新品将在性能与便携性上实现双重突破。 此前,知名数码博主“数码闲聊站”已提前透露,华为MatePad小平板已顺利入网,并定位为全能轻薄型设备。据进一步爆料,该机将采用8.8英寸小尺寸机身设计,搭配16:9比例的OLED屏幕,为用户带来极致的视觉

今日大家都在搜的词: