首页 > 业界 > 关键词  > Mini-Gemini最新资讯  > 正文

代码、模型全开源!贾佳亚团队多模态模型 Mini-Gemini登上热榜

2024-04-15 14:47 · 稿源:站长之家

站长之家(ChinaZ.com)4月15日 消息:香港中文大学终身教授贾佳亚团队最近推出了一款名为Mini-Gemini的多模态模型,该模型在多模态任务榜单上取得了显著成绩,其性能堪比GPT-4与DALLE3的结合。

Mini-Gemini模型以其更精确的图像理解能力、更高质量的训练数据和更强的图像解析推理能力而著称。模型能够结合图像推理和生成,提供了从2B到34B不同规模的版本,其中最强版本在多个指标上与Google Gemini Pro和GPT-4V相比毫不逊色。

image.png

项目地址:https://top.aibase.com/tool/mini-gemini

试玩地址: https://103.170.5.190:7860/

Mini-Gemini模型的代码、模型和数据已经全部开源,可以在Github、论文地址和模型及数据的Huggingface页面上找到。这一开放性的举措使得Mini-Gemini迅速登上了PaperWithCode的热榜,受到了广泛关注。

Mini-Gemini的图像理解和生成能力通过Demo形式得到了展示,用户可以在线与自定义图像进行对话。这一功能使得Mini-Gemini在实际应用场景中表现出色,尤其是在需要对高清图像进行解析并用图像形式展现的任务中。例如,Mini-Gemini能够根据图片内容对做面包的过程进行指导,也能根据电脑图片中的参数进行准确对比。

此外,Mini-Gemini在保留图像理解和推理能力的同时,还具备了图像生成能力,类似于ChatGPT与生成模型的结合。通过抽象的多模态指令,模型能够进行推理并生成合适的图片。例如,当用户提出两个毛线团能做什么时,Mini-Gemini不仅能识别图片内容并给出建议,还能生成相应的毛线小熊图片。

Mini-Gemini的技术背后,采用了名为Gemini的视觉双分支信息挖掘方法,通过使用卷积网络(ConvNet)对高分辨率图像进行编码,并利用Transformer中的Attention机制来挖掘每个低分辨率Query对应的高分辨率区域。在图像生成方面,Mini-Gemini结合了SDXL技术,通过LLM生成的文本链接两个模型,类似于DALLE3的流程。

在数据方面,Mini-Gemini通过收集和优化训练数据,实现了对图像理解、推理和生成的统一流程。即使在仅使用2-3M数据的情况下,Mini-Gemini也能在各种Zero-shot榜单上与大厂使用大量数据训练出的模型相媲美,展现了其高效性和实用性。这一成果不仅为开源社区带来了新的活力,也为多模态模型的发展和应用开辟了新的可能性。

举报

  • 相关推荐
  • MiniMax让AI语音有了新基建

    熟悉MiniMax的人都了解这家公司的调性——不鸣则已,一鸣惊人。 要么选择低调,要么发动技术连招,其发展路径呈现出鲜明的“技术深潜”与“节点式爆发“的双重特征。 十月的最后一周,再次进入MiniMax式技术迭代新周期。MiniMax模型“全家桶”全面向Agent方向进化,基础文本模型M1升级至M2,“专为Agent和代码而生”;视频模型升级至Hailuo2.3,Hailuo Video Agent迭代为“全模态全�

  • 被AI引用才是真的流量:写出让GPT、Gemini主动引用的AI搜索友好型内容(实操清单 + 工具推荐)

    本文系统介绍生成式引擎优化(GEO)的核心方法,帮助内容从“给人看”升级为“AI友好型”。关键策略包括:1.采用结构化写作框架,在开头设置可直接回答问题的“黄金段落”;2.运用分步清单、数据标注、FAQ等模块提升内容引用率;3.通过多平台同步分发增加曝光;4.使用AIBase等工具量化监测内容被AI引用的频率与场景,并给出5天落地执行表。

  • Mini LED时代即将终结!MacBook Pro将升级为OLED屏

    苹果爆料人Mark Gurman透露,MacBook Pro会率先升级OLED,时间是明年下半年,然后MacBook Air再跟进OLED,时间是2028年,届时MacBook Pro和MacBook Air都将全面迈入OLED时代。 Mark Gurman指出,苹果旗下的iPad系列、MacBook机型全部都将启用OLED屏幕,包括iPad mini、MacBook Pro、iPad Air和MacBook Air,且大概率会按此顺序推进。PS:入门款iPad暂无搭载OLED的计划。 值得注意的是,MacBo

  • iPad mini 8外观巨变:去掉扬声器开孔

    iPad mini 8将采用全新设计,去掉扬声器开孔并提升防水性能,同时苹果也在为iPad mini 8研发一套新的扬声器系统。 据悉,iPad mini 8可能采用屏幕激励器方案,通过驱动屏幕振动来发出声音,其原理是将振动机械能直接传输到屏幕,然后让屏幕代替传统扬声器振膜发声。 具体来说,它是通过在机身内部的微驱动单元(激励器)来激励中框 ,从而带动屏幕振动发声。

  • AI日报:豆包视频1.0pro fast发布;谷歌Gemini新功能上线;百度推上体体育大模型 2.0

    本期AI日报聚焦多项技术突破:火山引擎发布豆包视频生成模型1.0pro+fast,速度提升3倍且价格下降72%;百度与上海体育大学推出“上体体育大模型2.0”,拓展AI在运动员训练等场景应用;谷歌Gemini新增一键生成PPT功能;美团发布LongCat-Video模型,支持5分钟连贯视频生成;xAI推出虚拟女友Mika引发热议;MiniMax开源高性能M2编码模型;OpenAI上线企业知识管理功能;另报道20岁辍学生开发的AI笔记工具Turbo AI半年用户破500万,展现年轻创业者的技术影响力。

  • AI日报:昆仑万维SkyReels V3模型上线;月之暗面推Kimi Linear模型;MiniMax Music 2.0 发布

    本期AI日报聚焦多领域创新:昆仑万维推出SkyReels V3模型,整合顶尖视频生成能力;月之暗面Kimi Linear模型处理长文本速度提升2.9倍;MiniMax Music 2.0实现专业级音乐创作;字节跳动启动豆包股权激励计划吸引AI人才;苹果iOS 27将迎AI重大升级,Siri更个性化;Dia浏览器融合Arc设计理念与AI技术;文心魔法漫画工具实现一键生成连载作品;谷歌Gemini Canvas新增PPT自动生成功能,由Gemini 2.5 Pro驱动,提升职场效率。

  • MiniMax M2:所有坑都踩过,才能做出所有人都能用上的Agent

    最近一个月,基础模型似乎又有点多起来。但若仔细去看这些模型厂商的动作,大体还是走出了两条路。 一种是在诸多难点里选择一个死磕,成为这个单点上的SOTA。这种路线可以快速在开发者群体留下一个明确的印象,但也可能限制住了一家模型公司的“基座”属性。另一种则是在各个模态上全面前进,在一个最全面的基础模型蓝图里不停交出一个个关键拼图。 已经有了全

  • 苹果iPad mini将支持防水:看齐iPhone

    苹果正研发新一代防水iPad mini,采用无扬声器开孔设计降低进水风险,防水性能接近iPhone。与iPhone采用粘合剂密封不同,iPad mini通过全新扬声器系统实现防水。现售款无官方防水认证,而新款预计2026年上市,可能搭载OLED屏幕并涨价约100美元(现起售价499美元)。

  • REDMI电视X 2026今晚发布!REDMI首款高阶分区Mini LED电视

    小米10月23日宣布,Redmi电视X 2026系列新品今晚发布,这是Redmi首款高端分区Mini LED电视。相比传统液晶,Mini LED控光更精细,画面明暗对比度高,无烧屏风险,色彩还原更真实。85英寸版本官方定价4799元,补贴后3839.2元,配备640分区、1200nits峰值亮度,支持4K/144Hz及VRR可变刷新率。虽属入门级Mini LED,但相比普通液晶提升显著,适合普通消费者,将推动Mini LED普及。今晚还将发布全新投影仪产品。

  • REDMI Mini LED电视来了:85英寸到手价不足4000元

    小米10月23日发布Redmi X 2026系列Mini LED电视,这是Redmi首款Mini LED产品。85英寸版本售价4799元,补贴后3839.2元,配备640分区背光、1200nits峰值亮度,支持4K/144Hz显示及288Hz超高频模式。搭载四核A73处理器、4+64GB存储,预装澎湃OS系统,视频启动速度提升42%。对比同尺寸小米电视S Mini LED(7399元),性价比突出。另有65/75英寸版本同步亮相。

今日大家都在搜的词: