代码、模型全开源！贾佳亚团队多模态模型 Mini-Gemini登上热榜

2024-04-15 14:47 · 稿源：站长之家

站长之家（ChinaZ.com）4月15日消息:香港中文大学终身教授贾佳亚团队最近推出了一款名为Mini-Gemini的多模态模型，该模型在多模态任务榜单上取得了显著成绩，其性能堪比GPT-4与DALLE3的结合。

Mini-Gemini模型以其更精确的图像理解能力、更高质量的训练数据和更强的图像解析推理能力而著称。模型能够结合图像推理和生成，提供了从2B到34B不同规模的版本，其中最强版本在多个指标上与Google Gemini Pro和GPT-4V相比毫不逊色。

项目地址:https://top.aibase.com/tool/mini-gemini

试玩地址: https://103.170.5.190:7860/

Mini-Gemini模型的代码、模型和数据已经全部开源，可以在Github、论文地址和模型及数据的Huggingface页面上找到。这一开放性的举措使得Mini-Gemini迅速登上了PaperWithCode的热榜，受到了广泛关注。

Mini-Gemini的图像理解和生成能力通过Demo形式得到了展示，用户可以在线与自定义图像进行对话。这一功能使得Mini-Gemini在实际应用场景中表现出色，尤其是在需要对高清图像进行解析并用图像形式展现的任务中。例如，Mini-Gemini能够根据图片内容对做面包的过程进行指导，也能根据电脑图片中的参数进行准确对比。

此外，Mini-Gemini在保留图像理解和推理能力的同时，还具备了图像生成能力，类似于ChatGPT与生成模型的结合。通过抽象的多模态指令，模型能够进行推理并生成合适的图片。例如，当用户提出两个毛线团能做什么时，Mini-Gemini不仅能识别图片内容并给出建议，还能生成相应的毛线小熊图片。

Mini-Gemini的技术背后，采用了名为Gemini的视觉双分支信息挖掘方法，通过使用卷积网络（ConvNet）对高分辨率图像进行编码，并利用Transformer中的Attention机制来挖掘每个低分辨率Query对应的高分辨率区域。在图像生成方面，Mini-Gemini结合了SDXL技术，通过LLM生成的文本链接两个模型，类似于DALLE3的流程。

在数据方面，Mini-Gemini通过收集和优化训练数据，实现了对图像理解、推理和生成的统一流程。即使在仅使用2-3M数据的情况下，Mini-Gemini也能在各种Zero-shot榜单上与大厂使用大量数据训练出的模型相媲美，展现了其高效性和实用性。这一成果不仅为开源社区带来了新的活力，也为多模态模型的发展和应用开辟了新的可能性。

（举报）

相关推荐

关键词：

新Siri或明年春季发布苹果公司或引入谷歌Gemini大模型 AI技术

苹果因自研大模型项目遇瓶颈，决定引入谷歌Gemini大模型升级Siri，计划每年支付约10亿美元获取定制化Gemini 2.5 Pro使用权。该模型拥有1.2万亿参数，将全面负责Siri的信息摘要、任务规划及复杂指令执行等核心功能，支持多模态交互和超长文本处理。升级版Siri预计2026年春季随iOS 26.4推送，后续将在WWDC大会展示进一步整合。苹果选择谷歌主要因成本优势、长期合作基础及Gemini领先性能。

苹果谷歌Gemini Siri升级
今年双11，为什么买百吋电视更推荐RGB-Mini LED？

今年双11，百吋电视因用户消费升级与居住改善需求增长显著。京东数据显示其销量同比增长200%，反映用户不再满足“够用”尺寸，而是追求影院级沉浸体验。百吋电视受追捧源于超高清内容普及与技术门槛降低，但需注意大屏对显示技术要求更高。RGB-Mini LED技术通过红绿蓝三原色独立背光实现精准控光，解决传统电视色彩与亮度矛盾，如海信UX等产品以高色域、分区控光提升画质。选购时需关注画质芯片与屏幕抗反射能力，确保色彩真实与观看舒适。尺寸是基础，画质才是灵魂。

百吋电视消费升级家庭观影
荐MiniMax让AI语音有了新基建

熟悉MiniMax的人都了解这家公司的调性——不鸣则已，一鸣惊人。要么选择低调，要么发动技术连招，其发展路径呈现出鲜明的“技术深潜”与“节点式爆发“的双重特征。十月的最后一周，再次进入MiniMax式技术迭代新周期。MiniMax模型“全家桶”全面向Agent方向进化，基础文本模型M1升级至M2，“专为Agent和代码而生”;视频模型升级至Hailuo2.3，Hailuo Video Agent迭代为“全模态全�

MiniMax 技术迭代 Agent
荐AI日报：豆包视频1.0pro fast发布；谷歌Gemini新功能上线；百度推上体体育大模型 2.0

本期AI日报聚焦多项技术突破：火山引擎发布豆包视频生成模型1.0pro+fast，速度提升3倍且价格下降72%；百度与上海体育大学推出“上体体育大模型2.0”，拓展AI在运动员训练等场景应用；谷歌Gemini新增一键生成PPT功能；美团发布LongCat-Video模型，支持5分钟连贯视频生成；xAI推出虚拟女友Mika引发热议；MiniMax开源高性能M2编码模型；OpenAI上线企业知识管理功能；另报道20岁辍学生开发的AI笔记工具Turbo AI半年用户破500万，展现年轻创业者的技术影响力。

AI 视频生成火山引擎
iPad mini 8外观巨变：去掉扬声器开孔

iPad mini 8将采用全新设计，去掉扬声器开孔并提升防水性能，同时苹果也在为iPad mini 8研发一套新的扬声器系统。据悉，iPad mini 8可能采用屏幕激励器方案，通过驱动屏幕振动来发出声音，其原理是将振动机械能直接传输到屏幕，然后让屏幕代替传统扬声器振膜发声。具体来说，它是通过在机身内部的微驱动单元（激励器）来激励中框，从而带动屏幕振动发声。

iPad mini 8
中国顶级画质+法国顶奢音效！海信RGB-Mini LED电视UX在巴黎歌剧院秀出影音王炸组合

近日，海信与法国高端音响品牌帝瓦雷在巴黎歌剧院联合举办跨界盛典，推出全球首款RGB-Mini LED电视116UX，搭载双方定制的“双剧场级音响”系统，内置6.2.2声道HiFi音响与20个发声单元，实现360°环绕声场。通过精准声学调校，还原交响乐与人声细节，营造“余音绕梁”的沉浸体验。双方还成立联合实验室，推动帝瓦雷专利算法首次应用于电视。多款旗舰产品同步搭载合作音频系统，为家庭用户带来殿堂级影音享受。

海信RGB-Mini LED电视帝瓦雷音响
荐MiniMax M2：所有坑都踩过，才能做出所有人都能用上的Agent

最近一个月，基础模型似乎又有点多起来。但若仔细去看这些模型厂商的动作，大体还是走出了两条路。一种是在诸多难点里选择一个死磕，成为这个单点上的SOTA。这种路线可以快速在开发者群体留下一个明确的印象，但也可能限制住了一家模型公司的“基座”属性。另一种则是在各个模态上全面前进，在一个最全面的基础模型蓝图里不停交出一个个关键拼图。已经有了全

基础模型 MiniMax M2
Mini LED时代即将终结！MacBook Pro将升级为OLED屏

苹果爆料人Mark Gurman透露，MacBook Pro会率先升级OLED，时间是明年下半年，然后MacBook Air再跟进OLED，时间是2028年，届时MacBook Pro和MacBook Air都将全面迈入OLED时代。 Mark Gurman指出，苹果旗下的iPad系列、MacBook机型全部都将启用OLED屏幕，包括iPad mini、MacBook Pro、iPad Air和MacBook Air，且大概率会按此顺序推进。PS：入门款iPad暂无搭载OLED的计划。值得注意的是，MacBo

OLED MacBook Pro
荐AI日报：昆仑万维SkyReels V3模型上线；月之暗面推Kimi Linear模型；MiniMax Music 2.0 发布

本期AI日报聚焦多领域创新：昆仑万维推出SkyReels V3模型，整合顶尖视频生成能力；月之暗面Kimi Linear模型处理长文本速度提升2.9倍；MiniMax Music 2.0实现专业级音乐创作；字节跳动启动豆包股权激励计划吸引AI人才；苹果iOS 27将迎AI重大升级，Siri更个性化；Dia浏览器融合Arc设计理念与AI技术；文心魔法漫画工具实现一键生成连载作品；谷歌Gemini Canvas新增PPT自动生成功能，由Gemini 2.5 Pro驱动，提升职场效率。

AI视频生成 SkyReels V3
苹果iPad mini将支持防水：看齐iPhone

苹果正研发新一代防水iPad mini，采用无扬声器开孔设计降低进水风险，防水性能接近iPhone。与iPhone采用粘合剂密封不同，iPad mini通过全新扬声器系统实现防水。现售款无官方防水认证，而新款预计2026年上市，可能搭载OLED屏幕并涨价约100美元（现起售价499美元）。

iPad mini 防水性能

今日大家都在搜的词：

热文

3 天
7天

代码、模型全开源！贾佳亚团队多模态模型 Mini-Gemini登上热榜

新Siri或明年春季发布苹果公司或引入谷歌Gemini大模型 AI技术

今年双11，为什么买百吋电视更推荐RGB-Mini LED？

荐MiniMax让AI语音有了新基建

荐AI日报：豆包视频1.0pro fast发布；谷歌Gemini新功能上线；百度推上体体育大模型 2.0

iPad mini 8外观巨变：去掉扬声器开孔

中国顶级画质+法国顶奢音效！海信RGB-Mini LED电视UX在巴黎歌剧院秀出影音王炸组合

荐MiniMax M2：所有坑都踩过，才能做出所有人都能用上的Agent

Mini LED时代即将终结！MacBook Pro将升级为OLED屏

荐AI日报：昆仑万维SkyReels V3模型上线；月之暗面推Kimi Linear模型；MiniMax Music 2.0 发布

苹果iPad mini将支持防水：看齐iPhone

今日大家都在搜的词：

热文

女性人形机器人里藏真人？何小鹏回应：并亲自证清白

iPhone 18 Pro或缩小灵动岛苹果正测试特殊挖孔方案

华为Mate70 Air官宣今日开启预售

AI日报：HeyGen发布AI视频翻译引擎；科大讯飞推星火 X1.5；QQ浏

何小鹏回应机器人IRON里是真人质疑：感谢认可

华为路由X3 Pro今日开启预售：售价1299元起

OPPO Reno15系列官宣11月10日发布

俞敏洪发文确认孙东旭离职：保持着良好的沟通

AI日报：上海首例涉AI提示词著作权案宣判；Kimi K2 Thinking发

iPhone Air 2或新增1颗镜头：继续沿用6.5英寸高刷中屏

小鹏机器人会走猫步太像人了！小鹏发布新一代人形机器人IRON

女性人形机器人里藏真人？何小鹏回应：并亲自证清白

鸿蒙HarmonyOS 6与iOS数据互传功能预计12月上线

iPhone 18 Pro或缩小灵动岛苹果正测试特殊挖孔方案

阿里回应饿了么更名：正处于灰度测试阶段

AI日报：美团LongCat-Flash-Omni发布；Qwen3-Max上线深度思考功

DeepSeek崩了上热搜页面显示“服务器繁忙”

特斯拉Cybercab不配备方向盘和踏板预计2026年二季度下线

马斯克称若发现外星人证据就公开

OPPO ColorOS 16正式版11月升级机型公布：支持23款机型

站长商机