首页 > AI头条  > 正文

面壁智能新一代多模态模型 MiniCPM-V 4.0 开源

2025-08-07 09:34 · 来源: AIbase基地

 魔搭ModelScope社区宣布,面壁小钢炮新一代多模态模型MiniCPM-V4.0正式开源。凭借4B参数量,该模型在OpenCompass、OCRBench、MathVista等多个榜单上取得了同级SOTA(State of the Art,即当前最佳)成绩,并且实现了在手机等移动设备上的稳定、流畅运行。同时,官方还开源了推理部署工具MiniCPM-V CookBook,帮助开发者在不同需求、不同场景、不同设备下实现开箱即用的轻量、简易部署。

MiniCPM-V4.0的开源,标志着多模态模型在端侧应用领域迈出了重要一步。作为最适合在手机上运行的模型尺寸,MiniCPM-V4.0以4B参数量实现了稳定运行和快速响应,长时间连续使用也不会出现发热或卡顿现象。目前,支持MiniCPM-V4.0本地部署的iOS App已开源,开发者可以在CookBook中下载使用。

微信截图_20250807093312.png

在性能方面,MiniCPM-V4.0在4B参数量级的多模态能力上达到了同级SOTA级别。在OpenCompass、OCRBench、MathVista、MMVet、MMBench V1.1、MMStar、AI2D、HallusionBench等评测基准测试中,MiniCPM-V4.0的综合性能均为同级最高。特别是在OpenCompass测评中,MiniCPM-V4.0的综合性能超过了Qwen2.5-VL3B模型和InternVL2.54B模型,甚至可比肩GPT-4.1-mini、Claude3.5Sonnet。与上一代MiniCPM-V2.6的8B模型相比,MiniCPM-V4.0在模型参数减半的同时,多模态能力实现了显著提升。

MiniCPM-V4.0之所以能在手机、PC等端侧设备上丝滑、流畅地完成实时视频理解、图像理解等任务,除了其出色的效果外,还得益于独特的模型结构设计。该设计实现了同尺寸模型下最快的首响时间与更低的显存占用。经在Apple M4Metal上测试,正常运行MiniCPM-V4.0模型时,显存占用仅为3.33GB,低于Qwen2.5-VL3B、Gemma3-4B等模型。在图片理解测试中,MiniCPM-V4.0借助ANE + Metal辅助加速,首次响应时间大幅缩短,随着输入图片分辨率的提高,首响时间快的优势更为明显。

此外,研究团队还利用2张4090GPU对模型并发量、吞吐量进行了测试。实验结果显示,在算力资源可支持的范围内,随着并发量的增加,MiniCPM-V4.0模型的总吞吐量优势更为明显。例如,在256并发用户需求下,MiniCPM-V4.0的吞吐量高达13856tokens/s,远超Qwen2.5-VL的7153tokens/s、Gemma3的7607tokens/s。

Github: 🔗 https://github.com/OpenBMB/MiniCPM-o

Hugging Face: 🔗 https://huggingface.co/openbmb/MiniCPM-V-4

ModelScope: 🔗 https://modelscope.cn/models/OpenBMB/MiniCPM-V-4

CookBook: 🔗 https://github.com/OpenSQZ/MiniCPM-V-CookBook

  • 相关推荐
  • 小度发布多模态智能摄像机,AI大模型重塑家庭看护体验

    小度科技推出首款多模态智能摄像机C800,搭载800万像素4K超清摄像头,支持AI大模型技术。该产品不仅能实现高清监控,还具备智能行为识别、语音交互等功能,可自定义看护提醒。结合视觉与语音交互,支持复杂语义查询和家庭设备联动,扩展智能家居应用场景。目前产品已全网发售,年底还将推出三摄版本,持续探索AI硬件创新。

  • AI日报:阿里推多模态模型Qwen3-Omni;谷歌推出AP2协议;百度推出Qianfan-VL 模型

    本期AI日报聚焦多领域技术突破:阿里云推出全球首个全模态AI模型Qwen3-Omni,支持文本、图像、音频和视频统一处理;百度发布多尺寸视觉理解模型Qianfan-VL,优化企业级应用。苹果扩展Image Playground平台,引入ChatGPT等第三方模型。谷歌与PayPal合作推出AP2协议,推动AI支付安全创新。钉钉上线AI表格助手,支持自然语言生成表格。DeepSeek开源V3.1-Terminus模型,性能显著提升。Kimi推出Agent会员服务,智元机器人开源全球首个通用具身智能模型GO-1,降低技术门槛促进行业创新。

  • 既能读懂情绪,还能多模态交互!INDEMIND用空间智能重新定义陪伴机器人

    TCL与INDEMIND合作推出的陪伴机器人“Ai Me”通过空间智能技术实现突破,从传统2D感知升级为3D语义感知,赋予机器人动态语义建图、实时环境适应及多模态交互能力。该平台借助立体视觉与多传感器融合,让机器人精准构建三维地图,识别家居属性,实现主动避障与个性化服务。同时,结合低算力混合模型与情感交互功能,机器人可感知用户情绪、提供安全防护,并支持宠物看护等场景拓展,从“工具”升级为有温度的“家庭伙伴”,真正满足复杂家庭需求。

  • iPhone 17 Pro mini首曝:4.7英寸屏 未能上市

    9月24日有博主爆料,苹果曾计划推出4.7英寸iPhone 17 Pro mini,但在DVT阶段取消开发。该机型设计类似iPhone 17 Pro,采用横向矩阵相机和铝合金一体化机身,但工程师认为其外观“荒谬”。苹果曾尝试小屏路线,iPhone 12/13系列推出mini版本但销量未达预期,iPhone 14起以Plus替代mini,然而Plus销量同样不佳。从iPhone 17系列开始,苹果新增主打轻薄的Air机型,Plus系列正式退出市场。

  • 突破 Mini LED!三星 Micro RGB 引航显示进入 Micro 时代

    三星在京东方MALL举办“AI的呵护”家电线下体验展,展出全球首款Micro RGB电视115MR95F。该电视采用Micro RGB技术,实现100% BT.2020色域覆盖,色彩精准度与对比度达到新高度。搭载AI芯片优化画质,支持144Hz刷新率与杜比全景声,定价199,999元。三星借此布局超高端市场,展示Micro RGB+QD-OLED+Micro LED三大技术矩阵,重塑显示行业格局。

  • ChatExcel重磅发布:基于AMD锐龙AI MAX+ 395处理器的数据分析Mini AI 工作站

    ChatExcel发布搭载AMD锐龙AI MAX+395处理器的Mini AI工作站,重构数据全链路,打造“找数-做数-分析数-看数-用数”的商业闭环平台。依托处理器96GB超大显存和统一内存架构,实现本地流畅运行GPT-oss-120B等大型模型,保障数据安全的同时显著提升分析效率。该方案以财务场景为例,支持多任务并行处理,将原本需1天完成的月度报表压缩至2小时,解决“数据不外发”与“高效处理”的核心矛盾。

  • 新一代AI存储大幅提升训练效率,断点恢复速度提升

    AI训练频繁中断是行业难题。华为OceanStor A系列存储通过TB级集群带宽和高速读写能力,显著优化断点续训性能。AI大模型集群部署该方案后,恢复时间从15分钟缩短至1分钟,保障GPU/NPU算力资源充分利用。华为强调,高性能存储正成为以“存”强“算”的关键基础架构。

  • 央视深度揭秘:最值得买的RGB-Mini LED电视海信U7S Pro,硬实力来自中国芯

    海信发布RGB-Mini LED电视U7S Pro,采用RGB三原色背光技术,无需荧光粉二次转换,实现更高色彩纯度和亮度,画面通透真实。搭载自研信芯AI画质芯片H7,支持行业最高3×10240分区控制,结合黑曜屏Ultra双层降反技术,反光率仅1.28%。具备4K 170Hz高刷,游戏体验流畅。新品预售价15999元起,预存1000元抵2000元,享能效补贴。

  • TCL华星助力产业规范,《Mini LED室内商用显示屏》团体标准重磅发布

    2025年7月15日,《Mini LED室内商用显示屏》团体标准正式发布,标志着Mini LED技术从分散发展迈向统一规范的关键跨越。该标准由深圳照明与显示工程行业协会等机构牵头,汇聚近50家产业链企业智慧,构建了科学、系统的质量评估与性能规范体系。通过明确产品定义、分类维度、性能指标升级及检测方法,重点解决行业长期存在的技术指标不统一、质量参差不齐等痛点。标准实施将推动产业链协同,预计带动市场规模年增速超30%,助力企业提升高端产品竞争力,并为客户采购提供清晰依据,促进Mini LED在会议大屏、数字标牌等商用场景加速落地,引领产业向更高一致性、更低功耗演进。

  • AI日报:DeepSeek发布V3.2-exp模型;Claude Sonnet4.5发布;ChatGPT 推出即时结账功能

    本期AI日报聚焦多项技术突破:DeepSeek发布V3.2-exp模型,通过稀疏注意力机制降低API成本50%;Anthropic推出Claude Sonnet 4.5,在编码任务表现卓越;ChatGPT新增即时结账功能,实现对话界面直接购物;OpenAI将推出AI版TikTok,所有内容由Sora2模型生成;百度地图升级小度想想2.0,提供智能出行服务;蚂蚁集团开源万亿参数模型Ring-1T-preview;DeepMind提出“帧链”概念,推动视频模型实现全面�

今日大家都在搜的词: