首页 > AI头条  > 正文

小钢炮4.0视觉模型MiniCPM-V 4.0,手机端应用更流畅

2025-08-11 10:39 · 来源: AIbase基地

在人工智能的持续发展中,最近一款新模型 MiniCPM-V4.0引起了广泛关注。该模型是 MiniCPM-V 系列的最新版本,具有4.1亿参数,基于 SigLIP2-400M 和 MiniCPM4-3B 进行构建。与之前的版本相比,MiniCPM-V4.0在单图、多图及视频理解方面表现出色,并且在效率上有了显著提升。

image.png

MiniCPM-V4.0以其强大的视觉能力而自豪。在众多评测基准中,该模型在 OpenCompass 的综合评估中取得了69.0的平均分,超越了 GPT-4.1-mini-20250414、MiniCPM-V2.6(8.1亿参数,得分65.2)和 Qwen2.5-VL-3B-Instruct(3.8亿参数,得分64.5)。在多图理解和视频理解领域,它也展现了良好的性能。

针对移动设备的设计是 MiniCPM-V4.0的一大亮点。该模型在 iPhone16Pro Max 上运行顺畅,首次响应延迟不到2秒,解码速度超过每秒17个 token,且没有发热问题。即便在高并发请求下,它也表现出优越的吞吐能力。

为了让更多用户轻松上手,MiniCPM-V4.0提供了多种使用方式,包括与多种平台兼容的工具,如 llama.cpp、Ollama、vLLM 等。为了更好地服务用户,开发团队还开源了一款可以在 iPhone 和 iPad 上运行的 iOS 应用,帮助用户轻松上手。配套的 Cookbook 也提供了详细的使用指南和实用示例,进一步简化了操作过程。

项目:https://huggingface.co/openbmb/MiniCPM-V-4

划重点:

🌟 MiniCPM-V4.0在 OpenCompass 评测中得分69.0,超越多款同类模型。  

📱 该模型专为移动设备设计,响应快且无发热问题。  

📚 开源 iOS 应用及详细使用指南,让用户更轻松上手。  

  • 相关推荐
  • GPT-5正式发布:与Claude 4、Gemini 2.5等主流大模型谁更胜一筹?

    2025年8月7日,OpenAI正式发布GPT-5,官方称其为"最智能、最快速、最实用"的AI模型。GPT-5在数学推理能力上大幅提升,在AIME2025测试中取得94.6%的高分,处理速度也有明显改善。但与竞争对手相比仍存在差距:Claude4在代码生成和逻辑推理方面表现优异,支持200K token长文本;Gemini2.5具备2M超大上下文窗口和全模态支持;国产模型DeepSeek R1在中文理解和性价比方面具有优势。AI�

  • 鲁大师7月新机性能/流畅/AI榜:荣耀折叠扛起性能大旗,OPPO中端机上演流畅逆袭

    7月手机市场冷淡,但仍有亮点产品:荣耀Magic V5以143万跑分登顶性能榜,成为全球最薄大折叠;三星Galaxy Z Fold7以215g重量获最轻大折叠称号;OPPO K13 Turbo Pro凭借主动散热风扇跑分127万,成为中端性能黑马。流畅度方面,OPPO双机包揽前三,ColorOS系统优化功不可没。AI榜单仍是骁龙8 Gen3主场,荣耀Magic V5以27.4万分夺冠。折叠屏开始扛起性能旗舰大旗,中端机通过系统优化实现流畅逆袭,骁龙旗舰芯片持续霸榜AI领域。

  • OpenAI发布2款开源模型:gpt-oss系列 能力接近o3和o4-mini

    OpenAI发布开源模型系列GPT-OSS,包含120B和20B两个版本。120B旗舰模型适配单H100 GPU架构,20B轻量版适合边缘计算。两款模型均开放完整推理链监控接口,支持动态参数调节和任务微调优化,性能接近闭源的GPT-O3和O4-mini。该系列突破性地支持代理功能,包括网页交互和Python代码执行,在标准化测试中表现优异。开源策略为开发者提供高性能替代方案,重新定义了AI模型的应用边界。

  • AI日报:阿里新发布Qwen3-4B模型;小红书发布开源模型dots.vlm1;MiniMax Speech 2.5语音生成模型上线

    AI日报栏目聚焦人工智能领域最新动态:1)阿里发布Qwen3-4B轻量级模型,手机端可运行;2)小红书开源多模态大模型dots.vlm1,在图表推理方面表现突出;3)MiniMax推出语音生成模型Speech2.5,多语种表现提升;4)Midjourney推出HD视频模式,提升专业影像质量;5)Cursor1.4版本增强异步任务处理能力;6)谷歌否认AI搜索影响网站流量,但数据显示用户行为改变;7)MiniCPM-V4.0开源发布,号称"手机上的GPT-4V";8)AMD与高通宣布支持OpenAI的gpt-oss系列模型;9)腾讯开源WeKnora文档智能解析工具;11)疑似GPT-5信息在GitHub泄露;12)FlowSpeech实现书面语转口语的TTS技术突破。

  • 国补551.65元起 荣耀Play10C发布:两天一充超长续航 芯片三年流畅

    今日,荣耀Play10C发布,新机目前已在荣耀商城、授权电商开启预售。 荣耀Play10C提供4GB 128GB、6GB 128GB、8GB 256GB三种版本,售价分别为649元、699元、899元,国补到手价551.65元起。 新机亮点之一就是超长续航,内置6000mAh电池,官方宣称两天一充”。

  • 小米16首发!曝澎湃OS 3动画效果升级 更流畅

    在小米内置的帮助与反馈应用程序中,小米开发人员回复用户时表示,澎湃OS 3对动画效果进行了调整,新版本更流畅,您可以期待一下。 根据爆料的消息,澎湃OS 3将在9月份亮相,由小米16系列首发搭载,该系统将带来灵动岛功能。 资料显示,灵动岛在iPhone 14 Pro系列上大放异彩,它一方面可以遮蔽手机的挖孔区域,一方面又能利用前置镜头附近

  • AI日报:昆仑万维发布SkyReels-A3模型;百度搜索PC端全面上线AI搜索;Grok 4 AI模型永久免费开放

    AI日报栏目聚焦人工智能领域最新动态:1)昆仑万维发布SkyReels-A3模型,实现语音驱动数字人生成;2)xAI宣布Grok4模型永久免费开放;3)OpenAI发布GPT-5提示词指南;4)百度PC端上线AI搜索功能;5)微软Windows Co pilot接入GPT-5;6)百川智能开源医疗大模型Baichuan-M2性能超越GPT-oss120b;7)苹果iOS26将集成ChatGPT-5;8)谷歌推出3D视觉编辑框架BlenderFusion;9)轻量级TTS模型Kitten TTS参数仅1500万;10)MiniCPM-V

  • 大模型对比评测:Qwen2.5 VS Gemini 2.0谁更能打?

    本文对比分析了四款AI大模型:Gemini2.0Flash-Lite(Preview)、Gemini2.0Flash(Experimental)、Gemini2.0Pro Experimental(Feb25)和Qwen2.5Coder Instruct32B。Gemini2.0Flash-Lite适合高并发低延迟应用,Gemini2.0Flash擅长实时多模态推理,Gemini2.0Pro适合复杂编程任务,Qwen2.5Coder在代码任务上性价比突出。建议使用AIbase模型广场进行高效筛选,该平台覆盖上万款AI模型,提供性能、价格等多维度直观对比,支持按任务类型、语言等精准筛选,并持续更新最新模型。

  • 从线下TOP到私域起步,高端童装1年内把复购率做到46%

    做私域一年内,QIMOO的复购率从30%多提升至46%,私域内单场直播销售额翻了3倍。 作为成长于线下的高端童装设计师品牌,过去十多年,QIMOO在包括北京SKP、万象城、大悦城、蓝色港湾等各城市核心商场陆续开出超100家门店,几乎每家都能做到楼层童装销售额TOP前列。 但正如淇木私域运营总监于海婧所言:“加大线上投入,是整个童装行业的必然走向。” 在商场客流持续下行�

  • AI日报:混元推四款小尺寸开源模型;昆仑万维发布新推理大模型MindLink;谷歌Gemini 2.5 Deep Think发布

    【AI日报】汇总了最新AI领域动态:1)腾讯开源混元系列小尺寸模型,适用于消费级显卡;2)昆仑万维发布推理大模型MindLink,提升回答透明度;3)B站推出AI原声翻译功能,保留UP主音色;4)谷歌Gemini 2.5在数学奥赛夺金,展现强大推理能力;5)OpenAI展示GPT-5网络信息整合特性;6)苹果组建AI团队挑战ChatGPT;7)高德地图推出全球首个AI原生地图应用;8)Adobe推出AI图像合成工具Harmonize;9)NVIDIA发布革命性视频渲染技术;10)谷歌推出Android Studio免费AI编程助手;11)开源结构化信息提取工具LangExtract;12)Figma开发者模式升级提升设计转代码效率。

今日大家都在搜的词: