面壁智能开源 MiniCPM-V 2.6 端侧AI多模态能力对标GPT-4V

2024-08-07 08:08 · 来源： AIbase基地

"MiniCPM-V2.6"的端侧多模态人工智能模型，它仅有8B参数却取得了20B以下单图、多图、视频理解三项SOTA（State of the Art，即当前最佳水平）成绩，显著提升了端侧AI的多模态能力，与GPT-4V水平全面对标。

微信截图_20240807080523.png

以下是特性概括:

模型特点:MiniCPM-V2.6在端侧实现了单图、多图和视频理解等核心能力的全面超越，并首次将实时视频理解、多图联合理解等功能带到端侧，更接近复杂的真实世界场景。
效率与性能:该模型以小博大，具有极高的像素密度（Token Density），比GPT-4o的单token编码像素密度高两倍，在端侧设备上实现了极高的运行效率。
端侧友好性:模型在量化后仅需6GB内存，端侧推理速度高达每秒18个token，比上代模型快33%，并支持多种语言和推理框架。
功能拓展:MiniCPM-V2.6通过OCR能力，将单图场景的高清图像解析能力迁移到多图和视频场景，减少了视觉token的数量，节省了资源。
推理能力:它在多图理解、复杂推理任务中展现出色能力，如调整自行车车座的步骤说明，以及对梗图背后槽点的识别。
多图ICL:模型支持上下文少样本学习，能快速适应特定领域的任务，提高输出稳定性。
高清视觉架构:通过统一的视觉架构，模型的OCR能力得以延续，实现从单图到多图及视频的流畅拓展。
超低幻觉率:MiniCPM-V2.6在幻觉评测上表现优异，展示了其可信度。

MiniCPM-V2.6模型的推出，对端侧AI的发展具有重要意义，它不仅提升了多模态处理能力，也展示了在资源受限的端侧设备上实现高性能AI的可能性。

MiniCPM-V2.6开源地址:

GitHub:

https://github.com/OpenBMB/MiniCPM-V

HuggingFace:

https://huggingface.co/openbmb/MiniCPM-V-2_6

llama.cpp、ollama、vllm 部署教程地址:

https://modelbest.feishu.cn/docx/Duptdntfro2Clfx2DzuczHxAnhc

MiniCPM 系列开源地址:

https://github.com/OpenBMB/MiniCPM

相关推荐

荐AI日报：xAI 震撼发布Grok4；微软开源全新Phi-4-mini版本；上海累计82款大模型通过备案

AI日报栏目聚焦人工智能领域最新动态：1)xAI发布旗舰模型Grok4，在数学推理和代码生成表现突出，同时推出开发者专用Grok4Code；2)微软开源Phi-4-mini模型，推理效率提升10倍，适合边缘设备；3)上海82款大模型完成备案，垂直领域应用取得突破；4)Hugging Face推出开源桌面机器人Reachy Mini，支持Python编程；5)Perplexity发布AI浏览器Comet挑战Chrome；6)OpenAI将首次发布开放权重模型，打破闭源惯例；7)谷歌医疗AI模型MedGemma系列上新，单个GPU即可运行；8)OpenAI以约65亿美元收购AI硬件公司io Products，正式进军硬件市场。
AI重构社交生态 Soul以多模态技术赋能社交

社交平台Soul正通过AI技术重塑社交生态：1）2016年推出智能推荐系统"灵犀引擎"，2020年启动AIGC算法研发，2023年推出自研大模型Soul+X，开发AI虚拟人、智能聊天等应用；2）升级多模态大模型，支持文字对话、语音通话、多语言理解等功能，提供拟人化情感陪伴；3）围绕Z世代需求，促成超10万对情侣步入婚姻，并联合开展心理健康公益活动；4）以"技术+人文"双轮驱动，致力于打造更智能舒适的社交环境，重新定义人机关系。

AI社交 Soul平台多模态大模型
全球优质AI语音大模型盘点：Whisper、Gemini Speech

本文分析了当前主流AI语音大模型的核心优势与应用场景。全球顶尖模型包括：OpenAI Whisper（多语言识别与翻译）、Google Gemini（情感化语音生成）、Meta AudioCraft（音乐创作与风格转换）。国内讯飞星火（方言识别）、阿里通义（电商客服）、百度文心（车载场景）表现突出。技术突破点在于云端协同架构、零样本克隆和情感语音合成。选择模型需考虑语言支持、场景适配、部署

AI语音大模型语音交互技术多语言识别
荣耀Magic V Flip2下周预热 2025年电池最大小折叠

日前，数码博主定焦数码”透露，荣耀小折叠预计下周将开启预热，形态为方形小折叠，外观可参考三星。结合品牌命名规则，新机将是荣耀Magic V Flip2，暂定8月发布。另据数码博主数码闲聊站”爆料，荣耀Magic V Flip2将是今年电池最大的小折叠，电池最高容量为5500mAh，最高支持80W快充。新机形态没有太大变化，采用6.8英寸LTPO主屏，副屏为4英寸LTPO高刷屏。
果粉期待五年新品终于有消息！苹果HomePod mini 2有望今年底发布

苹果于2020年10月推出了第一代HomePod mini，凭借其小巧的体积、出色的音质以及对Siri语音助手和HomeKit智能家居控制的支持，赢得了众多果粉的喜爱。不过自发布以来，HomePod mini的核心硬件一直维持在五年前的水平，这让许多用户对其升级换代充满期待。据Mark Gurman最新透露，苹果计划在今年底推出第二代HomePod mini，预计发布时间将在9月iPhone发布会之后至11月之间。新一代产�
谭章熹博士出席 RISC-V 中国峰会详解开源架构全球征程与中国机遇

2025年7月16日，第五届RISC-V中国峰会在上海张江科学会堂举行。作为中国大陆规格最高、规模最大的RISC-V专业会展，峰会吸引了全球专家与产业领袖参与。RISC-V国际基金会董事谭章熹博士发表主题演讲，回顾了RISC-V从伯克利起步到全球发展的历程，强调其开源、免费、无专利限制的特性推动了技术创新和生态繁荣。他指出，RISC-V基础指令集仅40余条，结构简洁但高度模块化，适用于从嵌入式设备到高性能计算领域。中国正积极建设RISC-V生态，预计2030年中国高性能RISC-V芯片市场规模将达2000-3000亿元，占全球20%-30%。谭博士表示，RISC-V发展重心正向AI加速、数据中心等高性能场景迈进，将与x86、ARM展开竞争，成为数字时代承载国家技术主权与产业升级的重要基础。
主流AI多模态大模型有哪些？超全的多模态大模型指南分享

2024年多模态大模型成为AI领域最具前景的技术方向之一。文章全面分析了主流多模态大模型的特点、应用场景和发展趋势。多模态大模型能同时处理文本、图像、音频、视频等多种数据，实现更智能的人机交互。重点介绍了GPT-4V、Claude3.5、Gemini、通义千问等代表性模型，对比了它们在视觉理解、编程能力、中文处理等方面的优势。应用场景涵盖智能客服、内容创作、教育医疗等领域。未来发展趋势包括模型规模扩大、支持更多模态、实时交互能力提升等。选择模型需考虑应用需求、语言支持、性能成本等因素。

多模态大模型 AI技术发展 GPT-4V
颠覆自我，涅槃重生 | ETest V5.0 重磅发布！

国内领先的仿真测试开发环境ETest推出V5.0版本，在测试全流程管理、系统灵活性、开发效率等方面实现全面突破。新增测试需求管理功能，支持需求与测试用例动态关联；资源管理模块支持复杂系统配置；ICD管理升级为独立核心功能，支持多维协议设计；新增用例库与测试序列管理，支持Python生态集成；引入AI引擎实现自然语言转测试脚本功能，提升需求分析效率70%。该版本已在航空、汽车电子、工业测控等领域成功应用，支持国产高端装备测试技术国产化发展。
荐AI日报：腾讯混元推3D生成大模型Hunyuan3D-PolyGen；钉钉AI表格重磅来袭；阿里推多模态大语言模型HumanOmniV2

本文介绍了AI领域多项重要进展：1)腾讯推出首个美术3D生成大模型Hunyuan3D-PolyGen，显著提升建模效率；2)阿里发布多模态大模型HumanOmniV2，准确率达69.33%；3)钉钉AI表格实现1小时处理千项任务；4)百度PaddleOCR3.1版本在多语种识别和文档翻译方面升级；5)微软推出Deep Research智能体，自动化研究流程；6)香港理工与OPPO联合开源视频超清框架DLoRAL；7)谷歌开源MCP工具箱简化AI与数据库集成；8)Win11将推出AI动态壁纸功能。这些创新展示了AI在3D生成、多模态理解、办公效率、视觉处理等领域的突破性进展。
OpenAI发布ChatGPT Agent智能体：支持写代码、做PPT、分析金融

OpenAI推出ChatGPT智能体，整合网页交互、数据搜索与多模态协作功能，可完成代码生成、PPT制作、金融分析等复杂任务。该智能体融合Operator的网页自动化操作、Deep Research的数据分析能力及优化后的GPT-4对话引擎三大核心模块。目前面向付费用户开放，Pro版近乎无限使用，其他版本每月限50次任务。OpenAI承认其仍存在金融建模需人工验证、非英语文本解析准确率低等技术局限，并

OpenAI ChatGPT智能体人工智能

今日大家都在搜的词：

热文

3 天
7天

面壁智能开源 MiniCPM-V 2.6 端侧AI多模态能力对标GPT-4V

荐AI日报：xAI 震撼发布Grok4；微软开源全新Phi-4-mini版本；上海累计82款大模型通过备案

AI重构社交生态 Soul以多模态技术赋能社交

全球优质AI语音大模型盘点：Whisper、Gemini Speech

荣耀Magic V Flip2下周预热 2025年电池最大小折叠

果粉期待五年新品终于有消息！苹果HomePod mini 2有望今年底发布

谭章熹博士出席 RISC-V 中国峰会详解开源架构全球征程与中国机遇

主流AI多模态大模型有哪些？超全的多模态大模型指南分享

颠覆自我，涅槃重生 | ETest V5.0 重磅发布！

荐AI日报：腾讯混元推3D生成大模型Hunyuan3D-PolyGen；钉钉AI表格重磅来袭；阿里推多模态大语言模型HumanOmniV2

OpenAI发布ChatGPT Agent智能体：支持写代码、做PPT、分析金融

今日大家都在搜的词：

热文

理想小米同一个地方开发布会：理想i8发布会定于首都国际会议中

A日报：Kimi开放平台上线Kimi Playground；OpenAI重磅发布Chat

华为鸿蒙智行：尊界S800上市50天大定破8000台

华为MatePad Pro 12.2开启预约预计7月24日正式发布

小米深圳大厦开园：卢伟冰现场喝小米粥

小米骨传导耳机2发布：699元 7月21日开售

AI日报：美图发布影像AI Agent RoboNeo；1.8bit量化Kimi K2模型

理想小米同一个地方开发布会：理想i8发布会定于首都国际会议中

A日报：Kimi开放平台上线Kimi Playground；OpenAI重磅发布Chat

黄仁勋称想买一辆小米汽车英伟达在多方面与小米开展合作

华为鸿蒙智行：尊界S800上市50天大定破8000台

贾跃亭旗下FF获1.05亿美元融资将加速FX Super One生产交付

抖音：“抖音会议”App是诈骗软件会直接控制用户手机

华为MatePad Pro 12.2开启预约预计7月24日正式发布

理想i8开启预定：7月29日上市预售价35-40万元

小米深圳大厦开园：卢伟冰现场喝小米粥

站长商机