首页 > AI头条  > 正文

面壁智能开源 MiniCPM-V 2.6 端侧AI多模态能力对标GPT-4V

2024-08-07 08:08 · 来源: AIbase基地

"MiniCPM-V2.6"的端侧多模态人工智能模型,它仅有8B参数却取得了20B以下单图、多图、视频理解三项SOTA(State of the Art,即当前最佳水平)成绩,显著提升了端侧AI的多模态能力,与GPT-4V水平全面对标。

微信截图_20240807080523.png

以下是特性概括:

  1. 模型特点:MiniCPM-V2.6在端侧实现了单图、多图和视频理解等核心能力的全面超越,并首次将实时视频理解、多图联合理解等功能带到端侧,更接近复杂的真实世界场景。

  2. 效率与性能:该模型以小博大,具有极高的像素密度(Token Density),比GPT-4o的单token编码像素密度高两倍,在端侧设备上实现了极高的运行效率。

  3. 端侧友好性:模型在量化后仅需6GB内存,端侧推理速度高达每秒18个token,比上代模型快33%,并支持多种语言和推理框架。

  4. 功能拓展:MiniCPM-V2.6通过OCR能力,将单图场景的高清图像解析能力迁移到多图和视频场景,减少了视觉token的数量,节省了资源。

  5. 推理能力:它在多图理解、复杂推理任务中展现出色能力,如调整自行车车座的步骤说明,以及对梗图背后槽点的识别。

  6. 多图ICL:模型支持上下文少样本学习,能快速适应特定领域的任务,提高输出稳定性。

  7. 高清视觉架构:通过统一的视觉架构,模型的OCR能力得以延续,实现从单图到多图及视频的流畅拓展。

  8. 超低幻觉率:MiniCPM-V2.6在幻觉评测上表现优异,展示了其可信度。

MiniCPM-V2.6模型的推出,对端侧AI的发展具有重要意义,它不仅提升了多模态处理能力,也展示了在资源受限的端侧设备上实现高性能AI的可能性。

MiniCPM-V2.6开源地址:

GitHub: 

 https://github.com/OpenBMB/MiniCPM-V

HuggingFace:

https://huggingface.co/openbmb/MiniCPM-V-2_6

 llama.cpp、ollama、vllm 部署教程地址:

https://modelbest.feishu.cn/docx/Duptdntfro2Clfx2DzuczHxAnhc

MiniCPM 系列开源地址:

https://github.com/OpenBMB/MiniCPM

  • 相关推荐
  • AI日报:xAI 震撼发布Grok4;微软开源全新Phi-4-mini版本;上海累计82款大模型通过备案

    AI日报栏目聚焦人工智能领域最新动态:1)xAI发布旗舰模型Grok4,在数学推理和代码生成表现突出,同时推出开发者专用Grok4Code;2)微软开源Phi-4-mini模型,推理效率提升10倍,适合边缘设备;3)上海82款大模型完成备案,垂直领域应用取得突破;4)Hugging Face推出开源桌面机器人Reachy Mini,支持Python编程;5)Perplexity发布AI浏览器Comet挑战Chrome;6)OpenAI将首次发布开放权重模型,打破闭源惯例;7)谷歌医疗AI模型MedGemma系列上新,单个GPU即可运行;8)OpenAI以约65亿美元收购AI硬件公司io Products,正式进军硬件市场。

  • AI重构社交生态 Soul以多模态技术赋能社交

    社交平台Soul正通过AI技术重塑社交生态:1)2016年推出智能推荐系统"灵犀引擎",2020年启动AIGC算法研发,2023年推出自研大模型Soul+X,开发AI虚拟人、智能聊天等应用;2)升级多模态大模型,支持文字对话、语音通话、多语言理解等功能,提供拟人化情感陪伴;3)围绕Z世代需求,促成超10万对情侣步入婚姻,并联合开展心理健康公益活动;4)以"技术+人文"双轮驱动,致力于打造更智能舒适的社交环境,重新定义人机关系。

  • 全球优质AI语音大模型盘点:Whisper、Gemini Speech

    本文分析了当前主流AI语音大模型的核心优势与应用场景。全球顶尖模型包括:OpenAI Whisper(多语言识别与翻译)、Google Gemini(情感化语音生成)、Meta AudioCraft(音乐创作与风格转换)。国内讯飞星火(方言识别)、阿里通义(电商客服)、百度文心(车载场景)表现突出。技术突破点在于云端协同架构、零样本克隆和情感语音合成。选择模型需考虑语言支持、场景适配、部署

  • 荣耀Magic V Flip2下周预热 2025年电池最大小折叠

    日前,数码博主定焦数码”透露,荣耀小折叠预计下周将开启预热,形态为方形小折叠,外观可参考三星。 结合品牌命名规则,新机将是荣耀Magic V Flip2,暂定8月发布。 另据数码博主数码闲聊站”爆料,荣耀Magic V Flip2将是今年电池最大的小折叠,电池最高容量为5500mAh,最高支持80W快充。 新机形态没有太大变化,采用6.8英寸LTPO主屏,副屏为4英寸LTPO高刷屏。

  • 果粉期待五年新品终于有消息!苹果HomePod mini 2有望今年底发布

    苹果于2020年10月推出了第一代HomePod mini,凭借其小巧的体积、出色的音质以及对Siri语音助手和HomeKit智能家居控制的支持,赢得了众多果粉的喜爱。 不过自发布以来,HomePod mini的核心硬件一直维持在五年前的水平,这让许多用户对其升级换代充满期待。 据Mark Gurman最新透露,苹果计划在今年底推出第二代HomePod mini,预计发布时间将在9月iPhone发布会之后至11月之间。 新一代产�

  • 谭章熹博士出席 RISC-V 中国峰会 详解开源架构全球征程与中国机遇

    2025年7月16日,第五届RISC-V中国峰会在上海张江科学会堂举行。作为中国大陆规格最高、规模最大的RISC-V专业会展,峰会吸引了全球专家与产业领袖参与。RISC-V国际基金会董事谭章熹博士发表主题演讲,回顾了RISC-V从伯克利起步到全球发展的历程,强调其开源、免费、无专利限制的特性推动了技术创新和生态繁荣。他指出,RISC-V基础指令集仅40余条,结构简洁但高度模块化,适用于从嵌入式设备到高性能计算领域。中国正积极建设RISC-V生态,预计2030年中国高性能RISC-V芯片市场规模将达2000-3000亿元,占全球20%-30%。谭博士表示,RISC-V发展重心正向AI加速、数据中心等高性能场景迈进,将与x86、ARM展开竞争,成为数字时代承载国家技术主权与产业升级的重要基础。

  • 主流AI多模态大模型有哪些?超全的多模态大模型指南分享

    2024年多模态大模型成为AI领域最具前景的技术方向之一。文章全面分析了主流多模态大模型的特点、应用场景和发展趋势。多模态大模型能同时处理文本、图像、音频、视频等多种数据,实现更智能的人机交互。重点介绍了GPT-4V、Claude3.5、Gemini、通义千问等代表性模型,对比了它们在视觉理解、编程能力、中文处理等方面的优势。应用场景涵盖智能客服、内容创作、教育医疗等领域。未来发展趋势包括模型规模扩大、支持更多模态、实时交互能力提升等。选择模型需考虑应用需求、语言支持、性能成本等因素。

  • 颠覆自我,涅槃重生 | ETest V5.0 重磅发布!

    国内领先的仿真测试开发环境ETest推出V5.0版本,在测试全流程管理、系统灵活性、开发效率等方面实现全面突破。新增测试需求管理功能,支持需求与测试用例动态关联;资源管理模块支持复杂系统配置;ICD管理升级为独立核心功能,支持多维协议设计;新增用例库与测试序列管理,支持Python生态集成;引入AI引擎实现自然语言转测试脚本功能,提升需求分析效率70%。该版本已在航空、汽车电子、工业测控等领域成功应用,支持国产高端装备测试技术国产化发展。

  • AI日报:腾讯混元推3D生成大模型Hunyuan3D-PolyGen;钉钉AI表格重磅来袭;阿里推多模态大语言模型HumanOmniV2

    本文介绍了AI领域多项重要进展:1)腾讯推出首个美术3D生成大模型Hunyuan3D-PolyGen,显著提升建模效率;2)阿里发布多模态大模型HumanOmniV2,准确率达69.33%;3)钉钉AI表格实现1小时处理千项任务;4)百度PaddleOCR3.1版本在多语种识别和文档翻译方面升级;5)微软推出Deep Research智能体,自动化研究流程;6)香港理工与OPPO联合开源视频超清框架DLoRAL;7)谷歌开源MCP工具箱简化AI与数据库集成;8)Win11将推出AI动态壁纸功能。这些创新展示了AI在3D生成、多模态理解、办公效率、视觉处理等领域的突破性进展。

  • OpenAI发布ChatGPT Agent智能体:支持写代码、做PPT、分析金融

    OpenAI推出ChatGPT智能体,整合网页交互、数据搜索与多模态协作功能,可完成代码生成、PPT制作、金融分析等复杂任务。该智能体融合Operator的网页自动化操作、Deep Research的数据分析能力及优化后的GPT-4对话引擎三大核心模块。目前面向付费用户开放,Pro版近乎无限使用,其他版本每月限50次任务。OpenAI承认其仍存在金融建模需人工验证、非英语文本解析准确率低等技术局限,并

今日大家都在搜的词: