阿里MNN神更新！移动端开源多模态AI支持Qwen-2.5，文本图像语音全搞定！

2025-05-13 09:54 · 来源： AIbase基地

阿里巴巴开源项目MNN（Mobile Neural Network）发布了其移动端多模态大模型应用MnnLlmApp的最新版本，新增对Qwen-2.5-Omni-3B和7B模型的支持。这款完全开源、运行于移动端本地的大模型应用，支持文本到文本、图像到文本、音频到文本和文本到图像生成等多种模态任务，以其高效性能和低资源占用引发开发者广泛关注。AIbase观察到，MNN的此次更新进一步推动了多模态AI在移动端的普及。

项目地址：

https://github.com/alibaba/MNN/blob/master/apps/Android/MnnLlmChat/README.md

核心亮点:多模态能力全面增强

新版MnnLlmApp集成了Qwen-2.5-Omni-3B和7B模型，依托阿里云Qwen团队的Thinker-Talker架构，实现对文本、图像、音频和视频的综合处理能力。AIbase了解到，应用支持以下功能:

文本到文本:生成高质量对话、报告或代码，媲美云端模型。

图像到文本:识别图像中的文字或描述场景内容，适用于文档扫描和视觉问答。

音频到文本:高效转录语音，支持多语言语音识别。

文本到图像:通过扩散模型生成高质量图像，满足创意设计需求。

社交媒体反馈显示，开发者对Qwen-2.5-Omni-3B在24GB GPU上的运行表现尤为满意，其在OmniBench基准测试中保留了7B模型90%以上的多模态性能，同时内存占用降低超50%（从60.2GB降至28.2GB）。

技术优势:本地推理与极致优化

MNN框架以其轻量化和高性能著称，专为移动端和边缘设备优化。AIbase编辑团队注意到，新版MnnLlmApp在CPU推理上表现卓越，预填充速度比llama.cpp快8.6倍，解码速度快2.3倍。应用完全本地运行，无需联网即可处理多模态任务，确保数据隐私不被上传至外部服务器。支持的模型范围广泛，涵盖Qwen、Gemma、Llama、Baichuan等主流开源模型，开发者可通过GitHub直接下载并构建应用。此外，MNN提供FlashAttention-2支持，进一步提升长上下文处理的效率。

应用场景:从开发到生产

MnnLlmApp的多模态能力使其在多种场景中展现潜力:

教育与办公:通过图像到文本功能扫描文档，或用音频到文本转录会议记录。

创意设计:利用文本到图像生成宣传素材或艺术作品。

智能助手:构建本地化语音交互应用，如离线导航或客服助手。

开发者学习:开源代码和详细文档为移动端大模型开发提供了参考范例。

AIbase分析认为，MNN的开源属性和对Qwen-2.5-Omni的支持，使其成为开发者探索移动端多模态AI的理想平台。社交媒体上，开发者表示，MnnLlmApp的推理速度（Llama3.18B预填充28tokens/s）虽未达到顶尖水平，但其多模态集成和易用性足以满足原型开发需求。

行业背景:移动端AI的开源热潮

MNN的更新正值移动端AI竞争升温。DeepSeek的R1模型和Baichuan-Omni近期也推出了开源多模态解决方案，强调本地化部署和低成本。然而，MNN凭借阿里生态支持和硬件优化（如对Android设备的深度适配）在性能与兼容性上占据优势。AIbase注意到，阿里云已开源超200个生成式AI模型，Qwen系列在Hugging Face的下载量突破8000万，显示出其全球影响力。 MnnLlmApp的iOS版本也已发布，进一步扩大了其跨平台覆盖。

移动端多模态的未来

MnnLlmApp的此次更新标志着多模态AI从云端向边缘设备的加速迁移。AIbase编辑团队预计，随着Qwen-2.5-Omni模型的持续优化（如支持更长视频或更低延迟语音生成），MNN将在智能家居、车载系统和离线助手领域发挥更大作用。然而，社交媒体也指出，应用的模型加载流程(需从源码构建外部模型)仍需简化，以提升用户友好性。

相关推荐

荐AI日报：B站测试AI视频工具花生AI；腾讯发布多模态模型Large-Vision；昆仑万维开源Skywork UniPic 2.0

【AI日报】主要内容： 1. B站测试"花生AI"视频工具，3分钟可成片，同时推进自研大模型和多语言翻译功能 2. 昆仑万维开源多模态模型Skywork UniPic 2.0，实现高效统一的多模态生成能力 3. 马斯克指责苹果偏袒OpenAI，苹果回应称平台设计公平公正 4. 腾讯混元发布52B参数多模态理解模型Large-Vision，支持任意分辨率输入 5. DeepSeek官方否认8月发布R2模型的传闻 6. OpenAI推出超值ChatGPT Go套餐，仅399卢比降低使用门槛 7. AI新贵Perplexity豪掷345亿美元收购谷歌Chrome 8. Anthropic的Claude Sonnet 4模型支持100万token上下文 9. ChatGPT重大更新：恢复GPT-4o默认模式，为GPT-5引入多模式选择，优化交互体验

AI视频创作花生AI B站AI工具
荐AI日报：阿里新发布Qwen3-4B模型；小红书发布开源模型dots.vlm1；MiniMax Speech 2.5语音生成模型上线

AI日报栏目聚焦人工智能领域最新动态：1)阿里发布Qwen3-4B轻量级模型，手机端可运行；2)小红书开源多模态大模型dots.vlm1，在图表推理方面表现突出；3)MiniMax推出语音生成模型Speech2.5，多语种表现提升；4)Midjourney推出HD视频模式，提升专业影像质量；5)Cursor1.4版本增强异步任务处理能力；6)谷歌否认AI搜索影响网站流量，但数据显示用户行为改变；7)MiniCPM-V4.0开源发布，号称"手机上的GPT-4V"；8)AMD与高通宣布支持OpenAI的gpt-oss系列模型；9)腾讯开源WeKnora文档智能解析工具；11)疑似GPT-5信息在GitHub泄露；12)FlowSpeech实现书面语转口语的TTS技术突破。

AI模型移动端AI 阿里通义千问
荐AI日报：阿里推全新图片模型Qwen-Image；小米全量开源MiDashengLM-7B；智谱Zread.ai搭载 GLM-4.5

本文汇总了AI领域最新动态：1)阿里开源文生图模型Qwen-Image，中文文本渲染领先；2)ChatGPT周活用户达7亿，OpenAI年收入120亿美元；3)Anthropic测试Claude Opus 4.1，推理能力升级；4)智谱推出开发工具Zread.ai提升代码理解效率；5)xAI发布Grok Imagine4支持文生视频及NSFW内容；6)Character.AI推出首个AI原生社交功能；7)阿里与南开合作视频压缩技术LLaVA-Scissor；8)北京团队突破人形机器人3D视觉系统�

人工智能文生图模型阿里通义千问
荐AI日报：GPT-5正式发布；百度将推文心5.0大模型；知网发布AIKBase V2.0多模态数据管理系统

《AI日报》精选AI领域最新动态：1)OpenAI发布GPT-5模型，具备强大多模态能力但推理任务仍有局限；2)知网推出AIKBase V2.0多模态数据管理系统；3)Ideogram新增"角色"功能实现图像风格统一；4)Cursor发布CLI版本支持终端AI编程；5)百度即将推出全新推理模型和文心5.0大模型；6)dots.ocr推出1.7B参数多语言文档解析工具；7)特斯拉解散Dojo超算团队转向英伟达合作；8)谷歌Pixel 10引入AI相�

GPT
2025互联网大会聚焦智能体，微美全息（WIMI.US）多模态AI革新入局抢占Agent赛道

2025年中国互联网大会在北京开幕，聚焦"数驱新质·智创未来"主题，重点探讨AI、5G/6G、低空经济等前沿技术。大会指出AI发展正从大模型转向智能体(AI Agent)时代，微软CEO纳德拉等科技巨头已布局智能体产品。专家分析智能体由"大模型+记忆系统+工具调用+规划能力"构成闭环系统，能自主完成任务并优化结果。微美全息等企业正推进多模态大模型技术重构行业服务模式，构建"技术-产品-行业"一体化生态。行业共识2025年将成为智能体爆发元年，尽管尚处早期阶段，但微软、谷歌、OpenAI等已加速布局，如OpenAI推出的ChatGPT Agent。智能体被视为实现AGI的重要路径，将推动人机协作进入新阶段。

人工智能数字生态产业升级
三星Galaxy Z系列智能生态体验新篇章多模态AI体验会川渝站开启

7月25日，三星在川渝地区举办Galaxy Z系列新品AI体验活动，展示全新Galaxy Z Fold7和Flip7折叠屏手机。新品搭载多模态AI技术，配备Samsung One UI8系统，通过智能分屏、跨应用分享等功能提升效率。AI助手Bixby支持多语言翻译、解题辅导等场景应用，Galaxy Watch8系列智能手表新增健康监测功能。三星通过硬件创新与AI深度整合，重新定义移动设备交互体验，推动行业进入以人为中心的智能协同新时代。

三星 Galaxy Z系列
荐AI日报：GPT-5-Auto现身Mac客户端；阿里开源WebAgent项目WebShaper；腾讯推X-Omni多模态模型

【AI日报】今日AI领域重要动态：1）阿里开源WebAgent项目WebShaper，GAIA评测超越Claude4-Sonnet；2）Moonvalley推出草图转视频功能，支持手绘生成电影级视频；3）腾讯X-Omni模型实现图文理解重大突破；4）百度搜索测试AI应用中心入口；5）Midjourney+新增个性化推荐功能；6）GPT-5或于2025年夏季发布；7）Ollama推出桌面客户端；8）OWL团队开源多智能体协作工具Eigent；9）OpenAI年收入激增至120亿美元；10）英伟达H20芯片因安全风险被约谈；11）万兴科技天幕2.0模型国内排名第四，与华为云共建AI视频实验室。

人工智能 AI产品技术趋势
大模型对比评测：Qwen2.5 VS Gemini 2.0谁更能打？

本文对比分析了四款AI大模型：Gemini2.0Flash-Lite（Preview）、Gemini2.0Flash（Experimental）、Gemini2.0Pro Experimental（Feb25）和Qwen2.5Coder Instruct32B。Gemini2.0Flash-Lite适合高并发低延迟应用，Gemini2.0Flash擅长实时多模态推理，Gemini2.0Pro适合复杂编程任务，Qwen2.5Coder在代码任务上性价比突出。建议使用AIbase模型广场进行高效筛选，该平台覆盖上万款AI模型，提供性能、价格等多维度直观对比，支持按任务类型、语言等精准筛选，并持续更新最新模型。

AI大模型选型 AI应用落地模型性能对比
荐AI日报：腾讯混元开源Hunyuan-GameCraft；最强图像编辑器nano-banana发布；字节开源Agent专用模型 M3-Agent-Control

本文介绍了AI领域最新动态：1)腾讯开源Hunyuan-GameCraft框架，可快速生成高质量游戏视频；2)Nano-Banana模型在图像编辑领域超越FLUX+Kontext；3)字节开源基于Qwen 3 32B的328亿参数M3-Agent-Control模型；4)Kimi将推出PPT生成功能；5)阿里1688将上线"诚信通AI版"会员服务；6)苹果智能家居中心推迟至2026年发布；7)万兴科技接入GPT-5；8)全球AI独角兽达498家，总估值2.7万亿美元；9)谷歌为Slides和

AI 游戏视频生成腾讯混元
重磅！标贝科技推出「十万音色·自然语音数据集」重构AI语音训练基础设施

标贝科技发布"十万音色·自然语音数据集"，覆盖中英双语，包含10万种音色样本（中文5万、英文5万），基于近百万小时原始数据经智能生产线精细打磨。该数据集在规模、真实性和准确性三大核心指标实现突破，支持多情感表达和跨场景应用，涵盖基础情绪到特定风格，话题涉及多个领域。通过音频质量筛选、文本转写校正、说话人分离等技术，从海量数据中甄选出高质量样本，为语音识别、合成等AI模型训练提供坚实基础，助力实现更自然、真实的语音交互体验。

AI语音自然语音数据集情感识别

今日大家都在搜的词：

热文

3 天
7天

阿里MNN神更新！移动端开源多模态AI支持Qwen-2.5，文本图像语音全搞定！

荐AI日报：B站测试AI视频工具花生AI；腾讯发布多模态模型Large-Vision；昆仑万维开源Skywork UniPic 2.0

荐AI日报：阿里新发布Qwen3-4B模型；小红书发布开源模型dots.vlm1；MiniMax Speech 2.5语音生成模型上线

荐AI日报：阿里推全新图片模型Qwen-Image；小米全量开源MiDashengLM-7B；智谱Zread.ai搭载 GLM-4.5

荐AI日报：GPT-5正式发布；百度将推文心5.0大模型；知网发布AIKBase V2.0多模态数据管理系统

2025互联网大会聚焦智能体，微美全息（WIMI.US）多模态AI革新入局抢占Agent赛道

三星Galaxy Z系列智能生态体验新篇章多模态AI体验会川渝站开启

荐AI日报：GPT-5-Auto现身Mac客户端；阿里开源WebAgent项目WebShaper；腾讯推X-Omni多模态模型

大模型对比评测：Qwen2.5 VS Gemini 2.0谁更能打？

荐AI日报：腾讯混元开源Hunyuan-GameCraft；最强图像编辑器nano-banana发布；字节开源Agent专用模型 M3-Agent-Control

重磅！标贝科技推出「十万音色·自然语音数据集」重构AI语音训练基础设施

今日大家都在搜的词：

热文

苹果iOS 18.6.1正式版发布：美版Apple Watch血氧功能上线

AI日报：腾讯混元开源Hunyuan-GameCraft；最强图像编辑器nano-

华为MatePad Air新款官宣8月15日发布

华为MatePad Air 12英寸2025发布：售价2799元起

REDMI Note 15 Pro系列官宣下周发布

AI日报：可灵2.1推出全新首尾帧功能；昆仑万维上线AI音乐模型M

微信聊天可以引用部分文字了！还可用表情包回复

华为MatePad 11.5 S 2025发布：预装鸿蒙5 首发售价2099元起

苹果正式入驻小红书 iPhone 17系列下月发布

苹果iOS 18.6.1正式版发布：美版Apple Watch血氧功能上线

iPhone17Pro最新外观曝光：苹果调整天线布局

AI日报：昆仑万维发布SkyReels-A3模型；百度搜索PC端全面上线A

AI日报：腾讯混元开源Hunyuan-GameCraft；最强图像编辑器nano-

全球首款女团机器人10580元拍出接入京东Joy Inside智能体

AI日报：智谱视觉推理模型GLM-4.5V开源；达摩院开源三项具身智

REDMI Note 15 Pro系列官宣本月发布

京东养车50亿补贴更名震骨价号称补贴不「唬」

雷军发起小米YU7版本更名投票称小米YU7标准版绝非丐版

REDMI Turbo 5已备案：首发天玑8500处理器

站长商机