首页 > AI头条  > 正文

阿里MNN神更新!移动端开源多模态AI支持Qwen-2.5,文本图像语音全搞定!

2025-05-13 09:54 · 来源: AIbase基地

阿里巴巴开源项目MNN(Mobile Neural Network)发布了其移动端多模态大模型应用MnnLlmApp的最新版本,新增对Qwen-2.5-Omni-3B和7B模型的支持。这款完全开源、运行于移动端本地的大模型应用,支持文本到文本、图像到文本、音频到文本和文本到图像生成等多种模态任务,以其高效性能和低资源占用引发开发者广泛关注。AIbase观察到,MNN的此次更新进一步推动了多模态AI在移动端的普及。

QQ20250513-094907.jpg

项目地址:

https://github.com/alibaba/MNN/blob/master/apps/Android/MnnLlmChat/README.md

核心亮点:多模态能力全面增强

新版MnnLlmApp集成了Qwen-2.5-Omni-3B和7B模型,依托阿里云Qwen团队的Thinker-Talker架构,实现对文本、图像、音频和视频的综合处理能力。AIbase了解到,应用支持以下功能:

文本到文本:生成高质量对话、报告或代码,媲美云端模型。

图像到文本:识别图像中的文字或描述场景内容,适用于文档扫描和视觉问答。

音频到文本:高效转录语音,支持多语言语音识别。

文本到图像:通过扩散模型生成高质量图像,满足创意设计需求。

社交媒体反馈显示,开发者对Qwen-2.5-Omni-3B在24GB GPU上的运行表现尤为满意,其在OmniBench基准测试中保留了7B模型90%以上的多模态性能,同时内存占用降低超50%(从60.2GB降至28.2GB)。

技术优势:本地推理与极致优化

MNN框架以其轻量化和高性能著称,专为移动端和边缘设备优化。AIbase编辑团队注意到,新版MnnLlmApp在CPU推理上表现卓越,预填充速度比llama.cpp快8.6倍,解码速度快2.3倍。 应用完全本地运行,无需联网即可处理多模态任务,确保数据隐私不被上传至外部服务器。支持的模型范围广泛,涵盖Qwen、Gemma、Llama、Baichuan等主流开源模型,开发者可通过GitHub直接下载并构建应用。此外,MNN提供FlashAttention-2支持,进一步提升长上下文处理的效率。

应用场景:从开发到生产

MnnLlmApp的多模态能力使其在多种场景中展现潜力:

教育与办公:通过图像到文本功能扫描文档,或用音频到文本转录会议记录。

创意设计:利用文本到图像生成宣传素材或艺术作品。

智能助手:构建本地化语音交互应用,如离线导航或客服助手。

开发者学习:开源代码和详细文档为移动端大模型开发提供了参考范例。

AIbase分析认为,MNN的开源属性和对Qwen-2.5-Omni的支持,使其成为开发者探索移动端多模态AI的理想平台。社交媒体上,开发者表示,MnnLlmApp的推理速度(Llama3.18B预填充28tokens/s)虽未达到顶尖水平,但其多模态集成和易用性足以满足原型开发需求。

行业背景:移动端AI的开源热潮

MNN的更新正值移动端AI竞争升温。DeepSeek的R1模型和Baichuan-Omni近期也推出了开源多模态解决方案,强调本地化部署和低成本。 然而,MNN凭借阿里生态支持和硬件优化(如对Android设备的深度适配)在性能与兼容性上占据优势。AIbase注意到,阿里云已开源超200个生成式AI模型,Qwen系列在Hugging Face的下载量突破8000万,显示出其全球影响力。 MnnLlmApp的iOS版本也已发布,进一步扩大了其跨平台覆盖。

移动端多模态的未来

MnnLlmApp的此次更新标志着多模态AI从云端向边缘设备的加速迁移。AIbase编辑团队预计,随着Qwen-2.5-Omni模型的持续优化(如支持更长视频或更低延迟语音生成),MNN将在智能家居、车载系统和离线助手领域发挥更大作用。然而,社交媒体也指出,应用的模型加载流程(需从源码构建外部模型)仍需简化,以提升用户友好性。 

  • 相关推荐
  • AI日报:B站测试AI视频工具花生AI;腾讯发布多模态模型Large-Vision;昆仑万维开源Skywork UniPic 2.0

    【AI日报】主要内容: 1. B站测试"花生AI"视频工具,3分钟可成片,同时推进自研大模型和多语言翻译功能 2. 昆仑万维开源多模态模型Skywork UniPic 2.0,实现高效统一的多模态生成能力 3. 马斯克指责苹果偏袒OpenAI,苹果回应称平台设计公平公正 4. 腾讯混元发布52B参数多模态理解模型Large-Vision,支持任意分辨率输入 5. DeepSeek官方否认8月发布R2模型的传闻 6. OpenAI推出超值ChatGPT Go套餐,仅399卢比降低使用门槛 7. AI新贵Perplexity豪掷345亿美元收购谷歌Chrome 8. Anthropic的Claude Sonnet 4模型支持100万token上下文 9. ChatGPT重大更新:恢复GPT-4o默认模式,为GPT-5引入多模式选择,优化交互体验

  • AI日报:阿里新发布Qwen3-4B模型;小红书发布开源模型dots.vlm1;MiniMax Speech 2.5语音生成模型上线

    AI日报栏目聚焦人工智能领域最新动态:1)阿里发布Qwen3-4B轻量级模型,手机端可运行;2)小红书开源多模态大模型dots.vlm1,在图表推理方面表现突出;3)MiniMax推出语音生成模型Speech2.5,多语种表现提升;4)Midjourney推出HD视频模式,提升专业影像质量;5)Cursor1.4版本增强异步任务处理能力;6)谷歌否认AI搜索影响网站流量,但数据显示用户行为改变;7)MiniCPM-V4.0开源发布,号称"手机上的GPT-4V";8)AMD与高通宣布支持OpenAI的gpt-oss系列模型;9)腾讯开源WeKnora文档智能解析工具;11)疑似GPT-5信息在GitHub泄露;12)FlowSpeech实现书面语转口语的TTS技术突破。

  • AI日报:阿里推全新图片模型Qwen-Image;小米全量开源MiDashengLM-7B;智谱Zread.ai搭载 GLM-4.5

    本文汇总了AI领域最新动态:1)阿里开源文生图模型Qwen-Image,中文文本渲染领先;2)ChatGPT周活用户达7亿,OpenAI年收入120亿美元;3)Anthropic测试Claude Opus 4.1,推理能力升级;4)智谱推出开发工具Zread.ai提升代码理解效率;5)xAI发布Grok Imagine4支持文生视频及NSFW内容;6)Character.AI推出首个AI原生社交功能;7)阿里与南开合作视频压缩技术LLaVA-Scissor;8)北京团队突破人形机器人3D视觉系统�

  • AI日报:GPT-5正式发布;百度将推文心5.0大模型;知网发布AIKBase V2.0多模态数据管理系统

    《AI日报》精选AI领域最新动态:1)OpenAI发布GPT-5模型,具备强大多模态能力但推理任务仍有局限;2)知网推出AIKBase V2.0多模态数据管理系统;3)Ideogram新增"角色"功能实现图像风格统一;4)Cursor发布CLI版本支持终端AI编程;5)百度即将推出全新推理模型和文心5.0大模型;6)dots.ocr推出1.7B参数多语言文档解析工具;7)特斯拉解散Dojo超算团队转向英伟达合作;8)谷歌Pixel 10引入AI相�

  • 2025互联网大会聚焦智能体,微美全息(WIMI.US)多模态AI革新入局抢占Agent赛道

    2025年中国互联网大会在北京开幕,聚焦"数驱新质·智创未来"主题,重点探讨AI、5G/6G、低空经济等前沿技术。大会指出AI发展正从大模型转向智能体(AI Agent)时代,微软CEO纳德拉等科技巨头已布局智能体产品。专家分析智能体由"大模型+记忆系统+工具调用+规划能力"构成闭环系统,能自主完成任务并优化结果。微美全息等企业正推进多模态大模型技术重构行业服务模式,构建"技术-产品-行业"一体化生态。行业共识2025年将成为智能体爆发元年,尽管尚处早期阶段,但微软、谷歌、OpenAI等已加速布局,如OpenAI推出的ChatGPT Agent。智能体被视为实现AGI的重要路径,将推动人机协作进入新阶段。

  • 三星Galaxy Z系列智能生态体验新篇章 多模态AI体验会川渝站开启

    7月25日,三星在川渝地区举办Galaxy Z系列新品AI体验活动,展示全新Galaxy Z Fold7和Flip7折叠屏手机。新品搭载多模态AI技术,配备Samsung One UI8系统,通过智能分屏、跨应用分享等功能提升效率。AI助手Bixby支持多语言翻译、解题辅导等场景应用,Galaxy Watch8系列智能手表新增健康监测功能。三星通过硬件创新与AI深度整合,重新定义移动设备交互体验,推动行业进入以人为中心的智能协同新时代。

  • AI日报:GPT-5-Auto现身Mac客户端;阿里开源WebAgent项目WebShaper;腾讯推X-Omni多模态模型

    【AI日报】今日AI领域重要动态:1)阿里开源WebAgent项目WebShaper,GAIA评测超越Claude4-Sonnet;2)Moonvalley推出草图转视频功能,支持手绘生成电影级视频;3)腾讯X-Omni模型实现图文理解重大突破;4)百度搜索测试AI应用中心入口;5)Midjourney+新增个性化推荐功能;6)GPT-5或于2025年夏季发布;7)Ollama推出桌面客户端;8)OWL团队开源多智能体协作工具Eigent;9)OpenAI年收入激增至120亿美元;10)英伟达H20芯片因安全风险被约谈;11)万兴科技天幕2.0模型国内排名第四,与华为云共建AI视频实验室。

  • 大模型对比评测:Qwen2.5 VS Gemini 2.0谁更能打?

    本文对比分析了四款AI大模型:Gemini2.0Flash-Lite(Preview)、Gemini2.0Flash(Experimental)、Gemini2.0Pro Experimental(Feb25)和Qwen2.5Coder Instruct32B。Gemini2.0Flash-Lite适合高并发低延迟应用,Gemini2.0Flash擅长实时多模态推理,Gemini2.0Pro适合复杂编程任务,Qwen2.5Coder在代码任务上性价比突出。建议使用AIbase模型广场进行高效筛选,该平台覆盖上万款AI模型,提供性能、价格等多维度直观对比,支持按任务类型、语言等精准筛选,并持续更新最新模型。

  • AI日报:腾讯混元开源Hunyuan-GameCraft;最强图像编辑器nano-banana发布;字节开源Agent专用模型 M3-Agent-Control

    本文介绍了AI领域最新动态:1)腾讯开源Hunyuan-GameCraft框架,可快速生成高质量游戏视频;2)Nano-Banana模型在图像编辑领域超越FLUX+Kontext;3)字节开源基于Qwen 3 32B的328亿参数M3-Agent-Control模型;4)Kimi将推出PPT生成功能;5)阿里1688将上线"诚信通AI版"会员服务;6)苹果智能家居中心推迟至2026年发布;7)万兴科技接入GPT-5;8)全球AI独角兽达498家,总估值2.7万亿美元;9)谷歌为Slides和

  • 重磅!标贝科技推出「十万音色·自然语音数据集」 重构AI语音训练基础设施

    标贝科技发布"十万音色·自然语音数据集",覆盖中英双语,包含10万种音色样本(中文5万、英文5万),基于近百万小时原始数据经智能生产线精细打磨。该数据集在规模、真实性和准确性三大核心指标实现突破,支持多情感表达和跨场景应用,涵盖基础情绪到特定风格,话题涉及多个领域。通过音频质量筛选、文本转写校正、说话人分离等技术,从海量数据中甄选出高质量样本,为语音识别、合成等AI模型训练提供坚实基础,助力实现更自然、真实的语音交互体验。

今日大家都在搜的词: