首页 > AI头条  > 正文

阿里MNN神更新!移动端开源多模态AI支持Qwen-2.5,文本图像语音全搞定!

2025-05-13 09:54 · 来源: AIbase基地

阿里巴巴开源项目MNN(Mobile Neural Network)发布了其移动端多模态大模型应用MnnLlmApp的最新版本,新增对Qwen-2.5-Omni-3B和7B模型的支持。这款完全开源、运行于移动端本地的大模型应用,支持文本到文本、图像到文本、音频到文本和文本到图像生成等多种模态任务,以其高效性能和低资源占用引发开发者广泛关注。AIbase观察到,MNN的此次更新进一步推动了多模态AI在移动端的普及。

QQ20250513-094907.jpg

项目地址:

https://github.com/alibaba/MNN/blob/master/apps/Android/MnnLlmChat/README.md

核心亮点:多模态能力全面增强

新版MnnLlmApp集成了Qwen-2.5-Omni-3B和7B模型,依托阿里云Qwen团队的Thinker-Talker架构,实现对文本、图像、音频和视频的综合处理能力。AIbase了解到,应用支持以下功能:

文本到文本:生成高质量对话、报告或代码,媲美云端模型。

图像到文本:识别图像中的文字或描述场景内容,适用于文档扫描和视觉问答。

音频到文本:高效转录语音,支持多语言语音识别。

文本到图像:通过扩散模型生成高质量图像,满足创意设计需求。

社交媒体反馈显示,开发者对Qwen-2.5-Omni-3B在24GB GPU上的运行表现尤为满意,其在OmniBench基准测试中保留了7B模型90%以上的多模态性能,同时内存占用降低超50%(从60.2GB降至28.2GB)。

技术优势:本地推理与极致优化

MNN框架以其轻量化和高性能著称,专为移动端和边缘设备优化。AIbase编辑团队注意到,新版MnnLlmApp在CPU推理上表现卓越,预填充速度比llama.cpp快8.6倍,解码速度快2.3倍。 应用完全本地运行,无需联网即可处理多模态任务,确保数据隐私不被上传至外部服务器。支持的模型范围广泛,涵盖Qwen、Gemma、Llama、Baichuan等主流开源模型,开发者可通过GitHub直接下载并构建应用。此外,MNN提供FlashAttention-2支持,进一步提升长上下文处理的效率。

应用场景:从开发到生产

MnnLlmApp的多模态能力使其在多种场景中展现潜力:

教育与办公:通过图像到文本功能扫描文档,或用音频到文本转录会议记录。

创意设计:利用文本到图像生成宣传素材或艺术作品。

智能助手:构建本地化语音交互应用,如离线导航或客服助手。

开发者学习:开源代码和详细文档为移动端大模型开发提供了参考范例。

AIbase分析认为,MNN的开源属性和对Qwen-2.5-Omni的支持,使其成为开发者探索移动端多模态AI的理想平台。社交媒体上,开发者表示,MnnLlmApp的推理速度(Llama3.18B预填充28tokens/s)虽未达到顶尖水平,但其多模态集成和易用性足以满足原型开发需求。

行业背景:移动端AI的开源热潮

MNN的更新正值移动端AI竞争升温。DeepSeek的R1模型和Baichuan-Omni近期也推出了开源多模态解决方案,强调本地化部署和低成本。 然而,MNN凭借阿里生态支持和硬件优化(如对Android设备的深度适配)在性能与兼容性上占据优势。AIbase注意到,阿里云已开源超200个生成式AI模型,Qwen系列在Hugging Face的下载量突破8000万,显示出其全球影响力。 MnnLlmApp的iOS版本也已发布,进一步扩大了其跨平台覆盖。

移动端多模态的未来

MnnLlmApp的此次更新标志着多模态AI从云端向边缘设备的加速迁移。AIbase编辑团队预计,随着Qwen-2.5-Omni模型的持续优化(如支持更长视频或更低延迟语音生成),MNN将在智能家居、车载系统和离线助手领域发挥更大作用。然而,社交媒体也指出,应用的模型加载流程(需从源码构建外部模型)仍需简化,以提升用户友好性。 

  • 相关推荐
  • 魅族Flyme AIOS 2宣布接入阿里云端到端大模型Qwen Omni

    Flyme AIOS2系统引入全新设计的智能助手Aicy,其界面设计更具呼吸感与动态效果,同时搭载升级后的思考引擎,可实现更精准的语义理解和场景响应。值得关注的是,该系统成为业内首家接入阿里云自主研发的Qwen Omni云端到端大模型的操作系统,支持超低延迟的自然语音交互,并覆盖多地

  • AI日报:阿里开源文本深度思考模型QwenLong-L1;GPT-4o语音模式上线唱歌功能;秘塔AI搜索推出新“极速”模型

    本文汇总了AI领域最新动态:1)中国信通院发布智能体开发标准,推动AI商业化进程;2)阿里推出QwenLong-L1-32B长文本推理模型,性能媲美Claude-3;3)GPT-4o语音模式升级,新增唱歌功能;4)秘塔AI搜索推出极速模型,响应速度达400tokens/秒;5)谷歌发布LMEval评估框架,统一大模型评测标准;6)Chrome浏览器集成Gemini AI助手;7)阿联酋全民免费使用ChatGPT Plus;8)苏州成立60亿元AI产业基金;9)法国Kyutai实验室推出10秒定制语音的Unmute系统;10)UAV-Flow项目实现无人机语音精准控制;11)Claude将升级支持百万字上下文和记忆功能;12)百度心响iOS版上线;13)夸克推出高考深度搜索功能;14)Chrome v137开发者工具升级;15)美团AI业务接近GPT-4o水平;16)Direct3D-S2实现3D生成速度提升10倍;17)OpenAI计划2026年推出首款AI硬件。

  • 慧科讯业AI赋能数据标签化,破局多模态数据治理难题

    文章探讨了数字化浪潮下数据标签化的重要性及其商业应用。数据标签化作为大数据分析的基础,能帮助企业实现精准营销和智能决策。然而,多模态数据处理复杂、人工标注成本高、业务理解不足等问题制约了数据价值的释放。文章提出数据标签化在构建用户画像、舆情监控、市场趋势预测等场景中的核心价值,并分析了当前面临的挑战:包括传统NLP算法不精准、大语言模型成本高且不稳定等。慧科讯业通过TDaaS服务模式,结合行业领先的数据源、NLP技术和垂直知识图谱,为企业提供高效的数据标注解决方案,显著提升数据处理效率。未来,随着AI技术发展,知识图谱驱动的TDaaS模式将重新定义数据价值变现方式。

  • AI日报:阿里云通义灵码AI IDE上线;小米多模态大模型Xiaomi MiMo-VL开源;黑森林实验室推出FLUX.1Kontext

    【AI日报】今日AI领域重要动态:1)阿里云推出通义灵码AI IDE,集成千问3模型,显著提升编程效率;2)小米开源多模态大模型MiMo-VL-7B,性能超越更大规模闭源模型;3)黑森林实验室发布FLUX.1Kontext图像生成模型,支持文本和参考图像多次编辑;4)Midjourney V7渲染速度提升40%,新增用户投票功能;5)DeepSeek R1-0528大模型在AGI领域取得突破,性能超越xAI等公司;6)Hugging Face进军机器人市场,推出开源人形机器人HopeJR;7)字节跳动火山方舟接入DeepSeek最新大模型;8)Anthropic开源"电路追踪"工具,揭示大模型决策过程;9)阿里巴巴开源自主搜索AI智能体WebAgent;10)Hume发布低延迟语音语言模型EVI3;11)Manus Slides支持一键生成专业幻灯片;12)Runway Gen-4 References支持手机照片艺术化处理。

  • 破局多模态数据治理难点,数据标注重构企业营销新基建

    文章探讨了AI数据标注行业的发展现状与未来趋势。主要内容包括:1)AI数据标注已成为企业数字化转型的核心基础设施,92.9%数据为非结构化形态;2)营销领域多模态数据融合正在重塑商业决策模式;3)慧科讯业等企业通过TDaaS服务帮助客户构建数据资产;4)数据标注服务商分为国际头部、自有生态型、垂直领域型和综合营销数字化型四类;5)未来趋势包括AI驱动的自动化标注、数据合规升级和人机协同模式创新。文章强调,高质量数据标注服务将助力企业实现从"可用"到"可信高效"的数字化转型。

  • AI日报:昆仑万维天工超级智能体APP上线;谷歌重磅发布三大Gemma模型变体;字节推出开源多模态模型BAGE

    本文介绍了AI领域最新动态:1)昆仑万维推出全球首款AI+Agent架构的Office智能体应用;2)研究显示ChatGPT能提升K12学生成绩近87%;3)谷歌视频生成工具Veo3扩展至更多地区;4)谷歌发布三款Gemma模型变体,覆盖医疗、手语翻译和海豚语言研究;5)VideoTutor实现一句话生成定制教学视频;6)字节跳动开源多模态模型BAGEL;7)Rork支持无代码开发iOS/Android应用;8)AingDesk降低AI助手开发门槛;9)Claude4登陆亚马逊Bedrock平台;10)Youware通过MCP协议提升网页生成能力。这些创新展示了AI技术在各领域的快速发展和应用潜力。

  • AI日报:阿里通义千问Qwen3问鼎全球开源模型;Kimi长思考模型API发布;OpenAI发布新一代GPT-4.1模型

    【AI日报】汇总了近期AI领域重要动态:1)阿里通义千问3开源模型上线7天即登顶全球开源模型榜首,在指令遵循和推理能力上超越闭源模型;2)月之暗面推出Kimi长思考模型API,可解决复杂代码和数学问题;3)OpenAI发布GPT-4.1模型,性能提升显著;4)Google推出Gemini2.5Pro模型,提升开发者编码能力;5)联想发布"天禧超级智能体",具备多模态感知能力;6)腾讯元宝上线"对话分

  • 字节最强多模态模型登陆火山引擎!Seed1.5-VL靠20B激活参数狂揽38项SOTA

    5月13日,火山引擎在上海搞了场 FORCE LINK AI 创新巡展,一股脑发布了5款模型和产品,包括豆包・视频生成模型 Seedance1.0lite、升级后的豆包1.5・视觉深度思考模型,以及新版豆包・音乐模型。同时,Data Agent 和 Trae 等产品也有了新进展。

  • AI日报:腾讯AI智能编程插件CodeBuddy;字节推Seed1.5-VL多模态模型;Manus母公司否认15亿美元融资传闻

    《AI日报》今日聚焦多项AI领域突破:腾讯推出CodeBuddy 3.0编程助手,深度整合微信小程序开发工具;字节跳动发布仅20B参数的Seed1.5-VL多模态模型,性能达行业领先;通义千问上线"Deep Research"智能研究系统,免费开放体验。此外,苹果推出革命性3D建模工具Matrix3D,Anthropic即将发布Claude Neptune新模型,清华与面壁智能联合推出端侧GUI智能体AgentCPM-GUI。谷歌搜索正测试"AI Mode"新功能,或将取代传统"手气不错"按钮。

  • AI日报:DeepSeek开源新版R1-0528;字节发布图像Agent小云雀AI;可灵2.1重磅上线

    本期AI日报聚焦多项AI领域突破:1)DeepSeek发布R1-0528模型,支持128K上下文且性能媲美GPT-4;2)字节推出"小云雀AI"图像创作工具;3)可画2.1版本价格降65%性能提升;4)Opera发布全球首款AI浏览器Neon;5)Meta推出多模态空间理解模型;6)北大团队研发ZeroSearch框架降低大模型训练成本88%;7)字节推出AI视频剪辑应用"剪小映";8)MotionPro实现40ms/帧精准视频控制;9)xAI与Telegram达成3亿美元合作部署Grok聊天机器人;10)OpenAI重组架构为IPO铺路;11)像素蛋糕"方糖大模型"获国内首个影像行业备案;12)Paper2Poster实现论文自动转海报;13)Resemble AI开源TTS模型性能比肩ElevenLabs;14)蚂蚁集团开源对标GPT-4o的多模态模型Ming-lite-omni。

今日大家都在搜的词:

热文

  • 3 天
  • 7天