首页 > AI头条  > 正文

Google AI Edge Gallery发布:Gemma 3n加持,本地AI应用开发从未如此简单!

2025-06-03 10:41 · 来源: AIbase基地

在近期举办的Google I/O2025大会上,Google悄然推出了一款开源项目——Google AI Edge Gallery,一款完全本地运行的生成式AI应用,基于最新的Gemma3n模型,集成了多模态能力,支持文本、图片和音频输入。这一项目以其高效的端侧AI性能和开源特性,为开发者提供了构建本地化AI应用的理想模板。

image.png

Google AI Edge Gallery:端侧AI的开源新标杆

Google AI Edge Gallery是一款面向Android(iOS版本即将推出)的实验性应用,允许用户在本地设备上运行来自Hugging Face的多种开源AI模型,无需联网即可实现高效推理。项目采用Apache2.0许可证,代码已公开在GitHub上,开发者可自由使用和修改,极大地降低了端侧AI应用的开发门槛。AIbase注意到,该项目不仅展示了Google在端侧AI领域的最新成果,还为开发者提供了一个可快速上手的模板,助力构建定制化的AI应用。

核心亮点在于其基于Gemma3n模型,这是一款专为移动设备优化的多模态小型语言模型(SLM),支持文本、图片、音频和视频输入,具备强大的本地推理能力。无论是离线环境下的语音转录、图像分析,还是实时交互,Google AI Edge Gallery都展现了端侧AI的巨大潜力。

image.png

多模态能力:文本、图片、音频全覆盖

Google AI Edge Gallery集成了Gemma3n的多模态功能,支持用户上传图片和音频进行处理。例如,现场技术人员可以拍摄设备照片并提出问题,AI即可基于图像内容生成精准回答;仓库工作人员可通过语音更新库存数据,实现解放双手的智能交互。此外,Gemma3n支持高质量的自动语音识别(ASR)和语音翻译功能,能够处理复杂的多模态输入,为开发交互式应用提供了更多可能性。

AIbase了解到,Gemma3n的2B和4B参数版本已支持文本、图像、视频和音频输入,相关模型现已上架Hugging Face,音频处理功能也将很快推出。相比传统的云端大模型,Gemma3n的小型化设计使其在手机、平板等资源受限设备上运行流畅,模型体积仅529MB,却能以每秒2585个token的预填充速度处理长达一页的内容。

image.png

开源与高效:开发者友好的设计

Google AI Edge Gallery通过LiteRT运行时和LLM推理API提供轻量级模型执行环境,支持开发者从Hugging Face社区选择和切换不同模型。项目还集成了检索增强生成(RAG)和函数调用功能,允许开发者在不进行模型微调的情况下,为应用注入特定领域的数据。例如,企业可利用RAG技术将内部知识库与AI结合,提供定制化的问答服务。

此外,Gemma3n支持最新的int4量化技术,相比bf16格式,模型体积可缩小2.5-4倍,同时显著降低延迟和内存占用。这种高效的量化方案确保了AI模型在低功耗设备上的卓越性能。开发者可通过Google提供的Colab教程,快速完成模型微调、转换和部署,极大简化了开发流程。

离线运行与隐私保护:端侧AI的独特优势

Google AI Edge Gallery的完全离线运行能力是其最大亮点之一。所有AI推理均在设备端完成,无需依赖网络或Google Play服务,确保了数据隐私和低延迟响应。这对于医疗、工业维护等对隐私和实时性要求高的场景尤为重要。例如,现场工作人员可在无网络环境下通过语音或图像与AI交互,完成设备诊断或数据记录。

AIbase认为,这种离线运行模式不仅提升了用户体验,还降低了企业对云端算力的依赖,减少了运行成本。项目的开源性质进一步赋予开发者自由定制的权利,无论是构建教育助手、医疗支持工具,还是探索创新的交互体验,Google AI Edge Gallery都提供了坚实的基础。

行业影响:端侧AI的普及与挑战

Google AI Edge Gallery的发布标志着端侧AI的进一步普及。相较于Hume AI的EVI3和ElevenLabs的Conversational AI2.0,Google AI Edge Gallery更专注于本地化部署和多模态应用的开源生态,目标是通过Gemma3n赋能开发者社区,打造多样化的端侧AI应用。然而,部分观点认为,端侧AI与云端大模型存在性能差距,用户对“最佳体验”的追求可能限制其发展。AIbase认为,随着硬件性能的提升和模型优化的持续推进,端侧AI有望在特定场景中实现与云端模型相媲美的表现。

Google AI Edge Gallery的推出,不仅展示了Gemma3n在多模态和端侧推理上的技术突破,也通过开源方式降低了AI应用的开发门槛。其离线运行、多模态支持和高效量化技术,为开发者提供了灵活且强大的工具。AIbase预计,该项目将激发更多创新应用,尤其在隐私敏感和资源受限的场景中展现独特价值。未来,随着iOS版本的发布和更多模型的集成,Google AI Edge Gallery有望成为端侧AI开发的标杆。

  • 相关推荐
  • AI日报:昆仑万维天工超级智能体APP上线;谷歌重磅发布三大Gemma模型变体;字节推出开源多模态模型BAGE

    本文介绍了AI领域最新动态:1)昆仑万维推出全球首款AI+Agent架构的Office智能体应用;2)研究显示ChatGPT能提升K12学生成绩近87%;3)谷歌视频生成工具Veo3扩展至更多地区;4)谷歌发布三款Gemma模型变体,覆盖医疗、手语翻译和海豚语言研究;5)VideoTutor实现一句话生成定制教学视频;6)字节跳动开源多模态模型BAGEL;7)Rork支持无代码开发iOS/Android应用;8)AingDesk降低AI助手开发门槛;9)Claude4登陆亚马逊Bedrock平台;10)Youware通过MCP协议提升网页生成能力。这些创新展示了AI技术在各领域的快速发展和应用潜力。

  • Google不革自己的命,AI搜索们也已经凉凉了?

    在刚刚结束的 Google I/O 开发者大会中,Google 宣布上线由 Gemini 驱动的高级 AI 搜索模式 AI Mode,可以应对复杂问题,支持追问。与之前的 AI Overviews 对 AI 搜索的浅尝辄止不同,Google 终于不再死抱着“关键词+链接列表”,开始拥抱“自然语言交互+结构化答案”的“新”范式了。 作为上一代搜索引擎的霸主,2024年,Google 的搜索业务贡献了1750亿美元,占总收入的一半以上,而转型

  • Gemini接管搜索、全家桶秒变通用Agent ,以及Google Glass is so back!

    谁也没想到,Google I/O现场的最高潮来自“复活”的Google Glass有些翻车了的实时demo。2025 年 5 月 20 日,Google的年度开发者大会Google I/O在加州山景城举办。 与去年在举办之前一天被OpenAI“狙击”不同,今年的Google I/O,剑拔弩张的氛围让位给了派对的氛围,在ChatGPT带来的狼狈之后,Google已经回到了自己的节奏。 是的,它回到了饱和式发布的节奏。当天Google一口气发布了至少十�

  • IBM高管详解如何加速企业AI应用:Agent是路径,不是噱头

    IBM在2025 Think大会上提出,企业AI竞争已从实验阶段转向实际应用阶段,关键在于定制化AI解决方案和可量化的业务成果。IBM强调企业级AI Agent需具备"动手能力",能嵌入业务流程、完成任务并监控维护,而非仅是对话助手。其watsonx平台构建了模型、数据、任务执行的完整技术栈,并通过三层架构(交互层、任务分解层、系统连接层)实现闭环运行。IBM还推出"AgentOps"体系,将智能体模块化、服务化,建立能力目录和监控机制,解决企业部署AI Agent时的系统对接、价值评估和管理难题。实践案例显示,制造业设备巡检Agent可节省70%人力成本。IBM认为AI Agent是企业数字化能力的延伸,需与业务流程深度融合,而非追赶技术潮流。

  • 发布AI Agent开发平台,做强AI生态… 网易数智接下来这么干

    AI时代正从AIGC转向AI Agent发展。微软CEO纳德拉预测AI Agent将成为新应用,Gartner预计到2028年超1/3企业软件将集成AI Agent功能。网易数智发布CoreAgent智能体开发平台及多款行业智能体,助力企业快速落地AI应用。文章指出当前AI Agent面临技术门槛高、场景适配难等挑战,网易提出"技术共生、市场共拓、利润共享"的生态协同理念,强调AI需要与行业know-how结合才能创造真实价值。网易数智宣布品牌升级,从"科技蓝"变为"网易红",展现拥抱AI时代的决心。

  • 苹果的下一步计划:利用开发者社区,打造AI应用

    苹果正在用自己最擅长的方式,激活这场 AI 革命 —— 那就是信任并赋能它的开发者……

  • 谷歌扩展Gemini的“AI帝国”,涵盖汽车、手表和电视

    自推出 Gemini 以来,谷歌已开始将其与 Gmail、谷歌云端硬盘、谷歌文档等自家服务相连接。如今,其愿景是将 Gemini 植入更广泛的 “安卓生态系统”,包括智能手表、汽车、电视等……

  • AI日报:谷歌推最强AI全家桶Google AI Ultra;腾讯混元宣布模型矩阵全面升级;豆包·语音播客模型发布

    本文汇总了近期AI领域的重要动态:1)谷歌推出249.99美元/月的AI Ultra订阅计划,提供最强AI模型和高级功能;2)腾讯混元模型升级,新增视觉推理T1-Vision和语音对话模型;3)美图获阿里2.5亿美元投资,将在电商和AI领域合作;4)豆包推出语音播客模型,实现文本快速转音频;5)百度文心X1 Turbo获信通院最高评级;6)谷歌发布Flow AI剪辑工具,集成Veo3等三大模型;7)谷歌Veo3支持4K视频生成;8)Imagen4图像模型发布;9)Gemini2.5 Pro新增并行推理功能;10)谷歌推出虚拟试衣工具;11)公测AI编程助手Jules;12)苹果计划在iOS19开放AI模型;13)京东云推五大免费AI营销工具;14)字节开源多模态模型BAGEL;15)英伟达发布物理推理模型Cosmos-Reason1。

  • 纤薄背后 看三星是如何在Galaxy S25 Edge上实现突破的

    三星Galaxy S25 Edge以5.8毫米厚度、163克重量成为迄今最纤薄的S系列旗舰,突破性地重构了智能手机底层设计理念。其采用骁龙8至臻版移动平台,配合定制散热系统使均热板面积增加10%,通过"镂空结构"设计优化热传导路径。影像方面搭载2亿像素主摄,采用双层镜头设计使模组厚度减少超10%,延续了Ultra系列的旗舰成像水准。整机采用钛金属边框与康宁大猩猩玻璃2代,在极致轻薄中实现了性能、影像与耐用性的完美平衡,重新定义了旗舰智能手机的可能性。

  • 精工力作 岂止纤薄 三星Galaxy S25 Edge正式发布

    三星正式发布Galaxy S25 Edge,作为S系列首款超薄机型,机身仅5.8毫米厚,采用钛金属边框设计。配备2亿像素主摄和1200万超广角镜头,搭载Galaxy AI影像系统,支持专业级拍摄功能。性能方面采用骁龙8至尊版移动平台,配备新型均热板提升散热效率。延续S系列标志性设计风格,提供钛灰、钛黑和钛蓝三色可选,12GB+256GB版本售价7999元起。5月13日开启预约,23日正式发售,预约用户可享免费存储升级等权益。该机型融合超薄设计与专业性能,展现了三星突破技术壁垒的工程实力。

今日大家都在搜的词: