首页 > AI头条  > 正文

重磅!谷歌开源Gemma3n多模态模型,手机也能跑出云端AI性能

2025-06-27 10:17 · 来源: AIbase基地

 谷歌于本周五凌晨正式发布并开源全新端侧多模态大模型Gemma3n,这一突破性产品为手机、平板、笔记本等端侧设备带来了此前只能在云端体验的强大多模态功能。

核心特性:小体积大能力

Gemma3n提供E2B和E4B两个版本,虽然原始参数量分别为5B和8B,但通过架构创新,其内存占用仅相当于传统2B和4B模型,分别只需2GB和3GB内存即可运行。该模型原生支持图像、音频、视频和文本的多模态输入处理,支持140种文本语言和35种语言的多模态理解。

值得一提的是,E4B版本在LMArena评测中得分超过1300,成为首个达到此基准的100亿参数以下模型,在多语言、数学、编码和推理能力方面均实现显著提升。

QQ20250627-101207.png

技术创新:四大突破性架构

MatFormer架构:Gemma3n采用全新的Matryoshka Transformer架构,如俄罗斯套娃般实现一个模型包含多种尺寸。训练E4B模型时同步优化E2B子模型,为开发者提供灵活的性能选择。通过Mix-n-Match技术,用户可在E2B和E4B之间创建自定义尺寸模型。

每层嵌入(PLE)技术:这项创新允许大部分参数在CPU上加载计算,只有核心Transformer权重需要存储在加速器内存中,大幅提高内存效率的同时不影响模型质量。

KV Cache共享:针对长内容处理优化,通过键值缓存共享技术,预填充性能相比Gemma34B提升两倍,显著加快长序列处理的首个token生成时间。

先进编码器:音频方面采用基于通用语音模型(USM)的编码器,支持自动语音识别和语音翻译功能,可处理长达30秒的音频片段。视觉方面配备MobileNet-V5-300M编码器,支持多种输入分辨率,在Google Pixel上可达到每秒60帧的处理速度。

QQ20250627-101357.png

实用功能与应用场景

Gemma3n在语音翻译方面表现突出,特别是英语与西班牙语、法语、意大利语、葡萄牙语之间的转换。视觉编码器MobileNet-V5通过先进蒸馏技术,相比基线模型实现13倍加速,参数减少46%,内存占用降低4倍,同时保持更高准确率。

开源生态与发展前景

谷歌已在Hugging Face平台开源模型和权重,并提供详细文档和开发指南。自去年首个Gemma模型发布以来,该系列累计下载量已超过1.6亿次,显示出强劲的开发者生态。

Gemma3n的发布标志着端侧AI进入新的发展阶段,将云端级别的多模态能力下沉到用户设备,为移动应用、智能硬件等领域带来无限可能。

地址:https://huggingface.co/collections/google/gemma-3n-685065323f5984ef315c93f4

文档:https://ai.google.dev/gemma/docs/gemma-3n

  • 相关推荐
  • AI日报:B站测试AI视频工具花生AI;腾讯发布多模态模型Large-Vision;昆仑万维开源Skywork UniPic 2.0

    【AI日报】主要内容: 1. B站测试"花生AI"视频工具,3分钟可成片,同时推进自研大模型和多语言翻译功能 2. 昆仑万维开源多模态模型Skywork UniPic 2.0,实现高效统一的多模态生成能力 3. 马斯克指责苹果偏袒OpenAI,苹果回应称平台设计公平公正 4. 腾讯混元发布52B参数多模态理解模型Large-Vision,支持任意分辨率输入 5. DeepSeek官方否认8月发布R2模型的传闻 6. OpenAI推出超值ChatGPT Go套餐,仅399卢比降低使用门槛 7. AI新贵Perplexity豪掷345亿美元收购谷歌Chrome 8. Anthropic的Claude Sonnet 4模型支持100万token上下文 9. ChatGPT重大更新:恢复GPT-4o默认模式,为GPT-5引入多模式选择,优化交互体验

  • AI日报:GPT-5-Auto现身Mac客户端;阿里开源WebAgent项目WebShaper;腾讯推X-Omni多模态模型

    【AI日报】今日AI领域重要动态:1)阿里开源WebAgent项目WebShaper,GAIA评测超越Claude4-Sonnet;2)Moonvalley推出草图转视频功能,支持手绘生成电影级视频;3)腾讯X-Omni模型实现图文理解重大突破;4)百度搜索测试AI应用中心入口;5)Midjourney+新增个性化推荐功能;6)GPT-5或于2025年夏季发布;7)Ollama推出桌面客户端;8)OWL团队开源多智能体协作工具Eigent;9)OpenAI年收入激增至120亿美元;10)英伟达H20芯片因安全风险被约谈;11)万兴科技天幕2.0模型国内排名第四,与华为云共建AI视频实验室。

  • AI日报:GPT-5正式发布;百度将推文心5.0大模型;知网发布AIKBase V2.0多模态数据管理系统

    《AI日报》精选AI领域最新动态:1)OpenAI发布GPT-5模型,具备强大多模态能力但推理任务仍有局限;2)知网推出AIKBase V2.0多模态数据管理系统;3)Ideogram新增"角色"功能实现图像风格统一;4)Cursor发布CLI版本支持终端AI编程;5)百度即将推出全新推理模型和文心5.0大模型;6)dots.ocr推出1.7B参数多语言文档解析工具;7)特斯拉解散Dojo超算团队转向英伟达合作;8)谷歌Pixel 10引入AI相�

  • AI日报:混元推四款小尺寸开源模型;昆仑万维发布新推理大模型MindLink;谷歌Gemini 2.5 Deep Think发布

    【AI日报】汇总了最新AI领域动态:1)腾讯开源混元系列小尺寸模型,适用于消费级显卡;2)昆仑万维发布推理大模型MindLink,提升回答透明度;3)B站推出AI原声翻译功能,保留UP主音色;4)谷歌Gemini 2.5在数学奥赛夺金,展现强大推理能力;5)OpenAI展示GPT-5网络信息整合特性;6)苹果组建AI团队挑战ChatGPT;7)高德地图推出全球首个AI原生地图应用;8)Adobe推出AI图像合成工具Harmonize;9)NVIDIA发布革命性视频渲染技术;10)谷歌推出Android Studio免费AI编程助手;11)开源结构化信息提取工具LangExtract;12)Figma开发者模式升级提升设计转代码效率。

  • 中国高端烟机跑出一匹黑马

    在消费升级趋势下,高端烟机市场迎来变革。消费者不再满足于单一排烟功能,更追求集性能、设计、智能交互与健康环保于一体的产品。卡萨帝致境烟机凭借技术创新,突破行业"减薄机身必降吸力"的痛点,实现325mm超薄机身同时保持强劲吸力,并搭载智慧恒风系统和AI智能调节功能。618期间,该产品在天猫、京东5000元以上高端市场占有率分别达49.8%和68%,连续3个月稳居销量榜首。其成功为行业注入新活力,推动高端厨电市场良性竞争发展。

  • 能跑山也能拉货的越野皮卡?上汽大通星际皮卡越野真顶!

    越野皮卡到底是买来玩的,还是干活的?很多人刚开始买车的时候,脑子里只有“外观硬朗、四驱通过性好”这些关键词,但真开上车,跑过几趟泥地、走过几段山路,才知道——越野不只是上个山、过个坎,更是你能不能把货拉走、设备拖稳、农忙赶上的关键。尤其是现在干果园、牧场、山地运输的活多得很,一台靠得住的越野皮卡,就是你下地上山、装货拉料的得力伙伴。�

  • AI日报:火山引擎发布豆包3.0;通义开源Qwen3非思考模型;谷歌偷偷升级Imagen 4

    【AI日报】栏目聚焦人工智能领域最新动态:1)火山引擎发布豆包系列AI模型升级,包括图像编辑3.0、同声传译2.0等;2)通义千问开源Qwen3-30B模型,支持多语言处理;3)OpenAI推出ChatGPT Study学习助手;4)中国发布HYPIR图像复原大模型;5)谷歌NotebookLM新增视频概览功能;6)谷歌Imagen4图像生成模型升级,性能媲美GPT-4o;7)昆仑万维开源多模态模型Skywork UniPic;8)理想汽车发布首搭VLA大模型的i8纯电SUV;9)谷歌在英国推出AI搜索模式;10)OWL团队开源多智能体协作工具;11)2025年用户增速最快APP榜单显示DeepSeek等AIGC应用表现突出。

  • AI日报:腾讯混元开源Hunyuan-GameCraft;最强图像编辑器nano-banana发布;字节开源Agent专用模型 M3-Agent-Control

    本文介绍了AI领域最新动态:1)腾讯开源Hunyuan-GameCraft框架,可快速生成高质量游戏视频;2)Nano-Banana模型在图像编辑领域超越FLUX+Kontext;3)字节开源基于Qwen 3 32B的328亿参数M3-Agent-Control模型;4)Kimi将推出PPT生成功能;5)阿里1688将上线"诚信通AI版"会员服务;6)苹果智能家居中心推迟至2026年发布;7)万兴科技接入GPT-5;8)全球AI独角兽达498家,总估值2.7万亿美元;9)谷歌为Slides和

  • 汉数科技重磅发布「太擎3.0」丨开启人与 AI 的协作时代

    8月15日,汉数科技在广州发布"太擎3.0"AI协作平台,标志着企业数字化转型进入新阶段。该平台通过AI数字员工实现人机高效协作,覆盖销售、服务、管理三大核心场景。创始人陈开旺详解平台迭代路径:1.0版本构建AI技术底座,2.0版本推出智能体手机实现场景化应用,3.0版本创新性引入"仿生级AI智能体"技术,为企业提供具备岗位能力的数字员工。平台能降低中小

  • AI 大模型选型指南:如何在众多模型中找到最适合你的那一个?

    本文探讨了如何从众多AI大模型中选择最适合自身需求的模型。文章提出应从四个核心维度进行评估:1)核心能力对比,包括通用任务表现和特定领域专长;2)成本与效率,考量API调用成本和响应速度;3)本地化与数据安全,满足合规要求;4)生态与社区支持,关注开发者活跃度和文档完善度。为解决模型对比难题,推荐使用专业平台如AIbase模型广场,可一站式对比主流模型的多维参数和评测数据。通过系统化评估,开发者能更高效地选择契合业务需求的AI模型。

今日大家都在搜的词: