谷歌发布全新视觉语言模型 PaliGemma 2 Mix 集成多种功能助力开发者

2025-02-20 11:37 · 来源： AIbase基地

近日，谷歌宣布推出一款全新的视觉 - 语言模型（Vision-Language Model， VLM），名为 PaliGemma2Mix。这款模型融合了图像处理与自然语言处理的能力，能够同时理解视觉信息和文本输入，并根据需求生成相应的输出，标志着人工智能技术在多任务处理方面的进一步突破。

PaliGemma2Mix 的功能非常强大，它集成了图像描述、光学字符识别（OCR）、图像问答、目标检测和图像分割等多种视觉 - 语言任务，适用于多种应用场景。开发者可以通过预训练检查点(checkpoints)直接使用这款模型，或根据自己的需求进行进一步微调。

该模型是基于先前的 PaliGemma2进行优化而来，专门针对混合任务进行了调整，旨在让开发者轻松探索其强大的能力。PaliGemma2Mix 提供三种参数规模供开发者选择，包括3B（30亿参数）、10B(100亿参数)和28B(280亿参数)，并支持224px 和448px 两种分辨率，适应不同计算资源和任务需求。

PaliGemma2Mix 的主要功能亮点包括:

1. 图像描述:模型能够生成短篇和长篇的图像说明，例如识别一张牛站在海滩上的图片并提供详细描述。

2. 光学字符识别（OCR）:该模型可以从图像中提取文字，识别标志、标签及文档内容，为信息提取提供便利。

3. 图像问答与目标检测:用户可通过上传图片并提出问题，模型会分析图片并给出答案，此外，它还能准确识别图像中的特定对象，如动物、车辆等。

值得一提的是，开发者可以在 Kaggle 和 Hugging Face 上下载这款模型的混合权重，便于进行进一步的实验与开发。如果你对这款模型感兴趣，可以通过 Hugging Face 的演示平台进行探索，了解其强大的能力与应用潜力。

随着 PaliGemma2Mix 的推出，谷歌在视觉 - 语言模型领域的研究又向前迈进了一步，期待这项技术能够在实际应用中展现更大的价值。

技术报告:https://arxiv.org/abs/2412.03555

相关推荐

小米发布MIX Flip 2钻石限定版雷军：小米手机设计师是不是进步很快

今日，小米发布小米MIX Flip 2钻石限定版，售价6999元。新机发布后，小米CEO雷军在微博晒出新机海报，并询问大家：小米手机设计师们是不是进步很快？” 据了解，钻石限定版有两款七夕配色车厘子红、冰川白，手机背面装配金属质感铭牌，中框镶嵌一颗丘比特切工培育钻石，通过NGTC国家珠宝玉石质量检验检测中心认证。

小米MIX Flip 2
小米MIX Flip 2钻石限定版发布：售价6999元

随着七夕情人节的临近，小米今日特别推出小米MIX Flip2钻石限定版手机，为节日增添一抹奢华与浪漫。这款定制机型将于今日10点正式开售，仅提供12GB+512GB版本，售价为6999元，相较于普通版同规格机型仅贵了500元。小米MIX Flip2钻石限定版在外观设计上独具匠心，共有车厘子红、冰川白两款七夕专属配色。其中，中框镶嵌了经过NGTC国家珠宝玉石质量检验检测中心认证的丘比特�

七夕情人节小米MIX Flip2
自研遇阻！苹果考虑用谷歌Gemini升级Siri

苹果正与谷歌就使用Gemini AI引擎为新一代Siri提供技术支持进行初步谈判，这一动向表明苹果可能进一步将人工智能能力外包，成为其AI战略的关键一步。据知情人士透露，这家iPhone制造商近期已与Alphabet旗下谷歌接触，商讨合作构建一款定制化AI模型，以用于明年预计推出的新版本Siri。谷歌目前已开始训练一款可在苹果服务器上运行的模型。苹果在生成式人工智能领域起步�

苹果谷歌 Siri
第二届脑机接口（技术）开发者大会在成都举办！

第二届脑机接口开发者大会于2025年8月16日在成都锦江举办，由姬动机科技集团发起，成都锦江科技局支持。大会聚焦脑机接口与类脑智能技术，邀请麻省理工、清华、北大等知名院校专家分享前沿进展，涵盖侵入式芯片设计、神经健康监测、康复应用等主题。会议发布了《脑机接口技术手册》及产业协同框架，推动技术标准化与跨领域合作，吸引近千人参与，展示脑机接口在医疗和科研领域的突破与应用前景。

脑机接口开发者大会类脑智能
别再猜了！手把手教你用数据选择AI模型，我的Gemini 2.5 Flash-Lite vs DeepSeek选型心得

开发者分享模型选择心路历程：从盲目试错到数据驱动。曾因追求低价模型导致成本飙升，后通过AIbase平台对比Gemini 2.5 Flash-Lite和DeepSeek-V3，基于价格、上下文长度和代码能力等数据，最终选择更适合代码生成任务的DeepSeek-V3。强调没有“最好”的模型，只有“最适合”的模型，建议开发者善用专业工具进行数据驱动决策，避免隐性成本。
荐AI日报：智谱AI发布AutoGLM 2.0；腾讯元宝接入腾讯视频；字节发布开源大语言模型 Seed-OSS

本期AI日报聚焦多项AI技术突破：智谱发布革命性语音代理AutoGLM 2.0，实现全平台语音操控；腾讯元宝接入视频平台提升观影便捷性；字节跳动开源大模型Seed-OSS专注长文本处理；速卖通AI代理助力新品推广效率翻倍；微软测试Copilot智能文件搜索功能；Liquid AI推出低延迟视觉语言模型LFM2-VL；OpenAI月收入首破10亿美元；谷歌Pixel 10系列全面升级AI功能，包括情感识别和实时翻译；Pixel Buds Pro 2引入AI手势控制；ElevenLabs发布支持70+语言的文本转语音API。

AI产品 AutoGLM 2.0
Gemini 2.5 Flash-Lite与 DeepSeek-V3 深度对比：谁在性价比上更胜一筹？

面对琳琅满目的大模型API，开发团队常陷入选择困境。文章指出，2024年既是机遇也是挑战的时代，闭源模型选择丰富但性能与成本平衡复杂。通过AIbase等数据驱动平台进行客观对比至关重要。以Gemini 2.5 Flash-Lite和DeepSeek-V3为例，前者综合能力强适合多语言场景，后者在代码生成和成本控制上优势明显。建议开发者明确需求，通过实际测试验证模型表现，理性选择最适合的方案。

大模型API 模型选型 AI开发
谷歌透露Gemini每次回答消耗能量：相当于微波炉运行1秒钟

近日，谷歌发布了一份技术报告，详细说明了其Gemini大模型在每次查询中消耗的能源量。据谷歌介绍，这是迄今为止大型人工智能公司发布的最透明估算，也是研究人员期待已久的报告。报告称，Gemini应用的文字回答平均每次消耗0.24瓦特小时（Wh）的能量，大约相当于运行微波炉一秒钟，并排放0.03克二氧化碳当量。据此前媒体报道，谷歌近日发布Gemini系列最轻量版本Gemma 3

谷歌 Gemini大模型能源消耗
荐AI日报：可灵2.1推出全新首尾帧功能；昆仑万维上线AI音乐模型Mureka V7.5；腾讯云推出AI开发工具CloudBase AI CLI

本文介绍了AI领域最新动态：1)快手可灵2.1推出首尾帧功能，提升视频生成效果；2)昆仑万维发布Mureka V7.5音乐模型，优化人声表现；3)腾讯云推出AI开发工具CloudBase AI CLI，可减少80%编码量；4)海外新品MuleRun通过虚拟机和AI Agent带来创新游戏体验；5)Meta开源DINOv3视觉模型，无需标注即可实现卓越性能；6)宇树科技人形机器人H1获1500米赛跑金牌；7)谷歌Gemini新增记忆功能和隐私聊天模式；8)香港大学开源OpenCUA框架，打造个性化电脑助手；9)OpenAI考虑在ChatGPT引入广告；10)谷歌发布超小型开源模型Gemma 3 270M，支持手机端运行。

AI日报快手可灵视频生成
AI大模型选型决策指南：10分钟数据对比 Gemini 2.5 Flash-Lite 与 DeepSeek R1

本文探讨大模型选型困境与解决方案。2025年全球可调用大模型超300个，但选型面临三大难题：单位混乱、定价波动快、87%团队无法量化模型价值。提出三层漏斗筛选法：1)场景刚需筛选80%选项；2)验证核心性能；3)评估边际效益。以Gemini和DeepSeek为例，前者适合常规FAQ场景年省$16,000，后者适用于金融计算场景可降低15%人工复核。建议建立动态评估体系，将3小时选型会议压缩至18分钟，错误率下降40%。核心观点：选型应从参数争论转向场景验证，通过自动化工具为工程师节省时间，聚焦提示词优化而非参数对比。

文章搜索核心标签模型适配

今日大家都在搜的词：

热文

3 天
7天

谷歌发布全新视觉语言模型 PaliGemma 2 Mix 集成多种功能助力开发者

小米发布MIX Flip 2钻石限定版雷军：小米手机设计师是不是进步很快

小米MIX Flip 2钻石限定版发布：售价6999元

自研遇阻！苹果考虑用谷歌Gemini升级Siri

第二届脑机接口（技术）开发者大会在成都举办！

别再猜了！手把手教你用数据选择AI模型，我的Gemini 2.5 Flash-Lite vs DeepSeek选型心得

荐AI日报：智谱AI发布AutoGLM 2.0；腾讯元宝接入腾讯视频；字节发布开源大语言模型 Seed-OSS

Gemini 2.5 Flash-Lite与 DeepSeek-V3 深度对比：谁在性价比上更胜一筹？

谷歌透露Gemini每次回答消耗能量：相当于微波炉运行1秒钟

荐AI日报：可灵2.1推出全新首尾帧功能；昆仑万维上线AI音乐模型Mureka V7.5；腾讯云推出AI开发工具CloudBase AI CLI

AI大模型选型决策指南：10分钟数据对比 Gemini 2.5 Flash-Lite 与 DeepSeek R1

今日大家都在搜的词：

热文

AI日报：钉钉十周年发布8.0版本；微信悄悄上线AI播客；阿里开源

iPhone17Pro爆料汇总：橙色版本成最大亮点或迎12项升级

20周年版iPhone或成苹果首款曲面机：一体环绕玻璃+曲面机身

24. 98 万起标配华为ADS 4！鸿蒙智行智界 R7 车型上市

罗永浩播客节目爆火：24小时播放量超2000万晒成绩单求合作

vivo Y500定档9月1日发布配备8200mAh巨无霸电池

字节跳动回应即将发布AI眼镜：早期探索阶段没有发布计划

美团回应网友质疑退款未到账：已修复信息滞后每笔退款可追溯

AI日报：Wan 2.2-S2V模型即将发布；字节跳动内测3D Model Ge

华为鸿蒙智行新款智界 S7 车型上市：：售价22.98万起

罗永浩泡面1小时销售额超280万 2小时售罄：一桶近10元

AI日报：钉钉十周年发布8.0版本；微信悄悄上线AI播客；阿里开源

AI日报：即梦上线智能多帧功能；可灵2.1首尾帧升级；钉钉推语音

iPhone17Pro爆料汇总：橙色版本成最大亮点或迎12项升级

20周年版iPhone或成苹果首款曲面机：一体环绕玻璃+曲面机身

李国庆婚礼收到11万余元善款受助学生寄来祝福

24. 98 万起标配华为ADS 4！鸿蒙智行智界 R7 车型上市

REDMI Note 15标准版发布：售价999元起

罗永浩播客节目爆火：24小时播放量超2000万晒成绩单求合作

vivo Y500定档9月1日发布配备8200mAh巨无霸电池

站长商机