首页 > AI头条  > 正文

谷歌发布全新视觉语言模型 PaliGemma 2 Mix 集成多种功能助力开发者

2025-02-20 11:37 · 来源: AIbase基地

近日,谷歌宣布推出一款全新的视觉 - 语言模型(Vision-Language Model, VLM),名为 PaliGemma2Mix。这款模型融合了图像处理与自然语言处理的能力,能够同时理解视觉信息和文本输入,并根据需求生成相应的输出,标志着人工智能技术在多任务处理方面的进一步突破。

PaliGemma2Mix 的功能非常强大,它集成了图像描述、光学字符识别(OCR)、图像问答、目标检测和图像分割等多种视觉 - 语言任务,适用于多种应用场景。开发者可以通过预训练检查点(checkpoints)直接使用这款模型,或根据自己的需求进行进一步微调。

image.png

该模型是基于先前的 PaliGemma2进行优化而来,专门针对混合任务进行了调整,旨在让开发者轻松探索其强大的能力。PaliGemma2Mix 提供三种参数规模供开发者选择,包括3B(30亿参数)、10B(100亿参数)和28B(280亿参数),并支持224px 和448px 两种分辨率,适应不同计算资源和任务需求。

PaliGemma2Mix 的主要功能亮点包括:

1. 图像描述:模型能够生成短篇和长篇的图像说明,例如识别一张牛站在海滩上的图片并提供详细描述。

2. 光学字符识别(OCR):该模型可以从图像中提取文字,识别标志、标签及文档内容,为信息提取提供便利。

3. 图像问答与目标检测:用户可通过上传图片并提出问题,模型会分析图片并给出答案,此外,它还能准确识别图像中的特定对象,如动物、车辆等。

值得一提的是,开发者可以在 Kaggle 和 Hugging Face 上下载这款模型的混合权重,便于进行进一步的实验与开发。如果你对这款模型感兴趣,可以通过 Hugging Face 的演示平台进行探索,了解其强大的能力与应用潜力。

随着 PaliGemma2Mix 的推出,谷歌在视觉 - 语言模型领域的研究又向前迈进了一步,期待这项技术能够在实际应用中展现更大的价值。

技术报告:https://arxiv.org/abs/2412.03555

  • 相关推荐
  • 小米发布MIX Flip 2钻石限定版 雷军:小米手机设计师是不是进步很快

    今日,小米发布小米MIX Flip 2钻石限定版,售价6999元。 新机发布后,小米CEO雷军在微博晒出新机海报,并询问大家:小米手机设计师们是不是进步很快?” 据了解,钻石限定版有两款七夕配色车厘子红、冰川白,手机背面装配金属质感铭牌,中框镶嵌一颗丘比特切工培育钻石,通过NGTC国家珠宝玉石质量检验检测中心认证。

  • 小米MIX Flip 2钻石限定版发布:售价6999元

    随着七夕情人节的临近,小米今日特别推出小米MIX Flip2钻石限定版手机,为节日增添一抹奢华与浪漫。这款定制机型将于今日10点正式开售,仅提供12GB+512GB版本,售价为6999元,相较于普通版同规格机型仅贵了500元。 小米MIX Flip2钻石限定版在外观设计上独具匠心,共有车厘子红、冰川白两款七夕专属配色。其中,中框镶嵌了经过NGTC国家珠宝玉石质量检验检测中心认证的丘比特�

  • 自研遇阻!苹果考虑用谷歌Gemini升级Siri

    苹果正与谷歌就使用Gemini AI引擎为新一代Siri提供技术支持进行初步谈判,这一动向表明苹果可能进一步将人工智能能力外包,成为其AI战略的关键一步。 据知情人士透露,这家iPhone制造商近期已与Alphabet旗下谷歌接触,商讨合作构建一款定制化AI模型,以用于明年预计推出的新版本Siri。 谷歌目前已开始训练一款可在苹果服务器上运行的模型。苹果在生成式人工智能领域起步�

  • 第二届脑机接口(技术)开发者大会在成都举办!

    第二届脑机接口开发者大会于2025年8月16日在成都锦江举办,由姬动机科技集团发起,成都锦江科技局支持。大会聚焦脑机接口与类脑智能技术,邀请麻省理工、清华、北大等知名院校专家分享前沿进展,涵盖侵入式芯片设计、神经健康监测、康复应用等主题。会议发布了《脑机接口技术手册》及产业协同框架,推动技术标准化与跨领域合作,吸引近千人参与,展示脑机接口在医疗和科研领域的突破与应用前景。

  • 别再猜了!手把手教你用数据选择AI模型,我的Gemini 2.5 Flash-Lite vs DeepSeek选型心得

    开发者分享模型选择心路历程:从盲目试错到数据驱动。曾因追求低价模型导致成本飙升,后通过AIbase平台对比Gemini 2.5 Flash-Lite和DeepSeek-V3,基于价格、上下文长度和代码能力等数据,最终选择更适合代码生成任务的DeepSeek-V3。强调没有“最好”的模型,只有“最适合”的模型,建议开发者善用专业工具进行数据驱动决策,避免隐性成本。

  • AI日报:智谱AI发布AutoGLM 2.0;腾讯元宝接入腾讯视频;字节发布开源大语言模型 Seed-OSS

    本期AI日报聚焦多项AI技术突破:智谱发布革命性语音代理AutoGLM 2.0,实现全平台语音操控;腾讯元宝接入视频平台提升观影便捷性;字节跳动开源大模型Seed-OSS专注长文本处理;速卖通AI代理助力新品推广效率翻倍;微软测试Copilot智能文件搜索功能;Liquid AI推出低延迟视觉语言模型LFM2-VL;OpenAI月收入首破10亿美元;谷歌Pixel 10系列全面升级AI功能,包括情感识别和实时翻译;Pixel Buds Pro 2引入AI手势控制;ElevenLabs发布支持70+语言的文本转语音API。

  • Gemini 2.5 Flash-Lite与 DeepSeek-V3 深度对比:谁在性价比上更胜一筹?

    面对琳琅满目的大模型API,开发团队常陷入选择困境。文章指出,2024年既是机遇也是挑战的时代,闭源模型选择丰富但性能与成本平衡复杂。通过AIbase等数据驱动平台进行客观对比至关重要。以Gemini 2.5 Flash-Lite和DeepSeek-V3为例,前者综合能力强适合多语言场景,后者在代码生成和成本控制上优势明显。建议开发者明确需求,通过实际测试验证模型表现,理性选择最适合的方案。

  • 谷歌透露Gemini每次回答消耗能量:相当于微波炉运行1秒钟

    近日,谷歌发布了一份技术报告,详细说明了其Gemini大模型在每次查询中消耗的能源量。 据谷歌介绍,这是迄今为止大型人工智能公司发布的最透明估算,也是研究人员期待已久的报告。 报告称,Gemini应用的文字回答平均每次消耗0.24瓦特小时(Wh)的能量,大约相当于运行微波炉一秒钟,并排放0.03克二氧化碳当量。 据此前媒体报道,谷歌近日发布Gemini系列最轻量版本Gemma 3

  • AI日报:可灵2.1推出全新首尾帧功能;昆仑万维上线AI音乐模型Mureka V7.5;腾讯云推出AI开发工具CloudBase AI CLI

    本文介绍了AI领域最新动态:1)快手可灵2.1推出首尾帧功能,提升视频生成效果;2)昆仑万维发布Mureka V7.5音乐模型,优化人声表现;3)腾讯云推出AI开发工具CloudBase AI CLI,可减少80%编码量;4)海外新品MuleRun通过虚拟机和AI Agent带来创新游戏体验;5)Meta开源DINOv3视觉模型,无需标注即可实现卓越性能;6)宇树科技人形机器人H1获1500米赛跑金牌;7)谷歌Gemini新增记忆功能和隐私聊天模式;8)香港大学开源OpenCUA框架,打造个性化电脑助手;9)OpenAI考虑在ChatGPT引入广告;10)谷歌发布超小型开源模型Gemma 3 270M,支持手机端运行。

  • AI大模型选型决策指南:10分钟数据对比 Gemini 2.5 Flash-Lite 与 DeepSeek R1

    本文探讨大模型选型困境与解决方案。2025年全球可调用大模型超300个,但选型面临三大难题:单位混乱、定价波动快、87%团队无法量化模型价值。提出三层漏斗筛选法:1)场景刚需筛选80%选项;2)验证核心性能;3)评估边际效益。以Gemini和DeepSeek为例,前者适合常规FAQ场景年省$16,000,后者适用于金融计算场景可降低15%人工复核。建议建立动态评估体系,将3小时选型会议压缩至18分钟,错误率下降40%。核心观点:选型应从参数争论转向场景验证,通过自动化工具为工程师节省时间,聚焦提示词优化而非参数对比。

今日大家都在搜的词:

热文

  • 3 天
  • 7天