首页 > 业界 > 关键词  > 谷歌最新资讯  > 正文

谷歌发布开源视觉语言模型PaliGemma 支持多视觉语言任务

2024-05-17 11:04 · 稿源:站长之家

站长之家(ChinaZ.com)5月17日 消息:谷歌推出了一款名为PaliGemma的开源视觉语言模型,该模型结合了图像处理和语言理解的能力,旨在支持多种视觉语言任务,如图像和短视频字幕生成、视觉问答、图像文本理解、物体检测、文件图表解读以及图像分割等。

QQ截图20240517110425.png

PaliGemma的关键特点:

  • 多任务支持:PaliGemma能够处理多种视觉语言相关的任务,提供广泛的应用场景。

  • 参数规模:该模型包含30亿(3B)个参数,是一个大型的多模态模型。

  • 模型架构:PaliGemma结合了SigLiP视觉编码器和Gemma语言模型,分别负责处理图像和文本输入。

QQ截图20240517110414.png

SigLiP视觉编码器:

负责处理图像输入,将视觉信息编码为模型能够理解的格式。

Gemma语言模型:

负责处理文本输入,并生成输出,将图像内容与语言任务结合起来。

PaliGemma的发布是谷歌在AI领域的又一项重要贡献,它不仅推动了视觉语言理解技术的发展,也为研究人员和开发者提供了强大的工具,以探索和创造新的应用。开源的特性意味着PaliGemma可以被社区广泛地使用、改进和集成到各种产品和服务中。

模型地址:https://huggingface.co/blog/paligemma

举报

  • 相关推荐
  • Reviews.ai 依托 DigitalOcean 高效实现 AI 业务扩展

    Reviews.ai是一个消费者反馈聚合平台,帮助品牌将客户评论转化为可执行的洞察。该平台专注于评论分析,通过AI驱动功能(如按需报告、主题分类和智能代理)提升产品与服务。近期从Review Monitor更名后,团队迁移至DigitalOcean云平台,解决了原有专用服务器架构的扩展瓶颈。迁移过程在合作伙伴Aquazeel支持下高效完成,仅用数周,成本降低近30%。新架构采用Droplets、托管数据库和负载均衡器,支持灵活扩展。未来计划利用GPU Droplets增强AI能力,进一步优化大型语言模型处理效率。

  • 卢伟冰:小米17全球首发骁龙8 Elite Gen5

    9月25日,高通公司发布全球最快移动SoC——骁龙8 Elite Gen5。该芯片采用第三代Oryon核心,配备2+6 CPU集群架构,超大核频率达4.6GHz,性能提升20%,GPU图形性能提升23%,NPU性能提升37%。小米宣布成为全球首发合作伙伴,全新小米17系列将搭载该平台,凭借卓越性能与AI技术,打造史上最强影像旗舰体验。此外,该平台首次支持专业级视频编解码器(APV),助力创作者实现专业视频制作。

  • GEO排名查询工具推荐:搞定GEO搜索优化,让品牌AI可见度更清晰

    随着AI平台成为用户获取信息的重要入口,品牌在AI推荐中的曝光度直接影响用户触达。文章提出GEO(生成引擎优化)概念,强调其相比传统SEO更关注AI平台的推荐权重。AIBase推出的GEO排名查询工具可帮助品牌方检测在主流AI平台(如豆包、DeepSeek等)的曝光情况,通过选择平台、输入测试问题及品牌关键词,快速获取推荐率、曝光次数等关键指标。该工具适用于品牌营销、SEO优化及研究机构,为提升AI场景品牌可见度提供数据支持。

  • 3299元起 华为MatePad mini悦读版开售 能打电话的小平板

    华为MatePad Mini悦读版今日开售,提供常规屏和柔光屏两个版本,售价3299元起,仅限华为体验店等线下渠道销售。相比标准版,该版本不支持北斗卫星功能,芯片从麒麟9010降至9010B,核心数减少,USB接口从3.0降为2.0,但其他参数如屏幕尺寸、电池、摄像头等保持一致。亮点包括8.8英寸柔性OLED全面屏、1800nits峰值亮度,柔光屏版售价3799元,采用创新光学膜材降低闪烁干扰,并通过德国莱茵与SGS护眼认证。此外,该平板支持通话与蜂窝网络,可插卡使用,配备听筒及智能来电识别功能,前置3200万像素、后置5000万像素主摄,内置6400mAh电池并支持66W快充。

  • 华为FreeClip 2耳夹耳机发布:搭载自研NPU AI处理器 1299元

    华为于9月24日正式发布全新FreeClip 2耳夹式耳机,售价1299元,10月14日开启预售,10月20日正式上市。耳机主打独特设计、卓越性能与丰富功能,提供丹宁蓝、摩登黑、羽纱白三色可选。充电盒采用玲珑方盒设计,体积缩小17%,耳机本体重量减轻9%至5.1克,佩戴更轻盈舒适。搭载华为自研第三代音频芯片,首款集成NPU+AI处理器,算力提升10倍,支持超澎湃双擎单元,音质与低频动力均提升100%。具备IP57级防尘抗水抗汗能力,支持左右耳自适应技术,无需区分左右耳即可佩戴。AI功能方面,支持鸿蒙AI耳边助手,可实现随唤随应、连续对话等便捷操作,并具备实时听译功能,支持中文与20种语言互译。续航方面,单耳续航达9小时,整机续航长达38小时,满足长时间使用需求。此外,耳机还支持离线查找与楼层定位功能,充电盒新增近距离星闪精准查找,50米内轻松找回耳机。

  • AI排名监控工具实战指南:如何用GEO排名查询提升品牌AI搜索可见度

    随着ChatGPT等AI搜索引擎普及,传统SEO正经历深刻变革。文章指出,超60%用户开始使用AI搜索,而AI直接给出答案而非展示链接,导致品牌面临可见度危机。为此提出GEO(生成引擎优化)概念,强调需通过专业工具监测AI排名,并推荐AIBase平台的多平台覆盖、真实场景模拟和竞品分析功能。最后给出四步优化流程:建立监测基准、分析排名差异、针对性内容优化、持续迭代,帮助品牌在AI时代建立竞争优势。

  • AI排名监控工具实战必备:掌握GEO优化效果,提升品牌AI搜索排名

    随着AI大模型和智能搜索的快速发展,用户搜索习惯正从传统搜索引擎转向直接向AI平台提问。品牌能否被AI“推荐”已成为新的竞争力。AIBase推出的GEO排名查询工具,专为监测品牌在AI对话中的曝光率、推荐次数及呈现方式而设计。它支持多平台同步检测,提供可视化数据分析和历史记录对比,帮助团队优化AI搜索排名。该工具不仅统计曝光量,还能还原AI对话细节,为品牌形象提升提供数据支持,是布局AI流量的重要利器。

  • GEO排名查询工具推荐:霸屏AI大模型答案的核心方法,做好AI大模型排名优化

    随着AI大模型成为用户获取信息的主要入口,AIBase推出GEO排名查询工具,帮助品牌监测在豆包、DeepSeek、文心一言等主流AI平台中的曝光情况。该工具支持多平台检测、关键词追踪、可视化数据展示,可精准分析品牌是否被推荐、出现频次及具体场景,为制定AI大模型排名优化策略提供数据支撑。在GEO时代,抢占AI回答推荐位意味着获得全新流量入口。

  • 安卓性能标杆!一加15官宣:首批搭载高通骁龙8 Elite Gen5

    9月25日,高通发布骁龙8+ Elite Gen5旗舰平台,OPPO将首发搭载该芯片的一加15系列。该芯片采用第三代Oryon CPU,性能提升20%,超大核主频达4.6GHz;Adreno GPU图形性能提升23%,支持高帧率游戏;Hexagon NPU性能提升37%,支持个性化AI助手与跨应用智能推荐。一加称其将重新定义Android性能标杆,为用户带来前所未有的旗舰体验,并推动移动平台进入165帧超高清时代。

  • AI日报:阿里推多模态模型Qwen3-Omni;谷歌推出AP2协议;百度推出Qianfan-VL 模型

    本期AI日报聚焦多领域技术突破:阿里云推出全球首个全模态AI模型Qwen3-Omni,支持文本、图像、音频和视频统一处理;百度发布多尺寸视觉理解模型Qianfan-VL,优化企业级应用。苹果扩展Image Playground平台,引入ChatGPT等第三方模型。谷歌与PayPal合作推出AP2协议,推动AI支付安全创新。钉钉上线AI表格助手,支持自然语言生成表格。DeepSeek开源V3.1-Terminus模型,性能显著提升。Kimi推出Agent会员服务,智元机器人开源全球首个通用具身智能模型GO-1,降低技术门槛促进行业创新。

今日大家都在搜的词: