谷歌发布PaLI-3视觉语言模型小体量达到SOTA！

2023-10-27 08:58 · 稿源：站长之家

要点:
1. 谷歌发布了一款名为PaLI-3的视觉语言模型，它在更小的体量、更快的推理速度下取得了更强的性能，在多个任务中达到了SOTA水平。
2. PaLI-3采用了对比预训练方法，深度探索了VIT的潜力，并在多语言模态检索中表现出卓越性能，凸显了其在定位和文本理解任务中的优越性。
3. 这款模型的成功突显了较小规模模型在实际应用和高效研究中的价值，提供了强大的性能和1/10参数的替代方案，有望改变视觉语言领域的发展。

站长之家（ChinaZ.com）10月27日消息:谷歌最新发布的PaLI-3视觉语言模型（PaLI-3）在小体量下实现了SOTA性能，引起广泛关注。这款模型以更小的体量和更快的推理速度实现更强大的性能，是谷歌去年推出的多模态大模型PaLI的升级版。

通过对比预训练方法，研究人员深入研究了视觉-文本（VIT）模型的潜力，从而在多语言模态检索中达到了SOTA水平。这一成功凸显了较小规模模型在实际应用和高效研究中的重要性，提供了强大性能和低参数需求的替代方案，有望推动视觉语言领域的发展。

论文地址:https://arxiv.org/pdf/2310.09199.pdf

视觉语言模型在人工智能领域发挥着重要作用，PaLI-3将自然语言理解和图像识别完美融合，成为AI创新的先锋。与其他模型如OpenAI的CLIP和Google的BigGAN类似，这些具有文本描述和图像解码能力的模型推动了计算机视觉、内容生成和人机交互等领域的发展，成为科学研究和商业发展的核心力量。

PaLI-3的内部结构采用了预训练的VIT-G14作为图像编码器，并使用SigLIP的训练方法，其中VIT-G14的20亿参数是PaLI-3的基石。对比预训练在图像和文本嵌入后关联特征层面，将视觉和文本特征合并后输入到30亿参数的UL2编码-解码器语言模型中，实现了精确的文本生成，也可用于特征任务的查询提升，如视觉问答（VQA）。

总的来说，PaLI-3在视觉语言模型领域表现出色，特别在定位和视觉文本理解等任务中取得了卓越的性能。它的基于SigLIP的对比预训练方法开辟了多语言跨模态检索的新时代。这一模型在多个任务和数据集上都展现出杰出表现，为视觉语言领域的研究和应用带来了新的可能性。

虽然PaLI-3尚未完全开源，但已发布了多语言和英文SigLIP Base、Large和So400M模型，为感兴趣的研究人员提供了尝试的机会。这一创新有望影响视觉语言模型的未来发展方向，提供更高效的解决方案。

（举报）

相关推荐

关键词：

从繁琐交互中解放 AI赋能的三星Galaxy Z Flip7带来高效便捷体验

三星Galaxy Z Flip7以纵向折叠形态结合AI技术，打造便捷交互体验。其4.1英寸智能外屏可显示音乐、导航等信息，支持语音唤醒Bixby实现快速查询。内置AI功能涵盖即时翻译、智能收藏及内容创作辅助，如自动规划旅行路线、跨应用翻译和文档编辑。通过深度理解用户需求，这款设备以小巧机身承载智慧科技，提升生活效率与品质。

小折叠机型 AI手机三星Galaxy
颠覆Diffusion局限！Utopai双模型耦合架构，攻克AI影视长叙事核心难题

Utopai Studios推出专为影视制作设计的AI模型与工作流，区别于主流视频生成模型，其核心能力在于理解剧本、规划镜头及生成场景，通过自回归模型负责叙事规划与一致性约束，扩散模型专注高质量画面渲染。该系统能解决跨镜头元素漂移难题，提升制作效率与作品品质。目前工作流仅用于公司自有项目，强调AI作为创作者协作者的角色，并遵循行业道德与版权规范。

AI影视制作 Utopai Studios
荐AI日报：阿里千问APP公测；Veo 3.1上线多图参考；超级小爱AI大模型“随心修图”上线

本期AI日报聚焦多项技术突破：阿里千问APP公测，基于Qwen3模型对标ChatGPT；谷歌Veo 3.1支持三图融合生成8秒视频；小米推出"随心修图"功能与7B多模态模型Miloco；谷歌Flow集成Nano Banana模型实现智能抠图；多模态AI工具DeepEyesV2可执行代码与网络搜索；NotebookLM升级支持图像导入检索；JetBrains推出DPAI Arena测试编码AI性能。全球AI竞争持续升温，产品迭代加速。

AI 阿里巴巴千问APP
PayInOne携智能AI招聘产品Foundire亮相进博会，创新科技步履不停

第八届中国国际进口博览会于2025年11月5日至10日在上海成功举办。全球招聘与薪酬管理平台PayInOne在服务贸易展区亮相，重点展示其AI驱动的智能招聘平台Foundire，该平台通过人才画像匹配、自动化筛选及智能评估体系，显著提升跨境招聘效率与精准度。CEO林坦在专题演讲中强调AI技术正推动用工模式变革，助力企业实现全球化高效合规管理。展会期间，PayInOne联合多家生态伙伴举办多场活动，探讨企业出海机遇，并与政府、企业界嘉宾深入交流，巩固了其在全球人力资源服务领域的行业领导地位。

智能招聘薪酬支付跨境用工合规
余承东官宣华为MatePad Edge：鸿蒙二合一平板电脑

今日，华为常务董事、产品投资委员会主任、终端BG董事长余承东发布视频，正式揭开华为MatePad Edge的神秘面纱。这款超旗舰新品定位为鸿蒙二合一平板电脑，既是巨幕平板，又具备性能电脑的强大实力。据数码博主“数码闲聊站”爆料，华为MatePad Edge亮点颇多。在屏幕方面，它采用14.2英寸OLED屏幕，并且提供柔光屏版本，能够为用户带来更为出色的视觉体验。性能上，该机�

华为MatePad Edge 鸿蒙二合一平板
首款鸿蒙二合一平板电脑！华为MatePad Edge搭载麒麟9 PC级芯片、双界面切换

华为宣布，首款鸿蒙二合一平板电脑华为MatePad Edge将于11月25日正式发布。据数码博主数码闲聊站”爆料，华为MatePad Edge搭载麒麟9 PC级芯片，支持65W充电，顶配提供24GB 1TB版本，并内置主动散热风扇，释放更强性能，可让《原神》等大型游戏比普通平板运行更流畅。该机正面配备14.2英寸超大屏幕，可选柔光屏版本，更护眼。同时支

华为MatePad Edge 鸿蒙二合一平板
荐AI日报：李飞飞Marble 3D世界模型公测；OpenAI首次推出ChatGPT群聊功能；百度发布多模态 AI助手超能小度

本期AI日报聚焦多项技术突破：World Labs推出Marble 3D模型，实现多模态生成可交互虚拟世界；OpenAI在韩新试点ChatGPT群聊功能，支持多人协作互动；苹果更新隐私政策，要求第三方AI调用需明示授权；百度发布多模态助手“超能小度”，支持空间感知与设备免费升级；LinkedIn推出AI人脉搜索，通过自然语言精准匹配专业人士；Cursor完成23亿美元融资，估值达293亿；Character AI与耶鲁合作实现音画同步技术Ovi；Google NotebookLM上线深度研究工具，支持多格式文件分析与知识库构建。

AI 3D虚拟世界多模态输入
连涨5个月、全球TOP5，成都团队做的AI工具突破3000万访问量

如今在全球AI竞赛中，中国厂商已从早期的跟跑者，转变为不可忽视的强力竞争者。时间回到2023年，AI相关榜单都还被西方产品所霸占，仅过了一年这个格局就被打破，中国产品开始频繁出现在榜单中，并在多个细分领域跻身高位。这点在AI生图赛道尤为明显。其中由成都厂商开发的SeaArt，最近一年流量增长很猛，先

AI竞赛中国厂商 AI生图
荐50人团队、1亿美元ARR，AI PPT还在续写“神话”？

AI 生成 PPT 可以说是去年的热门赛道，尤记得关于这类产品是否具有真正竞争力的热烈讨论，而2025年9月份的数据显示，赛道头部的明星创企 Gamma 却已经默默接近3000万的访问量。并且，今天官宣了由 a16z 领投的6800万美元 B 轮融资，融资后估值达到21亿美元。而不仅 Gamma，根据 AI 产品榜数据，9月份，AIPPT 赛道的 Top3产品流量平均涨幅30%+，更有一款

AI生成PPT Gamma融资 AIPPT赛道
荐实测Gemini 3 Pro - 此即未来。

经过238天等待，Gemini 3 Pro正式上线。在多项基准测试中表现惊人：Humanity's Last Exam测试达45.8%，Math Arena Apex获23.4分，ScreenSpot-Pro界面识别达72.7%。其前端代码能力尤为突出，仅用几十秒就能生成完整网页音乐播放器、像素画板，甚至成功复刻出可运行的Web OS系统。目前该模型在各大竞技场排行榜均位列第一，堪称2025年最具突破性的大模型。

Gemini3Pro 大模型竞技场数字生命卡兹克

今日大家都在搜的词：

热文

3 天
7天

谷歌发布PaLI-3视觉语言模型小体量达到SOTA！

从繁琐交互中解放 AI赋能的三星Galaxy Z Flip7带来高效便捷体验

颠覆Diffusion局限！Utopai双模型耦合架构，攻克AI影视长叙事核心难题

荐AI日报：阿里千问APP公测；Veo 3.1上线多图参考；超级小爱AI大模型“随心修图”上线

PayInOne携智能AI招聘产品Foundire亮相进博会，创新科技步履不停

余承东官宣华为MatePad Edge：鸿蒙二合一平板电脑

首款鸿蒙二合一平板电脑！华为MatePad Edge搭载麒麟9 PC级芯片、双界面切换

荐AI日报：李飞飞Marble 3D世界模型公测；OpenAI首次推出ChatGPT群聊功能；百度发布多模态 AI助手超能小度

连涨5个月、全球TOP5，成都团队做的AI工具突破3000万访问量

荐50人团队、1亿美元ARR，AI PPT还在续写“神话”？

荐实测Gemini 3 Pro - 此即未来。

今日大家都在搜的词：

热文

华为Mate 80系列已在华为商城开启预约

华为Mate 80 Pro Max外观公布：采用双圆环设计

华为Mate 80/Pro/Pro Max/RS开启预约：全系直屏设计

AI日报：阿里千问APP公测；Veo 3.1上线多图参考；超级小爱AI大

华为Mate X7外观公布搭载全新折叠玄武架构

阿里巴巴回应千问崩了：状态良好欢迎来问

荣耀500系列官宣将于11月24日发布

AI日报：xAI推出Grok 4.1；OceanBase发布首款AI数据库seekdb；

小米超级小爱AI大模型推出随心修图功能

一加Ace 6T官宣将于本月发布：首发骁龙8 Gen5

华为Mate 80系列已在华为商城开启预约

华为Mate 80 Pro Max外观公布：采用双圆环设计

AI日报：李飞飞Marble 3D世界模型公测；OpenAI首次推出ChatGPT

华为Mate 80/Pro/Pro Max/RS开启预约：全系直屏设计

iPhone Pocket正式开售：联名三宅一生售价1299元起

1899元苹果手机包卖完了！iPhone Pocket在吐槽声中销售火爆

AI日报：阿里千问APP公测；Veo 3.1上线多图参考；超级小爱AI大

微信小程序将在iOS端支持接入虚拟支付苹果抽成15%

华为Mate X7外观公布搭载全新折叠玄武架构

华为WATCH ULTIMATE DESIGN非凡大师紫金款明天开启预售

站长商机

谷歌发布PaLI-3视觉语言模型 小体量达到SOTA！

今日大家都在搜的词：

热文

站长商机

谷歌发布PaLI-3视觉语言模型小体量达到SOTA！