Google发布PaLI-3视觉语言模型，性能相当于体积大10倍的模型

2023-10-25 10:22 · 稿源：站长之家

📌划重点:
Google Research和Google DeepMind发布了PaLI-3，这是一款仅有50亿参数的视觉语言模型（VLM）。
尽管相对较小，PaLI-3在多模态测试中超越了体积大10倍的模型，可以回答关于图像的问题、描述视频、识别对象和读取图像上的文本。
尽管规模较小，PaLI-3的性能表现卓越，这归功于对SigLIP方法的对比预训练视觉转换器的应用。小型模型更适合培训和部署，更环保，并允许更快的模型设计研究周期。

站长之家（ChinaZ.com）10月25日消息:Google Research和Google DeepMind日前发布了名为PaLI-3的新一代视觉语言模型（VLM），尽管仅拥有50亿参数，但其性能令人瞩目。与体积大10倍的竞争对手相比，PaLI-3在多模态测试中表现出色，能够回答关于图像的问题、描述视频、识别对象和读取图像上的文本。

通常情况下，VLM由预训练的图像模型和语言模型组成，后者已经学会将文本与图像相关联。PaLI-3的架构遵循了其前身的先例，包括一个将图像编码为标记的视觉转换器，这些标记连同文本输入一起传递给一个编码器-解码器转换器，产生文本输出。

Google此前已经展示，高度扩展的视觉转换器并不一定会对仅涉及图像的任务（如ImageNet）产生更好的结果，但对于回答有关图像的问题等多模态任务，它可以取得显著的性能提升。随着PaLI-X的推出，Google将模型规模扩大到了550亿参数。

与PaLI-X相比，PaLI-3采用了一种新的训练方法，使用了对比预训练的视觉转换器（SigLIP），类似于CLIP。该视觉转换器仅拥有20亿参数，与语言模型一起，PaLI-3仅有50亿参数。

这种小型模型更适合培训和部署，对环境更友好，并允许更快的模型设计研究周期。令人印象深刻的是，尽管规模相对较小，PaLI-3在超过10个图像转语音测试中与今天的最佳VLM表现相媲美，而且在没有经过视频数据训练的情况下，在需要回答关于视频的问题的测试中也取得了新的最佳成绩。

虽然小型模型具有巨大的潜力，但模型领域的趋势似乎将朝着更大型模型的方向发展。不过，正是PaLI-3在其体积相对较小的情况下表现出色，彰显了SigLIP方法在未经结构化的多模态数据上进行视觉转换器训练的潜力。考虑到这种未经结构化的多模态数据的可用性，Google可能很快会推出更大版本的PaLI-3。

该研究团队表示，PaLI-3的性能表现，尽管仅有50亿参数，重新激发了对复杂VLM核心组成部分的研究兴趣，并有望推动新一代大规模VLM的发展。

项目网址:https://github.com/kyegomez/PALI3

（举报）

相关推荐

关键词：

荐AI日报：昆仑万维SkyReels V3模型上线；月之暗面推Kimi Linear模型；MiniMax Music 2.0 发布

本期AI日报聚焦多领域创新：昆仑万维推出SkyReels V3模型，整合顶尖视频生成能力；月之暗面Kimi Linear模型处理长文本速度提升2.9倍；MiniMax Music 2.0实现专业级音乐创作；字节跳动启动豆包股权激励计划吸引AI人才；苹果iOS 27将迎AI重大升级，Siri更个性化；Dia浏览器融合Arc设计理念与AI技术；文心魔法漫画工具实现一键生成连载作品；谷歌Gemini Canvas新增PPT自动生成功能，由Gemini 2.5 Pro驱动，提升职场效率。

AI视频生成 SkyReels V3
算力无界，AI无距！超聚变发布FusionXpark™随身智能体开发平台

10月24日，超聚变公司发布FusionXpark™智能体开发平台，实现AI算力从云端下沉至桌面设备。该平台搭载GB10架构，提供1PFLOPS本地算力，支持200B参数模型推理，助力开发者在边缘端运行高参数模型。发布会展示了政务、金融、工业等五大行业的30类“超级员工”智能体应用，通过私有化部署保障数据安全。专家指出，这一创新将推动AI普惠化，重塑产业生态。

AI原生计算智能体开发平台 FusionXpark
【AI 智惠季】全模态大模型齐发优惠，GPU新客包月2.8折起

阿里云启动双十一“AI智慧季”大型优惠活动，聚焦企业多元AI场景落地需求，推出7000万tokens大模型免费体验、GPU新客特惠等政策，助力企业降低开发成本。同时提供标准化AI产品与解决方案，覆盖内容创作、智能客服等高频应用场景，并举办系列技术分享活动，携手企业拥抱AI新时代。

AI技术阿里云双十一优惠
苹果新版iOS 26/iPadOS 26上线一天就被紧急撤回：设备更新后出错

苹果在推送iOS 26.2和iPadOS 26.2首个开发者测试版一天后，便停止了对iPhone Air、iPhone 16e以及新款M5 iPad Pro蜂窝网络版的签名验证，这些设备暂时无法安装iOS 26.2/iPadOS 26.2 Beta版更新。据悉，已经安装了该更新的用户反馈，他的M5 iPad Pro更新后出现问题，被迫进入恢复模式，最终他将设备恢复至iPadOS 26.1版本。值得一提的是，上述受影响的

iOS 26.2 iPadOS
未来iPad mini/iPad Air/MacBook都将升级OLED屏：LCD退场

苹果正在研发搭载OLED显示屏的iPad mini、iPad Air、MacBook Pro和MacBook Air机型，苹果已在iPad Pro中采用OLED屏，并计划在未来数月及数年内将OLED推广到更多设备上，从而淘汰LCD屏幕。具体来看，iPad mini最快会在2026年配备OLED屏，同时会提升防水性能，新款iPad mini也因此涨价100美元。至于iPad Air，其商用OLED的时间要晚于iPad mini，爆料称2026年春季亮相的iPad Air将继续使用LCD屏幕，但后续

OLED显示屏 iPad mini
iPad mini 8外观巨变：去掉扬声器开孔

iPad mini 8将采用全新设计，去掉扬声器开孔并提升防水性能，同时苹果也在为iPad mini 8研发一套新的扬声器系统。据悉，iPad mini 8可能采用屏幕激励器方案，通过驱动屏幕振动来发出声音，其原理是将振动机械能直接传输到屏幕，然后让屏幕代替传统扬声器振膜发声。具体来说，它是通过在机身内部的微驱动单元（激励器）来激励中框，从而带动屏幕振动发声。

iPad mini 8
何小鹏首次披露物理AI巨大进展发布第二代VLA大模型

小鹏汽车在2025科技日发布第二代VLA大模型，颠覆传统“视觉-语言-动作”架构，实现端到端直接输出动作指令，开创物理模型新范式。该模型具备动作生成与物理世界理解能力，参数规模达数十亿级，训练数据近1亿clips。基于2250TOPS算力的Ultra车型成功搭载，推动智驾技术显著进化，同步发布“小径NGP”功能，复杂小路接管里程提升13倍。行业首发的无导航辅助驾驶Super+LCC实现全球覆盖。何小鹏表示，大模型将成为物理AI世界的操作系统，并宣布与大众汽车达成战略合作，共同推进智能出行发展。

小鹏汽车 VLA大模型智能出行
1.3亿美元！LiblibAI拿下国内最大AI应用融资

2025年AI应用公司LiblibAI完成1.3亿美元B轮融资，由红杉中国等机构领投，创国内AI应用赛道最大单笔融资。该公司通过“工具集成+社区生态”模式，整合图像、视频、3D等多模态能力，覆盖从灵感到成片的完整AI工作流，已孵化超2000万创作者。平台将加速全球化布局，打造多模态内容生态，标志着AI投资正从底层模型转向应用层落地。

AI应用 B轮融资多模态模型
苹果iPad mini将支持防水：看齐iPhone

苹果正研发新一代防水iPad mini，采用无扬声器开孔设计降低进水风险，防水性能接近iPhone。与iPhone采用粘合剂密封不同，iPad mini通过全新扬声器系统实现防水。现售款无官方防水认证，而新款预计2026年上市，可能搭载OLED屏幕并涨价约100美元（现起售价499美元）。

iPad mini 防水性能
M6 iPad Pro将加入VC散热：向iPhone 17 Pro看齐

随着芯片性能的不断提升，苹果计划为iPad Pro配备VC散热系统，消费者最快会在M6 iPad Pro上看到。 Mark Gurman指出，如果iPhone与iPad Pro配备VC散热系统的尝试取得成功，苹果后续可能会将该技术应用到MacBook Air等其他被动散热设备上。目前苹果对iPad Pro的更新周期约为18个月，因此下一代iPad Pro预计将在2027年春季发布。

iPad Pro VC散热系统

今日大家都在搜的词：

热文

3 天
7天

Google发布PaLI-3视觉语言模型，性能相当于体积大10倍的模型

荐AI日报：昆仑万维SkyReels V3模型上线；月之暗面推Kimi Linear模型；MiniMax Music 2.0 发布

算力无界，AI无距！超聚变发布FusionXpark™随身智能体开发平台

【AI 智惠季】全模态大模型齐发优惠，GPU新客包月2.8折起

苹果新版iOS 26/iPadOS 26上线一天就被紧急撤回：设备更新后出错

未来iPad mini/iPad Air/MacBook都将升级OLED屏：LCD退场

iPad mini 8外观巨变：去掉扬声器开孔

何小鹏首次披露物理AI巨大进展发布第二代VLA大模型

1.3亿美元！LiblibAI拿下国内最大AI应用融资

苹果iPad mini将支持防水：看齐iPhone

M6 iPad Pro将加入VC散热：向iPhone 17 Pro看齐

今日大家都在搜的词：

热文

小鹏机器人会走猫步太像人了！小鹏发布新一代人形机器人IRON

女性人形机器人里藏真人？何小鹏回应：并亲自证清白

AI日报：Sora正式登陆Android；网易云音乐推AI调音大师；谷歌将

小米YU7全网首拆上热搜雷军回应：欢迎同行和专家指点

华为Mate70 Air官宣今日开启预售

何小鹏回应机器人IRON里是真人质疑：感谢认可

AI日报：HeyGen发布AI视频翻译引擎；科大讯飞推星火 X1.5；QQ浏

华为路由X3 Pro今日开启预售：售价1299元起

文件传输工具奶牛快传宣布12月8日正式停止服务

何小鹏首次披露物理AI巨大进展发布第二代VLA大模型

小鹏机器人会走猫步太像人了！小鹏发布新一代人形机器人IRON

鸿蒙HarmonyOS 6与iOS数据互传功能预计12月上线

女性人形机器人里藏真人？何小鹏回应：并亲自证清白

阿里回应饿了么更名：正处于灰度测试阶段

AI日报：美团LongCat-Flash-Omni发布；Qwen3-Max上线深度思考功

DeepSeek崩了上热搜页面显示“服务器繁忙”

特斯拉Cybercab不配备方向盘和踏板预计2026年二季度下线

马斯克称若发现外星人证据就公开

AI日报：昆仑万维SkyReels V3模型上线；月之暗面推Kimi Linear

OPPO ColorOS 16正式版11月升级机型公布：支持23款机型

站长商机