Google发布PaLI-3视觉语言模型，性能相当于体积大10倍的模型

2023-10-25 10:22 · 稿源：站长之家

📌划重点:
Google Research和Google DeepMind发布了PaLI-3，这是一款仅有50亿参数的视觉语言模型（VLM）。
尽管相对较小，PaLI-3在多模态测试中超越了体积大10倍的模型，可以回答关于图像的问题、描述视频、识别对象和读取图像上的文本。
尽管规模较小，PaLI-3的性能表现卓越，这归功于对SigLIP方法的对比预训练视觉转换器的应用。小型模型更适合培训和部署，更环保，并允许更快的模型设计研究周期。

站长之家（ChinaZ.com）10月25日消息:Google Research和Google DeepMind日前发布了名为PaLI-3的新一代视觉语言模型（VLM），尽管仅拥有50亿参数，但其性能令人瞩目。与体积大10倍的竞争对手相比，PaLI-3在多模态测试中表现出色，能够回答关于图像的问题、描述视频、识别对象和读取图像上的文本。

通常情况下，VLM由预训练的图像模型和语言模型组成，后者已经学会将文本与图像相关联。PaLI-3的架构遵循了其前身的先例，包括一个将图像编码为标记的视觉转换器，这些标记连同文本输入一起传递给一个编码器-解码器转换器，产生文本输出。

Google此前已经展示，高度扩展的视觉转换器并不一定会对仅涉及图像的任务（如ImageNet）产生更好的结果，但对于回答有关图像的问题等多模态任务，它可以取得显著的性能提升。随着PaLI-X的推出，Google将模型规模扩大到了550亿参数。

与PaLI-X相比，PaLI-3采用了一种新的训练方法，使用了对比预训练的视觉转换器（SigLIP），类似于CLIP。该视觉转换器仅拥有20亿参数，与语言模型一起，PaLI-3仅有50亿参数。

这种小型模型更适合培训和部署，对环境更友好，并允许更快的模型设计研究周期。令人印象深刻的是，尽管规模相对较小，PaLI-3在超过10个图像转语音测试中与今天的最佳VLM表现相媲美，而且在没有经过视频数据训练的情况下，在需要回答关于视频的问题的测试中也取得了新的最佳成绩。

虽然小型模型具有巨大的潜力，但模型领域的趋势似乎将朝着更大型模型的方向发展。不过，正是PaLI-3在其体积相对较小的情况下表现出色，彰显了SigLIP方法在未经结构化的多模态数据上进行视觉转换器训练的潜力。考虑到这种未经结构化的多模态数据的可用性，Google可能很快会推出更大版本的PaLI-3。

该研究团队表示，PaLI-3的性能表现，尽管仅有50亿参数，重新激发了对复杂VLM核心组成部分的研究兴趣，并有望推动新一代大规模VLM的发展。

项目网址:https://github.com/kyegomez/PALI3

（举报）

相关推荐
大家在看

关键词：

【腾讯云】11.11云上盛惠！云服务器首年1.8折起，买1年送3个月！

11.11云上盛惠！海量产品 · 轻松上云！云服务器首年1.8折起，买1年送3个月！超值优惠，性能稳定，让您的云端之旅更加畅享。快来腾讯云选购吧！

Docker容器镜像
去看看

Docker容器镜像 60元/15天

爆款产品组合购
去看看

爆款产品组合购低至1元

腾讯云x NVIDIA加速计划
去看看

腾讯云x NVIDIA加速计划最高获赠10万元扶持基金

2核2G云服务器
去看看

2核2G云服务器 112元/1年

查看更多相关信息>>

腾讯云 12-20

广告
更小更强大！Hugging Face发布8B开源视觉语言模型Idefics2

HuggingFace首次发布了其Idefics视觉语言模型，该模型于2023年首次亮相，采用了最初由DeepMind开发的技术。Idefics迎来了升级，新版本Idefics2拥有更小的参数规模、开放许可证以及改进的光学字符识别能力。Idefics2的发布是AI繁荣持续推出的许多多模态模型之一，包括Reka的新Core模型、xAI的Grok-1.5V和Google的Imagen2。

Idefics2 视觉语言模型 AI头条
Mini-Gemini:简单有效的AI框架，增强多模态视觉语言模型

中国香港中文大学和SmartMore的研究人员推出了一种名为Mini-Gemini的新颖框架，通过增强多模态输入处理来推动VLMs的发展。Mini-Gemini采用了双编码器系统和一种新颖的补丁信息挖掘技术，结合一个特别策划的高质量数据集，使其能够有效处理高分辨率图像并生成内容丰富的视觉和文本内容，从使其脱颖出。正如研究人员所承认的那样，Mini-Gemini在视觉理解和推理能力方面仍有改进�

Gemini Mini-Gemini AI头条
苹果开发设备内运行的大型语言模型优先考虑速度和隐私

苹果公司正在开发自己的大型语言模型。这款模型将能够在设备上本地运行，从优先考虑速度和隐私保护。苹果更广泛的人工智能战略预计将在6月份的WWDC上与主要软件更新预览一起公布。
Jamba官网体验入口最新高性能开源AI语言模型下载使用地址

Jamba是一款基于SSM-Transformer混合架构的开放语言模型，提供顶级的质量和性能表现。它融合了Transformer和SSM架构的优势，在推理基准测试中表现出色，同时在长上下文场景下提供3倍的吞吐量提升。作为基础模型，Jamba旨在供开发者微调、训练并构建定制化解决方案。

Jamba
戴尔Precision工作站：助力客户更有效地使用GenAI大语言模型

如何配置个人电脑才能更有效地使用生成式AI大语言模型生成式人工智能彻底改变了计算世界，戴尔科技的用户都开始考虑借助大语言模型去开发能够提升其公司生产力、效率和创新力的新功能。戴尔科技拥有全球最丰富的AI基础设施产品组合，从云到客户端设备一应俱全[1]，因此能够为用户提供满足其一切AI需求的端到端AI解决方案和服务。[1]基于戴尔科技集团的内部分析，2023年8月。

生成式AI 大语言模型戴尔科技
谷歌AI研究人员提出噪声感知训练方法（NAT）用于布局感知语言模型

在文档处理中，特别是在视觉丰富的文档中，高效信息提取的需求变得越来越关键。VRDs，如发票、水电费单和保险报价，在业务工作流中随处可见，通常以不同的布局和格式呈现类似信息。他们的研究为使普通用户能够访问先进的文档处理功能铺平了道路，标志着该领域迈出了重要的一步。

AI 语言模型 AI头条
Meta新大语言模型LLama 3将在英特尔和高通硬件上运行

Meta最近发布了LLama3，这是一款新的大型语言模型，用于实现更安全、更准确的生成式人工智能体验。除了LLM，Meta还推出了LlamaGuard2、CodeShield和CyberSecEval2等信任和安全工具，以帮助确保符合行业和用户安全期望。随着400亿参数显示出更高的准确性，可以推断出更高的AI硬件需求不会很快减少。

Meta LLama3 AI头条
Meta即将推出新一代Llama3大语言模型

MetaPlatforms公司计划在下周推出Llama3大语言模型的两个小参数版本，作为即将在2024年夏天推出的Llama3最大版本的前奏。Llama3最高版本可能拥有超过1400亿个参数，这将使其性能有望赶上OpenAI最新的GPT-4Turbo版本。Meta正在全力推进Llama3的开发，这不仅体现了该公司在AI领域的野心，也为用户带来了更加智能和开放的AI服务的期待。

语言模型 Llama3 多模态技术
DeepMind发布Gecko:专注于文档检索性能媲美大7倍模型

谷歌DeepMind发布了一种名为Gecko的文本嵌入模型，专注于文档检索、语义相似度和分类等多种任务。文本嵌入模型在自然语言处理中扮演着重要角色，通过将文本转换为高维向量空间中的向量表示，实现捕捉文本的语义信息。Gecko的出现为改善信息检索系统提供了一种强大的替代方案，同时在分类、STS和摘要方面也达到了新的SOTA水平。

Gecko DeepMind AI头条
苹果公司发布新型机器学习语言模型MLLLLM Ferret-UI 用于理解应用 UI 界面

苹果公司近日发布了一款名为MLLLLMFerret-UI的新型机器学习语言模型，旨在提升对移动应用用户界面的理解。这款模型经过特别优化，能够处理移动UI屏幕上的各种任务，并具备指向、定位和推理等能力。Ferret-UI还能够通过功能推断来解释屏幕的整体目的，显示出在理解和生成自然语言指令方面的高级能力。

模型 AI头条

今日大家都在搜的词：

热文

3 天
7天

Google发布PaLI-3视觉语言模型，性能相当于体积大10倍的模型

今日大家都在搜的词：

热文

站长商机