让视觉模型具备语言理解能力：通过跨模型对齐实现文本到概念的转换

2023-07-26 10:08 · 稿源：站长之家

站长之家（ChinaZ.com）7月26日消息:如果你只需要训练一个线性层，就能拿将纯视觉模型转变为具备语言理解能力的视觉语言模型（VLM），结果会怎样?有研究人员想到了这个办法。

研究人员通过使用没有文本监督训练的现成视觉编码器来将文本映射到概念向量，以便直接比较单词和图像的表示。他们的方法调整了视觉模型的表示空间，使其与 CLIP 模型的表示空间相一致。CLIP 模型是同时训练图像和文本编码器的，因此它已经包含了用于文本到概念的文本编码器。

人工智能大脑大模型

该方法通过学习表示空间之间的映射来使用商用模型的这种能力。具体来说，研究人员最大化一个函数，以推断出图像在 CLIP 模型中的表示，该模型使用了预训练模型的表示，并将其映射到 CLIP 模型的表示。经过映射后，对应的特征将存在于与目标文本的概念向量相同的空间中。然而，映射函数可能会严重改变输入的语义。为了避免这种情况，他们确保映射的假设空间中只存在仿射变换。尽管它们看起来不太复杂，但研究人员发现线性层意外地对于在架构和训练方法不同的模型之间实现特征空间对齐非常有用。

项目地址:https://github.com/k1rezaei/Text-to-concept/

该方法在文本到概念的零样本分类方面提供了强大的支持。与 CLIP 模型相比，这些商用模型在许多任务上展示出惊人的零样本准确性，尽管它们的规模更小，使用的样本更少，并且没有显式地针对文本到概念进行调整。令人惊讶的是，在某些情况下，尤其是在颜色识别方面，商用模型的零样本准确性甚至超过了 CLIP 模型。

文本到概念的可解释性好处不仅仅在于免费的零样本学习，还包括将视觉编码器转换为概念瓶颈模型（CBM）而无需概念监督的需求。研究人员将这种方法应用于 RIVAL10数据集，该数据集包含属性标签，以确保零样本概念预测的准确性。借助所提出的零样本方法，他们能够高度准确地预测 RIVAL10的属性 (93.8%)，从而实现了预期的可解释性好处。

他们的研究还证明了文本到概念可以用人类术语解释大型数据集的分布，通过分析一系列文本到概念向量与数据的对齐表示之间的相似性。通过比较对易理解的概念的变化，可以诊断出分布的变化。基于概念的图片检索是文本到概念的另一种方法，它可以方便地与大型数据集进行交互。研究人员使用概念逻辑来查询给定模型的图像表示，满足一组概念相似性阈值，从而使人们更加掌握搜索中每个概念的相对权重，并在庞大的语料库中定位特定照片时获得可接受的结果。

最后，研究人员引入了概念到文本的方法，直接解码模型表示空间中的向量，完成人机交流的循环。他们使用现有的 CLIP 空间解码器和嵌入来指导 GPT-2的输出，在将模型的空间与 CLIP 对齐后进行解码。然后，他们使用人类研究来检查解码的标题是否准确解释了与每个向量相关联的类别。结果表明，他们的简单方法在92% 的测试中都取得了成功。

（举报）

相关推荐

关键词：

视觉模型

苹果自研AI模型难产：改用第三方大语言模型

苹果可能会跟OpenAI或Anthropic合作，双方正在谈判讨论一项潜在交易，苹果希望调用OpenAI或Anthropic的第三方大语言模型来为Siri提供技术支持。据悉，OpenAI或Anthropic正在训练适配苹果私有云计算服务器的模型，苹果也在进行测试，目前苹果发现Anthropic的AI模型最适合Siri，且与Anthropic初步讨论了一些财务条款，消息称Anthropic要求苹果每年支付数十亿美元的费用，且该费用会随时间�

苹果 Siri OpenAI
荐模型能力卷不过Google、快手，但这家视频生成创企却可能最先赚到钱？

去年4月，我们曾经在《这个 AI 赛道，一个月内融资4笔，一大半的创始人是华人》选题中观察过 AI 视频赛道，彼时赛道 Top 级玩家还是 Pika、Pixverse、Haiper 等华人创企。

AI视频赛道融资创业公司
信通院联合三六零发布《大模型应用交付供应商总体能力要求》

中国信通院联合360集团发布《大模型应用交付供应商总体能力要求》技术规范，从基础能力、大模型服务能力、行业实践能力和项目质量管理能力四个方面明确了大模型应用交付供应商的总体要求。该规范由20余家单位及40余位专家共同编制，旨在提升供应商技术、管理和服务能力，为行业提供供应商选择与评估参考。360作为国内大模型头部厂商，自主研发"360智脑"大模�

大模型应用交付技术规范
预测大模型的工业生存法则，华为博士告诉你什么才是B端最需要的大模型！

华为开发者大会2025期间，AI专家李良基与华为团队围绕预测大模型展开深度对话。华为提出"数据原子级表征体系"理念，旨在通过统一数据编码解决跨场景迁移难题。预测大模型已在钢铁行业成功应用，温度预测准确率远超传统方案。专家指出，AGI发展的核心在于构建知识迁移能力，未来将聚焦To B场景落地，通过统一架构实现跨领域泛化应用。华为云首创Triplet Transformer

华为开发者大会 AI技术盘古大模型
有道14B低成本轻量模型“子曰3”开源，数学推理性能超越大模型

网易有道6月23日开源国内首个专注数学教育的"子诳3"大模型系列数学模型(Confucius3-Math)。该模型在单块消费级GPU上高效运行，在多项数学推理任务中性能超越更大规模的通用模型，高考数学题测试得分达98.5分。其训练成本仅2.6万美元，推理性能是DeepSeek+R1的15倍，服务成本低至每百万token0.15美元，大幅降低教育AI应用门槛。该开源模型为教育公平提供低成本、高性能的AI�

子曰3 开源大模型数学教育
荐智能体时代，还得看豆包大模型

火山引擎，又有大动作了。 2025年6月11日，火山引擎Force原动力大会发布豆包大模型1.6、视频生成模型Seedance1.0pro等重磅新模型，以及迭代了一站式AI云原生全栈服务。对此，字节跳动CEO梁汝波表示:“做好火山引擎对字节跳动成为一家优秀的科技公司、保持技术竞争力很重要。未来，字节跳动会坚定长期投入，追求智能突破，服务产业应用。通过火山引擎，持续把新模型、新�

火山引擎字节跳动 AI模型
苹果研究发现：AI 模型在遇到复杂难题时会“崩溃放弃”

AI 的“推理能力”或许远没有我们想象中的那么强……

苹果AI AI模型 AI推理能力
荐AI日报：通义千问开源Qwen3向量模型；字节跳动图像编辑模型SeedEdit 3.0；ElevenLabs推v3语音模型

本文汇总了近期AI领域的重要动态：1)通义千问发布Qwen3-Embedding系列模型，在多语言文本处理表现优异；2)字节跳动推出图像编辑模型SeedEdit3.0，提升细节保持能力；3)ElevenLabs发布情感语音合成系统Eleven v3 Alpha；4)Anthropic推出面向国家安全的Claude Gov模型；5)可灵AI月收入连续两月超1亿元；6)Meta公布智能眼镜Aria Gen2技术细节；7)爱诗科技上线AI视频工具"拍我AI"；8)富国银行预测2030年ChatGPT广告收入将达千亿美元。

人工智能深度学习文本处理
2025最新全球AI大模型排名，国内外模型动态洗牌（实时更新平台推荐）

2025年全球AI大模型竞争进入白热化阶段，OpenAI、Google等国际巨头与中国企业激烈交锋。技术迭代远超预期，仅半年内排名就经历多次洗牌。当前全球AI大模型综合排名Top10显示：1)GPT-4.5综合80.4分领跑；2)Claude3.7编程领域领先；3)Gemini2.0多模态标杆；4)国产DeepSeek R1推理速度提升3倍；5)阿里Qwen2.5数学编程单项第一。中国模型通过开源策略、垂直优化和成本革命实现弯道超车，如DeepSeek R1仅耗资600万美元达到GPT-4水平，字节豆包采用稀疏MoE架构成本大幅降低。中文场景深度优化表现突出，如文心一言4.0方言交互准确率92%。开源生态爆发，通义千问全尺寸开源(7B~110B参数)在Hugging Face排名第一。权威评估需结合标准化测试、人类盲测和场景适配性。

全球AI大模型 OpenAI 技术迭代
6个AI大模型大战2025年高考数学新一卷：数学题推理能力均显著提升

近日，随着高考的圆满结束，一场别开生面的“数学擂台赛”在各大AI大模型间悄然展开。多家知名科技公司的大模型被邀请参与2025年数学新课标Ⅰ卷中的14道客观题测试，以此检验它们在逻辑推理和数学能力上的实力。此次测试题目包含8道单选题、3道多选题以及3道填空题，满分设定为73分，且测试过程严格遵循高考判分原则，确保结果的公正性与准确性。测试成绩揭晓�

高考数学擂台赛 AI大模型

热文

3 天
7天

让视觉模型具备语言理解能力：通过跨模型对齐实现文本到概念的转换

苹果自研AI模型难产：改用第三方大语言模型

荐模型能力卷不过Google、快手，但这家视频生成创企却可能最先赚到钱？

信通院联合三六零发布《大模型应用交付供应商总体能力要求》

预测大模型的工业生存法则，华为博士告诉你什么才是B端最需要的大模型！

有道14B低成本轻量模型“子曰3”开源，数学推理性能超越大模型

荐智能体时代，还得看豆包大模型

苹果研究发现：AI 模型在遇到复杂难题时会“崩溃放弃”

荐AI日报：通义千问开源Qwen3向量模型；字节跳动图像编辑模型SeedEdit 3.0；ElevenLabs推v3语音模型

2025最新全球AI大模型排名，国内外模型动态洗牌（实时更新平台推荐）

6个AI大模型大战2025年高考数学新一卷：数学题推理能力均显著提升

热文

特斯拉中国宣布Model 3/Y长续航版续航提升

董明珠说自己尽量少说话让年轻管理团队走向台前

小米YU7将开启限时改配非准现车锁单用户可参与

小米汽车回应YU7是否难破窗：无需担心随车赠送破窗锤

特斯拉中国宣布Model 3/Y长续航版续航提升

小鹏G7官宣7月3日发布全球首款L3级算力车型

雷军说特斯拉确实了不起：引领了行业趋势尤其是FSD

安克修改召回方案充电宝泡盐水处理后可获赔

董明珠说自己尽量少说话让年轻管理团队走向台前

小米YU7将开启限时改配非准现车锁单用户可参与

站长商机