首页 > 业界 > 关键词  > 视觉模型最新资讯  > 正文

让视觉模型具备语言理解能力:通过跨模型对齐实现文本到概念的转换

2023-07-26 10:08 · 稿源:站长之家

站长之家(ChinaZ.com)7月26日 消息:如果你只需要训练一个线性层,就能拿将纯视觉模型转变为具备语言理解能力的视觉语言模型 (VLM),结果会怎样?有研究人员想到了这个办法。

研究人员通过使用没有文本监督训练的现成视觉编码器来将文本映射到概念向量,以便直接比较单词和图像的表示。他们的方法调整了视觉模型的表示空间,使其与 CLIP 模型的表示空间相一致。CLIP 模型是同时训练图像和文本编码器的,因此它已经包含了用于文本到概念的文本编码器。

人工智能大脑 大模型

该方法通过学习表示空间之间的映射来使用商用模型的这种能力。具体来说,研究人员最大化一个函数,以推断出图像在 CLIP 模型中的表示,该模型使用了预训练模型的表示,并将其映射到 CLIP 模型的表示。经过映射后,对应的特征将存在于与目标文本的概念向量相同的空间中。然而,映射函数可能会严重改变输入的语义。为了避免这种情况,他们确保映射的假设空间中只存在仿射变换。尽管它们看起来不太复杂,但研究人员发现线性层意外地对于在架构和训练方法不同的模型之间实现特征空间对齐非常有用。

image.png

项目地址:https://github.com/k1rezaei/Text-to-concept/

该方法在文本到概念的零样本分类方面提供了强大的支持。与 CLIP 模型相比,这些商用模型在许多任务上展示出惊人的零样本准确性,尽管它们的规模更小,使用的样本更少,并且没有显式地针对文本到概念进行调整。令人惊讶的是,在某些情况下,尤其是在颜色识别方面,商用模型的零样本准确性甚至超过了 CLIP 模型。

文本到概念的可解释性好处不仅仅在于免费的零样本学习,还包括将视觉编码器转换为概念瓶颈模型 (CBM) 而无需概念监督的需求。研究人员将这种方法应用于 RIVAL10数据集,该数据集包含属性标签,以确保零样本概念预测的准确性。借助所提出的零样本方法,他们能够高度准确地预测 RIVAL10的属性 (93.8%),从而实现了预期的可解释性好处。

他们的研究还证明了文本到概念可以用人类术语解释大型数据集的分布,通过分析一系列文本到概念向量与数据的对齐表示之间的相似性。通过比较对易理解的概念的变化,可以诊断出分布的变化。基于概念的图片检索是文本到概念的另一种方法,它可以方便地与大型数据集进行交互。研究人员使用概念逻辑来查询给定模型的图像表示,满足一组概念相似性阈值,从而使人们更加掌握搜索中每个概念的相对权重,并在庞大的语料库中定位特定照片时获得可接受的结果。

最后,研究人员引入了概念到文本的方法,直接解码模型表示空间中的向量,完成人机交流的循环。他们使用现有的 CLIP 空间解码器和嵌入来指导 GPT-2的输出,在将模型的空间与 CLIP 对齐后进行解码。然后,他们使用人类研究来检查解码的标题是否准确解释了与每个向量相关联的类别。结果表明,他们的简单方法在92% 的测试中都取得了成功。

举报

  • 相关推荐
  • 时空壶接入大语言模型,跨语言沟通已成翻译的艺术

    在当今全球化浪潮中,跨语言沟通的需求如潮水般汹涌。从商务领域的跨国谈判,到文化交流中的思想碰撞,高效、精准的语言翻译成为关键桥梁。随着技术的不断发展与迭代,时空壶有望持续引领行业变革,推动全球交流合作迈向新的高度,真正实现跨越语言障碍,让世界沟通无阻。

  • 提升大模型自动修Bug能力 豆包正式开源首个多语言类SWE数据集

    今日,字节跳动豆包大模型团队宣布,正式开源首个多语言类SWE数据集Multi-SWE-bench,可用于评估和提升大模型自动修Bug”能力。在SWE-bench基础上,Multi-SWE-bench首次覆盖Python之外的7种主流编程语言,是真正面向全栈工程”的评测基准。相比于以往聚焦Python的单语言任务,Multi-SWE-bench更贴近现实中的多语言开发场景,也更能反映当前模型在自动化软件工程”方向上的实际能力边界。

  • 理解海豚声音!谷歌开发全新AI模型DolphinGemma

    快科技4月15日消息,谷歌公布了一款名为DolphinGemma”的大型语言模型,旨在帮助科学家理解海豚的声音,并生成类似海豚的声音序列。研究人员预计在未来几个月内测试DolphinGemma及其配套的Cetacean Hearing Augmentation Telemetry(CHAT)发声系统,以探索是否能够翻译并模仿海豚的声音,进而实现与海豚的某种对话”。海豚是地球上最聪明且最善于沟通的动物之一,其社交互动极其复杂�

  • 时空壶接入DeepSeek、豆包等大语言模型,翻译准确度再次跃升

    在全球跨语言沟通需求持续攀升的当下,时空壶再次以创新之举震撼行业。时空壶正式宣布接入DeepSeek、豆包等大语言模型,为其同传耳机产品带来了前所未有的体验升级,彻底改写了同传翻译的游戏规则,也让传统机翻模式成为历史。这一创新举措不仅满足了当下各行业对高质量跨语言沟通的迫切需求,更为未来跨语言交流的发展指明了方向,有望推动整个行业向更加智能、精准、自然的方向迈进,助力全球交流合作开启全新篇章。

  • 高通总裁谈DeepSeek:AI模型正在变得更小、更有能力

    ,中国发展高层论坛2025年年会在北京隆重开幕。高通公司总裁安蒙出席论坛并发表演讲,就中国人工智能产业的潜力和增长趋势发表了看法。安蒙的发言展示了高通对中国人工智能产业未来发展的信心,也体现了高通在推动全球科技创新和合作方面的积极态度。

  • 阿丘科技李嘉悦:大模型驱动的AI检测范式变革——大模型、小模型、智能体的协同进化

    3月28日,由机器视觉产业联盟主办、慕尼黑展览有限公司承办的VisionChina2025机器视觉展在上海新国际博览中心圆满落幕。阿丘科技产品总监李嘉悦在机器视觉及工业应用研讨会现场,围绕“大模型驱动的AI检测范式变革:大模型、小模型与智能体的协同进化”的主题,发表了精彩演讲。”今年,在这个快速变化的时代,我要补充一句:“AI工业视觉的格局正在加速变革,不会用大模型的将会被善用大模型的人淘汰。

  • 开源即支持!基于昇腾MindSpeed MM玩转InternVL3多模态理解最新模型

    多模态理解领域当前已成了各家AI大模型公司“军备竞赛”的关键点之一,国内外知名AI大模型公司都争相通过发布最先进的多模态大语言模型展现其在多模态理解领域的前沿能力。近期,上海AI实验室推出了其最新的多模态大语言模型InternVL3 系列,相比上一代InternVL2. 5 模型,该模型展现出卓越的多模态感知和推理能力,同时进一步扩展了其工具使用、GUI代理、工业图像分析等

  • AI 大模型的困境:数据才是真正的“燃料”

    一旦掉入AI坟场,幻觉将永远存在,噩梦才刚开始。最近有许多客户在考虑上AI大模型一体机、AI私有化、AI大模型部署等项目,但小心进入AI大模型的坟场,在光鲜亮丽的背后,AI大模型也面临着诸多困境,其中最为核心的问题便是数据。只有拥有高质量、多样化、易于管理的数据,AI大模型才能发挥出其真正的潜力,为企业带来更大的价值。

  • Llama 4大模型跌落神坛:作弊刷榜、代码能力极差、和DeepSeek比就是伪开源

    被寄予厚望的美国Meta公司的最新开源大模型Llama4发布不到2天时间,口碑急转直下,被质疑为刷榜作弊实际效果差、开源条件多部署门槛高是伪开源等。大模型评测平台LMArena亲自下场发文,打脸Meta提供给平台的Llama4是“特供版”。Meta若继续在商业控制与技术开放之间摇摆,恐将在AI竞赛中进一步失去开发者支持。

  • 火山引擎即将发布深度思考模型

    据悉,字节跳动旗下云服务平台火山引擎即将发布豆包深度思考模型。有消息称,豆包APP和桌面端的“深度思考模式”已进行了多个实验版本的测试,而此次发布后,该模型将正式面向企业提供服务。目前,豆包大模型家族已覆盖全模态、全场景,包括大语言模型、语音大模型,以及图像、视频等视觉大模型,企业可以通过火山引擎使用豆包大模型API服务。IDC最新发布的《中�