LeCun曝多模态LLM重大缺陷提出Interleaved-MoF显著增强视觉理解能力

2024-01-18 14:04 · 稿源：站长之家

要点:
多模态大语言模型（MLLM）在视觉处理方面存在重大缺陷，特别是在处理视觉模式上的性能差距明显。
研究团队通过将DINOv2特征与CLIP特征结合的方法提升了多模态大模型的视觉功能，创造性地解决了视觉缺陷问题。
提出的「交错特征混合（Interleaved-MoF）」方法在MMVP基准中获得了10.7%的能力增强，显著提升了多模态大模型的视觉基础能力。

站长之家（ChinaZ.com）1月18日消息:近期来自纽约大学和UC伯克利的研究团队在多模态大语言模型（MLLM）领域取得了重要突破，成功捕捉到了其在视觉理解方面存在的重大缺陷。研究人员发现，当前的MLLM在特定场景下，甚至在一些人类容易识别的图像问题上，表现不如随机猜测。这些问题包括对图像中朝向、状态、数量等基本要素的识别，显示了MLLM在视觉处理方面的局限性。

论文地址:https://arxiv.org/pdf/2401.06209.pdf

这项研究的关键发现是，MLLM的视觉缺陷主要源自「对比语言-图像预训练盲对（CLIP-blind pairs）」，即CLIP模型编码相似但在视觉上不同的图像，导致误导性的视觉嵌入。研究人员通过评估多个开源和闭源模型的性能发现，除少数模型外，大多数MLLM在视觉模式识别上都表现不佳，与人类视觉能力存在显著性能差距。

为解决这一问题，研究团队提出了「交错特征混合（Interleaved-MoF）」方法，将CLIP和DINOv2嵌入进行交错混合，成功提升了MLLM的视觉基础能力。实验证明，这种方法在MMVP基准中取得了10.7%的能力增强，而且不影响模型遵循指令的能力。通过此研究，对MLLM在视觉方面的性能提升打开了新的思路，为未来多模态AI技术的发展提供了有益的启示。

这项研究对于解决当前MLLM在视觉理解方面的缺陷问题具有重要意义。通过深入分析CLIP模型的视觉模式和MLLM性能之间的相关性，研究团队不仅提出了问题，还通过「交错特征混合」方法取得了实质性的改进。这不仅对AI领域的研究有着积极的推动作用，也为未来开发更强大、全面的多模态大模型奠定了基础。

（举报）

相关推荐

关键词：

远东股份：ALL IN“电能+算力+AI”，智能驱动未来

远东股份（600869）凭借“电能+算力+AI”战略，在能源与算力融合领域形成先发优势。公司深耕特高压输电、新能源等关键技术，自主研发高导铝绞线提升输电效率，产品应用于多条国家级特高压线路。同时布局液冷技术研发，为数据中心提供高效散热方案。未来将持续推进“AI+能源”产业生态建设，助力制造业智能化升级和绿色高效算能模式构建。

人工智能能源算力
荐淘宝直播请call赵露思

今年的暑假大戏，赵露思直播告一段落。截至目前，距离她上次公开直播已经过去了十余天，她的社交动态也基本停留在这一刻暂未更新。就在8月19日直播中，赵露思首次表态，表示“现在很愿意做网红”，这一宣言并非偶然，就在前一天，她注销了拥有3119万粉丝的微博账号，彻底切断传统明星的流量锚点。

赵露思直播网红
APOLLO年中展望：在滞胀的十字路口——下一步是什么？

美国关税政策调整引发经济波动。特朗普政府推行的新关税制度使平均关税率升至15.8%，为近90年来最高水平，加剧市场不确定性。经济学家预测经济增长放缓、通胀上升，利率将长期维持高位。企业投资计划波动加剧，消费者信心下滑，预计2025年美国GDP增长仅1.2%。尽管衰退概率上升至25%，但专家认为短期内不会出现全面衰退，供需双方均面临阻力。全球经济增长预期下调至2.6%，低于此前3%的预期。

美国关税经济增长市场波动
中国品牌四登苹果发布会！SmallRig亮相发布会助力iPhone 17 pro系列影像功能

SmallRig斯莫格于9月10日推出专为iPhone 17 Pro系列设计的专业拓展配件，与新品同步发售。该系列以全面化、模块化、专业化的拓展系统为核心，旨在释放iPhone影像潜能，提升手机影像创作体验。产品采用快拆式设计，支持快速切换组件，覆盖从日常拍摄到专业创作的多样化需求。该品牌曾多次亮相苹果全球发布会，产品获官方认可，在全球用户中具有较高认可度。

iPhone17Pro SmallRig斯莫格专业拓展配件
华人风投登上《时代》VC榜单：Foothill入选全美顶尖VC，前沿科技投资力量凸显

Statista与《时代》杂志联合发布“美国顶尖350家风投机构”榜单，从全美逾万家机构中筛选出前3.5%，涵盖募资能力、投资管理能力、基金回报等关键指标。榜单呈现A16z、Greylock等老牌基金，同时凸显Foothill Ventures等新兴力量，反映美国风投格局日益多元化，包括移民、女性及学者创业等新趋势。

风险投资 A16z Greylock
欢迎来到客厅wall时代：你的客厅，远比你想象中更适合100吋

文章探讨100英寸电视的观看体验，指出传统观念认为大尺寸电视需大客厅，但实际关键在于观看距离而非房屋面积。只要距离大于3米，即可获得沉浸式体验。通过技术分析，4K分辨率在3米距离下画面清晰，不会出现颗粒感。海信E8Q Pro等旗舰产品通过先进芯片和屏幕技术，解决了画质和光晕问题，确保近距离观看的舒适与清晰。结论是心动就别犹豫，百寸电视是通往新视界的“任意门”。

电视选购百吋电视观看距离
自动化浏览器控制领域工具深度对比：NXNOS、TARS与Fellou性能与成本

本文对比三款自动化浏览器控制工具：NXNOS、Agent+TARS和Fellou。从企业背景、技术架构、稳定性实测和硬件成本四个维度分析，NXNOS在复杂场景容错和长期运行稳定性上表现突出，硬件门槛低；Agent+TARS侧重跨设备自动化但资源需求高；Fellou适合轻量任务但复杂场景适配弱。建议用户根据场景复杂度、并发需求和预算选择，无绝对优劣，只有适用性差异。

数字经济自动化浏览器企业效率
从中国工厂到中东豪宅！海信RGB-Mini LED电视引千万粉丝博主探厂打call

中国高端电视在中东市场表现强劲，海信电视凭借RGB-Mini LED等创新技术成为当地热门科技产品。中东博主实地探访海信研发中心，深入了解ULED、AI画质芯片等核心技术。海信UX系列电视采用三原色独立背光，突破传统显示限制，实现精准色彩控制，色域覆盖率达97% BT.2020。该产品搭载自研芯片，支持高精度色彩管理，推动全球电视行业进入RGB多基色显示新时代。海信计划在2025年德国IFA展发布重磅消息，加速RGB-Mini LED技术市场化进程。

中国高端电视中东市场海信电视
国内首款模块化四足机器人-Apollo 从“白犀”吉尼斯纪录走来，引领行业进入“定制化时代”

国内首款模块化工业级四足机器人Apollo正式亮相。该机器人由浙江大学杭州国际科创中心研发，延续了前代“白犀”的速度优势，以模块化设计为核心突破，实现性能、场景适配与运维效率的全面革新。Apollo具备140kg负载能力、5.5小时续航，支持快速换电与多场景灵活定制，适用于高危险厂区巡检、应急救援等工业应用，推动四足机器人向定制化解决方案跨越。

模块化工业机器人四足机器人工业级机器人
全链路布局+硬核技术突破，HOLLYLAND猛玛为500万创作者打造专业级创作体验

HOLLYLAND猛玛在内容创作行业爆发式增长背景下，专注解决创作者痛点，通过自主研发无线传输、音频处理与成像算法等技术，构建覆盖音视频采集、信号传输到成品输出的全流程生态。其产品包括极影Ultra无线图传系统、微影APP图传、专业通话系统等，实现从高端专业到消费级产品的全面布局，显著提升创作效率，降低门槛，助力全球创作者。

内容创作设备协同工作流割裂

今日大家都在搜的词：

热文

3 天
7天

LeCun曝多模态LLM重大缺陷提出Interleaved-MoF显著增强视觉理解能力

远东股份：ALL IN“电能+算力+AI”，智能驱动未来

荐淘宝直播请call赵露思

APOLLO年中展望：在滞胀的十字路口——下一步是什么？

中国品牌四登苹果发布会！SmallRig亮相发布会助力iPhone 17 pro系列影像功能

华人风投登上《时代》VC榜单：Foothill入选全美顶尖VC，前沿科技投资力量凸显

欢迎来到客厅wall时代：你的客厅，远比你想象中更适合100吋

自动化浏览器控制领域工具深度对比：NXNOS、TARS与Fellou性能与成本

从中国工厂到中东豪宅！海信RGB-Mini LED电视引千万粉丝博主探厂打call

国内首款模块化四足机器人-Apollo 从“白犀”吉尼斯纪录走来，引领行业进入“定制化时代”

全链路布局+硬核技术突破，HOLLYLAND猛玛为500万创作者打造专业级创作体验

今日大家都在搜的词：

热文

库克称最爱橙色新iPhone：17 Pro是迄今最先进iPhone

苹果推出手机斜挎挂绳售价479元：10种配色可选

罗永浩悬赏10万征集西贝预制菜线索还送iPhone17

iPhone首现2TB内存！iPhone17系列价格公布

天猫首发iPhone 17：支持24期免息淘宝闪购最快30分钟到手

苹果iPhone 17系列京东预约人数超400万：标准版最受欢迎

影视飓风连续4年给员工换新iPhone 全员可得iPhone 17 Pro Max

AI日报：腾讯开源图像模型HunyuanImage2.1；爱诗科技获6000万

旧款Apple Watch也将支持高血压警报：涉及这三款

AI日报：快手推出AI视频制作助手Kwali；字节跳动推出USO模型；

苹果发布会前瞻：最大看点iPhone Air iPhone17或成国内首款无卡

为什么微信上那么多人住在安道尔上热搜：这些因素导致

iPhone 17系列今晚发布：苹果发布会新品揭晓

小米智能音箱多彩版发布：售价199元

库克称最爱橙色新iPhone：17 Pro是迄今最先进iPhone

苹果推出手机斜挎挂绳售价479元：10种配色可选

AI日报：国产版Nano Banana？即梦图片4.0发布；阿里巴巴发布 Q

罗永浩悬赏10万征集西贝预制菜线索还送iPhone17

魅族22官宣9月15日发布：外观、配置公布

小米王腾因泄密被辞退曾单独签署保密协议

站长商机

LeCun曝多模态LLM重大缺陷 提出Interleaved-MoF显著增强视觉理解能力

今日大家都在搜的词：

热文

站长商机

LeCun曝多模态LLM重大缺陷提出Interleaved-MoF显著增强视觉理解能力