马毅团队新研究：微调多模态大模型会灾难性遗忘

2023-09-28 10:13 · 稿源：站长之家

要点:
1. 马毅团队提出了EMT框架，评估微调后的多模态大模型（MLLM）的灾难性遗忘。
2. 实验表明，微调MLLM在提升微调数据集性能的同时，也导致其他数据集性能下降。
3. 微调过程中，MLLM会产生与微调数据集相关的幻觉文本，忽略原始问题。

站长之家（ChinaZ.com）9月28日消息:随着GPT-4的发布，多模态大模型（MLLM）成为热点。业界常将视觉编码器与语言模型集成构建MLLM。尽管微调后的MLLM在视觉语言任务上表现强劲，但仍面临灾难性遗忘的问题，即过拟合微调数据集后，在其他任务上的性能下降。

论文地址:https://arxiv.org/pdf/2309.10313.pdf

马毅团队提出了EMT框架，专门评估MLLM的灾难性遗忘。流程是:

1）输入图像;

2）要求MLLM分类;

3）用另一个语言模型评估分类正确性。

结果显示，测试的MLLM大多无法保持与视觉编码器相近的分类性能。

研究还针对LLaVA做了微调实验。证实了适度微调有益，但过度微调会导致非微调任务遗忘。另外，微调后的MLLM会产生与微调数据集相关的幻觉文本，而非原始问题。

本研究首次系统评估了MLLM中的灾难性遗忘问题，为后续工作提供了框架和基准。遗忘问题的产生也启示我们，在追求单任务性能的同时，还需注意保持模型的泛化能力，防止过拟合。模型设计和训练技巧仍需进一步优化，以平衡不同能力之间的权衡。

（举报）

相关推荐

关键词：

多模态

既能读懂情绪，还能多模态交互！INDEMIND用空间智能重新定义陪伴机器人

TCL与INDEMIND合作推出的陪伴机器人“Ai Me”通过空间智能技术实现突破，从传统2D感知升级为3D语义感知，赋予机器人动态语义建图、实时环境适应及多模态交互能力。该平台借助立体视觉与多传感器融合，让机器人精准构建三维地图，识别家居属性，实现主动避障与个性化服务。同时，结合低算力混合模型与情感交互功能，机器人可感知用户情绪、提供安全防护，并支持宠物看护等场景拓展，从“工具”升级为有温度的“家庭伙伴”，真正满足复杂家庭需求。

3D感知多模态交互陪伴机器人
荐AI日报：阿里推多模态模型Qwen3-Omni；谷歌推出AP2协议；百度推出Qianfan-VL 模型

本期AI日报聚焦多领域技术突破：阿里云推出全球首个全模态AI模型Qwen3-Omni，支持文本、图像、音频和视频统一处理；百度发布多尺寸视觉理解模型Qianfan-VL，优化企业级应用。苹果扩展Image Playground平台，引入ChatGPT等第三方模型。谷歌与PayPal合作推出AP2协议，推动AI支付安全创新。钉钉上线AI表格助手，支持自然语言生成表格。DeepSeek开源V3.1-Terminus模型，性能显著提升。Kimi推出Agent会员服务，智元机器人开源全球首个通用具身智能模型GO-1，降低技术门槛促进行业创新。

AI模型全模态阿里云
小度发布多模态智能摄像机，AI大模型重塑家庭看护体验

小度科技推出首款多模态智能摄像机C800，搭载800万像素4K超清摄像头，支持AI大模型技术。该产品不仅能实现高清监控，还具备智能行为识别、语音交互等功能，可自定义看护提醒。结合视觉与语音交互，支持复杂语义查询和家庭设备联动，扩展智能家居应用场景。目前产品已全网发售，年底还将推出三摄版本，持续探索AI硬件创新。

AI大模型智能硬件小度科技
语音、手势、触控、人脸等，思必驰多模态交互开启智能经济时代

人类的交互通道有眼耳鼻舌口等器官，他们充当着外在世界信号的“接收器”，将范围内的信号接收并传递给“大脑”。在机器世界里，从过去鼠标键盘转变成当下的触控、语音、手势、视觉等，多模态人机交互技术正在彼此融合。目前智能语音具备兼顾老人、儿童以及地方方言的能力，语音与视觉，触屏，LCD反馈显示结合的交互体验，令交互门槛的不断降低。国内专业的对话式AI企业思必驰，结合全链路语音交互技术及自研计算机视觉技术推出多?

思必驰智能经济
支付安全再升级，瑞银信押注多模态技术

支付业务作为所有金融服务的基础入口，安全性始终是其最关键的考量因素。从最基础的密码验证，到数字密钥、指纹识别、面部识别等支付验证技术，每一次支付安全背后都是越来越严峻的风险形势。在支付领域深耕十余年的瑞银信，对支付安全技术有着长期的探索积累，并在近期将目光投向了多模态技术。模态是指任何一种信息的来源，例如指纹、人脸、声纹、步态、虹膜、语音等都可以被称之为一种模态。而所谓多模态识别技术，则是指综合运

支付安全
云栖大会智舱黑科技：全球首个全模态端侧大模型解决方案，斑马智行首发

9月24日，2025云栖大会在杭州开幕，主题为“云智一体·碳硅共生”，汇聚全球50多国2000余位嘉宾探讨AI、云计算与产业应用趋势。阿里云发布7款通义大模型，其中Qwen3-Omni作为行业首个端到端全模态AI大模型，在36项基准测试中实现22项SOTA，性能全面突破。大会聚焦多模态技术，斑马智行宣布率先接入Qwen3-Omni，并与阿里云、高通联合推出端到端全模态端侧大模型方案Auto+Omni，具备主动智能、断网可用、隐私无忧三大特点，推动汽车智能座舱从指令交互向Always-on主动服务升级。首批搭载方案车型将于2026年量产，标志着汽车智能化迈入“自主行动”新阶段。大会将持续至26日，预计更多创新技术将亮相。

云栖大会通义大模型 AI技术
多模态生物识别成趋势，指静脉识别优势显著！

随着生物识别技术不断发展，在日常人们更容易感受到生物识别技术带来的便利，例如AI人脸识别破案、指纹手机解锁、刷指静脉过闸等，生物识别越来越频繁地出现在大众的视野。在当下众多生物识别方式中，指纹识别是我们最常见的识别方式之一，成本也相对较低，但是关于指纹识别存在的安全隐患频频出现在新闻之中。对于国内的技术工作者甚至是创新型企业，无疑是一种对更高安全识别技术挑战。近年人脸识别、虹膜识别、指静脉识别技术有

指静脉识别
Turing OS 机器人操作系统大升级，多模态交互再增强

今年7月的图灵机器人创新大会上，图灵机器人团队正式对外发布了Turing OS 1.5。图灵机器人曾在2015年发布首款人工智能级的机器人操作系统——Turing OS，是智能机器人专属的操作系统。半年后，伴随着升级版本的到来，团队一次连发几十款机器人应用，并全面加强Turing OS系统，开放图灵机器人平台新服务。经过紧张的调试与准备，10月13日，Turing OS 1.5测试版正式上线。据了解，除了之前会上特别介绍过的机器人应用、视觉能力及主?

机器人
亚略特助力非洲首个多模态生物识别国家身份证中心落成

2019 年 11 月 8 日，安哥拉司法和人权部国家身份与犯罪综合管理平台项目（以下简称“国家身份证中心”）举行落成仪式，这标志着非洲首个多模态生物识别国家身份证体系正式上线。安哥拉总统洛伦索出席剪彩仪式并对该项目给予高度评价，表示该中心将有效提高安哥拉公共服务水平，为经济社会良好稳定发展发挥重要作用。安哥拉国家身份证中心于 2018 年 6 月开始筹建，是安哥拉最高级别的身份证管理机构，具备数据处理、身份证制作等?

生物识别
眼神科技CTO：多模态统一身份认证的必要性

国内知名人工智能及前沿科技领域新媒体量子位发起「量子位·视点」CEO/CTO系列分享活动，眼神科技CTO江武明受邀参加，并进行了主题为《多模态统一身份认证——数字化的入口和枢纽》直播分享，引发数千人观看...电子证照的顺利实施，离不开对电子化证照的管理和鉴权，眼神科技的核心技术解决方案——多模态统一身份认证平台可以做为电子证照推行过程中的一个中枢平台，为随时随地的数据获取和验证提供初始的身份确认及安全保障......

眼神科技

今日大家都在搜的词：

热文

3 天
7天

马毅团队新研究：微调多模态大模型会灾难性遗忘

既能读懂情绪，还能多模态交互！INDEMIND用空间智能重新定义陪伴机器人

荐AI日报：阿里推多模态模型Qwen3-Omni；谷歌推出AP2协议；百度推出Qianfan-VL 模型

小度发布多模态智能摄像机，AI大模型重塑家庭看护体验

语音、手势、触控、人脸等，思必驰多模态交互开启智能经济时代

支付安全再升级，瑞银信押注多模态技术

云栖大会智舱黑科技：全球首个全模态端侧大模型解决方案，斑马智行首发

多模态生物识别成趋势，指静脉识别优势显著！

Turing OS 机器人操作系统大升级，多模态交互再增强

亚略特助力非洲首个多模态生物识别国家身份证中心落成

眼神科技CTO：多模态统一身份认证的必要性

今日大家都在搜的词：

热文

AI日报：Veo 3.1可生成1分钟视频；蚂蚁发布万亿参数语言模型 L

京东双11今晚开启：现货开卖官方直降低至一折

iQOO 15官宣：10月20日发布

三星W26折叠屏手机官宣10月11日发布

新款智界R7/S7上市44天大定破38000台

荣耀Magic8系列暨MagicOS10发布会定档10月15日

影视飓风Tim送罗永浩顶配iPhone17ProMax 后者锐评：越做越难看

iQOO 15搭载自研电竞芯片Q3 能效提升40%

11月开启！vivo OriginOS 6公测适配计划公布

AI日报：美图RoboNeo上线首月MAU破百万；影视级音画同步模型Ga

微信又更新了撤回消息有大变化：可撤回本次发送的全部消息