首页 > 业界 > 关键词  > LLaVA最新资讯  > 正文

新型稀疏LVLM架构MoE-LLaVA 解决模型稀疏性相关的性能下降问题

2024-01-31 14:14 · 稿源:站长之家

要点:

1、MoE-LLaVA是一种新型稀疏LVLM架构,使用路由算法仅激活top-k专家。

2、MoE-LLaVA在各种视觉理解数据集上表现相当甚至超越了LLaVA-1.5-7B。

3、MoE-LLaVA采用三阶段的训练策略,以降低稀疏模型学习的难度。

站长之家(ChinaZ.com)1月31日 消息:MoE-LLaVA是一种新型稀疏LVLM架构,通过使用路由算法仅激活top-k专家,解决了通常与多模态学习和模型稀疏性相关的性能下降问题。研究者联合提出了一种新颖的LVLM训练策略,名为MoE-Tuning,以解决大型视觉语言模型(LVLM)的扩大参数规模会增加训练和推理成本的问题。

image.png

项目地址:https://github.com/PKU-YuanGroup/MoE-LLaVA

Demo地址:https://huggingface.co/spaces/LanguageBind/MoE-LLaVA

此外,MoE-LLaVA在各种视觉理解数据集上表现相当甚至超越了LLaVA-1.5-7B。该架构采用三阶段的训练策略,以降低稀疏模型学习的难度,从而建立稀疏LVLMs的基准,为未来研究开发更高效和有效的多模态学习系统提供宝贵的见解。

论文提出了MoE-LLaVA的三阶段训练策略。第一阶段的目标是让视觉token适应到LLM,使LLM具备理解图片实体的能力。第二阶段的目标是用多模态的指令数据来微调,以提高大模型的能力和可控性。

第三阶段使用第二阶段的权重作为初始化以降低稀疏模型学习的难度。在模型构建中,MoE-LLaVA是第一个基于LVLM搭载soft router的稀疏模型。研究团队在5个图片问答benchmark上验证了MoE-LLaVA的性能,并报告了激活的参数量和图片分辨率。

为了验证MoE-LLaVA的多模态理解能力,研究在4个benchmark toolkit上评估了模型性能。结果显示,MoE-LLaVA可以用更少的激活参数达到和稠密模型相当甚至超过的性能。研究还采用POPE评估pipeline验证MoE-LLaVA的物体幻觉,结果表明MoE-LLaVA展现出最佳的性能,以较少的激活参数超过了LLaVA。

MoE-LLaVA能够帮助我们更好地理解稀疏模型在多模态学习上的行为,为未来研究和开发提供了有价值的见解。

举报

  • 相关推荐
  • 机器人“全能导航大脑”来了!银河通用发布NavFoM大模型

    银河通用发布全球首个跨本体全域环视导航基座大模型NavFoM,实现机器人从“学会完成导航任务”到“真正理解移动”的跨越。该模型支持全场景、多任务、跨本体应用,通过统一“视频流+文本指令→动作轨迹”范式,融合800万条跨任务导航数据,在真实机器人上实现零样本自主避障、路径规划等复杂任务。其技术突破将推动具身智能从单一功能进化为基础设施,为规模化商业落地奠定关键基础。

  • 张艺兴×全红婵集体打call!最嗨音乐班凭啥让明星排队合拍?

    ​最近,抖音上一个“音乐班”的视频突然爆火,原因无他——张艺兴和全红婵竟然同框打call了! 一个是国民级偶像,一个是奥运跳水冠军,看似毫无交集的两人,却在和同一个短视频合拍,为这段节奏感炸裂的音乐班表演疯狂喊麦。

  • Shure IntelliMix™ Room 会议套装正式入驻微软中国创新中心 Shure与微软开启声智体验之旅

    2025年11月11日,舒尔全新会议音频解决方案IntelliMix™ Room套件在微软北京创新中心完成安装并投入使用。该方案专为现代会议室设计,提供一站式高品质音频服务,集成卓越音质、简易设置及强大云管理能力。通过微软Teams认证,无缝接入MTR生态系统,支持端到端加密通信,确保会议安全。用户可远程管理系统,降低运维成本。舒尔与微软合作,共同提升企业协作效率,首批体验用户反馈语音清晰流畅,显著优化沟通质量。

  • 无万卡,不VLA:元戎启行与阿里云的“想法”和“解法”

    1980年代汉斯·莫拉维克提出人工智能悖论:计算机在逻辑推理等高级智能活动中易超越人类,但实现儿童般的感知与常识认知却极困难。智能驾驶的核心挑战在于让AI理解物理世界并进行因果推理。视觉-语言-行动模型通过融合多模态数据,使系统具备推理驾驶能力,推动行业迈向L5完全自动驾驶。面对VLA模型的数据处理、训练效率和成本挑战,阿里云等超级AI云提供全栈解决方案,从算力基础设施到开源生态,加速技术迭代与商业化落地。

  • 锐我科技正式获得Gala授权 《飞飞:无限宇宙》即将启程

    国家新闻出版署日前公布新版号,经典游戏《飞飞》续作《飞飞:无限宇宙》国服获批。该游戏由GALA研发、锐我科技独家代理运营,将实现三端互通,继承原版飞行系统、人物形象和社交玩法,并优化画面与内容。运营团队正全力推进本地化适配及测试筹备,预约站已上线,玩家可关注官方信息获取测试资格。

  • 何小鹏:大众将成小鹏第二代VLA首发客户

    在今日举办的2025小鹏科技日”发布会上,小鹏汽车董事长何小鹏官宣第二代VLA。 他还重磅宣布称,大众汽车成为了小鹏第二代VLA首发客户,同时小鹏自研的图灵AI芯片也获得大众定点。 据悉,第二代VLA也即小鹏首个量产物理世界大模型,既是动作生成模型,也是理解和推演的物理世界

  • 双十一进入冲刺阶段 下单三星Galaxy旗舰手机可享多重好礼

    双十一期间,三星旗舰手机值得关注。Galaxy S25 Ultra作为全能旗舰,配备2亿像素主摄、多焦段镜头及AI影像技术,结合6.9英寸大屏与强劲性能,适合追求前沿体验的用户。折叠机型Galaxy Z Fold7以超轻薄设计提升便携性,配备双屏及专业摄像;Z Flip7则升级外屏交互,增强自拍与日常操作便利性。全系搭载优化AI功能,如实时翻译、智能文案等。目前三星商城11.11活动提供优惠,S25 Ultra和折叠机最高享2400元及1600元福利,学生可叠加额外折扣,是入手好时机。

  • 何小鹏首次披露物理AI巨大进展 发布第二代VLA大模型

    小鹏汽车在2025科技日发布第二代VLA大模型,颠覆传统“视觉-语言-动作”架构,实现端到端直接输出动作指令,开创物理模型新范式。该模型具备动作生成与物理世界理解能力,参数规模达数十亿级,训练数据近1亿clips。基于2250TOPS算力的Ultra车型成功搭载,推动智驾技术显著进化,同步发布“小径NGP”功能,复杂小路接管里程提升13倍。行业首发的无导航辅助驾驶Super+LCC实现全球覆盖。何小鹏表示,大模型将成为物理AI世界的操作系统,并宣布与大众汽车达成战略合作,共同推进智能出行发展。

  • AI赋能移动影像 三星Galaxy S25 Ultra开启全场景专业拍摄体验

    三星Galaxy S25 Ultra以专业影像系统满足用户创作需求:搭载2亿像素四摄系统,实现从超广角到长焦的全焦段覆盖,支持100倍空间变焦与OIS防抖。新增增强版超视觉引擎,通过双降噪技术与AI算法提升夜景和逆光画质。集成Galaxy AI智能工具,提供生成式编辑、人像风格化及音频降噪等功能,让用户可一键完成专业级后期创作。从拍摄到编辑,全方位助力用户随手记录生活,轻松产出电影感作品。

  • 活字格通过信通院智能体专项测试,以All-in-One能力加速企业AI落地

    葡萄城自主研发的活字格低代码开发平台近日通过中国信息通信研究院“智能体平台”能力专项测试,成为首批完成测试的企业。该平台凭借All-in-One智能体开发架构,覆盖数据管理、模型接入、插件开发等八大能力域,具备强集成、高安全、易扩展特性。测试结果显示其AI开发能力达行业认可水平,可为企业提供低门槛智能体落地解决方案,已在制造、政务、医疗等领域深度应用,助力企业数字化转型。

今日大家都在搜的词: