首页 > 业界 > 关键词  > LLaVA最新资讯  > 正文

新型稀疏LVLM架构MoE-LLaVA 解决模型稀疏性相关的性能下降问题

2024-01-31 14:14 · 稿源:站长之家

要点:

1、MoE-LLaVA是一种新型稀疏LVLM架构,使用路由算法仅激活top-k专家。

2、MoE-LLaVA在各种视觉理解数据集上表现相当甚至超越了LLaVA-1.5-7B。

3、MoE-LLaVA采用三阶段的训练策略,以降低稀疏模型学习的难度。

站长之家(ChinaZ.com)1月31日 消息:MoE-LLaVA是一种新型稀疏LVLM架构,通过使用路由算法仅激活top-k专家,解决了通常与多模态学习和模型稀疏性相关的性能下降问题。研究者联合提出了一种新颖的LVLM训练策略,名为MoE-Tuning,以解决大型视觉语言模型(LVLM)的扩大参数规模会增加训练和推理成本的问题。

image.png

项目地址:https://github.com/PKU-YuanGroup/MoE-LLaVA

Demo地址:https://huggingface.co/spaces/LanguageBind/MoE-LLaVA

此外,MoE-LLaVA在各种视觉理解数据集上表现相当甚至超越了LLaVA-1.5-7B。该架构采用三阶段的训练策略,以降低稀疏模型学习的难度,从而建立稀疏LVLMs的基准,为未来研究开发更高效和有效的多模态学习系统提供宝贵的见解。

论文提出了MoE-LLaVA的三阶段训练策略。第一阶段的目标是让视觉token适应到LLM,使LLM具备理解图片实体的能力。第二阶段的目标是用多模态的指令数据来微调,以提高大模型的能力和可控性。

第三阶段使用第二阶段的权重作为初始化以降低稀疏模型学习的难度。在模型构建中,MoE-LLaVA是第一个基于LVLM搭载soft router的稀疏模型。研究团队在5个图片问答benchmark上验证了MoE-LLaVA的性能,并报告了激活的参数量和图片分辨率。

为了验证MoE-LLaVA的多模态理解能力,研究在4个benchmark toolkit上评估了模型性能。结果显示,MoE-LLaVA可以用更少的激活参数达到和稠密模型相当甚至超过的性能。研究还采用POPE评估pipeline验证MoE-LLaVA的物体幻觉,结果表明MoE-LLaVA展现出最佳的性能,以较少的激活参数超过了LLaVA。

MoE-LLaVA能够帮助我们更好地理解稀疏模型在多模态学习上的行为,为未来研究和开发提供了有价值的见解。

举报

  • 相关推荐
  • 远东股份:ALL IN“电能+算力+AI”,智能驱动未来

    远东股份(600869)凭借“电能+算力+AI”战略,在能源与算力融合领域形成先发优势。公司深耕特高压输电、新能源等关键技术,自主研发高导铝绞线提升输电效率,产品应用于多条国家级特高压线路。同时布局液冷技术研发,为数据中心提供高效散热方案。未来将持续推进“AI+能源”产业生态建设,助力制造业智能化升级和绿色高效算能模式构建。

  • 淘宝直播请call赵露思

    今年的暑假大戏,赵露思直播告一段落。 截至目前,距离她上次公开直播已经过去了十余天,她的社交动态也基本停留在这一刻暂未更新。就在8月19日直播中,赵露思首次表态,表示“现在很愿意做网红”,这一宣言并非偶然,就在前一天,她注销了拥有3119万粉丝的微博账号,彻底切断传统明星的流量锚点。

  • 智驾终局:VLA与WA的“强脑”之争

    当理想i8在暴雨中的山区公路上自动识别出被冲垮的路肩,平稳减速并规划出绕行路线时;当小鹏P7Ultra仅凭视觉传感器就精准避让了横穿马路的流浪猫与突发变道的货车时,智能驾驶行业悄然迎来了一场技术革命的临界点。 新能源汽车的市场淘汰赛已进程过半,从电池续航、充电速度到座舱智能化,竞争之下市场早已进入红海,甚至智驾能力也正从争议不断的“加分项”转变�

  • 三星全线产品亮相北京京东MALL 全场景呈现有AI的科技·艺术·家

    9月12日,三星家电以“AI的呵护”为主题在北京京东MALL举办线下体验展,集中展示搭载AI技术的全线产品,包括冰箱、洗衣机、电视及手机等。重点展出了荣获IFA创新奖的AI神·黑钻热泵洗烘旗舰等产品,通过五大主题展区呈现科技与艺术融合的家电新形态。观众可现场体验食材管理、衣物护理等智能功能,感受AI技术带来的生活便利。展览将持续至9月17日,并提供互动礼品。

  • 三星正式向更多Galaxy设备推送Samsung One UI 8更新

    三星电子正式推送One UI 8更新,为Galaxy用户带来增强的多模态AI功能,包括个性化建议、实时窗口、即时简报等智能体验。新系统优化了不同设备形态的交互,结合Knox安全架构保护隐私,并支持实时翻译、游戏辅助等实用工具。9月18日起中国用户可优先升级,年底前将扩展至更多机型。

  • APOLLO年中展望:在滞胀的十字路口——下一步是什么?

    美国关税政策调整引发经济波动。特朗普政府推行的新关税制度使平均关税率升至15.8%,为近90年来最高水平,加剧市场不确定性。经济学家预测经济增长放缓、通胀上升,利率将长期维持高位。企业投资计划波动加剧,消费者信心下滑,预计2025年美国GDP增长仅1.2%。尽管衰退概率上升至25%,但专家认为短期内不会出现全面衰退,供需双方均面临阻力。全球经济增长预期下调至2.6%,低于此前3%的预期。

  • 全链路布局+硬核技术突破,HOLLYLAND猛玛为500万创作者打造专业级创作体验

    HOLLYLAND猛玛在内容创作行业爆发式增长背景下,专注解决创作者痛点,通过自主研发无线传输、音频处理与成像算法等技术,构建覆盖音视频采集、信号传输到成品输出的全流程生态。其产品包括极影Ultra无线图传系统、微影APP图传、专业通话系统等,实现从高端专业到消费级产品的全面布局,显著提升创作效率,降低门槛,助力全球创作者。

  • 腾讯悄悄上线了“Claude Code”,居然还支持微信登录。

    ​昨晚,腾讯发了他们的CodeBuddy Code,正式也加入命令行编程Agent战场。 说实话,CodeBuddy这产品,真的有点玄学在身上的。 我之前就当个新闻写,写了两次,一次插件,一次IDE,两次都快10w+,尼玛。。。

  • 囤LABUBU的黄牛哭了:根本没人接盘

    曾经一娃难求的LABUBU目前在二手交易平台全线下跌。 在二手交易平台闲鱼上,LABUBU的挂售数量明显增加,卖家们纷纷降价,有的卖家标注亏本卖”、求回血”等字样。 目前不少黄牛已经暂停收货LABUBU,一位黄牛表示,我从事潮玩转手已经两年了,LABUBU一直是硬通货,但这次市场反应完全出乎意料,我手里还压着没有出手,估计要亏好几千。 另一方面,由于价格下跌,不少�

  • 中国品牌四登苹果发布会!SmallRig亮相发布会助力iPhone 17 pro系列影像功能

    SmallRig斯莫格于9月10日推出专为iPhone 17 Pro系列设计的专业拓展配件,与新品同步发售。该系列以全面化、模块化、专业化的拓展系统为核心,旨在释放iPhone影像潜能,提升手机影像创作体验。产品采用快拆式设计,支持快速切换组件,覆盖从日常拍摄到专业创作的多样化需求。该品牌曾多次亮相苹果全球发布会,产品获官方认可,在全球用户中具有较高认可度。

今日大家都在搜的词: