首页 > 业界 > 关键词  > LLaVA最新资讯  > 正文

新型稀疏LVLM架构MoE-LLaVA 解决模型稀疏性相关的性能下降问题

2024-01-31 14:14 · 稿源:站长之家

要点:

1、MoE-LLaVA是一种新型稀疏LVLM架构,使用路由算法仅激活top-k专家。

2、MoE-LLaVA在各种视觉理解数据集上表现相当甚至超越了LLaVA-1.5-7B。

3、MoE-LLaVA采用三阶段的训练策略,以降低稀疏模型学习的难度。

站长之家(ChinaZ.com)1月31日 消息:MoE-LLaVA是一种新型稀疏LVLM架构,通过使用路由算法仅激活top-k专家,解决了通常与多模态学习和模型稀疏性相关的性能下降问题。研究者联合提出了一种新颖的LVLM训练策略,名为MoE-Tuning,以解决大型视觉语言模型(LVLM)的扩大参数规模会增加训练和推理成本的问题。

image.png

项目地址:https://github.com/PKU-YuanGroup/MoE-LLaVA

Demo地址:https://huggingface.co/spaces/LanguageBind/MoE-LLaVA

此外,MoE-LLaVA在各种视觉理解数据集上表现相当甚至超越了LLaVA-1.5-7B。该架构采用三阶段的训练策略,以降低稀疏模型学习的难度,从而建立稀疏LVLMs的基准,为未来研究开发更高效和有效的多模态学习系统提供宝贵的见解。

论文提出了MoE-LLaVA的三阶段训练策略。第一阶段的目标是让视觉token适应到LLM,使LLM具备理解图片实体的能力。第二阶段的目标是用多模态的指令数据来微调,以提高大模型的能力和可控性。

第三阶段使用第二阶段的权重作为初始化以降低稀疏模型学习的难度。在模型构建中,MoE-LLaVA是第一个基于LVLM搭载soft router的稀疏模型。研究团队在5个图片问答benchmark上验证了MoE-LLaVA的性能,并报告了激活的参数量和图片分辨率。

为了验证MoE-LLaVA的多模态理解能力,研究在4个benchmark toolkit上评估了模型性能。结果显示,MoE-LLaVA可以用更少的激活参数达到和稠密模型相当甚至超过的性能。研究还采用POPE评估pipeline验证MoE-LLaVA的物体幻觉,结果表明MoE-LLaVA展现出最佳的性能,以较少的激活参数超过了LLaVA。

MoE-LLaVA能够帮助我们更好地理解稀疏模型在多模态学习上的行为,为未来研究和开发提供了有价值的见解。

举报

  • 相关推荐
  • 重构想象!KAVA首款全地形车新品亮相,引领行业变革

    9月26日,高端全地形车品牌KAVA发布旗舰ATV车型KAVA Strider。该车搭载1000cc发动机,性能领先行业,整车轻量化设计,重量控制在450公斤内,兼具强劲动力与灵活操控。智能系统覆盖驾控、网联和中控三大板块,支持多模式切换、蓝牙/Wi-Fi连接及专属APP,实现地图投屏、无钥匙解锁、电子围栏等功能,提升安全与便捷性。外观灵感源自剑齿虎,线条锐利,造型硬核,重新定义全地形车美学。KAVA Strider不仅是一款产品,更象征行业未来进化方向。

  • 15年创新引领 三星Galaxy移动影像技术发展回顾

    随着移动影像技术快速发展,三星Galaxy系列持续推动行业创新。从2010年Galaxy S的500万像素摄像头,到如今S25 Ultra搭载2亿像素主摄及AI编辑功能,三星始终引领手机影像革新。15年来,其坚持"先于潮流"理念,不断突破移动摄影界限,开创了手机影像的全新纪元。

  • 如何为影像作品赋予表现力?三星Galaxy智能生态来帮忙

    三星Galaxy智能生态设备让影像创作更轻松:手表可遥控手机拍照,解决合影难题;Buds耳机优化收音,视频通话更清晰;平板与S Pen配合实现精细后期编辑,一键移除背景杂物。从拍摄到剪辑,全生态无缝协同,让每个人都能轻松创作满意作品。

  • AI日报:LiblibAI 2.0正式上线;通义千问、豆包开启记忆功能;Sora已登陆Google Play

    本期AI日报聚焦多项重要进展:LiblibAI 2.0上线,内置多模型并提供限时免费算力;通义千问和豆包开启记忆功能内测;OpenAI视频生成应用Sora登陆Google Play并开放北美预注册;Qoder推出提示词增强功能提升开发效率;Cherry Studio集成主流AI模型并推出优惠活动;港中文团队推出首个结构化图像生成系统;DeepSeek入选2025全球十大工程成就。这些突破展示了AI技术快速迭代与多领域应用�

  • 引领美学革命 三星Galaxy S25 Edge超纤薄机身重塑旗舰体验

    三星Galaxy S25 Edge以5.8毫米厚度、163克重量重新定义旗舰轻薄体验,通过钛金属中框与康宁大猩猩玻璃提升耐用性。搭载第二代动态AMOLED屏幕、骁龙8至尊版芯片及VC均热板散热系统,实现性能与手感的平衡。影像方面配备2亿像素主摄与AI超视觉引擎,支持夜景全场景拍摄。集成Galaxy AI提供实时简报、语音搜图等功能,通过"聊天视界"实现多模态交互。这款产品证明极致设计与全能实力可完美融合,为同质化市场开辟超轻薄旗舰新赛道。

  • 浙大校友联手微软开源LLaVA-1.5,硬刚GPT-4V

    LLaVA-1.5是来自威斯康星大学麦迪逊分校、微软研究院和哥伦比亚大学的研究人员近期开源的一款全新的端到端多模态大模型,可与OpenAI的GPT-4V形成正面竞争。LLaVA-1.5在11项基准测试中都实现了新的状态最优成绩,包括视觉问答、图像caption等任务,展现出了强大的多模态理解能力。LLaVA-1.5以其出色的多模态理解能力,向业内掀起了一股“硬刚GPT-4”的新风潮。

  • LLaVA++:为Phi-3和Llama-3模型增加视觉处理能力

    LLaVA项目通过扩展现有的LLaVA模型,成功地为Phi-3和Llama-3模型赋予了视觉能力。这一改进标志着AI在多模态交互领域的进一步发展。LLaVA的推出,预示着未来AI模型将更加智能和灵活,能够更好地服务于需要视觉与文本结合理解的复杂场景。

  • 微软开源多模态模型LLaVA-1.5媲美GPT-4V效果

    微软开源了多模态模型LLaVA-1.5,继承LLaVA架构并引入新特性。研究人员对其在视觉问答、自然语言处理、图像生成等进行了测试显示,LLaVA-1.5达到了开源模型中的最高水平,可媲美GPT-4V效果。LLaVA-1.5在多模态领域取得显著进展,通过开源促进了其在视觉问答、自然语言处理、图像生成等方面的广泛应用。

  • 开启移动智能新时代 回顾Galaxy AI的创新之旅

    三星通过Galaxy AI开启智能手机AI驱动新时代。2024年Galaxy S24系列问世,标志AI手机进入创新新阶段。AI深度赋能沟通、创意与互联,重塑生活方式。三星持续推动多模态AI发展,将其融入可穿戴设备、平板、PC等产品,扩展移动AI生态系统。自去年Galaxy AI落地应用后,重新定义更自由、智能的生活方式,推动新时代持续演进。

  • LLaVA-1.6来了!赶超Gemini Pro 提升推理性能

    LLaVA-1.6是一项新的技术成果,通过提升推理、OCR能力以及支持更多场景和广泛用户,为用户带来更好的体验。LLaVA-1.6不仅在多项基准测试中超越了GeminiPro,并且优于Qwen-VL-Plus,展现出了强大的性能。这将对多模态技术的发展产生积极的推动作用,为用户带来更广泛的应用场景和更好的体验。

今日大家都在搜的词:

热文

  • 3 天
  • 7天