首页 > 业界 > 关键词  > LLaVA-1.5最新资讯  > 正文

微软开源多模态模型LLaVA-1.5媲美GPT-4V效果

2024-01-31 09:02 · 稿源:站长之家

划重点:

🌐 微软研究院、威斯康星大学开源LLaVA-1.5,加入多模态模型主流。

🚀 LLaVA-1.5引入跨模态连接器和学术视觉问答数据集,全面提升多模态理解和生成。

📊 在多个知名数据平台测试中,LLaVA-1.5达到开源模型最高水平,媲美GPT-4V效果。

站长之家(ChinaZ.com)1月31日 消息:微软开源了多模态模型LLaVA-1.5,继承LLaVA架构并引入新特性。研究人员对其在视觉问答、自然语言处理、图像生成等进行了测试显示,LLaVA-1.5达到了开源模型中的最高水平,可媲美GPT-4V效果。

image.png

该模型由视觉模型、大语言模型和视觉语言连接器三大块组成。其中,视觉模型使用了预先训练好的CLIP ViT-L/336px,通过CLIP编码可得到固定长度的向量表示,提升图像语义信息表征。与前版本相比,CLIP模型参数和输入分辨率均有显著提升。

大语言模型采用了拥有130亿参数的Vicuna v1.5,用于理解用户输入文本并捕获语义信息,具备强大的推理和生成能力。不同于仅进行图像编码器调优的方法,LLaVA-1.5在训练中更新大语言模型参数,使其能够直接学习如何整合视觉信息进行推理,提高模型自主性。

视觉语言连接器方面,LLaVA-1.5采用双层MLP连接器替代线性投影,有效将CLIP编码器输出映射到大语言模型的词向量空间。

在训练流程上,LLaVA-1.5遵循双阶段训练方式。首先,进行视觉语言表示的预训练,使用约60万张图像文本对,训练时间约1小时。随后,在65万多模态指令数据上进行调优,训练时间约20小时。这种高效的双阶段训练确保了模型的收敛性,并在一天内完成整个流程,相较于其他模型大幅度减少了AI算力和时间成本。

研究人员还设计了匹配的响应格式提示,指导模型根据交互类型调整输出形式以满足特定场景需求。在视觉指令调优方面,LLaVA-1.5使用不同类型的数据集,包括VQA、OCR、区域级VQA、视觉对话、语言对话等,总计约65万条数据,为模型提供丰富的视觉场景推理和交互方式。

LLaVA-1.5在多模态领域取得显著进展,通过开源促进了其在视觉问答、自然语言处理、图像生成等方面的广泛应用。

项目GitHub入口:https://top.aibase.com/tool/llava

举报

  • 相关推荐
  • AI日报:赶超o1!国产大模型DeepSeek R1开源;Kimi多模态思考模型k1.5登场;清影2.0上线智谱清言

    欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解:https://top.aibase.com/1、国产大模型再突破!DeepSeekR1开源,性能直逼OpenAI,开启AI平权新时代DeepSeek最近发布并开源了其最新研发的大型语言模型R1,标志着国产AI技术的一次重大突破。预计2024年第四季度出货量同比增长3.7%,企业IT系统升级需求增加,AI笔记本电脑将改变用户体验,推动市场发展。

  • 滚烫Deepseek一夜刀掉英伟达4万亿,除夕开源多模态模型:7B超越DALL-E 3和StableDiffusion

    DeepSeek大爆出圈,现在连夜发布新模型——多模态Janus-Pro-7B,发布即开源。在GenEval和DPG-Bench基准测试中击败了DALL-E3和StableDiffusion。他们分别是湛江人梁文锋,汕头人杨植麟以及AI学术大佬广州人何恺明。

  • Sam Altman炸场东京,亲曝GPT-5研发路线图,多模态能力颠覆传统

    OpenAI联合创始人兼首席执行官SamAltman出席了日本东京大学活动,介绍了OpenAI的技术研发、产品规划以及GPT模型未来发展等重要信息。在问答环节,有学生提到了大家比较关心的GPT-5问题,Altman表示,GPT-5将是一个超级混合模型,计划会把GPT和o系列模型整合在一起,并且支持视频、音频、图像的多模态交互。Altman表示,OpenAI积极倡导与全球各界共同探讨伦理问题,希望通过广泛的交流和合作,形成一套科学合理、切实可行的伦理规范。

  • DeepSeek深夜发布全新多模态大模型 性能碾压OpenAI

    爆火的国产大模型DeepSeek又放大招,今天凌晨突然发布Janus-Pro多模态大模型,进军文生图领域。在GenEval和DPG-Bench基准测试中,Janus-Pro-7B不仅击败了OpenAI的DALL-E3击败了StableDiffusion、Emu3-Gen等热门模型。作为多模态模型,Janus-Pro不仅能文生图能对图片进行描述,识别地标景点,识别图像中的文字,并能对图片中的知识进行介绍。

  • 多模态卷王阶跃震撼6连发,春节档最强AI家族来袭!

    【新智元导读】开年放大招!阶跃星辰重磅升级Step系基座模型全家桶,一口气连更上新6款模型。作为业内公认的「多模态卷王」,这家AI明星公司目前已拥有业内最全模型矩阵。在通过AGI的征程上,只有那些能够持续积累的玩家,才有可能走到最后。

  • 月之暗面推出全新SOTA模型k1.5:可同时处理不同模态信息

    据报道,月之暗面公司正式宣布推出其全新的SOTA模型k1.5多模态思考模型,在多模态推理和通用推理能力上都实现了突破。k1.5多模态思考模型具备多模态推理能力,能够同时处理和分析来自不同模态的信息,如文本、图像、声音等,从提供更全面、更准确的理解和知识。用户在使用过程中如果发现模型切换按钮,即可体验这一全新升级的模型。

  • AI日报:Kimi发布多模态图片理解模型API;周鸿祎参演AI短剧开拍;MiniMax-01系列模型开源;星火同传语音大模型发布

    欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解:https://top.aibase.com/1、月之暗面Kimi多模态图片理解模型API发布2025年1月15日,北京月之暗面科技有限公司正式发布了全新多模态图片理解模型moonshot-v1-vision-preview,该模型在原有moonshot-v1系列的基础上进一步增强了多模态能力,旨在帮助Kimi更好地理解世界。通过模块化设计,MiniCPM-o2.6集成了多种强大组件,支持实时处理和多语言功能。

  • 三星Galaxy S25系列多模态感知 树立人机交互新范式

    2025年1月23日,三星在AI手机领域再次迈出重要一步,推出了其最新一代旗舰手机——GalaxyS25系列。借助前沿的GalaxyAI技术、多模态AI助理,三星GalaxyS25系列可实现更加自然、直观、易用的人机交互体验,树立了移动交互新范式。随着AI技术的不断进步,我们有理由相信,未来的智能手机将更加智能与人性化三星GalaxyS25系列正是这一愿景下的先行者。

  • 搭载多模态AI助理 三星Galaxy S25系列重塑移动AI新格局

    正文不久前,市场研究机构CounterpointResearch发布了一份报告,预计到2028年,全球生成式AI智能手机的出货量将达到7.3亿台,其市场份额占比将攀升至54%,这一数字是2024年预期水平的三倍以上。到2028年,在售价超过250美元的智能手机中,预计每10部中就有9部将具备生成式AI功能。这一切成就,都是三星GalaxyS系列坚持长期主义创新理念、不懈追求技术突破与用户体验优化的璀璨结晶。

  • 中科金财多模态应用拓展新领域,AI大剧1月24日起快手独播

    北京中科金财科技股份有限公司与北京快手科技有限公司、北京北斗映画传媒有限公司、南京造火文化传媒有限公司联合出品的微短剧《浮梦吟》,将于2025年1月24日起在快手平台全网独播。这是快手首部将实景拍摄与AIGC制作结合的精品古风微短剧,在奇幻叙事中融入现实意义主题,借助AI技术呈现东方美学,打造现象级精品之作。中科金财将继续深化AI技术在多模态领域的研究与应用,定期评测国内外领先的多模态大模型,向客户提供优质AIGC技术服务,搭建全球多模态创作与应用生态,降低创作门槛,为行业带来更多优质内容供给,并继续拓展多模态应用服务领域,低成本解决长尾企业宣传片生产、投放视频制作等需求,利用AI技术创造业务价值,推动产业的智能化升级。