微软开源多模态模型LLaVA-1.5媲美GPT-4V效果

2024-01-31 09:02 · 稿源：站长之家

划重点:
🌐 微软研究院、威斯康星大学开源LLaVA-1.5，加入多模态模型主流。
🚀 LLaVA-1.5引入跨模态连接器和学术视觉问答数据集，全面提升多模态理解和生成。
📊 在多个知名数据平台测试中，LLaVA-1.5达到开源模型最高水平，媲美GPT-4V效果。

站长之家（ChinaZ.com）1月31日消息:微软开源了多模态模型LLaVA-1.5，继承LLaVA架构并引入新特性。研究人员对其在视觉问答、自然语言处理、图像生成等进行了测试显示，LLaVA-1.5达到了开源模型中的最高水平，可媲美GPT-4V效果。

该模型由视觉模型、大语言模型和视觉语言连接器三大块组成。其中，视觉模型使用了预先训练好的CLIP ViT-L/336px，通过CLIP编码可得到固定长度的向量表示，提升图像语义信息表征。与前版本相比，CLIP模型参数和输入分辨率均有显著提升。

大语言模型采用了拥有130亿参数的Vicuna v1.5，用于理解用户输入文本并捕获语义信息，具备强大的推理和生成能力。不同于仅进行图像编码器调优的方法，LLaVA-1.5在训练中更新大语言模型参数，使其能够直接学习如何整合视觉信息进行推理，提高模型自主性。

视觉语言连接器方面，LLaVA-1.5采用双层MLP连接器替代线性投影，有效将CLIP编码器输出映射到大语言模型的词向量空间。

在训练流程上，LLaVA-1.5遵循双阶段训练方式。首先，进行视觉语言表示的预训练，使用约60万张图像文本对，训练时间约1小时。随后，在65万多模态指令数据上进行调优，训练时间约20小时。这种高效的双阶段训练确保了模型的收敛性，并在一天内完成整个流程，相较于其他模型大幅度减少了AI算力和时间成本。

研究人员还设计了匹配的响应格式提示，指导模型根据交互类型调整输出形式以满足特定场景需求。在视觉指令调优方面，LLaVA-1.5使用不同类型的数据集，包括VQA、OCR、区域级VQA、视觉对话、语言对话等，总计约65万条数据，为模型提供丰富的视觉场景推理和交互方式。

LLaVA-1.5在多模态领域取得显著进展，通过开源促进了其在视觉问答、自然语言处理、图像生成等方面的广泛应用。

项目GitHub入口:https://top.aibase.com/tool/llava

（举报）

相关推荐
大家在看

关键词：

【腾讯云】11.11云上盛惠！云服务器首年1.8折起，买1年送3个月！

11.11云上盛惠！海量产品 · 轻松上云！云服务器首年1.8折起，买1年送3个月！超值优惠，性能稳定，让您的云端之旅更加畅享。快来腾讯云选购吧！

Docker容器镜像
去看看

Docker容器镜像 60元/15天

爆款产品组合购
去看看

爆款产品组合购低至1元

腾讯云x NVIDIA加速计划
去看看

腾讯云x NVIDIA加速计划最高获赠10万元扶持基金

2核2G云服务器
去看看

2核2G云服务器 112元/1年

查看更多相关信息>>

腾讯云 12-20

广告
多模态大模型Reka Core发布性能与GPT-4相媲美

RekaCore是一款最新发布的多模态大型语言模型，其性能可与GPT-4相媲美，甚至在某些方面超越了现有的前沿模型。这一技术突破为人工智能领域带来了新的里程碑，特别是在图像、视频和音频的上下文理解能力方面。随着Core的进一步优化和应用，我们有理由相信，它将在多个领域产生深远的影响，推动人工智能技术的进步和社会的发展。

多模态大模型 AI头条
马斯克XAI发布Grok-1.5 Vision 多模态模型可处理文本和图片信息

在人工智能领域，多模态模型的发展一直是行业关注的焦点。马斯克XAI公司发布了其最新的多模态模型——Grok-1.5Vision，这一模型不仅能够处理文本信息能够理解和分析各种视觉数据，如文档、图表、截图和照片，标志着公司在人工智能技术上迈出了重要一步。随着该模型的进一步优化和应用，我们有理由相信，它将在多个领域发挥重要作用，推动人工智能技术向前发展。

Grok-1.5Vision AI头条
比Gemini Pro1.5强！可解读视频的多模态模型Pegasus-1公测

TwelveLabs最新发布了Pegasus-1的公测版本，这款视频-语言基础模型在视频理解领域取得了新突破。Pegasus-1是一款具有约17亿参数的视频-语言模型，能够以卓越的准确性和细节处理能力从视频输入中生成语言描述。Pegasus-1的不断进化与创新，为视频理解技术开辟新的可能性。

Pegasus-1 AI头条
代码、模型全开源！贾佳亚团队多模态模型 Mini-Gemini登上热榜

香港中文大学终身教授贾佳亚团队最近推出了一款名为Mini-Gemini的多模态模型，该模型在多模态任务榜单上取得了显著成绩，其性能堪比GPT-4与DALLE3的结合。Mini-Gemini模型以其更精确的图像理解能力、更高质量的训练数据和更强的图像解析推理能力著称。这一成果不仅为开源社区带来了新的活力，也为多模态模型的发展和应用开辟了新的可能性。

Mini-Gemini AI头条
理想汽车 Mind GPT 多模态认知大模型通过国家备案

理想汽车宣布其全自研的多模态认知大模型——MindGPT，已正式通过国家《生成式人工智能服务管理暂行办法》的备案。这一里程碑式的事件标志着理想汽车成为首个通过该备案的汽车厂商自研大模型。它不仅支持方言自由说、指令自由说具备简洁模式以及全时全车免唤醒的能力，为用户提供了更加便捷、智能的交互体验。

理想汽车多模态认知大模型 Mind
多模态语言模型Reka Core：可分析图片、视频、音频评测得分与GPT-4接近

RekaAI近日宣布推出其最新力作——RekaCore，这是一款前沿的多模态语言模型，拥有强大的性能和灵活的部署方式。该模型像Gemini一样可以直接分析图片、视频、音频，评测得分与GPT-4和Gemini-Ultra接近。通过Edge、Flash和Core等系列模型的全面支持，Reka已经准备好迎接更广泛的挑战，展望未来，我们期待着与更多愿意加入我们的伙伴共同探索多模态世界的无限可能。

RekaCore AI头条
荐发布几小时，微软秒删媲美GPT-4开源大模型！竟因忘记投毒测试

【新智元导读】前段时间，微软公布并开源了最新一代大模型WizardLM-2，号称性能堪比GPT-4。还未上线一天，模型权重和公告全被删除了，原因竟是......上周，微软空降了一个堪称GPT-4级别的开源模型WizardLM-2。开发者们还需要耐心等待，微软团队承诺，会在测试完成后重新上线。

GPT-4 WizardLM-2
Grok-1.5 Vision Preview官网体验入口 X.AI多模态AI模型详细介绍

Grok-1.5VisionPreview是X.AI公司推出的首个多模态模型。除了强大的文本处理能力，Grok还能处理各种视觉信息，如文档、图表、截图和照片等。点击前往Grok-1.5VisionPreview官网体验入口需求人群：辅助决策分析内容生成工作效率提升使用场景示例：使用Grok-1.5V分析复杂的商业报告，快速提取关键数据和见解利用Grok-1.5V自动生成项目计划草稿，并优化资源分配通过Grok-1.5V理解工厂设备使用说明，提高维修效率产品特色：多学科推理文档理解图表解读现实世界理解图像处理掌握Grok-1.5VisionPreview，体验多模态AI的强大功能和无限潜力。

Grok-1.5VisionPreview Grok-1.5V
荐AI日报：首个AI程序员Devin造假被抓；Sora平替?StreamingT2V试玩地址公布；Udio AI还可以创作喜剧、演讲；XAI发布Grok-1.5Vision多模态模型

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解：https://top.aibase.com/🤖📱💼AI应用Sora平替?2分钟超长AI视频模型StreamingT2V免费开源试玩地址公布UdioAI提供多功能音频生成还可以创作喜剧、演讲、电台广播等美图Wink“AI动漫”功能升级可将短剧作品转化为动漫风格StableDesign:适用于室内装修设计的SD方案文字提示就可修改室内设计图比换脸更强大!SwapAnything:替换图片中的任意元素AI延时视频生成工具MagicTime在线体验地址放出自动化写作工具STORM:可生成像维基百科一样的深度长篇内容Meta推出ViewDiff模型:文本生成多视角3D图像📰🤖📢AI新鲜事首个AI程序员造假被抓，Devin再次“震撼”硅谷!扒皮视频文字详解附上马斯克XAI发布Grok-1.5Vision多模态模型，可处理文本和图片信息360智脑7B参数大模型正式开源最长支持约50万字输入Adobe图像生成AI“Firefly”训练集中约有5%为AI图像代码、模型全开源!贾佳亚团队多模态模型Mini-Gemini登上热榜面壁智能开源MiniCPM2.0系列模型OCR等能力显著增强竞争升温!ChatGPT增长疲软3月全球访问量17.7亿次，Claude逐渐崛起InstantID团队推新风格迁移方法InstantStyle一键置身“梵高星空”——————每日midjourneyprompt:小说古风美女图源备注：图片由AI生成，图片授权服务商MidjourneyAbeautifulwomanfromancientChina，dressedinagorgeousredHanfu，withlonghairdrapedoverhershoulders，satinherboudoirwithasmile.Ancientstyle，hanfu，boudoir，gorgeous，palace，screen，carpet，softlight，eleganttemperament，ancientculture，inlinewithorientalaesthetics，richdetails，bestquality，exquisitemakeup，cleareyelinerpen，slendereyebrows，texturedskin，whiteskin，charmingheaddress，--ar3:4--niji6--styleraw一个中国古代美女，穿着华丽的红色汉服，长发披肩，微笑着坐在闺房内。

Devin
荐Llama 3突然来袭！开源社区再次沸腾：GPT-4级别模型可以自由访问的时代到来

Llama3来了!就在刚刚，Meta官网上新，官宣了Llama380亿和700亿参数版本。并且推出即为开源SOTA:Meta官方数据显示，Llama38B和70B版本在各自参数规模上超越一众对手。好在乌龙完了，官方也没拖着，关心开源大模型的小伙伴们，可以造作起来了。

Llama3

今日大家都在搜的词：

热文

3 天
7天

微软开源多模态模型LLaVA-1.5媲美GPT-4V效果

今日大家都在搜的词：

热文

站长商机