微软开源多模态模型LLaVA-1.5媲美GPT-4V效果

2024-01-31 09:02 · 稿源：站长之家

划重点:
🌐 微软研究院、威斯康星大学开源LLaVA-1.5，加入多模态模型主流。
🚀 LLaVA-1.5引入跨模态连接器和学术视觉问答数据集，全面提升多模态理解和生成。
📊 在多个知名数据平台测试中，LLaVA-1.5达到开源模型最高水平，媲美GPT-4V效果。

站长之家（ChinaZ.com）1月31日消息:微软开源了多模态模型LLaVA-1.5，继承LLaVA架构并引入新特性。研究人员对其在视觉问答、自然语言处理、图像生成等进行了测试显示，LLaVA-1.5达到了开源模型中的最高水平，可媲美GPT-4V效果。

该模型由视觉模型、大语言模型和视觉语言连接器三大块组成。其中，视觉模型使用了预先训练好的CLIP ViT-L/336px，通过CLIP编码可得到固定长度的向量表示，提升图像语义信息表征。与前版本相比，CLIP模型参数和输入分辨率均有显著提升。

大语言模型采用了拥有130亿参数的Vicuna v1.5，用于理解用户输入文本并捕获语义信息，具备强大的推理和生成能力。不同于仅进行图像编码器调优的方法，LLaVA-1.5在训练中更新大语言模型参数，使其能够直接学习如何整合视觉信息进行推理，提高模型自主性。

视觉语言连接器方面，LLaVA-1.5采用双层MLP连接器替代线性投影，有效将CLIP编码器输出映射到大语言模型的词向量空间。

在训练流程上，LLaVA-1.5遵循双阶段训练方式。首先，进行视觉语言表示的预训练，使用约60万张图像文本对，训练时间约1小时。随后，在65万多模态指令数据上进行调优，训练时间约20小时。这种高效的双阶段训练确保了模型的收敛性，并在一天内完成整个流程，相较于其他模型大幅度减少了AI算力和时间成本。

研究人员还设计了匹配的响应格式提示，指导模型根据交互类型调整输出形式以满足特定场景需求。在视觉指令调优方面，LLaVA-1.5使用不同类型的数据集，包括VQA、OCR、区域级VQA、视觉对话、语言对话等，总计约65万条数据，为模型提供丰富的视觉场景推理和交互方式。

LLaVA-1.5在多模态领域取得显著进展，通过开源促进了其在视觉问答、自然语言处理、图像生成等方面的广泛应用。

项目GitHub入口:https://top.aibase.com/tool/llava

（举报）

相关推荐
大家在看

关键词：

【腾讯云】11.11云上盛惠！云服务器首年1.8折起，买1年送3个月！

11.11云上盛惠！海量产品 · 轻松上云！云服务器首年1.8折起，买1年送3个月！超值优惠，性能稳定，让您的云端之旅更加畅享。快来腾讯云选购吧！

Docker容器镜像
去看看

Docker容器镜像 60元/15天

爆款产品组合购
去看看

爆款产品组合购低至1元

腾讯云x NVIDIA加速计划
去看看

腾讯云x NVIDIA加速计划最高获赠10万元扶持基金

2核2G云服务器
去看看

2核2G云服务器 112元/1年

查看更多相关信息>>

腾讯云 12-20

广告
多模态大模型Reka Core发布性能与GPT-4相媲美

RekaCore是一款最新发布的多模态大型语言模型，其性能可与GPT-4相媲美，甚至在某些方面超越了现有的前沿模型。这一技术突破为人工智能领域带来了新的里程碑，特别是在图像、视频和音频的上下文理解能力方面。随着Core的进一步优化和应用，我们有理由相信，它将在多个领域产生深远的影响，推动人工智能技术的进步和社会的发展。

多模态大模型 AI头条
马斯克XAI发布Grok-1.5 Vision 多模态模型可处理文本和图片信息

在人工智能领域，多模态模型的发展一直是行业关注的焦点。马斯克XAI公司发布了其最新的多模态模型——Grok-1.5Vision，这一模型不仅能够处理文本信息能够理解和分析各种视觉数据，如文档、图表、截图和照片，标志着公司在人工智能技术上迈出了重要一步。随着该模型的进一步优化和应用，我们有理由相信，它将在多个领域发挥重要作用，推动人工智能技术向前发展。

Grok-1.5Vision AI头条
LLaVA++：为Phi-3和Llama-3模型增加视觉处理能力

LLaVA项目通过扩展现有的LLaVA模型，成功地为Phi-3和Llama-3模型赋予了视觉能力。这一改进标志着AI在多模态交互领域的进一步发展。LLaVA的推出，预示着未来AI模型将更加智能和灵活，能够更好地服务于需要视觉与文本结合理解的复杂场景。

Phi-3 LLaVA++
比Gemini Pro1.5强！可解读视频的多模态模型Pegasus-1公测

TwelveLabs最新发布了Pegasus-1的公测版本，这款视频-语言基础模型在视频理解领域取得了新突破。Pegasus-1是一款具有约17亿参数的视频-语言模型，能够以卓越的准确性和细节处理能力从视频输入中生成语言描述。Pegasus-1的不断进化与创新，为视频理解技术开辟新的可能性。

Pegasus-1 AI头条
代码、模型全开源！贾佳亚团队多模态模型 Mini-Gemini登上热榜

香港中文大学终身教授贾佳亚团队最近推出了一款名为Mini-Gemini的多模态模型，该模型在多模态任务榜单上取得了显著成绩，其性能堪比GPT-4与DALLE3的结合。Mini-Gemini模型以其更精确的图像理解能力、更高质量的训练数据和更强的图像解析推理能力著称。这一成果不仅为开源社区带来了新的活力，也为多模态模型的发展和应用开辟了新的可能性。

Mini-Gemini AI头条
理想汽车 Mind GPT 多模态认知大模型通过国家备案

理想汽车宣布其全自研的多模态认知大模型——MindGPT，已正式通过国家《生成式人工智能服务管理暂行办法》的备案。这一里程碑式的事件标志着理想汽车成为首个通过该备案的汽车厂商自研大模型。它不仅支持方言自由说、指令自由说具备简洁模式以及全时全车免唤醒的能力，为用户提供了更加便捷、智能的交互体验。

理想汽车多模态认知大模型 Mind
多模态语言模型Reka Core：可分析图片、视频、音频评测得分与GPT-4接近

RekaAI近日宣布推出其最新力作——RekaCore，这是一款前沿的多模态语言模型，拥有强大的性能和灵活的部署方式。该模型像Gemini一样可以直接分析图片、视频、音频，评测得分与GPT-4和Gemini-Ultra接近。通过Edge、Flash和Core等系列模型的全面支持，Reka已经准备好迎接更广泛的挑战，展望未来，我们期待着与更多愿意加入我们的伙伴共同探索多模态世界的无限可能。

RekaCore AI头条
荐发布几小时，微软秒删媲美GPT-4开源大模型！竟因忘记投毒测试

【新智元导读】前段时间，微软公布并开源了最新一代大模型WizardLM-2，号称性能堪比GPT-4。还未上线一天，模型权重和公告全被删除了，原因竟是......上周，微软空降了一个堪称GPT-4级别的开源模型WizardLM-2。开发者们还需要耐心等待，微软团队承诺，会在测试完成后重新上线。

GPT-4 WizardLM-2
Grok-1.5 Vision Preview官网体验入口 X.AI多模态AI模型详细介绍

Grok-1.5VisionPreview是X.AI公司推出的首个多模态模型。除了强大的文本处理能力，Grok还能处理各种视觉信息，如文档、图表、截图和照片等。点击前往Grok-1.5VisionPreview官网体验入口需求人群：辅助决策分析内容生成工作效率提升使用场景示例：使用Grok-1.5V分析复杂的商业报告，快速提取关键数据和见解利用Grok-1.5V自动生成项目计划草稿，并优化资源分配通过Grok-1.5V理解工厂设备使用说明，提高维修效率产品特色：多学科推理文档理解图表解读现实世界理解图像处理掌握Grok-1.5VisionPreview，体验多模态AI的强大功能和无限潜力。

Grok-1.5VisionPreview Grok-1.5V
荐AI日报：首个AI程序员Devin造假被抓；Sora平替?StreamingT2V试玩地址公布；Udio AI还可以创作喜剧、演讲；XAI发布Grok-1.5Vision多模态模型

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解：https://top.aibase.com/🤖📱💼AI应用Sora平替?2分钟超长AI视频模型StreamingT2V免费开源试玩地址公布UdioAI提供多功能音频生成还可以创作喜剧、演讲、电台广播等美图Wink“AI动漫”功能升级可将短剧作品转化为动漫风格StableDesign:适用于室内装修设计的SD方案文字提示就可修改室内设计图比换脸更强大!SwapAnything:替换图片中的任意元素AI延时视频生成工具MagicTime在线体验地址放出自动化写作工具STORM:可生成像维基百科一样的深度长篇内容Meta推出ViewDiff模型:文本生成多视角3D图像📰🤖📢AI新鲜事首个AI程序员造假被抓，Devin再次“震撼”硅谷!扒皮视频文字详解附上马斯克XAI发布Grok-1.5Vision多模态模型，可处理文本和图片信息360智脑7B参数大模型正式开源最长支持约50万字输入Adobe图像生成AI“Firefly”训练集中约有5%为AI图像代码、模型全开源!贾佳亚团队多模态模型Mini-Gemini登上热榜面壁智能开源MiniCPM2.0系列模型OCR等能力显著增强竞争升温!ChatGPT增长疲软3月全球访问量17.7亿次，Claude逐渐崛起InstantID团队推新风格迁移方法InstantStyle一键置身“梵高星空”——————每日midjourneyprompt:小说古风美女图源备注：图片由AI生成，图片授权服务商MidjourneyAbeautifulwomanfromancientChina，dressedinagorgeousredHanfu，withlonghairdrapedoverhershoulders，satinherboudoirwithasmile.Ancientstyle，hanfu，boudoir，gorgeous，palace，screen，carpet，softlight，eleganttemperament，ancientculture，inlinewithorientalaesthetics，richdetails，bestquality，exquisitemakeup，cleareyelinerpen，slendereyebrows，texturedskin，whiteskin，charmingheaddress，--ar3:4--niji6--styleraw一个中国古代美女，穿着华丽的红色汉服，长发披肩，微笑着坐在闺房内。

Devin

RAGFlow:开源的基于深度文档理解的RAG（检索增强生成）引擎

RAGFlow是一个开源的RAG（Retrieval-Augmented Generation）引擎，基于深度文档理解，提供流线型的RAG工作流程，适用于各种规模的企业。它结合了大型语言模型（LLM）提供真实的问答能力，支持从各种复杂格式数据中引用确凿的引文。

自然语言处理机器学习信息检索

EmojiTell:使用表情组合翻译器，让沟通更有趣且富有表现力。

EmojiTell是一个创新的在线服务，可以将文本翻译成表情组合，增加沟通的趣味性和表现力。它由一支对表情符号充满热情的开发者和设计师团队开发，旨在通过表情符号的力量，让信息传递更加生动和个性化。

表情符号翻译沟通

Perplexica:一个开源的AI驱动搜索引擎，提供深入网络的答案。

Perplexica是一个开源的AI驱动搜索引擎，它不仅搜索网络，还理解您的问题。它使用先进的机器学习算法，如相似性搜索和嵌入，来优化结果，并提供引用来源的清晰答案。使用SearxNG保持最新和完全开源，确保您始终获得最新信息，同时不损害您的隐私。

搜索引擎机器学习人工智能

FaceChain:深度学习工具链，用于生成你的数字孪生体。

FaceChain是一个深度学习工具链，由ModelScope提供支持，能够通过至少1张肖像照片生成你的数字孪生体，并在不同设置中生成个人肖像（支持多种风格）。用户可以通过FaceChain的Python脚本、熟悉的Gradio界面或sd webui来训练数字孪生模型并生成照片。FaceChain的主要优点包括其生成个性化肖像的能力，支持多种风格，以及易于使用的界面。

深度学习数字孪生个性化

Huggingface 镜像站:一个公益项目，致力于帮助国内AI开发者快速、稳定的下载模型、数据集。

HuggingFace镜像站是一个非盈利性项目，旨在为国内的AI开发者提供一个快速且稳定的模型和数据集下载平台。通过优化下载过程，减少因网络问题导致的中断，它极大地提高了开发者的工作效率。该镜像站支持多种下载方式，包括网页直接下载、使用官方命令行工具huggingface-cli、本站开发的hfd下载工具以及通过设置环境变量来实现非侵入式下载。

AI 机器学习数据集

WebLlama:构建能够根据指令浏览网页并和您对话的强大代理

WebLlama是一个基于Meta Llama 3构建的代理，专门为网页导航和对话进行了微调。它旨在构建有效的以人为中心的代理，帮助用户浏览网页，而不是取代用户。该模型在WebLINX基准测试中超越了GPT-4V（零样本）18%，展示了其在网页导航任务中的卓越性能。

网页导航对话代理机器学习

Infra Copilot:利用机器学习自动生成基础设施代码，提高开发效率。

GitHub Copilot for Infrastructure as Code（简称Infra Copilot）是一个利用机器学习技术帮助基础设施专业人员自动生成精确基础设施代码的工具。它通过理解基础设施任务的上下文，允许专业人员使用自然语言表达需求，并接收相应的代码建议。Infra Copilot不仅简化了基础设施即代码（IaC）的开发过程，还确保了跨环境和项目的一致性，加速了新团队成员的上手和学习过程，显著提高了工作效率并节约了时间。

基础设施即代码自动化机器学习

LLaVA++:扩展LLaVA模型，集成Phi-3和LLaMA-3，提升视觉与语言模型的交互能力。

LLaVA++是一个开源项目，旨在通过集成Phi-3和LLaMA-3模型来扩展LLaVA模型的视觉能力。该项目由Mohamed bin Zayed University of AI (MBZUAI)的研究人员开发，通过结合最新的大型语言模型，增强了模型在遵循指令和学术任务导向数据集上的表现。

人工智能自然语言处理机器学习

PhysDreamer:通过视频生成实现基于物理的3D对象交互

PhysDreamer是一个基于物理的方法，它通过利用视频生成模型学习到的对象动力学先验，为静态3D对象赋予交互式动力学。这种方法允许在缺乏真实物体物理属性数据的情况下，模拟出对新颖交互（如外力或代理操作）的真实反应。PhysDreamer通过用户研究评估合成交互的真实性，推动了更吸引人和真实的虚拟体验的发展。

3D交互视频生成物理模拟

AI快站:专注于提供HuggingFace模型免费加速下载服务的平台

AI快站是一个为AI开发者设计的服务平台，提供HuggingFace模型的免费加速下载，解决大模型下载缓慢和断开的问题，支持高达4M/s的下载速度，大幅减少等待时间，提高开发效率。

HuggingFace模型加速下载断点续传

Llama-3 8B Instruct 262k:一款由Gradient AI团队开发的高性能文本生成模型。

Llama-3 8B Instruct 262k是一款由Gradient AI团队开发的文本生成模型，它扩展了LLama-3 8B的上下文长度至超过160K，展示了SOTA（State of the Art）大型语言模型在学习长文本操作时的潜力。该模型通过适当的调整RoPE theta参数，并结合NTK-aware插值和数据驱动的优化技术，实现了在长文本上的高效学习。此外，它还基于EasyContext Blockwise RingAttention库构建，以支持在高性能硬件上的可扩展和高效训练。

微软开源多模态模型LLaVA-1.5媲美GPT-4V效果

今日大家都在搜的词：

热文

站长商机