首页 > 业界 > 关键词  > LLaVA-1.5最新资讯  > 正文

微软开源多模态模型LLaVA-1.5媲美GPT-4V效果

2024-01-31 09:02 · 稿源:站长之家

划重点:

🌐 微软研究院、威斯康星大学开源LLaVA-1.5,加入多模态模型主流。

🚀 LLaVA-1.5引入跨模态连接器和学术视觉问答数据集,全面提升多模态理解和生成。

📊 在多个知名数据平台测试中,LLaVA-1.5达到开源模型最高水平,媲美GPT-4V效果。

站长之家(ChinaZ.com)1月31日 消息:微软开源了多模态模型LLaVA-1.5,继承LLaVA架构并引入新特性。研究人员对其在视觉问答、自然语言处理、图像生成等进行了测试显示,LLaVA-1.5达到了开源模型中的最高水平,可媲美GPT-4V效果。

image.png

该模型由视觉模型、大语言模型和视觉语言连接器三大块组成。其中,视觉模型使用了预先训练好的CLIP ViT-L/336px,通过CLIP编码可得到固定长度的向量表示,提升图像语义信息表征。与前版本相比,CLIP模型参数和输入分辨率均有显著提升。

大语言模型采用了拥有130亿参数的Vicuna v1.5,用于理解用户输入文本并捕获语义信息,具备强大的推理和生成能力。不同于仅进行图像编码器调优的方法,LLaVA-1.5在训练中更新大语言模型参数,使其能够直接学习如何整合视觉信息进行推理,提高模型自主性。

视觉语言连接器方面,LLaVA-1.5采用双层MLP连接器替代线性投影,有效将CLIP编码器输出映射到大语言模型的词向量空间。

在训练流程上,LLaVA-1.5遵循双阶段训练方式。首先,进行视觉语言表示的预训练,使用约60万张图像文本对,训练时间约1小时。随后,在65万多模态指令数据上进行调优,训练时间约20小时。这种高效的双阶段训练确保了模型的收敛性,并在一天内完成整个流程,相较于其他模型大幅度减少了AI算力和时间成本。

研究人员还设计了匹配的响应格式提示,指导模型根据交互类型调整输出形式以满足特定场景需求。在视觉指令调优方面,LLaVA-1.5使用不同类型的数据集,包括VQA、OCR、区域级VQA、视觉对话、语言对话等,总计约65万条数据,为模型提供丰富的视觉场景推理和交互方式。

LLaVA-1.5在多模态领域取得显著进展,通过开源促进了其在视觉问答、自然语言处理、图像生成等方面的广泛应用。

项目GitHub入口:https://top.aibase.com/tool/llava

举报

  • 相关推荐
  • “龙虾”狂热:ChatGPT们只是AI的后端,OpenClaw让AI真正有了前端

    Agent 这个词,AI 行业喊了至少两年。2024年起,每一场发布会都在谈 Agent,投资机构管它叫下一个万亿市场,创业公司一夜之间改了 slogan。但打开产品一看,还是一个对话框等你打字:你给指令,它给回答;你不提问,它就停在那儿。 概念跑得很快,产品形态没跟上。直到 OpenClaw 出来,这种错位才突然变得可见——不是因为它发明了什么新技术,而是它把那层一直缺失的交互前�

  • 大健康团队,一条短视频播放量1.5亿

    不依赖投放,苗宇生团队制作出了单条视频播放量突破1.5亿次的短视频,并在一周内涨粉127万。“能成为爆款,抓住时下某个大爆点是最主要的原因。最后我想说,用户是真实的,只有摆脱营销思维,坚守初心,保持真诚有温度,才有可能持续打造爆款。

  • 实测OpenClaw中文版Molili自定义大模型:这才是真·AI智能体

    本文介绍了OpenClaw中文版Molili,一款能真正执行任务的桌面AI智能体。它解决了传统AI“只会说不会做”的痛点,通过微信等平台直接下达指令,即可自动操作电脑完成查找文件、发送文档等任务。核心亮点包括:支持自定义接入各类大模型,打破模型绑定;提供8000+现成技能,覆盖办公、编程、生活等场景;注重安全与隐私,设有操作权限管控和本地数据处理机制;对中文指令和国产生态有深度优化。

  • 可以接入OpenClaw的云产品有哪些? OpenClaw用什么产品可以快速免费部署?如何快速免费部署OpenClaw?

    本文介绍了如何通过移动云电脑快速部署开源AI智能体OpenClaw(原Moltbot/Clawdbot)。只需三步即可上手:首先,通过营销订购或镜像切换方式获取OpenClaw专属云电脑;其次,连接云电脑桌面并初始化配置OpenClaw环境;最后,将飞书等IM应用接入OpenClaw实现实时交互。该方案无需复杂底层架构,帮助用户轻松体验这款具备文件解析、代码生成及系统管理能力的AI助手,提升办公效率。

  • 实操手册:移动云电脑怎么部署OpenClaw? 到底 可以接入OpenClaw的云产品有哪些?

    本文详细介绍了如何将本地/云端大模型管理工具OpenClaw(原Moltbot/Clawdbot)与飞书开放平台集成,实现智能助手功能。主要步骤包括:在飞书创建企业自建应用并获取App ID和Secret;在已部署OpenClaw的云电脑中通过命令行配置飞书连接参数并重启服务;返回飞书平台配置机器人权限、添加消息接收事件并发布应用版本。最终用户可在飞书客户端通过“开发者小助手”对话,享受便捷的AI交互体验。整个过程无需额外开发代码,通过简单配置即可将强大模型能力融入日常办公通讯。

  • 不用复杂操作!QQ上线OpenClaw 人人都能养“小龙虾”

    腾讯QQ于3月7日正式接入开源AI框架OpenClaw(昵称“小龙虾”),用户仅需四步即可创建专属机器人,让AI从问答工具升级为能直接执行任务的数字助手。接入流程便捷,支持多格式消息收发,手机与电脑端均可使用。OpenClaw突破传统AI局限,可自动调用工具、处理文件、执行指令,实现高效操作体验。

  • OpenClaw中文版Molili开放自定义大模型接入 国产AI智能体再突破

    3月5日,OpenClaw中文版Molili正式上线自定义接入大模型功能。该产品以极致自由度、全链路本土化适配与零门槛操作为特点,为个人及企业用户提供全新AI自动化解决方案,推动桌面AI智能体从“对话交互”向“落地执行”深度转型。核心亮点包括自定义大模型接入、全场景使用自由,支持企业无缝接入私有模型,个人用户可自主选择偏好模型,打破传统AI工具模型绑定限制。产品突破“重对话、轻执行”行业痛点,实现真实电脑端操作,覆盖文件处理、信息搜索等重复性任务,支持微信、钉钉等多平台远程指挥,并搭载8000+技能矩阵,全方位保障用户隐私与数据安全。

  • OpenClaw的中国门徒们

    “养虾”的热潮引爆国内外,也让智谱、月之暗面(以下简称月暗)和MiniMax看到了机会。 智谱与阿里云无影AgentBay合作,基于OpenClaw(龙虾)镜像推出可云端运行的AutoGLM-OpenClaw;月暗上线可一键部署、快速使用OpenClaw相关功能的Kimi Claw;Minimax上线了基于OpenClaw构建的云端AI助手——MaxClaw。 从起初“龙虾”的云端部署,到一键解锁功能,再到打通生态,大模型公司可谓做到了“吃

  • 云电脑一键部署OpenClaw(原Moltbot、Clawdbot)

    本文介绍了如何通过移动云云电脑快速部署开源AI智能体OpenClaw(原Moltbot/Clawdbot)。用户仅需三步即可上手:首先,在移动云官网选购支持OpenClaw镜像的云电脑实例;其次,通过云电脑客户端连接并初始化配置OpenClaw;最后,可将其接入飞书等IM应用进行交互。文章详细说明了通过营销订购、介绍页订购或一键切换镜像三种具体购买与部署方式,帮助用户快速体验其文件解析、命

  • 云电脑OpenClaw(原Moltbot、Clawdbot)飞书接入实践

    本文介绍了在移动云电脑中部署OpenClaw后集成飞书机器人的步骤。首先,在飞书开放平台创建企业自建应用,获取App ID和App Secret,并添加机器人能力。其次,通过命令行配置OpenClaw的飞书通道,重启服务。接着,在飞书平台配置机器人权限,添加“接收消息”事件并开通权限,完成应用发布。最后,在飞书客户端通过“开发者小助手”打开应用,即可开始与AI助手对话。

今日大家都在搜的词: