首页 > 业界 > 关键词  > LLaVA-1.5最新资讯  > 正文

微软开源多模态模型LLaVA-1.5媲美GPT-4V效果

2024-01-31 09:02 · 稿源:站长之家

划重点:

🌐 微软研究院、威斯康星大学开源LLaVA-1.5,加入多模态模型主流。

🚀 LLaVA-1.5引入跨模态连接器和学术视觉问答数据集,全面提升多模态理解和生成。

📊 在多个知名数据平台测试中,LLaVA-1.5达到开源模型最高水平,媲美GPT-4V效果。

站长之家(ChinaZ.com)1月31日 消息:微软开源了多模态模型LLaVA-1.5,继承LLaVA架构并引入新特性。研究人员对其在视觉问答、自然语言处理、图像生成等进行了测试显示,LLaVA-1.5达到了开源模型中的最高水平,可媲美GPT-4V效果。

image.png

该模型由视觉模型、大语言模型和视觉语言连接器三大块组成。其中,视觉模型使用了预先训练好的CLIP ViT-L/336px,通过CLIP编码可得到固定长度的向量表示,提升图像语义信息表征。与前版本相比,CLIP模型参数和输入分辨率均有显著提升。

大语言模型采用了拥有130亿参数的Vicuna v1.5,用于理解用户输入文本并捕获语义信息,具备强大的推理和生成能力。不同于仅进行图像编码器调优的方法,LLaVA-1.5在训练中更新大语言模型参数,使其能够直接学习如何整合视觉信息进行推理,提高模型自主性。

视觉语言连接器方面,LLaVA-1.5采用双层MLP连接器替代线性投影,有效将CLIP编码器输出映射到大语言模型的词向量空间。

在训练流程上,LLaVA-1.5遵循双阶段训练方式。首先,进行视觉语言表示的预训练,使用约60万张图像文本对,训练时间约1小时。随后,在65万多模态指令数据上进行调优,训练时间约20小时。这种高效的双阶段训练确保了模型的收敛性,并在一天内完成整个流程,相较于其他模型大幅度减少了AI算力和时间成本。

研究人员还设计了匹配的响应格式提示,指导模型根据交互类型调整输出形式以满足特定场景需求。在视觉指令调优方面,LLaVA-1.5使用不同类型的数据集,包括VQA、OCR、区域级VQA、视觉对话、语言对话等,总计约65万条数据,为模型提供丰富的视觉场景推理和交互方式。

LLaVA-1.5在多模态领域取得显著进展,通过开源促进了其在视觉问答、自然语言处理、图像生成等方面的广泛应用。

项目GitHub入口:https://top.aibase.com/tool/llava

举报

  • 相关推荐
  • 大家在看
  • 多模态大模型Reka Core发布 性能与GPT-4媲美

    RekaCore是一款最新发布的多模态大型语言模型,其性能可与GPT-4相媲美,甚至在某些方面超越了现有的前沿模型。这一技术突破为人工智能领域带来了新的里程碑,特别是在图像、视频和音频的上下文理解能力方面。随着Core的进一步优化和应用,我们有理由相信,它将在多个领域产生深远的影响,推动人工智能技术的进步和社会的发展。

  • 马斯克XAI发布Grok-1.5 Vision 多模态模型 可处理文本和图片信息

    在人工智能领域,多模态模型的发展一直是行业关注的焦点。马斯克XAI公司发布了其最新的多模态模型——Grok-1.5Vision,这一模型不仅能够处理文本信息能够理解和分析各种视觉数据,如文档、图表、截图和照片,标志着公司在人工智能技术上迈出了重要一步。随着该模型的进一步优化和应用,我们有理由相信,它将在多个领域发挥重要作用,推动人工智能技术向前发展。

  • 比Gemini Pro1.5强!可解读视频的多模态模型Pegasus-1公测

    TwelveLabs最新发布了Pegasus-1的公测版本,这款视频-语言基础模型在视频理解领域取得了新突破。Pegasus-1是一款具有约17亿参数的视频-语言模型,能够以卓越的准确性和细节处理能力从视频输入中生成语言描述。Pegasus-1的不断进化与创新,为视频理解技术开辟新的可能性。

  • 代码、模型开源!贾佳亚团队多模态模型 Mini-Gemini登上热榜

    香港中文大学终身教授贾佳亚团队最近推出了一款名为Mini-Gemini的多模态模型,该模型在多模态任务榜单上取得了显著成绩,其性能堪比GPT-4与DALLE3的结合。Mini-Gemini模型以其更精确的图像理解能力、更高质量的训练数据和更强的图像解析推理能力著称。这一成果不仅为开源社区带来了新的活力,也为多模态模型的发展和应用开辟了新的可能性。

  • 理想汽车 Mind GPT 多模态认知大模型通过国家备案

    理想汽车宣布其全自研的多模态认知大模型——MindGPT,已正式通过国家《生成式人工智能服务管理暂行办法》的备案。这一里程碑式的事件标志着理想汽车成为首个通过该备案的汽车厂商自研大模型。它不仅支持方言自由说、指令自由说具备简洁模式以及全时全车免唤醒的能力,为用户提供了更加便捷、智能的交互体验。

  • 多模态语言模型Reka Core:可分析图片、视频、音频 评测得分与GPT-4接近

    RekaAI近日宣布推出其最新力作——RekaCore,这是一款前沿的多模态语言模型,拥有强大的性能和灵活的部署方式。该模型像Gemini一样可以直接分析图片、视频、音频,评测得分与GPT-4和Gemini-Ultra接近。通过Edge、Flash和Core等系列模型的全面支持,Reka已经准备好迎接更广泛的挑战,展望未来,我们期待着与更多愿意加入我们的伙伴共同探索多模态世界的无限可能。

  • 发布几小时,微软秒删媲美GPT-4开源大模型!竟因忘记投毒测试

    【新智元导读】前段时间,微软公布并开源了最新一代大模型WizardLM-2,号称性能堪比GPT-4。还未上线一天,模型权重和公告全被删除了,原因竟是......上周,微软空降了一个堪称GPT-4级别的开源模型WizardLM-2。开发者们还需要耐心等待,微软团队承诺,会在测试完成后重新上线。

  • Grok-1.5 Vision Preview官网体验入口 X.AI多模态AI模型详细介绍

    Grok-1.5VisionPreview是X.AI公司推出的首个多模态模型。除了强大的文本处理能力,Grok还能处理各种视觉信息,如文档、图表、截图和照片等。点击前往Grok-1.5VisionPreview官网体验入口需求人群:辅助决策分析内容生成工作效率提升使用场景示例:使用Grok-1.5V分析复杂的商业报告,快速提取关键数据和见解利用Grok-1.5V自动生成项目计划草稿,并优化资源分配通过Grok-1.5V理解工厂设备使用说明,提高维修效率产品特色:多学科推理文档理解图表解读现实世界理解图像处理掌握Grok-1.5VisionPreview,体验多模态AI的强大功能和无限潜力。

  • AI日报:首个AI程序员Devin造假被抓;​Sora平替?StreamingT2V试玩地址公布;Udio AI还可以创作喜剧、演讲;XAI发布Grok-1.5Vision多模态模型

    欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解:https://top.aibase.com/🤖📱💼AI应用Sora平替?2分钟超长AI视频模型StreamingT2V免费开源试玩地址公布UdioAI提供多功能音频生成还可以创作喜剧、演讲、电台广播等美图Wink“AI动漫”功能升级可将短剧作品转化为动漫风格StableDesign:适用于室内装修设计的SD方案文字提示就可修改室内设计图比换脸更强大!SwapAnything:替换图片中的任意元素AI延时视频生成工具MagicTime在线体验地址放出自动化写作工具STORM:可生成像维基百科一样的深度长篇内容Meta推出ViewDiff模型:文本生成多视角3D图像📰🤖📢AI新鲜事首个AI程序员造假被抓,Devin再次“震撼”硅谷!扒皮视频文字详解附上马斯克XAI发布Grok-1.5Vision多模态模型,可处理文本和图片信息360智脑7B参数大模型正式开源最长支持约50万字输入Adobe图像生成AI“Firefly”训练集中约有5%为AI图像代码、模型全开源!贾佳亚团队多模态模型Mini-Gemini登上热榜面壁智能开源MiniCPM2.0系列模型OCR等能力显著增强竞争升温!ChatGPT增长疲软3月全球访问量17.7亿次,Claude逐渐崛起InstantID团队推新风格迁移方法InstantStyle一键置身“梵高星空”——————每日midjourneyprompt:小说古风美女图源备注:图片由AI生成,图片授权服务商MidjourneyAbeautifulwomanfromancientChina,dressedinagorgeousredHanfu,withlonghairdrapedoverhershoulders,satinherboudoirwithasmile.Ancientstyle,hanfu,boudoir,gorgeous,palace,screen,carpet,softlight,eleganttemperament,ancientculture,inlinewithorientalaesthetics,richdetails,bestquality,exquisitemakeup,cleareyelinerpen,slendereyebrows,texturedskin,whiteskin,charmingheaddress,--ar3:4--niji6--styleraw一个中国古代美女,穿着华丽的红色汉服,长发披肩,微笑着坐在闺房内。

  • Llama 3突然来袭!开源社区再次沸腾:GPT-4级别模型可以自由访问的时代到来

    Llama3来了!就在刚刚,Meta官网上新,官宣了Llama380亿和700亿参数版本。并且推出即为开源SOTA:Meta官方数据显示,Llama38B和70B版本在各自参数规模上超越一众对手。好在乌龙完了,官方也没拖着,关心开源大模型的小伙伴们,可以造作起来了。

今日大家都在搜的词: