清华、浙大推GPT-4V开源平替！LLaVA、CogAgent等开源视觉模型大爆发

2024-01-04 09:29 · 稿源：站长之家

要点:
1、清华、浙大等中国顶尖学府提供了性能优异的GPT-4V开源替代方案。
2、LLaVA、CogAgent和BakLLaVA是三种具有极大潜力的开源视觉语言模型。
3、LLaVA在视觉聊天和推理问答方面表现出接近GPT-4水平的能力。

站长之家（ChinaZ.com）1月4日消息:近期，GPT-4V的开源替代方案在中国的顶尖学府清华、浙大等的推动下，出现了一系列性能优异的开源视觉模型。其中，LLaVA、CogAgent和BakLLaVA是三种备受关注的开源视觉语言模型。

LLaVA是一个端到端训练的多模态大模型，它将视觉编码器和用于通用视觉和语言理解的Vicuna相结合，具备令人印象深刻的聊天能力。而CogAgent是在CogVLM基础上改进的开源视觉语言模型，拥有110亿个视觉参数和70亿个语言参数。

另外，BakLLaVA是使用LLaVA1.5架构增强的Mistral7B基础模型，已经在多个基准测试中优于LLaVA213B。这三种开源视觉模型在视觉处理领域具有极大的潜力。

LLaVA在视觉聊天和推理问答方面表现出接近GPT-4水平的能力。在视觉聊天方面，LLaVA的表现相对于GPT-4的评分达到了85%，在推理问答方面更是达到了92.53%的超过GPT-4的新SoTA。LLaVA在回答问题时，能够全面而有逻辑地生成回答，并且可以以JSON格式输出。

它不仅可以从图片中提取信息并回答问题，还可以将图片转化为JSON格式。LLaVA还可以识别验证码、识别图中的物体品种等，展现出了强大的多模态能力。在性能上接近GPT-4的情况下，LLaVA具有更高的成本效益，训练只需要8个A100即可在1天内完成。

CogAgent作为在CogVLM基础上改进的开源视觉语言模型，拥有更多的功能和性能优势。它支持更高分辨率的视觉输入和对话答题，能够处理超高分辨率图像输入。

论文地址:https://arxiv.org/pdf/2312.08914.pdf

CogAgent还提供了可视化代理的能力，能够返回任何给定任务的计划、下一步行动和带有坐标的具体操作。它还增强了与图形用户界面相关的问题解答功能，可以处理与网页、PC应用程序、移动应用程序等任何图形用户界面截图相关的问题。另外，通过改进预培训和微调，CogAgent还增强了OCR相关任务的能力。这些功能的提升使得CogAgent在多个基准测试上实现了最先进的通用性能。

BakLLaVA是使用LLaVA1.5架构增强的Mistral7B基础模型，具备更好的性能和商用能力。BakLLaVA在多个基准测试中优于LLaVA213B，并且可以在某些数据上进行微调和推理。虽然BakLLaVA在训练过程中使用了LLaVA的语料库，不允许商用，但BakLLaVA2则采用了更大的数据集和更新的架构，超越了当前的LLaVA方法，具备商用能力。

（举报）

相关推荐

关键词：

百度文心大模型X1.1正式发布：超越DeepSeek R1、打平GPT-5

今天，在WAVE SUMMIT深度学习开发者大会2025上，百度文心大模型X1.1正式发布，在事实性、指令遵循、智能体等能力上均提升显著。百度王海峰介绍，文心大模型X1是基于文心大模型4.5训练而来的深度思考模型，升级后的X1.1主要采用了迭代式混合强化学习训练框架。一方面通过混合强化学习，同时提升通用任务和智能体任务的效果；另一方面通过自蒸馏数据的迭代式生产及训练

百度文心大模型深度学习智能体
OpenAI发布语音模型GPT-realtim：具备情感感知能力多语言无缝切换

OpenAI正式发布语音模型GPT-realtime。据介绍，GPT-realtime是一款专注于语音AI Agent的多模态模型，能够生成高度自然流畅的语音，精准还原人类语调、情感和语速的丰富变化。该模型支持图像理解，并可结合语音或文本对话使用，非常适合应用于客服、教育、金融、医疗等领域，用于构建高质量的语音智能体。官方表示，新模型在复杂指令遵循、工具精确调用以及生成更自然、�

语音模型 GPT-realtime 多模态模型
荐AI日报：海螺AI首尾帧功能上线；元石科技发布问小白5；OpenAI发布全新语音模型GPT-Realtime

AI日报栏目每日提供人工智能领域热点内容，聚焦开发者，帮助洞悉技术趋势、了解创新AI产品应用。最新动态包括：MiniMax海螺AI首尾帧功能上线；元石科技发布问小白5挑战GPT-5；OpenAI推出语音模型GPT-Realtime；谷歌Gemini AI优化表格处理；腾讯黑科技实现AI配音；百度计划培养千万AI人才；MathGPT.ai反作弊功能推广；苹果Xcode集成Claude Sonnet4；微软发布自研AI模型MAI系列；xAI推出高效编码模型Grok Code Fast1；SuperCLUE多模态评测Gemini-2.5-Pro居首；9月1日起AI内容标识新规实施，违规将承担法律风险。

AI 人工智能技术趋势
苹果官网Apple Store开始维护！iPhone 17系列今晚开启预购

苹果年度新品预售即将拉开帷幕。今晚8点，iPhone17、iPhone17Pro及iPhone17Pro Max三款机型将在苹果官网及授权渠道同步开启预购。目前，苹果官网Apple Store页面已进入维护状态，系统提示将于北京时间20:00准时开放订购，首批成功下单的用户预计最快可在9月19日（周五）清晨收到新机。

苹果新品预售 iPhone17预购苹果官网维护
荐AI日报：快手推出AI视频制作助手Kwali；字节跳动推出USO模型；OpenAI推出ChatGPT开发者模式

本文介绍了AI日报栏目，聚焦AI领域最新动态。快手推出Kwali视频助手，简化视频制作流程；字节跳动发布USO模型，解决图像生成中风格与主题的矛盾；微软推出Copilot Audio音频模式，提供个性化语音交互；Stability AI升级Stable Audio 2.5，支持高质量音频生成；阿联酋推出开源大模型K2 Think，拥有320亿参数；微信上线智能回复功能，提升公众号运营效率；OpenAI推出ChatGPT开发者模式，支持AI控制外部工具；字节跳动Seed团队发布AgentGym-RL框架，提升语言模型决策能力；月之暗面开源Checkpoint Engine中间件，优化LLM推理效率；B站开源IndexTTS-2.0文本转语音系统，支持情感与时长控制；Replit推出Agent 3编程助手，自主性提升10倍。

AI视频制作快手Kwali 多Agent框架
海宝公司 (Hypertherm Associates) 扩展 XPR® 等离子切割功能，提升生产效率和多功能性

海宝公司宣布其XPR系列精细等离子系统将在2025年底前迎来多项功能增强，包括全新流线型设计、工业物联网连接、手动设置模式、自动化气刨能力及水雾切割工艺。系统支持以太网和MTConnect协议，提升远程监控与数据交换效率。新增460A水雾切割工艺，可处理更厚材料并实现高质量坡口切割。这些升级旨在提高生产效率、精度和自动化水平，适用于造船、飞机制造及重型设备等领域。

海宝XPR系列精细等离子系统功能增强
OpenAI CEO：GPT-6将具备个性化记忆记住用户偏好习惯

OpenAI的首席执行官萨姆奥尔特曼（Sam Altman）在近日的一次专访中，透露了下一代大模GPT-6的最新进展。他表示，GPT-6 的开发正在积极推进中，其发布节奏将比从GPT-4到GPT-5的周期更快。奥尔特曼特别强调，GPT-6将不再局限于单纯回答问题，而是朝着与用户深度适配”的方向演进。他举例描述

GPT-6 OpenAI 萨姆奥尔特曼
旧款Apple Watch也将支持高血压警报：涉及这三款

苹果在发布Apple Watch Series11与Ultra3两款新品之际，同步宣布了一项惠及旧款用户的重大更新——通过即将到来的watchOS26系统升级，Apple Watch Series9、Series10以及Ultra2三款旧机型也将新增高血压警报功能。这一举措意味着，部分持有旧款设备的用户无需更换新表，即可享受到这一前沿的健康监测服务。 watchOS26正式版定于9月15日正式向全球用户推送。新增的高血压警报功能依托于Appl

Apple Watch watchOS26
荐小平板元年，华为MatePad Mini创出一片蓝海

2012年，天才乔布斯去世一年后，接任苹果CEO的库克捧出了两款“很不乔布斯”的产品——大屏手机iPhone6和7英寸的iPad mini。这两款差异化的产品形态，都是库克希望弥补的市场空白。比如，虽然乔布斯认为10英寸就是平板电脑尺寸的下限，更小的屏幕会让用户难以操控。但库克却觉得，小尺寸平板不仅在硬件配置上超越手机，它还具备易于携带的特点，将成为移动办公的利器�

小尺寸平板移动办公
荐AI日报：苹果明年推出SiriAI搜索；OpenAI放开ChatGPT Projects功能；Kimi K2-0905 上线 Discord

本文汇总了AI领域最新动态：苹果与谷歌合作，计划在Siri中引入Gemini AI技术；OpenAI向免费用户开放Projects功能，提升任务管理效率；谷歌推出免费Gemini CLI工具，集成GitHub提升开发效率；OpenAI估值飙升至5000亿美元，二级股票售出103亿美元；苹果自研AI搜索引擎“世界知识问答”计划2026年上线；月之暗面发布Kimi K2-0905模型，提升编程与创意写作能力；Raycast推出Cursor Agent插件优化代码编辑；谷歌发布nano banana官方Prompt模板，助力创意设计。

AI Siri Gemini

今日大家都在搜的词：

热文

3 天
7天

清华、浙大推GPT-4V开源平替！LLaVA、CogAgent等开源视觉模型大爆发

百度文心大模型X1.1正式发布：超越DeepSeek R1、打平GPT-5

OpenAI发布语音模型GPT-realtim：具备情感感知能力多语言无缝切换

荐AI日报：海螺AI首尾帧功能上线；元石科技发布问小白5；OpenAI发布全新语音模型GPT-Realtime

苹果官网Apple Store开始维护！iPhone 17系列今晚开启预购

荐AI日报：快手推出AI视频制作助手Kwali；字节跳动推出USO模型；OpenAI推出ChatGPT开发者模式

海宝公司 (Hypertherm Associates) 扩展 XPR® 等离子切割功能，提升生产效率和多功能性

OpenAI CEO：GPT-6将具备个性化记忆记住用户偏好习惯

旧款Apple Watch也将支持高血压警报：涉及这三款

荐小平板元年，华为MatePad Mini创出一片蓝海

荐AI日报：苹果明年推出SiriAI搜索；OpenAI放开ChatGPT Projects功能；Kimi K2-0905 上线 Discord

今日大家都在搜的词：

热文

华为MatePad mini今日首销：3299元起

罗永浩悬赏10万征集西贝预制菜线索还送iPhone17

华为Mate XTs三折叠今天首销：售价17999元起

AI日报：MiniMax Music 1.5上线；腾讯会议上线AI托管；蚂蚁外滩

全新问界M7累计小订已突破19万辆

苹果官网Apple Store开始维护！iPhone 17系列今晚开启预购

苹果客服回应韩国官网取消捏合动画：发布动画前已经调研

苹果iPhone Air在华发售延期上热搜：移动、电信、联通均已支持

苹果发布会前瞻：最大看点iPhone Air iPhone17或成国内首款无卡

为什么微信上那么多人住在安道尔上热搜：这些因素导致

iPhone 17系列今晚发布：苹果发布会新品揭晓

小米智能音箱多彩版发布：售价199元

库克称最爱橙色新iPhone：17 Pro是迄今最先进iPhone

华为MatePad mini今日首销：3299元起

苹果推出手机斜挎挂绳售价479元：10种配色可选

罗永浩悬赏10万征集西贝预制菜线索还送iPhone17

小米王腾因泄密被辞退曾单独签署保密协议

王腾否认被将入职魅族担任副总：系谣言

站长商机