11.11云上盛惠!海量产品 · 轻松上云!云服务器首年1.8折起,买1年送3个月!超值优惠,性能稳定,让您的云端之旅更加畅享。快来腾讯云选购吧!
智谱·AI最近宣布推出新一代多模态大模型CogVLM2,该模型在关键性能指标上相较于前一代CogVLM有了显著提升,同时支持8K文本长度和高达1344*1344分辨率的图像。CogVLM2在OCRbench基准上性能提升了32%,在TextVQA基准上性能提升了21.9%,显示出强大的文档图像理解能力。CogVLM2的两个模型在多个基准中取得了最先进的性能,同时在其他性能上也能达到与闭源模型相近的水平。
中国研究人员介绍了一款名为CogVLM的强大开源视觉语言基础模型。该模型在视觉和语言信息的深度整合方面取得了显著的进展,通过引入可训练的视觉专家,在VLM预训练过程中提高了语言模型的视觉理解能力。CogVLM作为一款强大的开源视觉语言基础模型,通过创新的训练方法和深度整合策略,成功提高了视觉理解能力,为跨模态任务的性能提升开辟了新的途径。
看看这张图中有几个房子?如果你回答3个,就和GPT-4V的答案一样。但是最新开源的国产多模态模型CogVLM-17B,就能看出另有玄机。不过目前仅支持英文,后续会提供中英双语版本支持,可以持续关注。
清华大学与智谱AI合作开发的CogVLM-17B是一款国产多模态模型,具有卓越的性能。该模型不仅可以识别图像中的对象能分辨完整可见和部分可见的物体。其深度融合方法的创新性标志着多模态模型训练范式的改变,为未来的研究和应用提供了新的思路和可能性。