首页 > 业界 > 关键词  > InternVL最新资讯  > 正文

开源多模态LLM InternVL 1.5:具备OCR能力 可解读4K图片

2024-04-29 09:18 · 稿源:站长之家

划重点:

⭐️ InternVL 家族是一个开源套件,为商用多模态模型提供了可行的开源替代方案

⭐️ InternVL-Chat-V1.5发布,接近 GPT-4V 和 Gemini Pro 在各种基准测试上的性能

⭐️ InternVL 的模型可用于视觉感知、跨模态检索等多个领域,实现了多项技术突破

站长之家(ChinaZ.com) 4月29日 消息:InternVL 家族的开源套件提供了一种商用多模态模型的可行开源替代方案。其中,最新发布的 InternVL-Chat-V1.5模型在多个基准测试上取得了接近 GPT-4V 和 Gemini Pro 的性能,这使得 InternVL 家族成为了当前最接近 GPT-4V 表现的可商用开源模型之一。

image.png

InternVL 家族的模型涵盖了多个领域,包括视觉感知和跨模态检索。其在视觉感知方面,利用 ViT-22B 模型在 ImageNet-1K、ImageNet-Real、ImageNet-V2等数据集上取得了优异表现,展现出强大的图像分类能力。另外,InternVL 家族还在语义分割、零样本图像分类等任务上取得了显著进展,为多模态模型的发展贡献了重要的技术突破。

image.png

作为一款人工智能产品,InternVL 家族的亮点在于其开源套件的多模态模型,尤其是最新发布的 InternVL-Chat-V1.5。该模型不仅在性能上接近商用顶尖模型,而且还具备强大的多模态对话能力,并且支持中文,拥有较强的 OCR 能力。

除此之外,InternVL 家族的模型还具备动态分辨率的支持,为用户提供更加灵活的使用体验。InternVL 家族的开源套件为多模态模型领域的发展注入了新的活力。

产品入口:https://top.aibase.com/tool/internvl

体验网址:https://huggingface.co/spaces/OpenGVLab/InternVL

举报

  • 相关推荐
  • 大家在看

今日大家都在搜的词: