首页 > 业界 > 关键词  > InternVL最新资讯  > 正文

开源多模态LLM InternVL 1.5:具备OCR能力 可解读4K图片

2024-04-29 09:18 · 稿源:站长之家

划重点:

⭐️ InternVL 家族是一个开源套件,为商用多模态模型提供了可行的开源替代方案

⭐️ InternVL-Chat-V1.5发布,接近 GPT-4V 和 Gemini Pro 在各种基准测试上的性能

⭐️ InternVL 的模型可用于视觉感知、跨模态检索等多个领域,实现了多项技术突破

站长之家(ChinaZ.com) 4月29日 消息:InternVL 家族的开源套件提供了一种商用多模态模型的可行开源替代方案。其中,最新发布的 InternVL-Chat-V1.5模型在多个基准测试上取得了接近 GPT-4V 和 Gemini Pro 的性能,这使得 InternVL 家族成为了当前最接近 GPT-4V 表现的可商用开源模型之一。

image.png

InternVL 家族的模型涵盖了多个领域,包括视觉感知和跨模态检索。其在视觉感知方面,利用 ViT-22B 模型在 ImageNet-1K、ImageNet-Real、ImageNet-V2等数据集上取得了优异表现,展现出强大的图像分类能力。另外,InternVL 家族还在语义分割、零样本图像分类等任务上取得了显著进展,为多模态模型的发展贡献了重要的技术突破。

image.png

作为一款人工智能产品,InternVL 家族的亮点在于其开源套件的多模态模型,尤其是最新发布的 InternVL-Chat-V1.5。该模型不仅在性能上接近商用顶尖模型,而且还具备强大的多模态对话能力,并且支持中文,拥有较强的 OCR 能力。

除此之外,InternVL 家族的模型还具备动态分辨率的支持,为用户提供更加灵活的使用体验。InternVL 家族的开源套件为多模态模型领域的发展注入了新的活力。

产品入口:https://top.aibase.com/tool/internvl

体验网址:https://huggingface.co/spaces/OpenGVLab/InternVL

举报

  • 相关推荐
  • 从 RTX 到 Spark:NVIDIA 为本地代理式 AI 加速 Gemma 4

    Google推出小巧、快速且具备多模态能力的Gemma4模型家族,与NVIDIA合作优化,可在各类设备上高效本地运行。该系列涵盖E2B至31B多种变体,专为从边缘设备到高性能GPU的高效部署设计。Gemma4支持推理、编码、智能体及多模态交互等丰富任务,并兼容OpenClaw等应用,实现任务自动化。用户可通过Ollama或llama.cpp在NVIDIA RTX GPU和DGX Spark上免费运行。

  • 绿算技术亮相NVIDIA GTC 2026暨AI存储闭门会,分享存算协同新突破

    随着大模型推理从“可用”迈向“高效”,软硬件协同、数据通路重构与存算新架构已成为全球AI基础设施竞争的核心高地。近日,2026年NVIDIA亚太区AI存储研讨会在NVIDIA总部成功举办。作为AI存储与算力基础设施领域的创新先锋,绿算技术产品及研发中心总经理孔维海受邀出席,并在闭门会议中分享了前沿技术观点与绿算产品体系的最新进展。本次研讨会汇聚了NVIDIA、超云、DaoC

  • 2026 NVIDIA GTC 圆满落幕:阿丘科技携 Factory AI 亮相 GTC

    全球AI顶级盛会NVIDIA GTC 2026于3月16日至19日在美国加州圣何塞举行。NVIDIA创始人兼CEO黄仁勋发表主题演讲,揭示加速计算与AI的未来蓝图。阿丘科技以“Factory AI Pioneer”身份亮相,展示了基于NVIDIA平台的工业AI前沿技术与全场景解决方案,并与全球伙伴探讨AI与物理世界深度融合,如何重构工厂的质量与安全体系。阿丘科技还作为NVIDIA初创加速计划会员代表,在线上演讲中分享基于视觉平台的全厂AI方案。盛会虽落幕,但阿丘科技探索智能制造的旅程仍在继续。

  • 腾讯AI还有一张暗牌

    腾讯AI刚打完一手明牌。元宝、龙虾特工队、养虾全景图,产品矩阵铺到桌面上,生态布局画得清清楚楚。 但明牌底下还压着一张暗牌。 3月27日,腾讯云上海峰会。MiniMax的Agent首席架构师阿岛讲了一个训练困境——大模型的强化学习撞上了沙箱瓶颈,十万级并发环境在K8S上根本跑不动。同一场峰会,汤道生丢出一句判断:「AI落地不只是一道算法题,更是一道工程题。」 一�

  • 智谱,大力出AI

    智谱和MiniMax的两份财报共同说明了一个问题:国产大模型上市是起点,而非终点。 一向以对标OpenAI为荣的智谱,在昨晚业绩会上180度大转弯,重新给自己贴上了标签——“中国的Anthropic”。 原因无他,一张资产报表揭露了智谱上市的真相。截至2025年末,智谱负债净额高达81.1亿元,已经陷入了资不抵债的境况,若无上市注资,生存都可能成为问题。从这个意义上来说,年初的

  • 苹果压轴旗舰来了!iPhone Fold要卖1.5万元:史上最贵苹果手机

    苹果首款折叠屏旗舰iPhone Fold预计2026年发布,起售价或达14999元。该机采用主流书本式折叠方案,配备5.5英寸外屏与7.8英寸内屏,搭载A20 Pro芯片及12GB内存,电池容量有望突破5000毫安时。其内屏率先应用屏下前摄技术,通过液态金属铰链与定制柔性玻璃实现仅0.15毫米的折痕深度。系统将搭载深度优化大屏交互的iOS 27,支持多任务分屏、跨应用拖拽等功能。

  • AI日报:即梦AI发布协作型叙事工具Octo;公众号打击AI自动化写作;MiniMax 发布 MMX-CLI

    本期AI日报聚焦多领域动态:即梦AI发布协作叙事工具“小章鱼”Octo,推动AI创作向同屏共创演进;微信打击非真人自动化写作,维护内容原创性;MiniMax推出MMX-CLI工具,提升AI Agent在复杂环境的能力;Meta发布千亿级AI模型Muse Spark,加速超级智能布局;淘宝上线AI语音搜索,实现“一问即办”;Anthropic推出Claude Managed Agents公测版,一站式解决AI代理部署;腾讯云宣布上调AI算力及容器服务价格,涨幅达5%;字节跳动发布全双工语音大模型Seeduplex,实现更自然的实时语音交互。

  • B.AI 正式上线:构建 AI Agent 金融底层基座,驱动AGI时代商业底层逻辑

    B.AI 于4月9日正式上线,旨在构建面向AI Agent时代的全球化金融基础设施。它通过整合区块链技术,打造了从AI服务入口到金融底座的完整服务链。核心能力包括:一站式的无许可LLM统一入口,聚合全球顶尖AI模型并提供标准化API服务;基于8004协议的链上身份体系,为AI Agent提供去中心化身份注册与可信验证服务,解决Agent间(A2A)的信任问题;以及基于x402支付标准的自主交易通�

  • IBM宣布扩大与NVIDIA的合作,助力企业级人工智能迈上新台阶

    IBM在GTC2026大会上宣布深化与NVIDIA的合作,旨在帮助企业规模化部署人工智能。双方将共同推动GPU原生数据分析、智能文档处理、本地及受监管环境的基础设施部署,并提供云与咨询服务。合作旨在解决企业AI落地中的数据分散、基础设施不足、合规性挑战及专业知识缺乏等障碍。通过技术整合,例如将NVIDIA cuDF加速集成至IBM watsonx.data,已在雀巢的全球供应链数据集中实现查询时间从15分钟缩短至3分钟,成本降低83%。此外,双方还整合了IBM Docling与NVIDIA Nemotron模型以提升非结构化文档处理能力,并探索面向数据驻留需求的本地化AI解决方案。

  • InternVL:60亿参数视觉语言基础模型填补多模态AGI的差距

    人工智能领域一直将视觉和语言的无缝整合作为关注焦点,特别是在大型语言模型的出现下,该领域取得了显著进展。对于多模态AGI系统言,发展视觉和视觉语言基础模型仍有待迎头赶上。该研究有助于推动多模态大型模型的发展,潜在地重塑人工智能和机器学习的未来格局。

今日大家都在搜的词: