开源多模态LLM InternVL 1.5：具备OCR能力可解读4K图片

2024-04-29 09:18 · 稿源：站长之家

划重点:
⭐️ InternVL 家族是一个开源套件，为商用多模态模型提供了可行的开源替代方案
⭐️ InternVL-Chat-V1.5发布，接近 GPT-4V 和 Gemini Pro 在各种基准测试上的性能
⭐️ InternVL 的模型可用于视觉感知、跨模态检索等多个领域，实现了多项技术突破

站长之家(ChinaZ.com) 4月29日消息:InternVL 家族的开源套件提供了一种商用多模态模型的可行开源替代方案。其中，最新发布的 InternVL-Chat-V1.5模型在多个基准测试上取得了接近 GPT-4V 和 Gemini Pro 的性能，这使得 InternVL 家族成为了当前最接近 GPT-4V 表现的可商用开源模型之一。

InternVL 家族的模型涵盖了多个领域，包括视觉感知和跨模态检索。其在视觉感知方面，利用 ViT-22B 模型在 ImageNet-1K、ImageNet-Real、ImageNet-V2等数据集上取得了优异表现，展现出强大的图像分类能力。另外，InternVL 家族还在语义分割、零样本图像分类等任务上取得了显著进展，为多模态模型的发展贡献了重要的技术突破。

作为一款人工智能产品，InternVL 家族的亮点在于其开源套件的多模态模型，尤其是最新发布的 InternVL-Chat-V1.5。该模型不仅在性能上接近商用顶尖模型，而且还具备强大的多模态对话能力，并且支持中文，拥有较强的 OCR 能力。

除此之外，InternVL 家族的模型还具备动态分辨率的支持，为用户提供更加灵活的使用体验。InternVL 家族的开源套件为多模态模型领域的发展注入了新的活力。

产品入口：https://top.aibase.com/tool/internvl

体验网址：https://huggingface.co/spaces/OpenGVLab/InternVL

（举报）

相关推荐

关键词：

荐AI日报：Sora免费额度要缩水；月之暗面发布Kimi Linear架构；Canva免费放出Affinity专业设计套件

本期AI日报聚焦多项技术突破：OpenAI调整Sora免费额度并推出付费计划，标志视频生成进入商业化；Figma收购Weavy推出AI设计工具；OpenAI发布基于GPT-5的安全研究助手Aardvark；全球首款AI字体生成器Dr Fonts上线；中国信通院发布大模型一体机应用报告；月之暗面推出Kimi Linear架构实现推理速度6倍提升；Canva免费发布Affinity设计套件挑战Adobe；Chrome新增Gemini驱动的图像生成与深度搜索功能。

Sora OpenAI 视频生成
女子徒步误将蛇窝当野生蹦床耗时1.5小时才脱险

10月26日，江西上饶的李女士与朋友在擂鼓岭山区徒步时，意外发现一处直径约50厘米的落叶堆积区。该区域地面松软且富有弹性，两人误以为是“天然蹦床”，便多次在上面蹦跳并拍摄视频。然而，危险正悄然逼近——她们随后在附近遭遇两条蛇，其中一条呈棕黑色，形似木棍;另一条头部扁平，符合眼镜蛇的典型特征。两人当即意识到危险，迅速撤离现场。由于山路崎岖且�

江西上饶擂鼓岭山区眼镜王蛇巢穴
超擎速度！全国首批NVIDIA DGX Spark率先抵达超擎数智，现货在仓，交付启动

10月19日，全国首批NVIDIA DGX Spark桌面级AI超算率先抵达超擎数智并开始交付。这款"全球最小AI超算"在发布72小时内落地中国市场，为企业和科研机构提供强劲算力。产品预装完整AI软件栈，实现开箱即用，配备详细快速指南和专业支持团队，助力开发者无缝对接顶尖计算能力，加速AI本地化开发创新。

NVIDIA DGX Spark
荐AI日报：可复刻音色的MiniMax Speech 2.6发布；TikTok推AI剪辑新工具“Smart Split”；Cursor 2.0发布

本期AI日报聚焦多项技术突破：MiniMax发布低延迟语音合成系统Speech 2.6，实现实时交互；蚂蚁数科与宁波银行打造的金融AI方案入选国际标准；智源推出具身操作能力的Emu3.5多模态模型；Cursor 2.0通过自研模型实现多智能体协同编程；xAI升级Grok新增视频生成功能；OpenAI推出可定制安全模型；TikTok推出AI剪辑工具Smart Split；微软发布强化学习框架Agent Lightning提升大模型训练效率。

AI日报 MiniMax Speech
Soul App开源模型SoulX-Podcast登顶Hugging Face TTS趋势榜,AI语音对话再升级

SoulX-Podcast语音生成模型在开源社区Hugging Face发布次日登顶TTS趋势榜。该模型由Soul AI Lab联合高校团队开发，专为多轮对话场景设计，支持中英川粤等多语言/方言与副语言风格，能生成超60分钟流畅自然、角色切换准确、韵律丰富的语音。它解决了传统语音系统在多轮对话中上下文衔接不自然、缺乏副语言控制能力等痛点，在播客、语音合成等场景表现突出，获开发者广泛关注。Hugging Face CEO也转发相关内容，团队未来将持续优化语音对话、拟人化表达等核心交互能力，深化开源生态建设。

SoulX-Podcast TTS 语音生成模型
1.5万元LV外套撞衫中学校服：价差超 185 倍

今日，长沙市长郡中学一名学生在社交平台发布对比图，称该校冬季校服设计与奢侈品牌路易威登（LV） 2024 年秋冬系列男士大衣存在高度相似性，引发网友广泛讨论。该学生调侃“长郡版LV联名校服终于来了，这次扳回一局”，相关话题迅速登上本地热搜榜。据对比图片显示，长郡中学新款校服与LV大衣在版型、配色及细节设计上确有相似之处：两者均采用藏青色为主色调

校服设计奢侈品牌抄袭争议
【CIM 加速，AI有方】No.2｜格创东智GT Insights用AI工作流改写半导体智造决策范式

在半导体制造领域，数据驱动的精准决策成为提升良率、降低成本的核心。传统数据分析系统面临三大挑战：技术门槛高、分析周期长、知识传承难。格创东智推出的GT+Insights产品，通过自然语言交互实现“对话即分析”，大幅降低使用门槛。该系统采用语义建模技术，将复杂物理数据转化为业务友好模型，支持分钟级全链路良率根因分析。目前已在多家半导体企业成功落地，助力客户显著提升生产效率，推动行业向智能化持续迈进。

半导体制造数据驱动精准决策
谁是真正续航高的电动车？雅迪凭借“TTFAR”成功上榜

2025年电动自行车已成为主流出行工具，消费者最关注续航能力。雅迪冠能S白鲨搭载TTFAR增程系统，通过电池、电机与控制器协同工作，实现动力与续航双向提升。其石墨烯电池纯度达99.99%，高能锂电版配备48V30Ah容量。电机采用加粗铜线设计，控制器可智能回收能量。经历三万公里骑行测试，成功应对复杂路况，验证系统稳定性。雅迪还推出"三年质保"方案，保障电池寿命，并升级安全性与智能化体验，以技术实力诠释"高续航电动车"的真正内涵。

电动自行车续航雅迪
OpenAI推出AI浏览器ChatGPT Atlas 开启个性化上网新体验

OpenAI于10月22日推出首款AI驱动浏览器ChatGPT Atlas，以个性化上网体验为核心。用户点击“Ask ChatGPT”即可在侧边栏实时互动，实现网页摘要生成、航班预订、文档编辑等多样化任务。目前仅支持macOS，未来将扩展至Windows和移动端。高级代理功能暂限付费用户使用，其特色包括自动捕捉页面上下文、分屏浏览及记忆用户操作历史，旨在通过自然对话提升网络使用效率。

ChatGPT Atlas 人工智能浏览器
科杰科技&甲子光年：2025中国Data&AI数据基础设施白皮书

当前全球正经历地缘政治重塑与人工智能革命驱动的深刻变革。全球化向区域化演进，供应链加速本土化，AI从前沿技术跃升为核心生产力。麦肯锡研究显示，生成式AI有望为全球经济贡献7万亿美元，中国预计占2万亿美元，接近全球总量三分之一。传统数据系统难以满足AI对实时性、多模态处理和高弹性算力的需求，企业需构建新一代数据基础设施，实现数据生产、治理与AI应用的动态融合，突破"数据烟囱"，支持跨场景智能部署。Data&AI一体化将推动数据价值从效率提升向产业协同跃升，成为智能社会的核心引擎。

地缘政治人工智能经济增长

今日大家都在搜的词：

热文

3 天
7天

开源多模态LLM InternVL 1.5：具备OCR能力可解读4K图片

荐AI日报：Sora免费额度要缩水；月之暗面发布Kimi Linear架构；Canva免费放出Affinity专业设计套件

女子徒步误将蛇窝当野生蹦床耗时1.5小时才脱险

超擎速度！全国首批NVIDIA DGX Spark率先抵达超擎数智，现货在仓，交付启动

荐AI日报：可复刻音色的MiniMax Speech 2.6发布；TikTok推AI剪辑新工具“Smart Split”；Cursor 2.0发布

Soul App开源模型SoulX-Podcast登顶Hugging Face TTS趋势榜,AI语音对话再升级

1.5万元LV外套撞衫中学校服：价差超 185 倍

【CIM 加速，AI有方】No.2｜格创东智GT Insights用AI工作流改写半导体智造决策范式

谁是真正续航高的电动车？雅迪凭借“TTFAR”成功上榜

OpenAI推出AI浏览器ChatGPT Atlas 开启个性化上网新体验

科杰科技&甲子光年：2025中国Data&AI数据基础设施白皮书

今日大家都在搜的词：

热文

AI日报：Sora免费额度要缩水；月之暗面发布Kimi Linear架构；C

苹果客服回应iPhone或自动拨号：设置或其他问题

iQOO Neo11开售2小时销量超前代全天

小米随身蓝牙音箱曜石黑配色版本开售：售价299元

iQOO 15旷野配色今日开售：售价4999元首发2K三星珠峰屏

vivo WATCH GT 2已支持开通移动/联通eSIM服务

iPhone锁屏滑动相机能关闭了苹果iOS 26.1 RC准正式版发布

AI日报：豆包推全自动多人配音系统；Adobe Firefly Image 5重磅

AI日报：Hailuo 2.3发布；豆包AI编程史诗级升级；马斯克推出AI

OPPO ColorOS 16正式版推送：首批适配11款机型

微信升级：支持一次撤回全部消息、删好友能保留聊天记录等功能

AI日报：可复刻音色的MiniMax Speech 2.6发布；TikTok推AI剪辑

鸿蒙智行：全新问界M7上市36天交付破20000台

华为余承东：鸿蒙智行全系交付突破100万台仅用43个月

小米17 Pro系列妙享背屏全新掌机游戏等新功能上线

AI日报：Sora免费额度要缩水；月之暗面发布Kimi Linear架构；C

站长商机

开源多模态LLM InternVL 1.5：具备OCR能力 可解读4K图片

今日大家都在搜的词：

热文

站长商机

开源多模态LLM InternVL 1.5：具备OCR能力可解读4K图片