首页 > 业界 > 关键词  > InternVL最新资讯  > 正文

开源多模态LLM InternVL 1.5:具备OCR能力 可解读4K图片

2024-04-29 09:18 · 稿源:站长之家

划重点:

⭐️ InternVL 家族是一个开源套件,为商用多模态模型提供了可行的开源替代方案

⭐️ InternVL-Chat-V1.5发布,接近 GPT-4V 和 Gemini Pro 在各种基准测试上的性能

⭐️ InternVL 的模型可用于视觉感知、跨模态检索等多个领域,实现了多项技术突破

站长之家(ChinaZ.com) 4月29日 消息:InternVL 家族的开源套件提供了一种商用多模态模型的可行开源替代方案。其中,最新发布的 InternVL-Chat-V1.5模型在多个基准测试上取得了接近 GPT-4V 和 Gemini Pro 的性能,这使得 InternVL 家族成为了当前最接近 GPT-4V 表现的可商用开源模型之一。

image.png

InternVL 家族的模型涵盖了多个领域,包括视觉感知和跨模态检索。其在视觉感知方面,利用 ViT-22B 模型在 ImageNet-1K、ImageNet-Real、ImageNet-V2等数据集上取得了优异表现,展现出强大的图像分类能力。另外,InternVL 家族还在语义分割、零样本图像分类等任务上取得了显著进展,为多模态模型的发展贡献了重要的技术突破。

image.png

作为一款人工智能产品,InternVL 家族的亮点在于其开源套件的多模态模型,尤其是最新发布的 InternVL-Chat-V1.5。该模型不仅在性能上接近商用顶尖模型,而且还具备强大的多模态对话能力,并且支持中文,拥有较强的 OCR 能力。

除此之外,InternVL 家族的模型还具备动态分辨率的支持,为用户提供更加灵活的使用体验。InternVL 家族的开源套件为多模态模型领域的发展注入了新的活力。

产品入口:https://top.aibase.com/tool/internvl

体验网址:https://huggingface.co/spaces/OpenGVLab/InternVL

举报

  • 相关推荐
  • AI日报:Sora免费额度要缩水;月之暗面发布Kimi Linear架构;Canva免费放出Affinity专业设计套件

    本期AI日报聚焦多项技术突破:OpenAI调整Sora免费额度并推出付费计划,标志视频生成进入商业化;Figma收购Weavy推出AI设计工具;OpenAI发布基于GPT-5的安全研究助手Aardvark;全球首款AI字体生成器Dr Fonts上线;中国信通院发布大模型一体机应用报告;月之暗面推出Kimi Linear架构实现推理速度6倍提升;Canva免费发布Affinity设计套件挑战Adobe;Chrome新增Gemini驱动的图像生成与深度搜索功能。

  • 女子徒步误将蛇窝当野生蹦床 耗时1.5小时才脱险

    10月26日,江西上饶的李女士与朋友在擂鼓岭山区徒步时,意外发现一处直径约50厘米的落叶堆积区。该区域地面松软且富有弹性,两人误以为是“天然蹦床”,便多次在上面蹦跳并拍摄视频。然而,危险正悄然逼近——她们随后在附近遭遇两条蛇,其中一条呈棕黑色,形似木棍;另一条头部扁平,符合眼镜蛇的典型特征。两人当即意识到危险,迅速撤离现场。 由于山路崎岖且�

  • 超擎速度!全国首批NVIDIA DGX Spark率先抵达超擎数智,现货在仓,交付启动

    10月19日,全国首批NVIDIA DGX Spark桌面级AI超算率先抵达超擎数智并开始交付。这款"全球最小AI超算"在发布72小时内落地中国市场,为企业和科研机构提供强劲算力。产品预装完整AI软件栈,实现开箱即用,配备详细快速指南和专业支持团队,助力开发者无缝对接顶尖计算能力,加速AI本地化开发创新。

  • AI日报:可复刻音色的MiniMax Speech 2.6发布;TikTok推AI剪辑新工具“Smart Split”;Cursor 2.0发布

    本期AI日报聚焦多项技术突破:MiniMax发布低延迟语音合成系统Speech 2.6,实现实时交互;蚂蚁数科与宁波银行打造的金融AI方案入选国际标准;智源推出具身操作能力的Emu3.5多模态模型;Cursor 2.0通过自研模型实现多智能体协同编程;xAI升级Grok新增视频生成功能;OpenAI推出可定制安全模型;TikTok推出AI剪辑工具Smart Split;微软发布强化学习框架Agent Lightning提升大模型训练效率。

  • Soul App开源模型SoulX-Podcast登顶Hugging Face TTS趋势榜,AI语音对话再升级

    SoulX-Podcast语音生成模型在开源社区Hugging Face发布次日登顶TTS趋势榜。该模型由Soul AI Lab联合高校团队开发,专为多轮对话场景设计,支持中英川粤等多语言/方言与副语言风格,能生成超60分钟流畅自然、角色切换准确、韵律丰富的语音。它解决了传统语音系统在多轮对话中上下文衔接不自然、缺乏副语言控制能力等痛点,在播客、语音合成等场景表现突出,获开发者广泛关注。Hugging Face CEO也转发相关内容,团队未来将持续优化语音对话、拟人化表达等核心交互能力,深化开源生态建设。

  • 1.5万元LV外套撞衫中学校服:价差超 185 倍

    ​今日,长沙市长郡中学一名学生在社交平台发布对比图,称该校冬季校服设计与奢侈品牌路易威登(LV) 2024 年秋冬系列男士大衣存在高度相似性,引发网友广泛讨论。该学生调侃“长郡版LV联名校服终于来了,这次扳回一局”,相关话题迅速登上本地热搜榜。 据对比图片显示,长郡中学新款校服与LV大衣在版型、配色及细节设计上确有相似之处:两者均采用藏青色为主色调

  • 【CIM 加速,AI有方】No.2|格创东智GT Insights用AI工作流改写半导体智造决策范式

    在半导体制造领域,数据驱动的精准决策成为提升良率、降低成本的核心。传统数据分析系统面临三大挑战:技术门槛高、分析周期长、知识传承难。格创东智推出的GT+Insights产品,通过自然语言交互实现“对话即分析”,大幅降低使用门槛。该系统采用语义建模技术,将复杂物理数据转化为业务友好模型,支持分钟级全链路良率根因分析。目前已在多家半导体企业成功落地,助力客户显著提升生产效率,推动行业向智能化持续迈进。

  • 谁是真正续航高的电动车?雅迪凭借“TTFAR”成功上榜

    2025年电动自行车已成为主流出行工具,消费者最关注续航能力。雅迪冠能S白鲨搭载TTFAR增程系统,通过电池、电机与控制器协同工作,实现动力与续航双向提升。其石墨烯电池纯度达99.99%,高能锂电版配备48V30Ah容量。电机采用加粗铜线设计,控制器可智能回收能量。经历三万公里骑行测试,成功应对复杂路况,验证系统稳定性。雅迪还推出"三年质保"方案,保障电池寿命,并升级安全性与智能化体验,以技术实力诠释"高续航电动车"的真正内涵。

  • OpenAI推出AI浏览器ChatGPT Atlas 开启个性化上网新体验

    OpenAI于10月22日推出首款AI驱动浏览器ChatGPT Atlas,以个性化上网体验为核心。用户点击“Ask ChatGPT”即可在侧边栏实时互动,实现网页摘要生成、航班预订、文档编辑等多样化任务。目前仅支持macOS,未来将扩展至Windows和移动端。高级代理功能暂限付费用户使用,其特色包括自动捕捉页面上下文、分屏浏览及记忆用户操作历史,旨在通过自然对话提升网络使用效率。

  • 科杰科技&甲子光年:2025中国Data&AI数据基础设施白皮书

    当前全球正经历地缘政治重塑与人工智能革命驱动的深刻变革。全球化向区域化演进,供应链加速本土化,AI从前沿技术跃升为核心生产力。麦肯锡研究显示,生成式AI有望为全球经济贡献7万亿美元,中国预计占2万亿美元,接近全球总量三分之一。传统数据系统难以满足AI对实时性、多模态处理和高弹性算力的需求,企业需构建新一代数据基础设施,实现数据生产、治理与AI应用的动态融合,突破"数据烟囱",支持跨场景智能部署。Data&AI一体化将推动数据价值从效率提升向产业协同跃升,成为智能社会的核心引擎。

今日大家都在搜的词: