首页 > AI头条  > 正文

kimi开源视觉语言模型 Kimi-VL 与 Kimi-VL-Thinking,多项基准超越 GPT-4o

2025-04-14 09:25 · 来源: AIbase基地

备受瞩目的国内人工智能公司 Moonshot AI (月之暗面) 近日宣布,正式开源发布了两款全新的视觉语言模型——Kimi-VLKimi-VL-Thinking。这两款模型以其轻量级的架构卓越的多模态理解与推理能力,在多个关键基准测试中超越了包括 GPT-4o 在内的众多大型模型,引发行业广泛关注。

QQ_1744593881911.png

轻巧身躯,蕴藏澎湃动力

与动辄拥有数百亿甚至千亿参数的主流大模型不同,Kimi-VL 和 Kimi-VL-Thinking 均采用了 MoE(Mixture-of-Experts,混合专家)架构,其激活参数仅约 30亿。这意味着它们在运行和部署上更加高效,对计算资源的要求更低。然而,令人惊讶的是,即便在如此轻量级的架构下,这两款模型依然在多项基准测试中取得了令人瞩目的优异成绩,充分展现了其强大的推理能力。

多模态智能再升级:数学推理与智能体操作表现亮眼

Kimi-VL 系列模型在多模态推理智能体能力方面表现突出。在考验模型多模态数学推理能力的 MathVision 基准测试中,Kimi-VL 取得了 36.8% 的成绩,这一表现足以媲美参数量远超其十倍的大型模型。

更令人印象深刻的是,在评估智能体操作能力的 ScreenSpot-Pro 任务上,Kimi-VL 的得分达到了 34.5%。这表明该模型在理解复杂用户界面并执行相应操作方面拥有出色的潜力,为未来开发更智能的人机交互应用奠定了基础。

QQ_1744593893636.png

高清视野:原生支持高分辨率图像处理

得益于 MoonViT 架构,Kimi-VL 系列模型具备强大的图文识别与理解能力。在 OCRBench 基准测试中,其得分高达 867,充分证明了其在处理高分辨率图像和识别复杂文本方面的卓越性能。这一特性对于处理包含大量图像和文档信息的应用场景至关重要。

超长记忆:轻松驾驭长上下文理解

超长上下文理解能力是 Kimi-VL 系列模型的另一大亮点。它们支持高达 128K tokens 的上下文输入。这意味着模型可以同时处理更长的文档、视频等复杂长文本信息,并进行更深入的理解和分析.

在长文档理解测试 MMLongBench-Doc 中,Kimi-VL 取得了 35.1% 的成绩,而在长视频理解测试 LongVideoBench 上,更是获得了高达 64.5% 的高分。这使得 Kimi-VL 系列模型在文档问答、视频分析等需要处理大量上下文信息的场景中具备巨大的应用潜力.

开源共享,共创多模态智能未来

Moonshot AI 强调,此次开源发布 Kimi-VL 和 Kimi-VL-Thinking 只是迈向通用多模态智能的一小步。他们希望通过开源的方式,吸引更多社区开发者参与到模型的应用开发中,共同探索 Kimi-VL 系列模型在文档问答、界面操作、图文理解、视频分析等领域的无限可能性。

目前,开发者可以通过以下方式获取 Kimi-VL 系列模型的相关信息和代码:

  • GitHub: https://github.com/MoonshotAI/Kimi-VL

  • https://huggingface.co/moonshotai/Kimi-VL-A3B-Instruct

  • 相关推荐
  • 小米将多枚商标转让至Kimi 后者为月之暗面旗下AI助手

    近日有信息显示,小米科技有限责任公司将多枚“kimi”商标转让至北京月之暗面科技有限公司。据了解,这些商标最早申请于2013年,目前多数商标状态为已注册。 北京月之暗面科技有限公司成立于2023年4月,法定代表人是杨植麟,注册资本达100万人民币。

  • 如何用Kimi打造销售员朋友圈良好人设?

    本文介绍如何利用AI工具Kimi打造职场优质形象。通过每周固定内容输出:周一分享行业报告展现专业深度,周三发布团队合照突出协作精神,周五转发公司新闻彰显产品自信。操作流程包括注册登录、输入特定指令生成文案、优化调整后发布。这种系统化的朋友圈运营能逐步建立"优质打工人"人设,提升个人品牌影响力。Kimi工具可快速生成符合职场形象的文案内容,帮助销售人员高效塑造专业形象。

  • AI日报:阿里云通义灵码AI IDE上线;小米多模态大模型Xiaomi MiMo-VL开源;黑森林实验室推出FLUX.1Kontext

    【AI日报】今日AI领域重要动态:1)阿里云推出通义灵码AI IDE,集成千问3模型,显著提升编程效率;2)小米开源多模态大模型MiMo-VL-7B,性能超越更大规模闭源模型;3)黑森林实验室发布FLUX.1Kontext图像生成模型,支持文本和参考图像多次编辑;4)Midjourney V7渲染速度提升40%,新增用户投票功能;5)DeepSeek R1-0528大模型在AGI领域取得突破,性能超越xAI等公司;6)Hugging Face进军机器人市场,推出开源人形机器人HopeJR;7)字节跳动火山方舟接入DeepSeek最新大模型;8)Anthropic开源"电路追踪"工具,揭示大模型决策过程;9)阿里巴巴开源自主搜索AI智能体WebAgent;10)Hume发布低延迟语音语言模型EVI3;11)Manus Slides支持一键生成专业幻灯片;12)Runway Gen-4 References支持手机照片艺术化处理。

  • AI日报:阿里开源长文本深度思考模型QwenLong-L1;GPT-4o语音模式上线唱歌功能;秘塔AI搜索推出全新“极速”模型

    本文汇总了AI领域最新动态:1)中国信通院发布智能体开发标准,推动AI商业化进程;2)阿里推出QwenLong-L1-32B长文本推理模型,性能媲美Claude-3;3)GPT-4o语音模式升级,新增唱歌功能;4)秘塔AI搜索推出极速模型,响应速度达400tokens/秒;5)谷歌发布LMEval评估框架,统一大模型评测标准;6)Chrome浏览器集成Gemini AI助手;7)阿联酋全民免费使用ChatGPT Plus;8)苏州成立60亿元AI产业基金;9)法国Kyutai实验室推出10秒定制语音的Unmute系统;10)UAV-Flow项目实现无人机语音精准控制;11)Claude将升级支持百万字上下文和记忆功能;12)百度心响iOS版上线;13)夸克推出高考深度搜索功能;14)Chrome v137开发者工具升级;15)美团AI业务接近GPT-4o水平;16)Direct3D-S2实现3D生成速度提升10倍;17)OpenAI计划2026年推出首款AI硬件。

  • 理想汽车OTA7.4正式推送!自研MindGPT-4o-preview模型首次上车

    理想汽车5月28日发布OTA 7.4版本升级,主要亮点包括:1)首次搭载自研MindGPT-4o大模型,智能助手"理想同学"升级为3D毛绒形象,新增双手交互动作,语音交互更自然生动;2)新增"小同桌"多角色对话功能,支持连续聊天和情商引导;3)升级为生活助手Agent,能自主操作车机完成复杂任务,支持支付宝小程序操作;4)新增家庭账号系统、面容识别和对话历史功能;5)影音体验优化,支持前后排独立音区;6)推出儿童节专属"小主人"模式,新增斑马百科应用;7)新增超充站降锁、冰箱定时开关等实用功能;8)优化L6车型CDC悬架系统,提升操控性。

  • ChatGPT重磅升级GPT-4.1:编程专家模型登场

    OpenAI于5月15日正式推出GPT-4.1模型,采用差异化推送策略:付费用户可体验完整版,普通用户使用轻量级GPT-4.1 mini。新版模型在编程任务表现突出,能精准遵循指令,避免冗长输出。测试显示其响应速度提升30%,输出稳定性提高40%,部分性能超越GPT-4o。同时OpenAI宣布将斥资30亿美元收购编程工具Windsurf,强化开发者生态,与Google同日发布的Gemini-GitHub形成直接竞争。两大巨头的动作标志着AI编程助手进入生态竞争新阶段。

  • REDMI K Pad杀到!首发多项新技术 4K内配置最豪华小平板

    今日,REDMI官宣旗下首款旗舰小平板REDMI K Pad。 小米中国区市场部总经理、REDMI品牌总经理王腾表示,REDMI K Pad全面超越iPad mini,做到4K以内配置最豪华的小平板”,推动安卓小平板全面进入旗舰时代。 据了解,REDMI K Pad采用LCD屏幕,与手机只需一颗DDIC驱动屏幕不同,K Pad为了让屏幕更清晰、采用超高分辨率,需要两颗IC来驱动屏幕。 王腾指出,双驱动IC的难度在于数据、亮度�

  • OpenAI 提升o3多模态模型推理实力,微美全息(WIMI.US)加速引领产业新变革征程

    OpenAI推出突破性的o3推理模型,首次实现图像直接融入推理过程,在多模态基准测试V* Bench上准确率达95.7%。DeepSeek完成R1模型升级,上下文窗口从12K扩展至23K,幻觉率降低45%-50%。行业呈现开源趋势,DeepSeek开源策略促使多家企业跟进,OpenAI也考虑开源。微美全息加速布局多模态大模型,计划提供实时多模态AI体验。专家指出AI发展重心正从大模型向智能体演进,开源技术显著降低训练门槛,提升泛化能力,为多模态智能探索开辟新路径。企业需紧跟趋势把握机遇,在大模型驱动的新时代找准定位。

  • 卢伟冰:REDMI K Pad对标iPad mini

    REDMI正式官宣其首款旗舰小平板——REDMI K Pad,该产品将于近期发布。与此同时,小米集团合伙人、总裁,国际部总裁,Redmi品牌总经理卢伟冰发文透露,今年堪称小米平板业务的爆发之年,小米平板销量首次跻身全球前三,产品阵容完成换新,全面对标苹果iPad系列产品。 卢伟冰强调,5月发布的小米平板7Ultra直接对标苹果最高端的iPad Pro,而接下来即将发布的新品中,有两款�

  • AI日报:GPT-4.1正式上线ChatGPT;阿里通义万相Wan2.1-VACE开源;可灵大模型视频生成量约占30%份额

    本文报道了AI领域最新动态:1)阿里通义万相开源视频编辑统一模型VACE;2)OpenAI发布GPT-4.1增强编码能力;3)Stability AI推出超轻量341M文字转语音模型;4)快手可灵视频生成模型占据30%市场份额;5)微软WizardLM团队整体加入腾讯混元大模型研发体系;6)腾讯宣布混元图像2.0将于5月16日发布;7)上海成立人工智能标识生态联盟;8)Lightricks发布13B参数视频生成模型LTX-Video;9)谷歌DeepMind推出AlphaEvolve优化AI训练速度;10)腾讯元宝浏览器插件上线Chrome平台。这些进展展示了AI技术在视频处理、大模型、语音合成等领域的快速发展。

今日大家都在搜的词: