首页 > AI头条  > 正文

kimi开源视觉语言模型 Kimi-VL 与 Kimi-VL-Thinking,多项基准超越 GPT-4o

2025-04-14 09:25 · 来源: AIbase基地

备受瞩目的国内人工智能公司 Moonshot AI (月之暗面) 近日宣布,正式开源发布了两款全新的视觉语言模型——Kimi-VLKimi-VL-Thinking。这两款模型以其轻量级的架构卓越的多模态理解与推理能力,在多个关键基准测试中超越了包括 GPT-4o 在内的众多大型模型,引发行业广泛关注。

QQ_1744593881911.png

轻巧身躯,蕴藏澎湃动力

与动辄拥有数百亿甚至千亿参数的主流大模型不同,Kimi-VL 和 Kimi-VL-Thinking 均采用了 MoE(Mixture-of-Experts,混合专家)架构,其激活参数仅约 30亿。这意味着它们在运行和部署上更加高效,对计算资源的要求更低。然而,令人惊讶的是,即便在如此轻量级的架构下,这两款模型依然在多项基准测试中取得了令人瞩目的优异成绩,充分展现了其强大的推理能力。

多模态智能再升级:数学推理与智能体操作表现亮眼

Kimi-VL 系列模型在多模态推理智能体能力方面表现突出。在考验模型多模态数学推理能力的 MathVision 基准测试中,Kimi-VL 取得了 36.8% 的成绩,这一表现足以媲美参数量远超其十倍的大型模型。

更令人印象深刻的是,在评估智能体操作能力的 ScreenSpot-Pro 任务上,Kimi-VL 的得分达到了 34.5%。这表明该模型在理解复杂用户界面并执行相应操作方面拥有出色的潜力,为未来开发更智能的人机交互应用奠定了基础。

QQ_1744593893636.png

高清视野:原生支持高分辨率图像处理

得益于 MoonViT 架构,Kimi-VL 系列模型具备强大的图文识别与理解能力。在 OCRBench 基准测试中,其得分高达 867,充分证明了其在处理高分辨率图像和识别复杂文本方面的卓越性能。这一特性对于处理包含大量图像和文档信息的应用场景至关重要。

超长记忆:轻松驾驭长上下文理解

超长上下文理解能力是 Kimi-VL 系列模型的另一大亮点。它们支持高达 128K tokens 的上下文输入。这意味着模型可以同时处理更长的文档、视频等复杂长文本信息,并进行更深入的理解和分析.

在长文档理解测试 MMLongBench-Doc 中,Kimi-VL 取得了 35.1% 的成绩,而在长视频理解测试 LongVideoBench 上,更是获得了高达 64.5% 的高分。这使得 Kimi-VL 系列模型在文档问答、视频分析等需要处理大量上下文信息的场景中具备巨大的应用潜力.

开源共享,共创多模态智能未来

Moonshot AI 强调,此次开源发布 Kimi-VL 和 Kimi-VL-Thinking 只是迈向通用多模态智能的一小步。他们希望通过开源的方式,吸引更多社区开发者参与到模型的应用开发中,共同探索 Kimi-VL 系列模型在文档问答、界面操作、图文理解、视频分析等领域的无限可能性。

目前,开发者可以通过以下方式获取 Kimi-VL 系列模型的相关信息和代码:

  • GitHub: https://github.com/MoonshotAI/Kimi-VL

  • https://huggingface.co/moonshotai/Kimi-VL-A3B-Instruct

  • 相关推荐
  • OpenAI发布2款开源模型:gpt-oss系列 能力接近o3和o4-mini

    OpenAI发布开源模型系列GPT-OSS,包含120B和20B两个版本。120B旗舰模型适配单H100 GPU架构,20B轻量版适合边缘计算。两款模型均开放完整推理链监控接口,支持动态参数调节和任务微调优化,性能接近闭源的GPT-O3和O4-mini。该系列突破性地支持代理功能,包括网页交互和Python代码执行,在标准化测试中表现优异。开源策略为开发者提供高性能替代方案,重新定义了AI模型的应用边界。

  • 豆包1.5 Vision Lite 对比 GPT-5-min,谁更适合你?实测AI模型选型利器|AIBase

    文章探讨了企业选择AI大模型时面临的实际决策难题,指出单纯比较学术参数无法满足业务需求。AIBase模型对比平台(https://model.aibase.cn/compare)通过三大核心价值解决痛点:1)聚焦业务场景而非参数堆砌,突出价格、语言支持、上下文长度等实用维度;2)透明化成本计算,标注长文本溢价规则和多模态附加费;3)一键生成对比报告。平台特别强调中文场景的特殊性(如豆包1.5在中文处理成本的优势),并揭示厂商宣传中容易忽略的隐藏成本(如GPT-5-min超5000字符的30%溢价)。典型电商客服案例显示,需综合中文理解、多模态、性价比等维度决策,最终选择取决于具体业务需求而非绝对性能排名。

  • 当GPT-5遇上Gemini 2.5,谁更适合你的业务?这份对比报告说了算

    某跨境电商CTO复盘会上展示:GPT-5 Standard处理百万级商品描述时,费用比Gemini 2.5 Flash-Lite高35%,响应速度慢0.8秒。大模型选型面临参数迷雾、场景错配、隐藏成本三重困境。AIbase选型对比平台通过真实数据测试,提供透明价格拆解和性能雷达图,帮助规避预算陷阱。实测显示GPT-5在合同逻辑分析准确率高3.2%,而Gemini表格解析速度快40%、月总成本低26%。工具可动态追踪官方调价,生成定制化决策报告,用数据替代经验主义,提升技术选型效率。

  • AI日报:智谱AI发布AutoGLM 2.0;腾讯元宝接入腾讯视频;字节发布开源大语言模型 Seed-OSS

    本期AI日报聚焦多项AI技术突破:智谱发布革命性语音代理AutoGLM 2.0,实现全平台语音操控;腾讯元宝接入视频平台提升观影便捷性;字节跳动开源大模型Seed-OSS专注长文本处理;速卖通AI代理助力新品推广效率翻倍;微软测试Copilot智能文件搜索功能;Liquid AI推出低延迟视觉语言模型LFM2-VL;OpenAI月收入首破10亿美元;谷歌Pixel 10系列全面升级AI功能,包括情感识别和实时翻译;Pixel Buds Pro 2引入AI手势控制;ElevenLabs发布支持70+语言的文本转语音API。

  • 看了这些数据,就能明白Mistplay为何总是“最懂玩家”

    8月4日,第22届ChinaJoy在上海圆满落幕。游戏激励平台Mistplay成为BTOB展区热门展台,吸引了众多业内人士探讨中国游戏出海新方向。Mistplay通过分析玩家游戏习惯,精准匹配游戏产品,突破传统买量模式,实现玩家、平台、开发商三方共赢。其最新报告显示:解谜类游戏留存率最高;41%玩家希望获得登录奖励;67%玩家偏好实质性奖励。平台建议开发商采用个性化促销策略,如生日优惠、进度奖励等,并预测2025年激励系统将成为手游重要战略。Mistplay的数据分析为手游发行商提供了宝贵的市场洞察。

  • REDMI Note 15 Pro+首搭自研澎湃T1S芯片

    REDMI官方今日正式宣布,Note15系列将于8月21日(周四)19:00全球首发。作为该系列性能旗舰,Note15Pro首次搭载小米自研澎湃T1S信号增强芯片,这款与K80Pro同源的通信芯片,将中高频蜂窝通信性能提升最高37%,Wi-Fi和蓝牙性能同步增强16%,官方用"信号强到离谱"形容其通信表现。 据实测数据,澎湃T1S芯片在人流密集的商圈、车站等场景下,网络抢通能力显著提升;在地下车�

  • 可赶上这波了!iOS用户“一键补课”了Mistplay的新功能

    在2023 ChinaJoy展会上,Mistplay凭借其独特的"玩赚"模式成为BTOB展区热门平台。该平台通过游戏时长激励玩家,同时为开发者提供高质量用户,已覆盖全球九大应用市场,累计安装超3500万次。Mistplay近期推出iOS版本,新增锦标赛、益智问答等功能,并创新推出LoyaltyPlay功能,为非游戏应用搭建激励桥梁。其核心AI引擎"Helios"能精准匹配用户与游戏,提升用户留存率和LTV。中国区负责人彭超楠在展会上分享了"忠诚度营销"理念,为游戏出海提供新思路。双平台布局使Mistplay优势更加突出,成为开发者提升用户留存的重要合作伙伴。

  • OpenAI的开源模型现已在IBM watsonx.ai上提供

    OpenAI发布两款开源AI模型GPT-OSS-120B和GPT-OSS-20B,允许开发者自由下载、运行和定制。其中120B模型已部署在IBM Watsonx.ai平台,采用专家混合架构,支持本地或云端部署,不受商业用途限制。模型具备高透明度,输出完整推理链,在多项基准测试中表现优异。此次发布标志着OpenAI首次加入开源生态,IBM强调其开放战略,为企业提供灵活、安全的AI开发选择。

  • REDMI Note 15 Pro系列官宣下周发布

    REDMI官方正式宣布,备受瞩目的Note15Pro系列将于下周与消费者见面。官方宣称,该系列将以“耐用品质,打造品质里程碑之作;用真实场景,定义实战之王”,彰显其在品质与实用性上的双重追求。 据小米中国区市场部总经理、REDMI品牌总经理王腾透露,实战是检验品质的唯一标准。对于REDMI Note15Pro系列而言,好品质意味着要能够经受住真实生活中复杂、高频、极限场景的考验�

  • REDMI最强旗舰:曝REDMI K90全系标配2K窄边框直屏

    博主数码闲聊站暗示,REDMI K90标准版和Pro版都标配2K直屏,全系采用旗舰级发光材料,全系支持3D超声波屏幕指纹,全系采用LTPS屏幕。 该博主还爆料,REDMI K90系列的2K屏幕功耗明显下降,还有对称式双扬声器,屏幕比例为19.5:9。

今日大家都在搜的词:

热文

  • 3 天
  • 7天