首页 > AI头条  > 正文

暗月之面发布开源模型 Kimi-VL, 28 亿个参数即可处理文本、图像和视频

2025-04-29 11:57 · 来源: AIbase基地

中国初创公司 Moonshot AI 最近推出了一款名为 Kimi-VL 的开源模型。该模型在处理图像、文本和视频方面表现出色,以其高效的性能引起了广泛关注。Kimi-VL 最大的亮点在于其处理长文档、复杂推理和用户界面的能力。

QQ_1745899039142.png

据 Moonshot AI 介绍,Kimi-VL 采用了一种专家混合架构,仅在执行特定任务时激活部分模型。尽管只有2.8亿个活跃参数,但 Kimi-VL 在多个基准测试中表现出与许多大型模型相媲美的结果,其效率远超许多同类产品。Kimi-VL 的最大上下文窗口可达128,000个标记,这使其能够处理整本书籍或长视频的文字记录。根据公司报告,Kimi-VL 在 LongVideoBench 和 MMLongBench-Doc 等测试中始终得分良好。

在图像处理方面,Kimi-VL 的能力也相当引人注目。与一些其他系统不同,该模型能够分析完整的屏幕截图或复杂图形,而无需将其拆分成更小的部分。它还可以处理数学图像问题和手写笔记。在一项测试中,Kimi-VL 成功分析了一份手写手稿,识别出与阿尔伯特・爱因斯坦相关的引用,并解释了其重要性。

Kimi-VL 还可以作为软件助手,能够解读图形用户界面并自动化数字任务。Moonshot AI 声称,在测试中,该模型在浏览器菜单导航或设置更改方面的表现超越了许多其他系统,包括 GPT-4o。

与其他开源模型相比,Kimi-VL 表现得更为高效。根据 Moonshot AI 的数据,它在24个基准测试中赢得了19个,即便是在活跃参数远少于其他模型的情况下。它在 MMBench-EN 和 AI2D 等基准测试中,得分与通常由更大型商业模型取得的分数相当或更高。

Moonshot AI 表示,Kimi-VL 的出色表现归功于其训练方法。除了标准的监督微调外,该模型还应用了强化学习。专门版 Kimi-VL-Thinking 被训练用于更长的推理步骤,从而提高了其在复杂任务(例如数学推理)中的表现。

虽然 Kimi-VL 表现出色,但其当前的规模在某些高度语言密集或小众任务上的表现仍有局限。同时,它在处理非常长的上下文时也面临技术挑战。Moonshot AI 计划开发更大型的模型版本,增加更多训练数据,并改善微调技术,目标是创建一个 “强大而资源高效的系统”,适用于科研和工业等实际应用场景。

今年早些时候,Moonshot AI 还发布了 Kimi k1.5,这是一款针对复杂推理的多模态模型,该公司声称其在基准测试中能够与 GPT-4o 相抗衡。Kimi k1.5可在 kimi.ai 网页界面上获得,而 Kimi-VL 的演示版本则可在 Hugging Face 找到。

划重点:  

🌟 Kimi-VL 是 Moonshot AI 发布的开源多模态 AI 模型,处理图像、文本和视频表现优异。  

📈 该模型以2.8亿个活跃参数在多项基准测试中超越许多大型模型,显示出高效的性能。  

🤖 Kimi-VL 支持长文档处理和复杂推理,能解读用户界面并自动化数字任务。

  • 相关推荐
  • AI日报:Kimi全新音频基础模型Kimi-Audio;阶跃星辰开源图像编辑模型Step1X-Edit;​夸克AI超级框上线 “拍照问夸克”

    本期AI日报聚焦多项AI技术突破与应用:1)Moonshot AI推出开源音频模型Kimi-Audio,基于13亿小时训练数据,支持语音识别等任务;2)阶跃星辰开源图像编辑模型Step1X-Edit,展现强大生成能力;3)夸克AI上线"拍照问夸克"功能,实现视觉问答;4)苹果iOS18.5将在中国推送,带来智能功能;5)谷歌发布601个生成式AI应用案例,覆盖多行业;6)微软推出深度整合Windows的UFO²自动化系统;7)OpenAI升级ChatGPT至GPT-4o版本,提升STEM领域能力;8)Ema公司推出高性价比语言模型EmaFusion;9)Liquid AI发布面向边缘设备的Hyena Edge模型;10)LemonAI推出实时音视频数字人产品Slice Live。此外,国内方面,智谱与生数科技达成战略合作推动大模型发展,宝马中国宣布新车将接入DeepSeek技术。

  • AI日报:阿里通义千问Qwen3问鼎全球开源模型Kimi长思考模型API发布;OpenAI发布新一代GPT-4.1模型

    【AI日报】汇总了近期AI领域重要动态:1)阿里通义千问3开源模型上线7天即登顶全球开源模型榜首,在指令遵循和推理能力上超越闭源模型;2)月之暗面推出Kimi长思考模型API,可解决复杂代码和数学问题;3)OpenAI发布GPT-4.1模型,性能提升显著;4)Google推出Gemini2.5Pro模型,提升开发者编码能力;5)联想发布"天禧超级智能体",具备多模态感知能力;6)腾讯元宝上线"对话分

  • 模型公司纷纷卷向社区,kimi们能否扭转乾坤?

    内容社区能不能打破AI困境?大模型赛道卷上天 ,部分公司开始换新玩法了。据蓝鲸财经报道,月之暗面Kimi正灰度测试一个内容社区产品。从该媒体爆料来看,该社区内大部分内容由AI抓取新闻热点生成,重点关注科技、财经等垂类新闻。有趣的是,据财联社报道,另一个大模型巨头OpenAI也表示将做社交软件,对标的是X,但对于这个社区的定位还没清晰,不知道将来是单独开发

  • 秒杀同行!Kimi开源全新音频基础模型,横扫十多项基准测试,总体性能第一

    Kimi-Audio是一款开源的通用音频基础模型,在语音识别、音频理解、音频转文本、语音对话等任务中表现优异。该模型采用集成式架构设计,包含音频分词器、音频大模型和音频去分词器三大核心组件,支持多模态输入处理。在十余项音频基准测试中,Kimi-Audio均取得领先性能,如LibriSpeech ASR测试WER仅1.28%,VocalSound测试达94.85%。模型使用1300万小时多语言音频数据进行预训练,并构建了自动处理流水线生成高质量训练数据。评估结果显示,Kimi-Audio在语音识别、音乐理解、语音情感分析等任务上全面超越同类模型,在OpenAudioBench和VoiceBench对话测试中也表现最佳。目前模型代码、检查点和评估工具包已在GitHub开源。

  • 微信,OpenAI和Kimi想一起去了:大模型的尽头依然还是社交平台

    AI圈最近弥漫着一股微妙的气息。人们似乎不再热议大语言模型的最新突破、以及AI应用的无限可能时,一些代表着未来的AI巨头,却似乎正将目光投向互联网那熟悉得不能再熟悉的角落——社交网络与社区。近期的传闻和动作颇具代表性,在大洋彼岸,手握ChatGPT和Sora等王牌的OpenAI,据称正内部测试类X的社交功能,其CEO Sam Altman甚至在私下征求反馈;而在国内,凭借长文本能力

  • 初中老师如何用deepseek 和 Kimi无痛做课件

    本教程指导初中教师如何利用Deepseek和Kimi两款AI工具高效完成备课全流程。Deepseek用于生成教学设计方案和PPT大纲,Kimi则根据大纲快速生成精美课件。操作步骤:1)在Deepseek输入教学需求生成教学设计;2)用Deepseek生成PPT大纲;3)将大纲粘贴至Kimi PPT助手一键生成课件。该方法特别适合日常备课、临时调课需求,能大幅提升备课效率,让教师既省时又高效。

  • 中国智力持续发力,智象未来开源模型再获国际认可

    国内AI企业智象未来研发的开源图像生成模型HiDream-I1近日取得重要突破:该模型凭借17B参数规模,在图像真实感、细节处理及指令响应能力上超越行业标杆,多项评测指标超过GPT-4o与Flux1.1。继登顶AI基准测试平台Artificial Analysis、获Hugging Face收录后,该模型正式被谷歌技术生态体系收录,成为首个登顶该平台榜首的中国自研开源模型。其24小时内登顶的纪录,被视为中国AI技术全球竞争力的重要里程碑。谷歌的收录将推动HiDream-I1触达全球开发者,助力开源生态共建进入新发展阶段。

  • 仅用三张图像即可生成 3D 场景,苹果新 AI 模型“很惊人”

    只需三张输入图像,Matrix3D 就能生成物体、甚至整个环境的详细 3D 重建,这显然可以为 Apple Vision Pro 等沉浸式头显带来非常有趣的应用……

  • 阿里开源通义新模型:指定首尾图片生成视频

    快科技4月18日消息,据报道,阿里巴巴旗下通义万相宣布开源其创新视频生成技术首尾帧生视频14B模型。这项突破性AI技术能够根据用户提供的起始和结束画面,智能生成720p高清过渡视频,为视频创作带来全新可能。该模型通过先进的深度学习算法,能够精准理解输入画面的内容、风格及主题特征。当用户提供首尾两帧图像后,模型会智能分析画面中的视觉元素,包括物体形�

  • DeepSeek + Kimi一键生成高质量PPT

    文章介绍如何用两个免费AI工具快速制作PPT:先用微信版DeepSeek生成大纲,再用Kimi智能助手一键生成PPT。操作步骤包括:1)在微信搜索DeepSeek,输入需求生成结构化大纲;2)访问Kimi网页版,将大纲粘贴至PPT助手功能;3)选择模板样式,一键生成PPT。该方法适用于教师备课、学生汇报、职场报告等多种场景,能自动完成从构思到排版的全部流程,高效且效果惊艳。

今日大家都在搜的词: