首页 > AI头条  > 正文

Kimi K2 技术报告重磅发布!这款模型如何在全球开源赛场上独占鳌头?

2025-07-23 11:04 · 来源: AIbase基地

近日,Kimi 团队正式发布了 Kimi K2的技术报告,揭示了这款全新模型背后的训练秘密。Kimi K2的参数总量达到1万亿,而激活参数则高达320亿,凭借其强大的能力,Kimi K2在刚上线一周内便在全球开源模型竞赛中斩获桂冠,超越了 DeepSeek,堪比 Grok4和 GPT4.5等顶尖闭源模型。

Kimi K2的成功,得益于其创新的训练方法和技术架构。首先,该团队引入了 MuonClip 优化器,替代了传统的 Adam 优化器。这种新的优化器结合了高效的 token 使用和稳定性,让 Kimi K2在预训练阶段无损失地处理了15.5万亿 token 的数据。此外,团队还开发了大规模的 Agentic Tool Use 数据合成 pipeline,覆盖多个领域和工具,为模型提供了丰富的训练场景。

image.png

值得注意的是,Kimi K2在训练中采用了 “重述法” 来提高数据效率。这种方法不是简单重复,而是用不同的方式重新表达知识内容,确保模型能够真正理解信息。尤其是在处理数学和知识类文本时,Kimi K2通过将复杂内容改写成易懂的学习笔记风格,进一步提升了训练效果。数据显示,用重写的数据训练一轮,其准确率超过了使用原始数据训练十轮的结果。

image.png

在后训练阶段,Kimi K2还进行了监督微调和强化学习,通过构建可验证的奖励环境和自我评估机制,确保模型在多样化任务中不断优化表现。训练过程中还引入了预算控制和温度衰减策略,以提高生成文本的质量和稳定性。

为了支持如此庞大的训练需求,Kimi K2依托于由 NVIDIA H800构成的大规模高带宽 GPU 集群,确保了训练效率和数据传输的高效性。

随着科技的不断进步,Kimi K2的发布无疑为开源模型的发展注入了新的活力,值得行业内外的关注。

  • 相关推荐
  • K2发布后,Kimi 研究员集体在X和知乎上搞起了“团建”

    Kimi K2的发布几乎没什么预兆。 2025年7月11日深夜,月之暗面直接开源了这个万亿参数模型,整个AI圈子一下子就热闹起来。模型的能力很强,尤其是在代码和Agent任务上,没多久,它就和Grok4一起出现在了马斯克转发的热门模型趋势榜单上。

  • 最强Agent?3分钟看懂Kimi K2真的好用吗?

    Moonshot AI于2025年7月11日发布开源大模型Kimi K2,主打代码编写、数学推理和Agent工具调用功能。该模型采用MoE架构(1T参数,激活32B),在SWE-Bench等测试中表现优异,数学推理得分达97.4。支持128k上下文、工具调用和API集成,定价为输入4元/百万tokens、输出16元/百万tokens。相比闭源模型,Kimi K2具有开源免费、成本低等优势,适合开发者和企业使用。同时推荐AIbase平台,可系统比较�

  • A日报:月之暗面开源大模型Kimi K2;智源全面开源RoboBrain2.0;通义千问发布Qwen Chat桌面客户端

    本期AI日报重点报道了多项AI领域突破性进展:1.月之暗面推出万亿参数开源大模型Kimi K2,展现强大智能能力;2.智源研究院开源RoboBrain2.0和RoboOS2.0机器人系统;3.通义千问发布桌面客户端Qwen Chat;4.IndexTTS2实现影视级语音合成;5.HuggingFace开源机器人Reachy Mini热销;6.Meta推出实时视频生成模型StreamDiT;7.PixVerse新增多关键帧视频生成功能;8.特斯拉推出仅支持AMD处理器的Grok AI助手;9.OpenAI推迟开源大模型发布以加强安全测试;10.Liquid AI开源边缘AI模型LFM2;11.AI"时间穿越"特效在社交媒体走红。

  • AI日报:字节将发布AI编程工具TRAE2.0版本;Mistral重磅推出音频模型Voxtral;月之暗面回应Kimi K2 API速度慢

    AI日报栏目聚焦AI领域最新动态:1)字节跳动将发布TRAE 2.0编程工具,新增语音交互功能;2)Mistral推出开源音频模型Voxtral,支持多语言;3)月之暗面回应Kimi K2API速度慢问题,正在优化系统;4)昆仑万维发布AgentOrchestra框架,实现多智能体协作;5)OpenAI前CTO创立的Thinking Machines Lab获20亿美元融资;6)Kimi-2上线,性能超越GPT-4.1;7)TRAE推出Kimi-K2模型服务,国际版支持Grok-4;8)字节跳动Seed�

  • AI日报:美图发布影像AI Agent RoboNeo;1.8bit量化Kimi K2模型上线;亚马逊推AI代码编辑器 Kiro

    【AI日报】今日AI领域重要动态:1)美图推出RoboNeo,通过自然语言指令实现图片精修、品牌设计等全能影像处理;2)Unsloth AI将Kimi K2模型量化至1.8bit,体积缩减78%保持性能;3)谷歌Gemini嵌入模型登顶MTEB榜单,超越OpenAI;4)亚马逊发布免费AI代码编辑器Kiro,集成Claude模型;5)Claude新增应用工具目录功能提升工作效率;6)MiniMax完成近3亿美元融资,估值超40亿美元;7)UTCP新协议让AI代理直

  • A日报:Kimi开放平台上线Kimi Playground;OpenAI重磅发布ChatGPT Agent;Suno推人声替换功能

    【AI日报】汇总了近期AI领域重要进展:1)月之暗面推出Kimi Playground平台,实现从对话助手到智能助理的转变;2)OpenAI发布ChatGPT Agent,支持自主执行浏览、购物等任务;3)Suno发布v4.5+版本,新增人声替换等音乐创作功能;4)谷歌Veo3视频生成模型上线,支持文本转视频;5)全球首个直播流扩散模型MirageLSD发布,实现实时视频转换;6)VSCode编程助手Traycer提升大型代码库处理效率;7)ART框架支持Python一键训练AI Agent;8)NVIDIA语音识别模型Canary-Qwen-2.5B词错率创新低;9)Mistral AI推出Le Chat挑战ChatGPT;10)百度小度上线首个支持物理交互的MCP Server;11)Lightricks的LTXV模型实现60秒高质量视频生成;12)开源模型LTX-Video13B支持30倍速高清视频生成。

  • API攻击年增超162%,瑞数信息重磅发布《API安全趋势报告》

    瑞数信息发布的《API安全趋势报告》指出,2024年API攻击流量同比增长超162%,占所有网络攻击的78%。报告揭示三大特征:1)攻击规模化,自动化工具普及使单次扫描可覆盖数千API资产;2)AI技术加持,42%攻击采用动态变异特征绕过传统检测;3)供应链风险突出,61%攻击通过单个漏洞横向渗透。报告建议企业构建全生命周期安全框架,覆盖设计、开发到运营各环节,实施业务逻辑防护、细粒度访问控制及LLM专用防护。以某电信运营商为例,部署防护方案后三个月内显著提升安全能力。报告强调,API安全需从技术防御转向业务智能防护,成为企业数字化免疫力的核心。

  • 全球首发骁龙8 Elite 2!曝小米16系列独占9月

    据爆料,小米16系列将首发骁龙8 Elite 2芯片,预计9月发布。该芯片采用台积电3nm工艺,配备第二代自研Oryon CPU架构,性能较前代提升显著。小米未选用玄戒芯片是因数字系列对性能要求更高,而骁龙平台更成熟稳定。未来小米旗舰机仍将以高通芯片为主,玄戒芯片可能用于S系列或平板产品。小米16系列将推出标准版和Pro版,采用全新R角设计,屏幕分辨率分别为1.5K和2K,整体更舒适。

  • 2025全球B2B电商平台行业调查报告‌

    报告分析了全球B2B电商平台的现状与发展趋势。主要内容包括:1)B2B平台打破地域限制,实现全球商品交易和信息交流;2)主要功能涵盖信息服务、交易服务和增值服务;3)运营模式分为信息服务、交易服务和综合服务三类;4)以阿里巴巴国际站、TradeKey等平台为例,分析其商业模式;5)未来趋势包括技术驱动变革、跨境交易兴起、供应链整合优化等。报告指出B2B平台正成为企业拓展国际市场的重要桥梁,建议企业充分利用平台资源提升竞争力,同时呼吁加强行业监管。

  • 全球优质AI语音大模型盘点:Whisper、Gemini Speech

    本文分析了当前主流AI语音大模型的核心优势与应用场景。全球顶尖模型包括:OpenAI Whisper(多语言识别与翻译)、Google Gemini(情感化语音生成)、Meta AudioCraft(音乐创作与风格转换)。国内讯飞星火(方言识别)、阿里通义(电商客服)、百度文心(车载场景)表现突出。技术突破点在于云端协同架构、零样本克隆和情感语音合成。选择模型需考虑语言支持、场景适配、部署

今日大家都在搜的词:

热文

  • 3 天
  • 7天