首页 > 业界 > 关键词  > 月之暗面最新资讯  > 正文

性能超OpenAI、Gemini!月之暗面发布首个自主强化学习Agent

2025-06-23 08:49 · 稿源: 快科技

快科技6月23日消息,据媒体报道,月之暗面(Moonshot AI)正式推出其首款Agent产品Kimi-Researcher(深度研究),并已启动小范围灰度测试。

该产品基于端到端自主强化学习(end-to-end agentic RL)技术打造,在HLE测试中表现优异,性能超越Claude 4 Opus、Gemini 2.5 Pro及OpenAI Deep Research,并与Gemini-Pro的Deep Research Agent持平。

Kimi-Researcher 是一款高度自主的智能研究助手,能够独立规划任务流程并交付完整结果。与其他Agent不同,它采用零结构设计,无需复杂提示词或预设流程,完全依靠自主决策能力在动态环境中运行。

例如,它能自行判断信息冲突时的权衡策略、任务节点的切换时机,以及中间信息的取舍标准,其核心驱动力始终是任务的实际解决效果。

作为一款深度研究模型,Kimi-Researcher 整合了多源数据,并支持每条引用的直接追溯,确保研究严谨性,有效减少幻觉问题。月之暗面表示,未来将逐步开源Kimi-Researcher 的基础预训练模型及强化学习优化版本,以推动Agent强化学习领域的探索与发展。

举报

  • 相关推荐
  • 猿辅导AI技术赋能教育变革,多产品协同构建个性化学习新体系

    猿辅导作为国内教育科技领军企业,通过自主研发AI大模型构建"硬件+软件+平台"全场景教育生态。其700亿参数大模型通过国家备案,获"可信AI"最高评级,覆盖课前、课中、课后全学习闭环。产品矩阵包含"小猿学练机"智能硬件、"海豚AI学"学习平台及"飞象星球"教育解决方案,实现批改效率提升100倍、启发式教学等突破。累计研发投入超百亿,服务200万学生,首创"教研+数据+算法"三元模式,重新定义智能教育行业标准,推动教育公平与个性化学习发展。

  • 秘塔AI也终于悄悄上线了DeepResearch。

    测试完以后,我觉得这玩意,还是值得我将近通宵写一篇的。 深度研究,也就是DeepResearch。 我过去写过很多次秘塔AI了,因为我自己的搜索习惯,现在基本就是,大活上ChatGPT用DeepResearch,常识问答直接找豆包,一般的AI搜索就是秘塔AI。 当然很多ChatBot产品都有AI搜索,但是我自己这两年,还是习惯用秘塔AI和Perplexity这样形态的原生AI搜索产品了,这可能就是习惯的力量吧。

  • K2发布后,Kimi 研究员集体在X和知乎上搞起了“团建”

    Kimi K2的发布几乎没什么预兆。 2025年7月11日深夜,月之暗面直接开源了这个万亿参数模型,整个AI圈子一下子就热闹起来。模型的能力很强,尤其是在代码和Agent任务上,没多久,它就和Grok4一起出现在了马斯克转发的热门模型趋势榜单上。

  • 蓝耘元生代MaaS × Kimi K2 × Claude CodeUI,开启编程效率革命

    蓝戟元生代MaaS平台推出"Kimi K2×Claude CodeUI"AI编程解决方案,通过国产首个万亿参数MoE架构开源模型Kimi K2驱动Claude Code,实现本地化部署。该方案具有三大优势:1)成本直降90%,免翻墙使用;2)支持128K超长上下文处理,编程能力超越主流模型;3)提供600万token免费额度。平台采用交互式界面设计,支持移动端操作和WebSocket通信,集成文件管理、Git工具和会话追踪功能,�

  • 工信部力推AI与6G深度融合,高通/微美全息强化5G/6G竞争力抢占技术高点

    工信部将推进5G规模化应用,实施"扬帆"行动升级方案和"5G+工业互联网"512工程升级版,推动工业互联网与人工智能协同赋能。同时加快6G技术研发布局,北京亦庄发布6G创新发展措施,计划2030年形成全球影响力的6G创新先导区。高通表示6G将降低网络运营成本,微美全息等企业正加速6G核心技术研发。当前5G商用已成熟,6G标准化预计2029年发布,2030年左右投入商用。AI技术进步也将推动6G标准研究,未来6G将构建全球互操作无线平台,促进社会创新。

  • 广东灭蚊next level:放蚊子吃蚊子 优于化学喷洒

    近日,广东省佛山市三水区南山镇一场特殊的灭蚊行动引发社会关注。中山大学中山医学院病原生物学与生物安全学系副教授张东京带领的师生团队,通过释放华丽巨蚊幼虫捕食伊蚊幼虫的方式,为阻断基孔肯雅热疫情传播开辟了科技防控新路径。这一创新举措被网友称为“广东灭蚊next level”,标志着蚊虫防控进入生态治理新阶段。 7月30日,科研团队在南山镇积水区域按比�

  • 猿辅导AI大模型:技术深融与场景革新,重构学习体验

    2025年教育科技领域迎来智能化新浪潮。猿辅导集团通过自主研发的"猿力大模型"与开源推理大模型DeepSeek深度融合,构建覆盖"数据-场景-交互"全链路的AI教育生态。其技术方案已获信通院"模型开发5级"认证,成为教育行业首个获此最高评级的大模型。硬件方面推出"小猿学练机"和"小猿AI学习机",实现学习平板与智能基座结合,支持打印、情感交互等功能。校园端覆盖25省市超1000所学校,通过"AI安全驾驶模拟"等项目培养学生计算思维。编程教育领域推出支持代码实时监测的AI-Agent工具。凭借300亿条学情数据和15亿题库构建的高质量素材库,显著降低"幻觉"风险68%。目前旗下出海产品已服务100多个国家,推动中国教育科技走向国际。

  • 研究发现费脑子的工作老了后记忆好:不易痴呆

    据挪威奥斯陆大学医院发表在《神经病学》杂志上的一项最新研究表明:工作中对脑力的要求越高,日后出现记忆和思维问题的可能性就越小。” 据悉,研究人员调查了涉及305种职业的7000名挪威成年人,并对各种职业进行了大致归类:常规手工任务,如工厂流水线工作,经常涉及重复性动作; 常规认知任务,如记账、归档等,要求重复性任务的精确性和准确性; 非常规分�

  • AI 大模型选型指导:一文实测 Kimi‑K2‑Turbo‑Preview 与 Qwen3‑Coder‑Flash

    本文对比分析了Kimi-K2-Turbo-Preview和Qwen3-Coder-Flash两款AI大模型在开发者选型中的表现。K2-Turbo采用MoE架构,激活参数32B,支持128K上下文,在代码调试和自动化流程方面表现突出;Qwen3-Coder为480B参数的MoE模型,原生支持256K上下文,擅长大规模代码库理解和API集成。二者在中级任务表现接近,但K2在复杂可视化任务更优,Qwen3在多轮Agent调用更稳定。建议根据需求选择:注重调试自动化选K2,需要长上下文支持选Qwen3。推荐使用AIbase模型广场进行高效选型对比。

  • A日报:Kimi开放平台上线Kimi Playground;OpenAI重磅发布ChatGPT Agent;Suno推人声替换功能

    【AI日报】汇总了近期AI领域重要进展:1)月之暗面推出Kimi Playground平台,实现从对话助手到智能助理的转变;2)OpenAI发布ChatGPT Agent,支持自主执行浏览、购物等任务;3)Suno发布v4.5+版本,新增人声替换等音乐创作功能;4)谷歌Veo3视频生成模型上线,支持文本转视频;5)全球首个直播流扩散模型MirageLSD发布,实现实时视频转换;6)VSCode编程助手Traycer提升大型代码库处理效率;7)ART框架支持Python一键训练AI Agent;8)NVIDIA语音识别模型Canary-Qwen-2.5B词错率创新低;9)Mistral AI推出Le Chat挑战ChatGPT;10)百度小度上线首个支持物理交互的MCP Server;11)Lightricks的LTXV模型实现60秒高质量视频生成;12)开源模型LTX-Video13B支持30倍速高清视频生成。

今日大家都在搜的词:

热文

  • 3 天
  • 7天