快手开源KwaiAgents系统性能超越GPT-3.5

2023-12-28 09:20 · 稿源：站长之家

要点:
1. 快手与哈尔滨工业大学联合研发的「KwaiAgents」系统实现了7B/13B模型的开源，超越了GPT-3.5的效果。
2. 「KwaiAgents」包含轻量级AI Agents系统（KAgentSys-Lite）、具有通用能力的大模型(KAgentLMs)、以及开箱即用的自动化评测Benchmark(KAgentBench)。
3. 通过Meta-Agent Tuning（MAT）方法，模型在训练中引入更多Agent Prompt模板，提升大模型在任务规划、工具使用、反思等能力，从而达到超越效果。

站长之家（ChinaZ.com）12月28日消息:近日，快手联合哈尔滨工业大学成功开源了「KwaiAgents」系统，实现了7B/13B模型的超越效果。这一成果的背后，是通过Meta-Agent Tuning（MAT）方法提升大模型的通用能力。整个项目包含了系统、模型、以及评测三个方面的内容，并通过GitHub完全开源，为研究者和开发者提供了极大的便利。

项目地址:https://github.com/KwaiKEG/KwaiAgents

该系统以大模型为认知内核，配以记忆机制和工具库，形成迭代式自动化系统。记忆机制包含知识库、对话和任务历史三类记忆，通过混合向量检索和关键词检索技术，在每一轮对话中检索所需信息。工具集包含事实性增强工具，异构的搜索和浏览机制能够汇集多个来源的知识，包括网页、文本百科和视频百科。自动化Loop中，系统在一轮对话中接收问题，进行记忆的更新和检索，调用大模型进行任务规划，根据需要调用工具，最后综合历史信息给出回答。

为避免训练中单一模板引起的过拟合问题，团队提出了MAT方法。该方法分为两阶段:模板生成阶段和指令微调阶段。在模板生成阶段，通过设计Meta-Agent，生成实例化的Agent Prompt模板，候选结果与开源模板进行对比打分，从而筛选出高质量的Agent Prompt模板库。在指令微调阶段，基于上万的模板构建了超过20万的Agent调优指令微调数据。通过这一方法，模型在任务规划、工具使用、反思等方面的能力得到提升，同时避免了过度依赖单一模板的问题。

KAgentBench通过人工精细化标注的数据，提供开箱即用的Agent能力自动化评测Benchmark。该Benchmark涵盖不同种类的能力构造输入，每个query配备多个模板和多个人工编辑的真实回答，综合评测准确性和泛化性。评测结果显示，通过MAT调优后，7B-13B模型在各项能力上均有显著提升，超越了GPT-3.5的效果。

团队表示，AI Agents是一条具有潜力的道路，未来将持之以恒地沉淀核心技术，并积极探索Agents技术与快手业务的结合，尝试更多有趣、有价值的创新应用落地。这一开源项目为整个社区注入了新的活力，为研究者提供了丰富的资源和参考。

（举报）

相关推荐

关键词：

KwaiAgents

一加Ace 6T官宣将于本月发布：首发骁龙8 Gen5

一加中国区总裁李杰宣布即将发布全新性能旗舰一加Ace6T。该机全球首发搭载骁龙8 Gen5芯片，采用台积电3nm工艺，配备强大CPU与GPU组合，性能卓越。除极致性能外，还支持165帧游戏流畅体验，并配备超8000mAh大电池实现持久续航。一加Ace6T旨在重新定义性能旗舰标准，以"性能狠Pro，续航超Max"的定位成为市场新选择。

一加Ace6T 骁龙8Gen5 性能旗舰
软件定义汽车的质量革命：AI Agent如何终结座舱OTA的“路测噩梦”

在“软件定义汽车”浪潮下，智能汽车竞争核心转向座舱体验、ADAS功能及OTA迭代质量。然而，传统软件测试模式成本高、耗时长，难以覆盖复杂场景，易导致漏洞。AI驱动的“无人测试”通过大模型与智能体技术实现三大突破：需求自主解析与测试规划、GUI自主探索与自愈维护、智能诊断与根因分析。这将催生“人机协同”新范式，测试工程师角色转向质量策略师。到2027年，超80%企业将集成AI测试工具，汽车行业2025年成为转型关键节点。

软件定义汽车智能汽车座舱体验
从“实时分账”到“智能问数”：汇付天下以“Data Agent”重塑支付业务决策效率

汇付天下作为技术驱动的数字化企业，践行“数字化+国际化”战略，为全球企业提供支付、账户、资金管理及数据集成解决方案。面对海量交易数据处理需求，公司依托火山引擎技术，构建湖仓一体架构，实现毫秒级风控响应与实时分账，并通过Data Agent智能平台支持自然语言查询与业务归因，推动数据驱动运营。该方案以流批一体能力优化数据处理效率，保障业务稳定与合规，助力企业实现全域增长与智能化风控协同。

数字化企业支付收款数据集成
Billus AI高交会全球首发多模态大模型以AI Agent重构创意产业文明进化路径

2025年11月15日，Billus AI在高交会首发多模态大模型Billus0.57EDIT及“超级员工智能体”初阶版，依托自研生存式大模型与AI Agent技术，打破创意领域垂直局限，构建覆盖文创、时尚、艺术等全场景智能创作生态。该模型通过自然语言指令直达创意成果，实现从平面图到施工图的全流程高效生成。同时，Billus AI同步打造“创意设计超级员工+产业链智能体”体系，探索生成式创意与供应链智能推荐的新商业路径，助力行业从“经验驱动”向“数据智能”跃迁。

高交会 Billus毕鲁斯多模态大模型
易鑫正式发布汽车金融行业首个Agentic大模型

易鑫在2025世界互联网大会乌镇峰会上发布汽车金融行业首个Agentic大模型XinMM-AM1。该模型参数量约300亿，响应延迟低于200毫秒，支持语音实时交互，单卡吞吐达370 tokens/秒，可提升获客、风控与运营效率，解决行业周期长、交互多、决策复杂等难题。易鑫作为AI驱动的金融科技平台，研发投入超20亿元，率先实现AI全场景应用，将持续推动智能汽车金融生态建设。

汽车金融大模型易鑫
国内首个！火山引擎推出融合国家级智库理论与大规模实战验证的 Data Agent 评测体系

火山引擎推出国内首个融合国家智库理论框架与大规模实战验证的数据智能体评测体系，同步发布《2025数据智能体实践指南》。该体系直面传统评测重技术轻业务、预设答案难适配动态场景、局部能力检验不足三大痛点，确立业务关联性、可操作性与前瞻性设计原则。覆盖分析洞察、可视化呈现、鲁棒性三大核心维度，通过151道测试题量化智能体能力并划分达标/工业可用/专业研究三级标准。采用标准化闭环流程与自动化评分机制，为数字化转型深水区企业提供选型优化依据，推动产业智能化进入精准量化新阶段。

数据智能体评测体系多模态数据
没有Pro Max！一加Ace 6T命名敲定：首发骁龙8 Gen5

此前有网友在机场拍到一加Ace 6 Pro Max包装盒，不少网友认为这就是一加即将推出的骁龙8 Gen5新机。博主数码闲聊站表示，一加骁龙8 Gen5新机不叫Ace 6 Pro Max，而是命名为Ace 6T，这里的T不是Turbo，是一加纯正的性能基因，一加的Turbo系列也已在路上了。对比一加Ace 6，一加Ace 6T处理器由骁龙8 Elite换成了骁龙8 Gen5，电池容量突破8000mAh，还将带来炫酷的联名。该博主还爆料，高通

一加Ace 6T 骁龙8
代号战斗天使！vivo S50系列定档12月发布：骁龙8 Gen5满血铁三角

根据预约界面显示，vivo S50系列确定将在12月发布，近期官方也已经陆续开启预热。爆料称vivo S50系列代号是战斗天使，vivo产品经理韩伯啸发文称，为了让这代S成为名副其实的战斗天使”确实下了血本。

vivo S50系列骁龙8
鲁大师10月新机性能/流畅/AI榜：骁龙8 Elite Gen5与天玑9500新机大混战

10月手机圈迎来新机潮，19款新机扎堆发布。骁龙8 Elite Gen5和天玑9500新旗舰芯片成为性能核心，红魔11Pro+凭借满血硬件和主动水冷散热以198万+分数登顶性能榜。流畅度方面，iQOO Neo11凭借OriginOS6系统优化逆袭夺冠，OPPO、vivo多款机型占据前列。AI榜单因新芯片跑分波动暂未收录，但骁龙8 Elite Gen5的NPU性能提升显著。总体呈现“旗舰芯片定基调，系统优化决胜负”的竞争格局。

骁龙8Elite Gen5 天玑9500
VMware替代与升级选型必看！腾讯专有云TCE成企业升级首选

根据Omdia调查，VMware过去20年主导软件虚拟化市场，但2023年被博通收购后引发连锁反应。博通调整定价策略、产品组合及合作伙伴网络，导致客户成本上升、服务目录不全等问题。73%的VMware客户正考虑三年内寻找替代方案，转向全栈能力、生态构建与智能运维的综合考量。腾讯专有云TCE作为企业级全栈私有云平台，成为替代首选，支持无缝迁移、显著降低TCO至少20%，并具备高扩展性和面向AI与云原生的升级能力。

VMware替代虚拟化市场博通收购

今日大家都在搜的词：

热文

3 天
7天

快手开源KwaiAgents系统性能超越GPT-3.5

一加Ace 6T官宣将于本月发布：首发骁龙8 Gen5

软件定义汽车的质量革命：AI Agent如何终结座舱OTA的“路测噩梦”

从“实时分账”到“智能问数”：汇付天下以“Data Agent”重塑支付业务决策效率

Billus AI高交会全球首发多模态大模型以AI Agent重构创意产业文明进化路径

易鑫正式发布汽车金融行业首个Agentic大模型

国内首个！火山引擎推出融合国家级智库理论与大规模实战验证的 Data Agent 评测体系

没有Pro Max！一加Ace 6T命名敲定：首发骁龙8 Gen5

代号战斗天使！vivo S50系列定档12月发布：骁龙8 Gen5满血铁三角

鲁大师10月新机性能/流畅/AI榜：骁龙8 Elite Gen5与天玑9500新机大混战

VMware替代与升级选型必看！腾讯专有云TCE成企业升级首选

今日大家都在搜的词：

热文

华为Mate 80系列已在华为商城开启预约

华为Mate 80 Pro Max外观公布：采用双圆环设计

华为Mate 80/Pro/Pro Max/RS开启预约：全系直屏设计

AI日报：阿里千问APP公测；Veo 3.1上线多图参考；超级小爱AI大

阿里巴巴回应千问崩了：状态良好欢迎来问

一加Ace 6T官宣将于本月发布：首发骁龙8 Gen5

荣耀500系列官宣将于11月24日发布

小米超级小爱AI大模型推出随心修图功能

参与开发iPhoneAir设计师离职转投AI初创公司

小米端到端辅助驾驶“Xiaomi HAD增强版”将于11月12日发布

影视飓风CEO在相亲角被大妈吐槽网友：大妈不识货

腾讯发布2025第三季度财报：营收1928.69亿元同比增长 15%

小米澎湃OS 3第三批正式版推送：支持小米14、K70系列等

华为Mate 80系列已在华为商城开启预约

华为Mate 80 Pro Max外观公布：采用双圆环设计

AI日报：百度发布文心5.0；可灵2.5Turbo模型上线“首尾帧”功能

AI日报：李飞飞Marble 3D世界模型公测；OpenAI首次推出ChatGPT

荣耀500系列开启预约：Pro版外观首次亮相

1899元苹果手机包卖完了！iPhone Pocket在吐槽声中销售火爆

iPhone Pocket正式开售：联名三宅一生售价1299元起

站长商机

快手开源KwaiAgents系统 性能超越GPT-3.5

今日大家都在搜的词：

热文

站长商机

快手开源KwaiAgents系统性能超越GPT-3.5