首页 > 业界 > 关键词  > KwaiAgents最新资讯  > 正文

快手开源KwaiAgents系统 性能超越GPT-3.5

2023-12-28 09:20 · 稿源:站长之家

要点:

1. 快手与哈尔滨工业大学联合研发的「KwaiAgents」系统实现了7B/13B模型的开源,超越了GPT-3.5的效果。

2. 「KwaiAgents」包含轻量级AI Agents系统(KAgentSys-Lite)、具有通用能力的大模型(KAgentLMs)、以及开箱即用的自动化评测Benchmark(KAgentBench)。

3. 通过Meta-Agent Tuning(MAT)方法,模型在训练中引入更多Agent Prompt模板,提升大模型在任务规划、工具使用、反思等能力,从而达到超越效果。

站长之家(ChinaZ.com)12月28日 消息:近日,快手联合哈尔滨工业大学成功开源了「KwaiAgents」系统,实现了7B/13B模型的超越效果。这一成果的背后,是通过Meta-Agent Tuning(MAT)方法提升大模型的通用能力。整个项目包含了系统、模型、以及评测三个方面的内容,并通过GitHub完全开源,为研究者和开发者提供了极大的便利。

image.png

项目地址:https://github.com/KwaiKEG/KwaiAgents

该系统以大模型为认知内核,配以记忆机制和工具库,形成迭代式自动化系统。记忆机制包含知识库、对话和任务历史三类记忆,通过混合向量检索和关键词检索技术,在每一轮对话中检索所需信息。工具集包含事实性增强工具,异构的搜索和浏览机制能够汇集多个来源的知识,包括网页、文本百科和视频百科。自动化Loop中,系统在一轮对话中接收问题,进行记忆的更新和检索,调用大模型进行任务规划,根据需要调用工具,最后综合历史信息给出回答。

为避免训练中单一模板引起的过拟合问题,团队提出了MAT方法。该方法分为两阶段:模板生成阶段和指令微调阶段。在模板生成阶段,通过设计Meta-Agent,生成实例化的Agent Prompt模板,候选结果与开源模板进行对比打分,从而筛选出高质量的Agent Prompt模板库。在指令微调阶段,基于上万的模板构建了超过20万的Agent调优指令微调数据。通过这一方法,模型在任务规划、工具使用、反思等方面的能力得到提升,同时避免了过度依赖单一模板的问题。

KAgentBench通过人工精细化标注的数据,提供开箱即用的Agent能力自动化评测Benchmark。该Benchmark涵盖不同种类的能力构造输入,每个query配备多个模板和多个人工编辑的真实回答,综合评测准确性和泛化性。评测结果显示,通过MAT调优后,7B-13B模型在各项能力上均有显著提升,超越了GPT-3.5的效果。

团队表示,AI Agents是一条具有潜力的道路,未来将持之以恒地沉淀核心技术,并积极探索Agents技术与快手业务的结合,尝试更多有趣、有价值的创新应用落地。这一开源项目为整个社区注入了新的活力,为研究者提供了丰富的资源和参考。

举报

  • 相关推荐
  • 挤爆字节服务器的Agent到底啥水平?一实测来了

    字节推出"量子位"智能协作系统"扣子空间",具备信息整理、任务执行、工具调用等多项能力。测试显示其自主任务规划和资料搜集表现惊艳,已具备解决实际任务的潜力。系统分为探索和规划两种模式,前者重效率,后者可详细拆解任务。实测中能自动整理信息生成报告,并直接制作包含丰富内容的网页或PPT。在虚拟沙盒环境中还能操作电脑、浏览网页、订票�

  • OPPO K13 Turbo塞进大风扇:性能最强的骁龙8s Gen4手机

    快科技4月29日消息,博主数码闲聊站爆料,OPPO K13 Turbo即将发布,该机采用主动散热方案,内置了大风扇,同时搭载高通骁龙8s Gen4芯片。这将是同档位唯一一款采用主动散热方案的性能手机,也是史上最强的骁龙8s Gen4机型。回顾手机行业,厂商普遍通过VC均热板来散热,只有红魔一家品牌在深耕主动散热技术。不过从今年开始,头部厂商开始入局主动散热赛道,此前数码闲聊�

  • 醒醒,只靠MCP和A2A还带不来AI Agent的大繁荣

    文章探讨了AI Agents发展需要类似HTTPS的安全协议保障。回顾互联网发展历程,TCP/IP协议统一了网络通信标准,HTTP协议实现了全球互联,而HTTPS通过SSL加密解决了安全问题。类比互联网发展,当前AI Agents产业面临类似挑战:Anthropic推出的MCP协议解决智能体与工具连接问题,Google的A2A协议实现智能体间协作,但缺乏安全标准。IIFAA联盟正致力于构建AI Agents安全生态,推出ASL中间件保障数据隐私和身份认证。文章指出,正如HTTPS推动电商繁荣,AI Agents的安全标准化将加速商业化进程,蚂蚁集团等企业已开始实践MCP应用。未来AI Agents可能通过统一入口调用工具池,改变现有交互模式。

  • 一加Ace 5系列新机5月见!首发天玑9400E:性能超越骁龙8 Gen3

    快科技4月28日消息,一加将在5月发布两款大屏游戏旗舰手机,预计为一加Ace5系列新机,包括一加Ace5至尊版和竞速版。竞速版将全球首发联发科天玑9400E芯片,基于台积电4nm工艺,性能超骁龙8Gen3,采用全大核架构,跑分成绩优异。至尊版则搭载联发科天玑9400旗舰芯片,采用台积电3nm工艺,是联发科最强手机芯片。天玑9400E定位次旗舰,预计起售价2000元左右,性能对标骁龙8s Gen4。新机还将配备游戏内核心优化技术,提升游戏体验。

  • AI日报:GPT-4.1正式上线ChatGPT;阿里通义万相Wan2.1-VACE开源;可灵大模型视频生成量约占30%份额

    本文报道了AI领域最新动态:1)阿里通义万相开源视频编辑统一模型VACE;2)OpenAI发布GPT-4.1增强编码能力;3)Stability AI推出超轻量341M文字转语音模型;4)快手可灵视频生成模型占据30%市场份额;5)微软WizardLM团队整体加入腾讯混元大模型研发体系;6)腾讯宣布混元图像2.0将于5月16日发布;7)上海成立人工智能标识生态联盟;8)Lightricks发布13B参数视频生成模型LTX-Video;9)谷歌DeepMind推出AlphaEvolve优化AI训练速度;10)腾讯元宝浏览器插件上线Chrome平台。这些进展展示了AI技术在视频处理、大模型、语音合成等领域的快速发展。

  • 数势科技SwiftAgent 3.0发布 从智能分析到智能决策

    在全球数字化转型浪潮中,企业数据价值挖掘的瓶颈日益凸显:数据口径混乱、分析门槛高、决策链路长等问题导致大量数据资产“沉睡”。数势科技于今日正式发布SwiftAgent 3.0,基于DeepSeek R1/V3 大模型与行业领先的智能引擎,重构企业数据分析与决策范式,实现从“数据可视化”到“决策自动化”的跨越式升级。企业数据分析的三大核心痛点:数据孤岛与语义鸿沟跨部门数据

  • 接替Manus,字节的Agent王牌能打多久?

    字节跳动旗下智能体平台"扣子空间"推出首款由大厂发布的Agent爆款产品,自4月18日上线后引发用户疯抢邀请码。该产品具备规划、工具调用和记忆等关键能力,支持游戏攻略撰写、市场调研等复杂需求,并首创"探索模式"和"规划模式"双交互设计。虽然底层模型能力较DeepResearch和Manus仍有差距,但凭借产品设计优化和量大价优的优势,成功填补了Manus留下的市场空白。字节同步推出企业版HiAgent解决私有化部署问题,半年内智能体业务订单量增长超330%。当前行业正迎来Agent爆发期,但企业落地仍面临系统接入、数据安全等挑战。

  • 「扣子空间」内测上线,和 Agent 一起开始你的工作

    “摘星空间”平台正式推出,集生产、专业领域支持及双模系统协作能力,通过多类型AI智能体实现高效办公,具备生产提升、专家深度支持、双模协同等四大核心功能,未来将持续扩展Agent能力边界。

  • 微软上线GPT-image-1模型 通过API向开发者开放使用

    OpenAI于4月24日发布全新图像生成模型GPT-image-1,通过API向全球开发者开放。该模型支持生成高质量图像,具备多级定制功能,包括控制敏感度、生成效率、背景、输出格式等参数,并推出"吉卜力模式"生成独特风格图像。Adobe、Figma等多家企业已将其集成到产品中。API定价按token计算,低质量图像生成成本约0.02美元/张。OpenAI CEO Sam Altman高度评价该模型,认为其为开发者带来更大创意空间。

  • 字节快手迎来关键对决

    快手发布可灵AI2.0视频生成模型和可图2.0图像生成模型,实现从"能生成"到"精准生成"的跨越。字节跳动同期推出Seedream3.0文生图模型,综合性能接近GPT-4o。两大短视频平台在AI视频赛道展开激烈竞争:快手可灵AI全球用户突破2200万,3月收入超1亿元;字节即梦AI月活增速达173.57%,位居全球第五。当前AI视频生成领域仍处技术突破期,尚未出现标杆产品。专家指出,该赛道面临算力消耗大、商业模式不清晰等挑战,但未来可能颠覆社交、游戏、VR/AR等多个领域。快手侧重商业化应用,已与小米、亚马逊云等建立合作;字节则将即梦AI视为AGI战略核心,组建AGI长期研究团队探索多模态创新。这场竞争本质是双方在AI时代复制短视频成功模式的尝试。