首页 > AI头条  > 正文

爆火!学术团队仅凭SFT打破大厂垄断,OpenSeeker-v2 登顶搜索智能体榜单

2026-05-06 15:09 · 来源: AIbase基地

在当前的大模型(LLM)领域,深度搜索能力已成为顶尖智能体的“必杀技”。然而,这一赛道的游戏规则长期以来被资源雄厚的工业巨头所主导。传统的开发模式通常依赖于极其消耗资源的流水线,包括预训练、持续预训练(CPT)、监督微调(SFT)以及强化学习(RL)。

近日,来自学术界的研发团队发布了最新成果 OpenSeeker-v2,彻底打破了这一常规认知。研究报告指出,通过使用高质量、高难度的任务轨迹进行训练,即便仅采用简单的监督微调(SFT)方法,也能打造出性能顶尖的搜索智能体。

image.png

该团队在数据合成方面提出了三项核心优化策略:首先是扩大知识图谱规模,以提供更丰富的探索空间;其次是显著增加工具集数量,扩展功能边界;最后是实施严格的低步数过滤,确保训练数据的精炼与高效。

实验数据显示,仅基于1.06万条数据点训练的 OpenSeeker-v2(30B规模,ReAct架构),在四项核心基准测试中展现了极强的统治力:其在BrowseComp上的准确率达到46.0%,在BrowseComp-ZH上为58.1%,在“人类最后考试”(Humanity's Last Exam)中表现为34.6%,而在xbench上更是高达78.0%。这一系列成绩不仅刷新了纪录,更全面超越了采用重度CPT+SFT+RL复杂管线训练的工业界模型——通义DeepResearch。

image.png

值得关注的是,这是首个在同等模型规模与架构下,由纯学术团队仅通过SFT技术实现的 state-of-the-art(SOTA)搜索智能体。目前,该团队已正式开源 OpenSeeker-v2 的模型权重。这一发现极大地降低了前沿搜索智能体的研发门槛,为学术界和开源社区提供了更具参考价值的轻量化开发路径。

论文地址:https://arxiv.org/pdf/2605.04036

  • 相关推荐
  • DeepSeek回应聊天记录搜索:正在灰度测试 并非全量推送

    近日,不少网友在社交平台上发帖称,DeepSeek能查聊天记录了。 今日实测发现,DeepSeek网页版和APP页面均可通过关键词搜索,查询用户和DeepSeek之间的历史聊天内容。 将DeepSeek APP检查更新至2.1.0(213)版本后,其侧边栏顶部会新出现搜索聊天内容”搜索框。 框内输入关键词后页面会显示多条包含这个词的历史聊天记录,点击某条聊天记录即可定位至具体聊天位置。

  • 时隔一个月又崩了!DeepSeek网页及API服务出现异常 官方称正在修复

    今日,多名用户在社交平台反馈DeepSeek服务异常,平台对话页面提示服务器繁忙,请稍后重试”。官方服务状态网站显示DeepSeek网页及API服务不可用。今日下午,官方状态页面更新信息,确认问题已定位,正在实施修复。

  • 海拔 4276 米!海尔Seeker洗擦一体机硬核清洁守护科研净土

    海尔智家与中国科学探险协会联合共建的“智慧科考站生活舱”于4月25日在中科探珠穆朗玛基地启动,海尔Seeker洗擦一体机同步交付。该设备针对海拔4276米的高原环境,采用AI双引擎洗擦科技,前后双滚刷独立清洁系统,智能识别干湿污渍,实现一遍推拉即完成深度清洁与速干,避免低温结冰风险。零重力悬浮助力技术降低体力消耗,一键自清洁减少维护负担,为科考队员提供洁净、安全的科研环境,展现智慧清洁守护科研净土的能力。

  • DeepSeek首次有了视觉能力,技术论文却被它连夜删掉了

    DeepSeek做了件罕见的事情:在终于开始灰测多模态能力后,它放出了一篇解释背后技术的论文,但这篇论文却在发布没多久就又被悄悄撤掉。 4月29日,DeepSeek研究员陈小康在X发布一条推文——现在,我们可以看见你了。配图中,DeepSeek 标志性的鲸鱼 logo 摘下眼罩,露出了眼睛。 过去,DeepSeek 最被外界熟知的是它在文本、代码和推理任务上的能力。但真实世界里的问题,并不总�

  • 填补空白!DeepSeek灰度上线识图模式

    DeepSeek正灰度测试识图模式,用户可在网页端和App端上传图片进行内容理解、描述与分析,填补了多模态能力的空白。该模式与快速、专家模式并列,作为独立一级入口存在,表明视觉理解被定位为核心能力。部分用户已可使用,但另一些用户虽看到入口却收到暂不可用的提示。实测显示,当前开放的主要是图片理解能力,涵盖视觉问答、截图分析等场景,尚未支持图像生成、视频理解或跨模态生成,更接近视觉语言模型范畴。

  • openJiuwen开源社区首发「Coordination Enginnering」 让智能体从「单兵作战」到「精锐团队」

    华为支持的openJiuwen开源社区旗下JiuwenClaw发布重大更新,率先提出“协同工程”新范式,支持多智能体自主分工、高效沟通与无缝协作,并推出Team Skills系列能力和共享平台,标志着AI Agent从“单兵作战”进入“精锐团队”新阶段。该更新实现了多智能体自主协同,稳定性高,无需人工干预。同时,社区发布业界首个面向多Agent协作的标准化能力包规范,支持Skills自主演进,形成“协同—沉淀—共享—进化”的完整闭环,已在金融、办公、科研等领域落地实践,推动AI从“超级个体”走向“精锐团队”。

  • 海拔4276米!海尔Seeker电视定义极端环境智慧标杆

    4月25日,海尔智家与中国科学探险协会联合共建的“智慧科考站生活舱”在西藏日喀则定日县珠穆朗玛基地启动,全球首套L4级智能家电——海尔Seeker套系同步入驻。Seeker电视作为娱乐观影视与智控中枢,面临高原极寒、强紫外线、低压缺氧等极端环境三重挑战。通过AI柔光护眼画质、L4级智能大脑与全屋智控生态、极薄机身设计等核心能力,该电视精准应对强光、散热、空间适配问题,实现稳定运行并提升科研人员智慧生活品质,推动基地从“基础居住”升级为“智慧宜居”。

  • 考拉悠然智能体工厂:以多智能体协同重构政企 AI 全场景运营

    考拉悠然通过全栈自研技术打造智能体工厂,解决企业部署多Agent后面临的管理分散、信息孤岛、迭代闭环缺失等痛点。其平台以集中化管理、数据驱动运营和标准化发布三大优势,实现智能体全生命周期管理,并融合空间智能技术,精准解析人、物、空间、时间关系,降低告警误报率。该方案已覆盖城市治理、智慧政务、工业智检等场景,推动Agent从工具向可管、可控、可复用的体系化数字生产力转型,助力企业降本增效。

  • 再出新证!智能体开发工程师证书正式发布

    2026年AI智能体全面进入产业应用,成为企业数字化转型核心引擎。国家战略推动下,人才争夺战已打响,工工信部教考中心与百度联合推出《智能体开发工程师》培训,被视为行业标准“黄金通行证”。智能体已进化为具备自主规划、闭环执行能力的“数字员工”,市场预计突破1300亿元,人才缺口超500万,供需比达1:10。该证书构建技术、开发、落地三维能力模型,助力个人与企业抢占未来十年核心赛道。

  • 从存储到智能体:MINISFORUM铭凡联手英特尔揭幕端侧智能体NAS,全闪S5、全闪S7引领本地智算浪潮

    5月8日,MINISFORUM铭凡联合英特尔在厦门发布基于第三代酷睿Ultra处理器的智能体NAS产品:全闪S5与七盘位全闪S7。S5采用无风扇静音设计、5个M.2插槽及AI语义搜索功能;S7支持7块NVMe SSD、双10G SFP+等高速接口。两款产品融合高性能计算、全闪存储与本地智能体能力,推动边缘存储从“数据仓库”向“智能决策节点”跃迁。

今日大家都在搜的词: