首页 > AI头条  > 正文

​阿里推出多模态深度研究智能体WebWatcher

2025-08-18 09:26 · 来源: AIbase基地

阿里巴巴自然语言处理团队宣布推出WebWatcher,这是一个开源的多模态深度研究智能体,旨在突破现有闭源系统和开源Agent在多模态深度研究领域的局限性。WebWatcher通过整合网页浏览、图像搜索、代码解释器和内部OCR等多种工具,能够像人类研究员一样处理复杂的多模态任务,展现出强大的视觉理解、逻辑推理、知识调用、工具调度和自我验证能力。

WebWatcher的开发团队指出,尽管现有的闭源系统如OpenAI的DeepResearch在文本深度研究方面表现出色,但它们大多局限于纯文本环境,难以处理现实世界中复杂的图像、图表和混合内容。而现有的开源Agent也面临两大瓶颈:一类是专注于文本检索的Agent,虽然能够整合信息,但无法处理图像;另一类是视觉Agent,虽然能够识别图像,但缺乏跨模态推理和多工具协同能力。WebWatcher正是为了解决这些瓶颈而设计的。

WebWatcher的技术方案覆盖了从数据构建到训练优化的完整链路,其核心目标是让多模态Agent在高难度多模态深度研究任务中具备灵活推理和多工具协作能力。为此,研究团队设计了一个全自动多模态数据生成流程,通过随机游走收集跨模态知识链,并引入信息模糊化技术,提升任务的不确定性和复杂性。所有复杂问题样本通过QA-to-VQA转换模块扩展为多模态版本,进一步增强了模型的跨模态理解能力。

微信截图_20250818092634.png

在高质量推理轨迹构建与后训练方面,WebWatcher采用了Action-Observation驱动的轨迹生成方法,通过收集真实的多工具交互轨迹并进行监督微调(SFT),让模型在训练初期快速掌握多模态ReAct式推理和工具调用的基本模式。随后,模型进入强化学习阶段,通过GRPO进一步提升多模态Agent在复杂环境下的决策能力。

为了全面验证WebWatcher的能力,研究团队提出了BrowseComp-VL,这是BrowseComp在视觉-语言任务上的扩展版本,旨在逼近人类专家的跨模态研究任务难度。在多轮严格评测中,WebWatcher在复杂推理、信息检索、知识整合以及聚合类信息寻优等任务上全面领先于当前主流的开源与闭源多模态大模型。

具体来说,在人类终极考试(Humanity’s Last Exam,HLE-VL)这一多步复杂推理基准上,WebWatcher以13.6%的Pass@1分数一举夺魁,大幅领先于GPT-4o(9.8%)、Gemini2.5-flash(9.2%)和Qwen2.5-VL-72B(8.6%)等代表性模型。在更贴近真实多模态搜索的MMSearch评测中,WebWatcher的Pass@1得分高达55.3%,相比Gemini2.5-flash(43.9%)和GPT-4o(24.1%)大幅领先。在LiveVQA评测中,WebWatcher的Pass@1成绩达到58.7%,领先于其他主流模型。在最具综合挑战的BrowseComp-VL基准上,WebWatcher以27.0%的平均得分(Pass@1)遥遥领先,成绩提升超过一倍。

仓库地址:https://github.com/Alibaba-NLP/WebAgent

  • 相关推荐
  • 既能读懂情绪,还能多模态交互!INDEMIND用空间智能重新定义陪伴机器人

    TCL与INDEMIND合作推出的陪伴机器人“Ai Me”通过空间智能技术实现突破,从传统2D感知升级为3D语义感知,赋予机器人动态语义建图、实时环境适应及多模态交互能力。该平台借助立体视觉与多传感器融合,让机器人精准构建三维地图,识别家居属性,实现主动避障与个性化服务。同时,结合低算力混合模型与情感交互功能,机器人可感知用户情绪、提供安全防护,并支持宠物看护等场景拓展,从“工具”升级为有温度的“家庭伙伴”,真正满足复杂家庭需求。

  • OPPO Watch S官宣:轻薄表皇

    OPPO宣布将于10月16日推出OPPO Watch S智能手表,主打“轻薄表皇”设计,厚度不足9mm,号称目前市面上最薄的智能圆表。搭载全新智能手表系统,操作体验媲美手机,健康配置亦有惊喜。同时具备“健身教练”功能,可自动识别运动并提供超100种运动模式,专业记录数据。此外,发布会还将推出OPPO Find X9和X9 Pro旗舰手机,首批搭载联发科天玑9500平台,出厂预装全新ColorOS 16系统。

  • HUAWEI WATCH GT 6系列全新发布: 驭风而行 实力进阶

    9月24日,华为发布HUAWEI WATCH GT 6智能手表,主打“驭风而行”理念,兼顾运动健康与时尚设计。新品搭载全新高硅叠片异形电池,续航大幅提升,Pro版最长可达21天。升级版向日葵定位系统提升定位精度20%,新增骑行模拟功率功能,适配越野跑、滑雪等户外场景。健康管理全面升级,支持12种情绪识别及房颤负荷统计功能。设计上,Pro版采用立式计时表圈,46mm款灵感源自骑行,41mm款更小巧轻盈。售价1488元起,9月29日正式开售。

  • AI日报:阿里推多模态模型Qwen3-Omni;谷歌推出AP2协议;百度推出Qianfan-VL 模型

    本期AI日报聚焦多领域技术突破:阿里云推出全球首个全模态AI模型Qwen3-Omni,支持文本、图像、音频和视频统一处理;百度发布多尺寸视觉理解模型Qianfan-VL,优化企业级应用。苹果扩展Image Playground平台,引入ChatGPT等第三方模型。谷歌与PayPal合作推出AP2协议,推动AI支付安全创新。钉钉上线AI表格助手,支持自然语言生成表格。DeepSeek开源V3.1-Terminus模型,性能显著提升。Kimi推出Agent会员服务,智元机器人开源全球首个通用具身智能模型GO-1,降低技术门槛促进行业创新。

  • 引态科技发布群体进化机制,让智能体生态实现共同进化

    引力科技于2025年9月25日发布“多Agent群体进化机制”,突破传统智能体并行协作模式,依托自研AIOS系统实现智能体间分工与互学互进。该机制通过能力模块化、精准评估与动态迁移,打破“经验孤岛”,实现个体成长带动群体迭代,开启智能体“共同进化”时代。其三层技术架构确保能力从拆解到共享形成闭环,显著提升学习效率与精准性,推动AI生态实现指数级成长,为开发者、企业及行业带来低成本、高效率的落地价值,重新定义能力传承方式。

  • 华为WATCH GT 6/Pro系列手表发布 售价1488元起

    华为于9月24日正式发布WATCH GT6系列智能手表,起售价1488元。该系列提供41mm和46mm两种尺寸,搭载OLED屏幕,续航最长可达21天,支持5ATM防水和IP69防尘。GT6 Pro新增跌倒检测、ECG心电图分析及专业运动模式,并配备蓝宝石玻璃表镜。全系采用高硅叠片电池技术,能量密度提升37%,支持无线快充。此外,首次应用骑行模拟功率功能,并搭载TruSense技术,精准监测心率、血氧等健康指标。GT6 Pro起售价2488元,进一步满足专业用户需求。

  • 腾讯云安全发布人工智能风险评估框架,助企业构建可信智能体

    9月17日,腾讯云在2025全球数字生态大会上发布人工智能风险控制框架及多款安全产品。该框架涵盖六大风险模块、七层级、130余项措施,系统性应对AI应用全生命周期的安全挑战,包括数据泄露、供应链隐患及权限滥用等核心问题。同时推出LLM-WAF防火墙、AI-SPM态势管理等产品,构建覆盖研发、部署、运维的全链路防护体系,助力企业建立可信、稳定的AI服务生态。

  • ChatGPT正秘密测试私信功能:支持用户之间直接交流

    OpenAI正在为其明星产品ChatGPT测试名为私信”(Direct Messages)的社交功能。 这一变化意味着ChatGPT正从原本用户与AI单向交互的语言模型工具,逐步转向具备人与人通过AI连接”能力的社交平台。 OpenAI此次测试的私信”功能允许用户创

  • BYDFi 亮相 KBW2025:深化 Web3 交流与参与

    全球加密交易平台于2025年9月23日至24日参与韩国首尔举办的Korea Blockchain Week 2025(KBW2025),在Walkerhill酒店主会场设置展位并开展现场互动。这是BY DFi成为纽卡斯尔联队官方合作伙伴后首次亮相大型行业活动,团队还出席多场边会及社交活动。在展会分享其“双引擎战略”——同步布局中心化与链上交易,重点介绍链上工具MoonX,强调通过安全设计、产品完善及合规进�

  • 声启未来新章 BANG & OLUFSEN 铂傲 推出全新Beo grace耳机

    Bang & Olufsen推出全新无线耳机Beo Grace,融合纤薄铝制机身与卓越音质,体现品牌对声学创新与永恒设计的追求。耳机灵感源自高级珠宝,采用标志性抛光铝材打造,支持杜比全景声与自适应主动降噪技术,降噪效果较前代提升四倍。配备12毫米钛金属驱动单元,续航达4.5小时(搭配充电盒可达17小时),具备IP57防水防尘。通过NearTap™手势操控与定制电池管理系统,兼顾便捷使用与长效耐用,开启可佩戴声学新纪元。

今日大家都在搜的词: