首页 > AI头条  > 正文

阿里开源WebAgent项目WebShaper,GAIA评测超过Claude4-Sonnet

2025-07-31 10:44 · 来源: AIbase基地

阿里云通义实验室近日宣布正式开源其自主搜索AI智能体项目 WebAgent,其中旗舰组件 WebShaperWebSailor 在网络智能体领域引发广泛关注。作为一款突破性的AI工具,WebAgent以其端到端的自主信息检索与多步推理能力,展现出接近甚至超越人类专家的网络交互水平。

image.png

WebAgent:模拟人类搜索行为的智能体

WebAgent是阿里巴巴通义实验室开发的一款开源AI智能体,旨在模拟人类在网络环境中的感知、决策和行动循环。其核心目标是通过自主搜索和多步推理,高效处理复杂、模糊的网络任务。WebAgent包含多个关键组件,其中 WebSailorWebShaper 是技术创新的亮点。根据官方介绍,WebAgent能够主动搜索学术数据库、新闻网站和专业论坛,筛选关键信息并生成结构化报告,广泛适用于学术研究、商业分析和日常查询等场景。

权威评测集 BrowseComp 上,WebSailor-72B模型表现尤为突出,超越了DeepSeek R1和Grok-3等闭源模型,仅次于OpenAI的DeepResearch,登顶开源网络智能体榜单。WebAgent还在 GAIAWebWalkerQA 基准测试中分别取得60.19分和52.2分的优异成绩,展现了其在复杂任务中的卓越性能。

WebShaper:形式化驱动的数据合成新范式

WebShaper 是WebAgent生态中的核心创新,提出了一种基于“形式化驱动”的数据合成方法,解决了AI在高不确定性任务中的推理难题。WebShaper通过集合论构建了信息搜索任务的数学化表示框架,利用“知识投影”概念,将复杂搜索过程抽象为实体集合的操作。例如,查询“出生于90年代的球员在2004-05赛季为东德足球队效力”时,WebShaper能系统化地生成训练数据,确保AI在多步推理中保持准确性。

WebShaper数据集覆盖体育、学术、政治、娱乐等多个领域,其中体育类问题占21%,学术类占17%,确保了知识的广泛适应性。其逐层扩展策略避免了推理捷径和信息冗余,使AI必须通过完整推理路径得出答案。在实验中,WebShaper训练的模型在相同数据量下,性能显著优于WebWalkerQA和E2HQA等传统数据集。

WebSailor:复杂任务中的“超级网络侦探”

作为WebAgent的“大脑”,WebSailor 是一个大规模语言模型,负责理解用户意图、制定浏览策略并决定操作步骤。其最新版本 WebSailor-72B 通过阿里云FunctionAI实现一键部署,用户仅需10分钟即可完成配置,极大降低了使用门槛。WebSailor在高不确定性任务中表现出色,例如处理模糊查询或需要跨平台信息整合的复杂场景。

WebSailor的训练采用了创新的 SailorFog-QA 数据集,通过子图采样和信息模糊化技术模拟真实网络环境中的复杂知识图谱。这种方法赋予了模型处理“超人类”任务的能力,例如在BrowseComp测试中,WebSailor-32B和72B版本不仅领先所有开源模型,还超越了部分闭源系统。

WebDancer与WebWalker:构建完整生态

WebAgent的成功离不开其两大模块:WebDancerWebWalker。WebDancer是一个端到端智能体训练框架,通过四阶段训练(数据构建、轨迹采样、监督微调、强化学习)提升AI的多步搜索能力。其最新版本 WebDancer-QwQ-32B 在GAIA Pass@3评测中取得64.1%的优异成绩。WebWalker则是一个基准测试工具,用于评估语言模型在复杂网页遍历中的表现,为开发者优化算法提供了标准化的评估体系。

WebAgent的混合推理模式通过“思维预算机制”动态分配计算资源,实现快速响应简单查询与深度推理复杂任务的平衡。在实际应用中,WebAgent能在10分钟内完成特斯拉与小鹏汽车配置表的爬取与分析,或从PubMed等数据库提取临床试验数据并生成溯源报告,效率远超人工。

开源意义:重塑信息处理与社区创新

WebAgent的开源不仅降低了企业和开发者的使用成本,还为全球AI社区提供了工业级训练框架和评估标准。其GitHub仓库(https://github.com/Alibaba-NLP/WebAgent)已获超4000次星标,位列GitHub trending第一,Huggingface月度第三。WebSailor的训练策略——高难度任务合成、小规模冷启动、高效强化学习优化——为开源社区攻克复杂推理任务提供了宝贵思路。

从学术研究到商业决策,WebAgent的应用潜力巨大。例如,研究人员可利用其快速检索ACL2025论文主题,商业用户可分析2025年AI芯片市场趋势,普通用户则能获取旅游规划或健康咨询等个性化建议。WebAgent的开源标志着AI智能体从技术演示迈向生产力场景,未来有望推动跨模态信息整合和开放领域推理的进一步突破。

GitHub:https://github.com/Alibaba-NLP/WebAgent

huggingface:https://huggingface.co/datasets/Alibaba-NLP/WebShaper

model scope:https://modelscope.cn/datasets/iic/WebShaper

  • 相关推荐
  • AI日报:GPT-5-Auto现身Mac客户端;阿里开源WebAgent项目WebShaper;腾讯推X-Omni多模态模型

    【AI日报】今日AI领域重要动态:1)阿里开源WebAgent项目WebShaper,GAIA评测超越Claude4-Sonnet;2)Moonvalley推出草图转视频功能,支持手绘生成电影级视频;3)腾讯X-Omni模型实现图文理解重大突破;4)百度搜索测试AI应用中心入口;5)Midjourney+新增个性化推荐功能;6)GPT-5或于2025年夏季发布;7)Ollama推出桌面客户端;8)OWL团队开源多智能体协作工具Eigent;9)OpenAI年收入激增至120亿美元;10)英伟达H20芯片因安全风险被约谈;11)万兴科技天幕2.0模型国内排名第四,与华为云共建AI视频实验室。

  • GPT-4.5和Claude4哪家强?一文看懂优劣差异,附最实用AI大模型对比工具!

    文章对比分析了GPT-4.5和Claude4两大AI模型的性能差异:GPT-4.5在响应速度、编程能力和生态开放度上占优,适合实时对话和内容创作;Claude4则在长文本处理(200k+上下文)、安全性和企业适配性方面表现突出。推荐使用AIbase的模型对比工具(https://model.aibase.com/zh/compar)进行多维度智能筛选,根据具体场景(如客服、写作、编程等)选择最适合的模型。核心结论:没有绝对优劣,�

  • 七牛云上线Agent和MCP托管服务

    七牛云AI大模型推理平台推出Agent与MCP托管服务,通过标准化接口实现LLM与多工具协同。MCP协议统一了应用程序与云端服务调用方式,LLM+MCP成为AI Agent生态核心。平台提供一站式模型推理和工具调用服务,支持复杂Agent应用开发,具备三大优势:1)统一接入管理多种工具和模型;2)集中托管敏感密钥确保安全;3)简化本地环境配置。开发者可通过Token API直接调用托管MCP工具,或使用SSE协议接入外部工具。典型应用场景包括:聚合多工具调用、灵活编排服务、安全密钥管理等。该服务显著降低AI应用开发门槛,加速智能化应用构建。

  • A日报:Stability AI发布实时重建模型SPAR3D;火山引擎“奇美拉”数字人平台启动封测;京东重磅开源JoyAgent-JDGenie

    AI日报栏目精选了人工智能领域最新动态:1)Stability AI推出0.7秒单图3D重建模型SPAR3D;2)GitHub热门开源AI协作框架CrewAI获3.4万星;3)马斯克发布儿童AI聊天机器人Baby Grok引发安全争议;4)ComfyUI-C opilot工具简化AI工作流创建;5)CNNIC报告显示我国346款生成式AI完成备案;6)提示词管理工具AI Gist上线;7)开源语言学习工具WordPecker支持多语言学习;8)斯坦福推出多工具协作AI Agent OctoTools;9)Ope

  • A日报:Kimi开放平台上线Kimi Playground;OpenAI重磅发布ChatGPT Agent;Suno推人声替换功能

    【AI日报】汇总了近期AI领域重要进展:1)月之暗面推出Kimi Playground平台,实现从对话助手到智能助理的转变;2)OpenAI发布ChatGPT Agent,支持自主执行浏览、购物等任务;3)Suno发布v4.5+版本,新增人声替换等音乐创作功能;4)谷歌Veo3视频生成模型上线,支持文本转视频;5)全球首个直播流扩散模型MirageLSD发布,实现实时视频转换;6)VSCode编程助手Traycer提升大型代码库处理效率;7)ART框架支持Python一键训练AI Agent;8)NVIDIA语音识别模型Canary-Qwen-2.5B词错率创新低;9)Mistral AI推出Le Chat挑战ChatGPT;10)百度小度上线首个支持物理交互的MCP Server;11)Lightricks的LTXV模型实现60秒高质量视频生成;12)开源模型LTX-Video13B支持30倍速高清视频生成。

  • 从管理工具向“增长伙伴”蜕变 Agent重构CRM价值体系

    销售易在腾讯云城市峰会上发布中国首款AI+CRM产品NeoAgent,标志着CRM系统从流程化工具向智能化伙伴转型。该产品通过智能录入、场景赋能和自然交互三大功能,实现从被动执行到主动辅助的跨越。NeoAgent依托语音识别、对话解析等技术,能自动提取客户需求等关键信息并结构化存储,大幅降低操作成本。同时打破传统CRM菜单层级限制,通过语音或文字指令快速获取数据,响应速度提升80%以上。产品深度整合企业销售方法论与客户数据,为具体场景提供精准建议,并通过"湖仓一体"数据平台确保信息实时更新。其每月迭代机制紧密依赖业务场景,已成功应用于客户画像、渠道管理等场景,形成"试用-反馈-迭代-转化"闭环。

  • 腾讯云TencentOS提交Swap Table补丁系列 Linux内核内存交换性能提升20%~30%

    腾讯云操作系统团队提交了名为Swap Table的补丁系列,针对Linux内核交换子系统进行优化。该系列在4K页面和mTHP folios场景下,使系统性能提升20%-30%。Swap Table通过智能调度机制优化数据定位,支持大页尺寸减少操作次数,并实现动态空间扩展。27项独立改进解决了历史遗留问题,经实测性能显著提升。目前补丁系列正处于审核阶段,有望纳入Linux内核主线。这是腾讯云团队继内存控制组、页面热管理等创新后,在操作系统核心技术领域的又一突破,将强化TencentOS Server的高性能优势。

  • PPIO亮相WAIC 2025,重磅推出国内首个Agentic AI基础设施服务平台

    7月26日至29日,中国领先的分布式云服务商PPIO在2025世界人工智能大会上发布国内首个Agentic+AI基础设施服务平台,加速智能体应用开发。平台推出通用版和企业版:通用版提供高性价比分布式GPU云底座,兼容E2B接口的智能体沙箱环境;企业版支持多模态协同、长时记忆等五大差异化功能,构建决策到执行闭环。PPIO智能体沙箱基于Firecracker微虚拟机技术,具备毫秒级启动、强隔离等特性,成本仅为行业标准的50%以下。在教育领域已有落地案例,帮助学校实现备课效率提升50%以上。CEO姚欣表示,该平台将降低开发者门槛,推动智能体从技术探索迈向规模化应用新阶段。

  • AI日报:智谱AI重磅发布GLM-4.5;阿里开源Wan2.2;阶跃星辰推全新模型Step3

    【AI日报】本期重点内容:1.智谱AI发布开源大模型GLM-4.5,在推理、编码和智能体能力方面达到SOTA水平;2.阿里开源视频生成模型Wan2.2,采用MoE架构提升计算效率;3.阶跃星辰推出AI研究助手"阶跃深研",支持金融医疗等专业领域研究;4.微软Edge浏览器新增Copilot模式,提供智能搜索体验;5.Anthropic对Claude用户实施使用限制引发争议;6.阶跃星辰发布321B参数大模型Step3;7.蚂�

  • AI日报:火山引擎发布豆包3.0;通义开源Qwen3非思考模型;谷歌偷偷升级Imagen 4

    【AI日报】栏目聚焦人工智能领域最新动态:1)火山引擎发布豆包系列AI模型升级,包括图像编辑3.0、同声传译2.0等;2)通义千问开源Qwen3-30B模型,支持多语言处理;3)OpenAI推出ChatGPT Study学习助手;4)中国发布HYPIR图像复原大模型;5)谷歌NotebookLM新增视频概览功能;6)谷歌Imagen4图像生成模型升级,性能媲美GPT-4o;7)昆仑万维开源多模态模型Skywork UniPic;8)理想汽车发布首搭VLA大模型的i8纯电SUV;9)谷歌在英国推出AI搜索模式;10)OWL团队开源多智能体协作工具;11)2025年用户增速最快APP榜单显示DeepSeek等AIGC应用表现突出。

今日大家都在搜的词: