首页 > AI头条  > 正文

阿里WebShaper发布!GAIA碾压Claude 3.5 Sonnet、GPT-4o

2025-07-31 11:37 · 来源: AIbase基地

阿里通义实验室(Tongyi Lab)近日重磅推出WebAgent系列的第四款开源工具——WebShaper,这一突破性框架以其创新的“形式化驱动”信息检索范式引发行业热议。据AIbase从社交媒体及相关渠道获悉,WebShaper不仅在GAIA基准测试中取得60.19的高分,超越了Claude3.5Sonnet和GPT-4o,还通过全新的数据生成方法显著提升了AI在复杂任务中的信息检索与推理能力。

 从信息驱动到形式化驱动:范式革新的突破

传统的信息检索(IS)方法多以“信息驱动”为核心,但常面临信息结构与推理逻辑错位、知识覆盖有限的问题,导致AI在处理开放性复杂任务时表现不足。WebShaper引入了“形式化驱动”的全新范式,通过系统化的任务形式化方法,重新定义了数据生成与模型训练流程。

image.png

这一框架的核心在于:通过逻辑清晰的结构化生成方式,确保训练数据的知识结构与推理结构在语义上高度一致。AIbase了解到,WebShaper利用“代理式扩展器”(Agentic Expander)迭代生成并验证问题,确保数据生成过程可控且条理清晰。这种方法不仅提升了数据的质量,还显著增强了模型在复杂信息检索任务中的表现能力。

 GAIA评测创佳绩:60.19分领跑开源模型

WebShaper的性能表现令人瞩目。在GAIA基准测试中,基于WebShaper数据集训练的开源模型取得了60.19的高分,超越了业界领先的Claude3.5Sonnet和GPT-4o,树立了新的开源模型标杆。GAIA作为一项专注于评估AI通用能力的基准,涵盖多模态处理、网页浏览及复杂推理等任务,其高难度设计对AI的综合能力提出了严苛要求。

此外,WebShaper在WebWalkerQA基准测试中也取得了52.50的优异成绩,展现了其在网页遍历与信息检索任务中的强大能力。AIbase认为,这一成果不仅证明了WebShaper在技术上的领先性,也为开源AI社区注入了新的活力。

image.png

 WebShaper数据集:逻辑驱动的训练新范式

WebShaper的核心创新之一是其数据集生成框架。不同于传统杂乱无章的数据收集方式,WebShaper通过形式化驱动的方法,系统化地生成信息检索任务实例。AIbase获悉,该框架能够根据任务需求生成结构化的训练数据,确保知识与推理逻辑的语义一致性,从而让AI在处理开放性问题时表现更加精准和高效。

例如,WebShaper引入了SailorFog-QA数据集,这是一个高不确定性和高难度的问答基准,通过图采样和信息模糊化技术生成,专为测试模型在复杂场景下的表现而设计。社交媒体反馈显示,开发者对这一数据集的逻辑性和可控性给予高度评价,认为其为AI模型的训练提供了更可靠的基础。

 WebAgent生态的持续进化:开源与社区驱动

WebShaper是阿里通义实验室WebAgent系列的最新成果,该系列还包括WebWalker、WebDancer和WebSailor。这些工具共同致力于打造自主化信息检索与处理能力,覆盖学术研究、市场分析到日常查询等多种场景。AIbase注意到,WebAgent项目已在GitHub上获得超过4000次星标,显示出开源社区的广泛关注与支持。[](https://www.kdjingpai.com/en/webagent/)

WebShaper的开源特性进一步推动了社区的创新。开发者可以自由访问代码与部分数据集,通过调整超参数或结合如DUPO算法的强化学习优化模型性能。此外,WebAgent还提供了WebWalkerQA、GAIA等任务的交互式演示,方便用户直观体验模型的强大功能。AIbase预计,随着社区的持续贡献,WebShaper及其相关工具将在更多场景中展现潜力。

 未来展望:推动AI迈向通用智能

WebShaper的发布标志着信息检索领域的一次重要进步,其形式化驱动的范式为AI处理复杂任务提供了新的可能性。AIbase了解到,阿里通义实验室计划进一步扩展WebAgent系列的功能,例如优化多模态处理能力、支持更广泛的语言和场景,甚至探索远程访问高性能模型的部署方式。

社交媒体上,开发者对WebShaper的评价普遍积极,认为其“逻辑清晰、性能卓越”,尤其是在处理需要多步推理和跨模态理解的任务时表现突出。AIbase认为,WebShaper不仅提升了开源模型的竞争力,也为通用人工智能(AGI)的发展奠定了重要基础。

结语  

阿里通义实验室的WebShaper以其形式化驱动的创新范式和在GAIA基准中的卓越表现,重新定义了信息检索任务的边界。AIbase将持续跟踪WebAgent系列的最新进展,为您带来更多前沿AI技术资讯。让我们共同见证开源AI如何在逻辑驱动与社区协作的推动下,迈向通用智能的新时代!

项目地址:https://github.com/Alibaba-NLP/WebAgent

  • 相关推荐
  • AI日报:GPT-5-Auto现身Mac客户端;阿里开源WebAgent项目WebShaper;腾讯推X-Omni多模态模型

    【AI日报】今日AI领域重要动态:1)阿里开源WebAgent项目WebShaper,GAIA评测超越Claude4-Sonnet;2)Moonvalley推出草图转视频功能,支持手绘生成电影级视频;3)腾讯X-Omni模型实现图文理解重大突破;4)百度搜索测试AI应用中心入口;5)Midjourney+新增个性化推荐功能;6)GPT-5或于2025年夏季发布;7)Ollama推出桌面客户端;8)OWL团队开源多智能体协作工具Eigent;9)OpenAI年收入激增至120亿美元;10)英伟达H20芯片因安全风险被约谈;11)万兴科技天幕2.0模型国内排名第四,与华为云共建AI视频实验室。

  • GPT-4.5和Claude4哪家强?一文看懂优劣差异,附最实用AI大模型对比工具!

    文章对比分析了GPT-4.5和Claude4两大AI模型的性能差异:GPT-4.5在响应速度、编程能力和生态开放度上占优,适合实时对话和内容创作;Claude4则在长文本处理(200k+上下文)、安全性和企业适配性方面表现突出。推荐使用AIbase的模型对比工具(https://model.aibase.com/zh/compar)进行多维度智能筛选,根据具体场景(如客服、写作、编程等)选择最适合的模型。核心结论:没有绝对优劣,�

  • AI日报:智谱AI重磅发布GLM-4.5;阿里开源Wan2.2;阶跃星辰推全新模型Step3

    【AI日报】本期重点内容:1.智谱AI发布开源大模型GLM-4.5,在推理、编码和智能体能力方面达到SOTA水平;2.阿里开源视频生成模型Wan2.2,采用MoE架构提升计算效率;3.阶跃星辰推出AI研究助手"阶跃深研",支持金融医疗等专业领域研究;4.微软Edge浏览器新增Copilot模式,提供智能搜索体验;5.Anthropic对Claude用户实施使用限制引发争议;6.阶跃星辰发布321B参数大模型Step3;7.蚂�

  • RestCloud荣登Gartner 《2025 中国 ICT 技术成熟度曲线》,唯一入选的iPaaS供应商!

    Gartner发布《2025年中国ICT技术成熟度曲线》报告,谷云科技RestCloud作为唯一入选的独立iPaaS厂商上榜API管理领域。报告指出API管理平台能解决企业数字化转型中的数据孤岛问题,通过统一管理API全生命周期,实现跨系统数据实时同步与业务协同。RestCloud平台具备四大核心价值:1)消除数据孤岛,实现全域集成;2)提升开发效率与API复用率;3)保障安全稳定运行;4)结合AI驱动智能化业务创新。该入选标志着国产iPaaS技术已达国际前沿水平,正成为企业数字化转型的核心引擎。

  • AI日报:扣子空间网页设计功能上线;阿里Wan 2.2即将上线;​OpenAI即将发布 GPT-5

    【AI日报】今日AI领域重要动态:1)Coze推出网页AI设计功能,5分钟生成网页;2)通义千问发布Qwen-MT翻译模型,支持92种语言;3)ChatGPT全面推出Agent功能;4)阿里云Wan2.2视频生成AI即将上线;5)Anthropic推出审计Agent提升AI对齐测试;6)OpenAI计划8月发布GPT-5;7)谷歌发布无代码AI应用开发工具Opal;8)南洋理工与上海AI Lab推出PhysX-3D项目,为3D模型添加物理属性;9)快手开源KAT-V1大模型,40B版本性能接近DeepSeek-R1;10)讯飞星火X1升级版上线,在多语言和语音处理方面显著提升。(140字)

  • 阿里小号今日开始停止续费!10月底正式下架App

    据阿里通信官网公告,阿里小号将于2025年08月31日起陆续停止服务,今天起开始停止续费。 将按顺序分批结束服务并下线,对应号码将回收,余额将在下线的次日起10个工作日内按照订购价完成退回。 各省市号码的下线日期如下: 1、2025年08月31日24:00结束服务并下线归属于陕西省的号码; 2、2025年09月30日24:00结束服务并下线归属于广西省的号码; 3、2025年10月31日24:00结束服

  • 腾讯云TencentOS提交Swap Table补丁系列 Linux内核内存交换性能提升20%~30%

    腾讯云操作系统团队提交了名为Swap Table的补丁系列,针对Linux内核交换子系统进行优化。该系列在4K页面和mTHP folios场景下,使系统性能提升20%-30%。Swap Table通过智能调度机制优化数据定位,支持大页尺寸减少操作次数,并实现动态空间扩展。27项独立改进解决了历史遗留问题,经实测性能显著提升。目前补丁系列正处于审核阶段,有望纳入Linux内核主线。这是腾讯云团队继内存控制组、页面热管理等创新后,在操作系统核心技术领域的又一突破,将强化TencentOS Server的高性能优势。

  • AI日报:可灵发布灵动画布创意工作台;Coze Studio和Loop正式开源;WPS AI 3.0灵犀版本发布

    【AI日报】汇总了近期AI领域重要动态:1)字节跳动开源Coze两大核心项目,降低AI开发门槛;2)可灵AI发布"灵动画布"创意工作台,创作者突破4500万;3)Runway推出视频编辑模型Aleph,支持自然语言指令操作;4)金山办公发布WPS AI 3.0,实现智能文档创作;5)京东升级大模型品牌JoyAI;6)浦东设立20亿AI种子基金;7)阿里开源WebSailor框架提升信息检索效率;8)我国大模型数量突破1500个,居全球领先;9)蚂蚁数科联合发布金融大模型评测基准;10)腾讯开源混元3D世界模型,支持360°场景生成。

  • OPPO K13 Turbo发布:国补后售价1529.15元起

    核心配置方面,该机配备6.8英寸LTPS直屏,搭载联发科天玑8450处理器,形成7000mAh巨型电池与80W闪充的续航组合。影像系统采用前置1600万像素镜头与后置5000万+200万双摄组合,满足多场景拍摄需求。 防护性能实现行业首创:OPPO K13Turbo成为首款通过IPX9高压高温水柱、IPX8长时间浸泡、IPX6多方向喷水三项顶级防水认证的风冷手机,重新划定手机防护标准。工业设计上,新一代高强度�

  • 349元 OPPO K13 Turbo散热超级套装发布:液冷+风冷给手机“冻”感冒

    OPPO发布K13 Turbo系列手机及配套疾风散热超级套装,套装售价299元起。该散热套装采用微泵循环液冷+27W冰翼风冷磁吸散热方案,通过全面散热片、微泵驱动液冷及磁吸连接的风冷散热器实现均衡降温,官方称背夹单体最高降温33℃。相比传统散热方式,该套装能精准覆盖主板等发热区域,厚度仅23.5mm,重量82g,并设计有循环液流观察窗。

今日大家都在搜的词: