首页 > 业界 > 关键词  > OpenAI最新资讯  > 正文

刚刚,OpenAI开源BrowseComp,重塑Agent浏览器评测

2025-04-11 08:42 · 稿源: AIGC开放社区公众号

声明:本文来自于微信公众号 AIGC开放社区,作者:AIGC开放社区,授权站长之家转载发布。

今天凌晨2点,OpenAI开源了专门用于智能体浏览器功能测试基准——BrowseComp。

这个测试基准非常有难度,连OpenAI自己的GPT-4o、GPT-4.5准确率只有0.6%和0.9%几乎为0,即便使用带浏览器功能的GPT-4o也只有1.9%。

但OpenAI最新发布的Agent模型Deep Research准确率高达51.5%,在自主搜索、信息整合、准确性校准方面非常优秀。

图片

开源地址:https://github.com/openai/simple-evals

BrowseComp简单介绍

BrowseComp全称为Browsing Competition,包含了1266个很有挑战性问题的数据集,涵盖电影、科学与技术、艺术、历史、体育、音乐、电子游戏等众多领域。

图片

这些问题的难度在于,需要在庞大的互联网空间中搜索,并将这些潜在答案与问题中提出的复杂约束条件相匹配。例如,下面这三个问题就能很好体现BrowseComp的难度。

第一个关于足球比赛的问题,要求智能体找出在1990年至1994年期间,哪两支足球队在一场比赛中由巴西裁判执法,共出现四张黄牌(每队两张),其中三张不是在上半场发出的,并且有四次换人,其中一次是在比赛前25分钟因伤换人。

答案是爱尔兰对罗马尼亚。

图片

第二个要求识别一个偶尔会打破第四面墙与观众互动的角色,其背景故事涉及得到无私苦行僧的帮助,以幽默著称,并且在20世纪60年代—80年代之间有一部少于50集的电视剧。

答案是《塑料人》。

图片

第三个要求找出一篇在2023年6月之前发表的研究论文,该论文提到文化传统、科学过程和烹饪创新,并且由三个人共同撰写,其中一人是西孟加拉邦的助理教授,另一人拥有博士学位。

答案是《面包制作的基础:面包的科学》。

图片

BrowseComp的数据集完全由人类专业数据师收集,其指导原则主要遵循SimpleQA。在创建问题时,需要确保这些问题对于人类来说是极其困难的,数据师通过三个主要检查点来确保问题的挑战性:首先,验证了现有的模型例如,OpenAI的GPT-4o、OpenAI o1和早期版本的Deep Research无法解决这些问题;

其次,进行了五次简单的谷歌搜索,确保答案不会出现在搜索结果的第一页上;最后,确保这些问题足够困难,以至于另一个数据师在十分钟内无法解决。如果某个问题被解决的频率超过40%,那么创建该问题的数据师就会被要求修改问题。

为了确保问题的难度,数据师们会从一个事实开始,然后创建一个反向问题,其中答案难以找到但易于验证。例如,可能会从一个人、事件或物品开始,找到几个具有广阔搜索空间的特征,并从中创建一个问题。

这种反向问题的设计方法使得答案虽然难以找到,但一旦找到,却很容易验证。不过这种设计方法也有一个缺点,虽然可以确定提供的参考答案是正确的,但不能确定没有其他答案。

为了减少这种可能性,数据师们被要求对问题的内容足够熟悉,以便有信心没有其他有效答案,并在不自信时增加更多标准。

测试数据

为了衡量BrowseComp数据集的难度,OpenAI邀请了创建问题的同一批人类数据师尝试解答这些问题。这些数据师在解答问题时没有访问正确答案,并且被要求在不使用AI助手的情况下完成。

图片

由于一些问题极其困难,OpenAI允许数据师在搜索两小时后标记问题为无法解决并继续下一个问题。结果显示,数据师解决了29.2%的问题,而在解决的问题中,数据师的答案与原始参考答案一致的比例为86.4%。

OpenAI还对自己的模型在BrowseComp上进行了综合测试。GPT-4o和GPT-4.5这两个不具备浏览能力的模型在BrowseComp上的表现很差,只有只有0.6%和0.9%。

图片

当为GPT-4o启用浏览功能后,其准确率从0.6%提升到了1.9%。虽然这一提升幅度不大,但揭示了一个重要的事实,单纯的浏览能力并不能完全解决BrowseComp中的复杂问题。

模型需要能够有效地利用浏览工具,进行战略性搜索和信息筛选。这表明,工具使用能力虽然重要,但如果没有强大的推理能力和对检索到的信息进行有效处理的能力,模型在网络浏览任务中的表现仍然会受到限制。

OpenAI o1模型虽然不具备浏览能力,但其推理能力较强,准确率达到了9.9%。这一结果表明,推理能力在网络浏览任务中也起着关键作用。

尽管o1无法直接从网络中检索信息,但它可以通过内部知识和推理能力解决一部分问题。这说明,对于一些问题,模型可以通过对已有知识的深度推理来找到答案,而不需要依赖外部信息检索。

OpenAI最新发布的Agent模型Deep Research表现的意外好,准确率达到了51.5%。这表明Deep Research能够有效地使用浏览工具,能够对检索到的信息进行深度分析和综合处理。同时具备很强的适应性,面对搜索时遇到的各种信息,能够迅速做出反应,调整自身的搜索策略。

图片

此外,OpenAI还发现,Deep Research的表现随着测试时计算资源的增加而提升。这表明,增加计算资源可以显著提高模型在复杂网络浏览任务中的表现。通过使用更多的计算资源,模型可以尝试更多的搜索路径,从而提高找到正确答案的概率。

举报

  • 相关推荐
  • 刚刚OpenAI开源PaperBench,重塑顶级AI Agent评测

    今天凌晨1点,OpenAI开源了一个全新的AIAgent评测基准——PaperBench。这个基准主要考核智能体的搜索、整合、执行等能力,需要对2024年国际机器学习大会上顶尖论文的复现,包括对论文内容的理解、代码编写以及实验执行等方面的能力。目前智能体的能力还无法超越人类。

  • 突发!OpenAI将收购谷歌浏览器Chrome

    OpenAI高管在谷歌反垄断案庭审中作证透露,若谷歌败诉将收购其Chrome浏览器。美国司法部要求拆分Chrome以打破谷歌搜索垄断。ChatGPT产品负责人Turley作证称,OpenAI曾试图与谷歌合作使用其搜索技术但遭拒。邮件显示OpenAI去年7月提出合作请求,8月被谷歌以涉及竞争对手为由拒绝。Turley认为,若法院强制谷歌共享搜索数据将加速ChatGPT改进。目前ChatGPT距离实现80%查询使用自有搜索技

  • 对标OpenAI,谷歌开源Agent SDK,支持MCP、A2A、5000星

    谷歌在GoogleCloudNext25大会上,开源了首个Agent开发套件—ADK。这也是OpenAI之后第二家大厂发布的标准化智能体SDK。谷歌刚开源ADK几天在Github已经超过5000颗星,非常受开发者的欢迎。

  • “谷歌版MCP”来了,开源A2A,不同厂商Agent也能协作

    “谷歌版MCP”来了!谷歌推出A2A协议,即Agent2Agent,能让AIAgent在不同生态系统间安全协作无需考虑框架或供应商。不同平台构建的AIAgent之间可以进行通信、发现彼此的能力、协商任务并开展协作,企业可通过专业Agent团队处理复杂工作流。从各大厂最近动作来看,芜湖,不愧是Agent元年。

  • 谷歌A2A协议是什么? MCPAgent2Agent 有什么区别?

    4月10日,在GoogleCloudNext大会上,谷歌宣布开源Agent2Agent协议,这一协议被业界视为智能体交互领域的“通用语言”,旨在突破跨平台、多模态协作及安全保障等核心技术瓶颈,并联合全球50余家科技企业共同构建新一代智能生态。本文从技术实现与行业变革两个维度,深度解析A2A协议的核心价值。这一协议的推出,标志着智能体协作模式从封闭系统向开放生态的范式转变,为产业数字化转型注入新动能。

  • 媲美OpenAI-o3,刚刚开源模型DeepCoder,训练方法、数据集大公开

    今天凌晨4点,著名大模型训练平台TogetherAI和智能体平台Agentica,联合开源了新模型DeepCoder-14B-Preview。该模型只有140亿参数,但在知名代码测试平台LiveCodeBench的测试分为60.6%,高于OpenAI的o1模型,略低于o3-mini。TogetherAI刚获得3.05亿美元的B轮融资,其估值也从去年的12.5亿美元翻倍至33亿美元。

  • 刚刚OpenAI发布GPT-image-1模型,更强吉卜力版本来啦

    OpenAI发布全新图像生成模型GPT-image-1,通过API向全球开发者开放。该模型支持精细控制图像敏感度、生成效率、背景、输出格式等参数,并集成吉卜力模式。Adobe、Figma等企业已将其应用于产品中。API支持批量生成、蒙版编辑、透明度调整等高级功能,图像生成成本从0.02-0.19美元/张不等。CEO Sam Altman表示该模型与ChatGPT版本差异显著,开发者可通过API实现更多创意场景。新模型在�

  • OpenAI继续商业化狂飙:要靠Agent 5年赚1750亿美元

    5 年,靠Agent赚 1750 亿2025 年被称为agent元年,而OpenAI希望在这一年把agent做成自己的摇钱树。今年以来,OpenAI发布了两款基于ChatGPT的AI Agent,一是可以代替用户操作浏览器,自主执行任务的Operator;二是可以辅助做深入研究,生成专业研究报告的Deep Research。开春后,迎合市场主流趋势,OpenAI继续在模型推理和开源两侧发力,以期在竞争白热化的AI领域展现技术实力,但agent已成�

  • 谷歌开源发布A2A协议 Agent2Agent智能体交互协议详细介绍

    在GoogleCloudNext25大会上,谷歌宣布开源了首个标准智能体交互协议——Agent2AgentProtocol,这一举措有望彻底改变智能体之间的交互方式,打破系统孤岛,对智能体的能力、跨平台协作以及执行效率产生质的飞跃。A2A协议是一种开放标准,旨在为智能体提供一种通用的交互方式,使它们能够在不同的底层框架和供应商之间无缝协作。每个部分都有指定的内容类型,这使得客户端和远程智能体能够协商所需的正确格式,并且明确包括用户界面能力的协商,比如iframe、视频、网络表单等,从根据用户的需求和设备的能力,提供最佳的用户体验。

  • 醒醒,只靠MCP和A2A还带不来AI Agent的大繁荣

    文章探讨了AI Agents发展需要类似HTTPS的安全协议保障。回顾互联网发展历程,TCP/IP协议统一了网络通信标准,HTTP协议实现了全球互联,而HTTPS通过SSL加密解决了安全问题。类比互联网发展,当前AI Agents产业面临类似挑战:Anthropic推出的MCP协议解决智能体与工具连接问题,Google的A2A协议实现智能体间协作,但缺乏安全标准。IIFAA联盟正致力于构建AI Agents安全生态,推出ASL中间件保障数据隐私和身份认证。文章指出,正如HTTPS推动电商繁荣,AI Agents的安全标准化将加速商业化进程,蚂蚁集团等企业已开始实践MCP应用。未来AI Agents可能通过统一入口调用工具池,改变现有交互模式。