首页 > 业界 > 关键词  > OpenAI最新资讯  > 正文

刚刚,OpenAI开源BrowseComp,重塑Agent浏览器评测

2025-04-11 08:42 · 稿源: AIGC开放社区公众号

今天凌晨2点,OpenAI开源了专门用于智能体浏览器功能的测试基准——BrowseComp。这个测试基准非常有难度,连OpenAI自己的GPT-4o、GPT-4.5准确率只有0.6%和0.9%几乎为0,即便使用带浏览器功能的GPT-4o也只有1.9%。但OpenAI最新发布的Agent模型Deep Research准确率高达51.5%,在自主

......

本文由站长之家合作伙伴自媒体作者“AIGC开放社区公众号”授权发布于站长之家平台,本平台仅提供信息索引服务。由于内容发布时间超过平台更新维护时间,为了保证文章信息的及时性,内容观点的准确性,平台将不提供完全的内容展现,本页面内容仅为平台搜索索引使用。需阅读完整内容的用户,请查看原文,获取内容详情。

举报

  • 相关推荐
  • 引态科技发布群体进化机制,让智能体生态实现共同进化

    引力科技于2025年9月25日发布“多Agent群体进化机制”,突破传统智能体并行协作模式,依托自研AIOS系统实现智能体间分工与互学互进。该机制通过能力模块化、精准评估与动态迁移,打破“经验孤岛”,实现个体成长带动群体迭代,开启智能体“共同进化”时代。其三层技术架构确保能力从拆解到共享形成闭环,显著提升学习效率与精准性,推动AI生态实现指数级成长,为开发者、企业及行业带来低成本、高效率的落地价值,重新定义能力传承方式。

  • 腾讯云安全发布人工智能风险评估框架,助企业构建可信智能体

    9月17日,腾讯云在2025全球数字生态大会上发布人工智能风险控制框架及多款安全产品。该框架涵盖六大风险模块、七层级、130余项措施,系统性应对AI应用全生命周期的安全挑战,包括数据泄露、供应链隐患及权限滥用等核心问题。同时推出LLM-WAF防火墙、AI-SPM态势管理等产品,构建覆盖研发、部署、运维的全链路防护体系,助力企业建立可信、稳定的AI服务生态。

  • 软件测试的“自动驾驶革命”:从工具自动化到思维智能化

    AI正推动软件测试领域变革,测试团队脚本维护时间减少60%,工作重心转向策略设计与异常监控。行业报告显示,AI驱动的测试效率提升显著,尤其在探索性测试中可发现人工难以预见的边缘场景缺陷。实践案例表明,金融、汽车等行业引入AI测试后,迭代周期缩短,用例自动生成率大幅提升。未来测试工程师将更专注于质量体系设计和风险分析,而非脚本编写,实现从“人工密集型”向“智能驱动型”的转变。

  • 曝苹果为新Siri做了内部版ChatGPT 正测试搜索个人数据、执行App内操作等功能

    苹果公司正在开发一款类似ChatGPT的手机应用“Veritas”,用于内部测试明年将推出的新版Siri。该应用可快速评估Siri新功能,包括搜索个人数据、执行App内操作(如编辑照片)等。虽然不面向消费者发布,但该工具标志着苹果对Siri的全面升级已进入新阶段,旨在帮助员工高效完成测试。

  • 美业迎来首个“AI智能体矩阵”,静博士以AI重塑美业运营

    在科技浪潮推动下,AI智能体已成为全球各行业变革的核心引擎。静博士集团率先在美业领域构建“AI智能体矩阵”,通过专家、运营、店长三类智能体协同,实现从需求洞察到服务交付的全流程智能化。专家智能体赋能美容师提供精准健康方案,运营智能体精准识别客户需求,店长智能体高效统筹门店资源。目前已在300多家门店部署智能机器人,推动美业从经验驱动向科技驱动转型。未来,体系化AI能力将成为行业竞争关键,静博士通过前瞻布局,引领美业数字化升级,实现效率与业绩双提升。

  • 创客匠人AI智能体小程序上线!助力流量增长、自动获客与降本增效

    文章探讨了AI时代竞争的关键在于构建可复用、可迭代、可追溯的业务链路,而非依赖灵感。当前业务普遍存在工具使用浅层化、流程割裂、运营依赖人工等痛点。创客匠人AI智能体小程序通过将方法论转化为系统化运营,实现获客可控、交付可达、运营可衡量、内容可复用的目标,覆盖从触达到复购的全链路闭环,帮助知识博主与教培老师重构商业化路径。

  • OpenAI发布GPT-5-Codex:可完成7小时单次编程任务

    OpenAI宣布推出新一代AI编程模型GPT-5-Codex,其最大亮点是创新的动态时间分配系统。 不同于传统AI追求秒级响应”,该模型可根据任务复杂度灵活调整处理时长,从数秒到7小时不等,以更接近人类专家的决策方式优化代码质量。 GPT-5-Codex产品负责人亚历山大恩比里科斯解释称,传统模型在任务初期即固定计算资源,而GPT-5-Codex能实时评估需求:动态决定加速推进、暂停语法核�

  • 微算法科技(NASDAQ: MLGO)融合二次矩阵变换模型,研发基于区块链的可溯源IP版权保护算法

    微算科技(NASDAQ: MLGO)研发基于区块链的可溯源IP版权保护算法,解决现有技术效率低、可追溯性差等痛点。该方案融合二次矩阵变换、分布式随机嵌入与位置映射函数,实现版权从产生到交易流转的全链路精准追踪与安全保护。凭借区块链的不可篡改特性,算法有效抵御重放攻击,确保版权信息稳定可靠,有望拓展至专利、商标等知识产权领域,推动全球版权保护生态健全高效。

  • 两步生成企业级Agent,华为云Versatile平台打通智能体落地最后一公里

    华为在2025全联接大会上发布企业级智能体平台Versatile,通过极简流程实现企业级Agent开发,仅需输入业务逻辑与流程图即可完成,效率提升10倍。同时公布昇腾芯片未来三年规划,将陆续发布多款高性能芯片。华为云还推出超节点产品Atlas系列,算力全球领先。CloudMatrix384 AI+Token推理服务全面上线,吞吐量达2400TPS,性能远超业界水平。该平台已与多个行业合作,助力企业构建数字化AI产线,实现业务效率飞速提升。

  • 当IP商业化进入AI时代,“智能潮玩”正在重写粉丝经济逻辑

    全球IP产业链已成为文化娱乐消费的重要增长点,2024年衍生品市场规模超3200亿美元,其中潮玩产业高速增长。传统IP商业化面临用户互动单向、消费一次性等瓶颈。智能潮玩通过"平台化硬件+可替换IP角色+UGC社区"模式,实现从静态收藏到动态共生的转型,以乐森机器人等产品为例,用户可自定义角色动作并参与内容共创,形成"硬件+内容+社区"的长期运营生态。这标志着IP商业化从单向衍生迈向双向互动,推动产业从"衍生"进入"共生"新阶段。

今日大家都在搜的词: