首页 > 业界 > 关键词  > 正文

CMU 研究人员推出 WebArena:为实用代理提供真实可复现的网络环境

2023-07-28 09:30 · 稿源:站长之家

站长之家(ChinaZ.com)7月28日 消息:CMU 研究人员推出 WebArena:一个真实可复现的网络环境,用于评估实用代理的性能。他们提供了四个真实的网络应用程序,用于训练自主代理执行特定任务。为了模拟人类问题解决,WebArena 还嵌入了工具和知识资源作为独立的网站。WebArena 引入了一个基准测试,将高级逼真自然语言命令解释为具体的基于 Web 的交互。

image.png

项目地址:https://github.com/web-arena-x/webarena

研究人员使用自然语言命令评估了多个代理的性能,并发现目前的大型语言模型在处理复杂任务时存在问题。因此,他们认为这些模型缺乏主动探索和错误恢复的关键能力。整个研究工作已在 Paper, Project Page 和 Github 上公开。

产品特点:

- 提供逼真的 Web 环境,模拟真实世界网站的功能和数据

- 嵌入工具和知识资源,使智能体能够模拟人类问题解决能力

- 提供基准测试,测试高级逼真自然语言命令的解释和交互能力

- 提供已注释程序,验证任务功能的正确性

举报

  • 相关推荐
  • 海尔空调构建两大网络助力份额提升

    8月28日,海尔智家发布2025半年报,空调业务表现亮眼:线下市场份额达19.7%,同比提升1.2个百分点;线上份额11.3%,增长1个百分点。公司依托“两大网络”战略推进渠道转型,通过产品优化、营销创新及供应链全球布局,持续提升竞争力。数字库存模式已在实践中取得实效,东北地区夏季高温期间销售额增量超3亿元。预计全年收入有望实现两位数增长。

  • 因炒作明星动态破坏网络生态被查处!小红书回应被约谈:深刻吸取教训

    今日,小红书官方账号发布公告称,近日,网信部门对小红书平台热搜榜单管理不善问题进行约谈并采取处罚措施。对此,我们诚恳接受,深刻吸取教训,认真落实整改要求。” 小红书表示,我们已对照网信部门的要求,第一时间成立整改专项工作小组,推进热搜榜单生态专项治理,进一步提升热搜榜单管理能力。 我们将在网信部门的指导下,以此为戒,举一反三,切实履�

  • 锐捷智能安全网关EG-E3系列“轻装上阵”:用1台设备满足网络出口需求

    锐捷EG-E3系列智能安全网关专为应对数字化浪潮下的网络边界挑战而设计。该产品采用全新NTOS操作系统,支持7600+应用识别库和2500W+ URL地址库,提升识别精准度。具备一体化功能集成,包括路由、上网行为管理、负载均衡等,支持500-2500人规模。通过业务可视化、安全事件秒级溯源及智能负载均衡技术,优化网络体验,保障教育、企业、医疗等行业用户的网络安全与效率。

  • 网友带着榴莲过安检 工作人员笑了:你的榴莲没有肉

    近日,一则关于榴莲的趣事在网络走红。 有网友分享,自己带着两颗榴莲过安检时,两名工作人员一直莫名发笑。疑惑之下询问原因,得到的答案让人哭笑不得 你的榴莲没有肉”。 后续,该网友切开两颗榴莲,真的几乎没有肉。 此事引发众多网友调侃,不少人留言呼吁 建议水果店标配安检机”。 中核集团表示,自己家不但有很多安检机,还有专门的榴莲检测CT机,比X光�

  • AI日报:快手推出AI视频制作助手Kwali;字节跳动推出USO模型;OpenAI推出ChatGPT开发者模式

    本文介绍了AI日报栏目,聚焦AI领域最新动态。快手推出Kwali视频助手,简化视频制作流程;字节跳动发布USO模型,解决图像生成中风格与主题的矛盾;微软推出Copilot Audio音频模式,提供个性化语音交互;Stability AI升级Stable Audio 2.5,支持高质量音频生成;阿联酋推出开源大模型K2 Think,拥有320亿参数;微信上线智能回复功能,提升公众号运营效率;OpenAI推出ChatGPT开发者模式,支持AI控制外部工具;字节跳动Seed团队发布AgentGym-RL框架,提升语言模型决策能力;月之暗面开源Checkpoint Engine中间件,优化LLM推理效率;B站开源IndexTTS-2.0文本转语音系统,支持情感与时长控制;Replit推出Agent 3编程助手,自主性提升10倍。

  • 小孩哥半夜梦游念英语还干呕咳嗽 网友:原来英语过敏真实存在

    近日,山东一名三年级男孩因睡眠中无意识背诵英语短语并伴随干呕、咳嗽的症状,引发社会广泛关注。 据家人描述, 2025 年 9 月中旬某夜,孩子入睡后突然坐起,闭着眼睛反复念叨“nice to meet you”等英语词组,过程中出现干呕、咳嗽等反应,全程被家人用手机记录。 ​这一异常行为经社交媒体传播后,迅速登上热搜榜,话题#小孩哥梦游都在念英语#、#原来英语过敏反应是

  • 多途云高防CDN代理销售系统全新升级上线

    多途云OEM系统全新版本重构上线,采用Golang开发并引入全新UI框架,极大提升部署与运维便捷性。新版本在拓展性和性能方面全面提升,为用户注册登录、接入使用等过程带来更流畅高效体验。支持独立部署,合作商可掌控自身客户核心数据,保障数据安全与业务自主性。系统支持自定义品牌、CNAME域名/IP页面提示、全方位数据流查询等功能,并提供完整的高防CDN销售管理能力。未来将开放按年付费支持对接其他平台。

  • 华为网络安全防火墙2025年上半年中国区市场份额第一

    IDC报告显示,华为防火墙在2025年第二季度以出色产品竞争力赢得中国市场份额第一。凭借AI防御、智能运营、自适应引擎等创新技术,实现95%未知威胁检测率和4Tbps业务性能。华为通过多重可靠性设计确保业务零中断,并采用智能功耗管理践行绿色理念。未来将持续投入研发,构建全场景零信任安全防护体系,加速企业数字化转型。

  • 获Gartner®认可!锐捷入选2025年Gartner园区网络基础设施管理与运营软件市场指南

    Gartner发布2025年园区网络基础设施与运营软件市场指南,锐捷网络作为唯一入选的中国厂商,凭借卓越实力跻身国际前列。报告指出园区网络市场已进入成熟阶段,厂商需重点发展软件产品,聚焦三大战略方向:全面覆盖产品能力、依托自动化与AI技术、满足端到端管理需求。锐捷推出EDN解决方案,实现全网统一协同管理,支持多厂商设备纳管、多站点统一运维及数据可视化,通过云化部署与国产化适配保障业务合规与连续性。

  • 男子鼻痛18年疑骨瘤开刀取出3cm树枝:劳作时不慎被戳伤

    近日,广东一名男子因长达18年的鼻塞、流脓涕症状就医,医生在手术中竟从其鼻窦内取出一根长约3厘米的树枝,揭开了困扰患者多年的病因。这一罕见病例引发了医学界和公众的广泛关注。 ​在鼻内镜微创手术中,医生小心翼翼地打开阿杰的右侧后组筛窦,竟从中取出一截长约3厘米、质地坚硬的树枝。这截树枝并非患者误吸入鼻,而是早在2007年就已藏匿于鼻窦内。当时,�

今日大家都在搜的词: