首页 > AI头条  > 正文

美团 LongCat 团队推出 VitaBench:全新智能体评测基准

2025-10-21 16:10 · 来源: AIbase基地

近日,美团 LongCat 团队正式发布了一项名为 VitaBench 的智能体评测基准,旨在针对多交互任务,特别是在复杂生活场景中的应用。VitaBench 的推出为智能体在真实生活场景中的研发提供了重要基础设施。

VitaBench 专注于外卖点餐、餐厅就餐和旅游出行等高频真实场景,构建了一个包含66个工具的交互式评测环境。评测任务设计涵盖了从购票到餐厅预订等多项复杂操作,要求智能体在任务执行过程中进行深度推理、工具调用与用户互动的综合表现。

QQ20251021-160846.png

尽管当前领先的推理模型已取得了一定进展,但 LongCat 团队的研究表明,智能体在复杂跨场景任务中的成功率仍然不足30%,显示出当前技术与实际应用需求之间的显著差距。VitaBench 的开发旨在解决这一问题,填补现有智能体评测基准与真实生活场景应用之间的空白。

QQ20251021-160856.png

该基准的设计基于对推理复杂性、工具复杂性和交互复杂性三维度的深入分析。团队通过将这些维度量化,系统化地衡量智能体在真实场景中的表现。例如,推理复杂度主要通过信息整合的需求、观察空间的大小以及所需处理的推理点数量来评估;工具复杂度则考虑工具的依赖关系与调用链长度;交互复杂度则关注智能体在多轮对话中的应能力。

VitaBench 的构建过程为两个阶段,首先是框设计工具定义,接是任务创建评估标准制定。这一过程确保了任务的多样性和复杂性,同时避免了传统文档模式的局限性,使得智能体能够在没有冗余规则的情况下,自主推理和决策。

目前 VitaBench 已全面开源,研究人员和开发者可以通过其官方网站和 GitHub 访问相关资源。VitaBench 的发布标志着智能体评测领域的一个重要里程碑,预计将推动智能体技术在真实生活场景中的进一步应用与发展。

项目主页:https://vitabench.github.io

论文链接:https://arxiv.org/abs/2509.26490

代码仓库:https://github.com/meituan-longcat/vitabench

数据集:https://huggingface.co/datasets/meituan- longcat/VitaBench

排行榜:https://vitabench.github.io/#Leaderboard

  • 相关推荐
  • 墨刀AI Agent:更懂产品经理的超级智能体上线

    2025年AI将进入"智能体时代",从被动工具升级为能理解意图、辅助决策的伙伴。墨刀AI+Agent专为产品经理打造,具备三层核心能力:懂逻辑(理解需求生成原型)、懂场景(熟悉全流程工作)、懂协作(跨角色沟通优化)。它能贯穿调研、原型、文档、评审等环节,解放重复劳动,让产品经理专注高价值决策,实现从效率提升到决策升级的人机协作新模式。

  • Checkout.com正式推出Flow Remember Me: 一键支付,全球通用

    Checkout.com推出嵌入式支付产品Flow的"记住我"功能,消费者仅需存储一次银行卡信息即可在全球商户网络实现跨平台快捷支付。测试数据显示,该功能最高可缩短70%付款时间并提升7%支付成功率。同时公司升级AI分析套件、支付优化工具及收单网络,并与Visa、Mastercard和Google达成AI智能体合作,助力商户在数字支付领域保持领先地位。

  • OpenAI推出AI浏览器ChatGPT Atlas 开启个性化上网新体验

    OpenAI于10月22日推出首款AI驱动浏览器ChatGPT Atlas,以个性化上网体验为核心。用户点击“Ask ChatGPT”即可在侧边栏实时互动,实现网页摘要生成、航班预订、文档编辑等多样化任务。目前仅支持macOS,未来将扩展至Windows和移动端。高级代理功能暂限付费用户使用,其特色包括自动捕捉页面上下文、分屏浏览及记忆用户操作历史,旨在通过自然对话提升网络使用效率。

  • 持续领跑!360安全智能体首批通过中国软件评测中心认证

    360安全智能体近日通过中国软件评测中心评估,在钓鱼邮件和网络告警两大核心场景中均获L3成熟级认证。这标志着360在智能体技术应用上具备领先实力,成为企业安全运营与产业智能化转型的行业标杆。其智能体依托海量安全数据与专业训练,能精准识别威胁并实现分钟级响应,推动安全运营效率提升15倍。此次认证不仅巩固了360在AI安全领域的领导地位,更为行业树立了智能体能力建设与评估的典范。

  • 如何让你的内容被 ChatGPT 优先引用?——GEO 优化实战指南

    传统SEO追求"谷歌首页排名",生成式AI时代则需追求"被AI引用"。AI模型不提供明确排名算法,更像黑箱,使内容创作者困惑。GEO优化的核心是让内容具备"可引用性":权威清晰、结构化信息、语义覆盖多维度、模型检索映射。需通过AIBase等GEO排名查询工具验证"AI曝光率",分析引用语境、竞争差距,调整内容结构以提升AI引用倾向。SEO优化机器如何找到你,GEO则优化AI如何引用你。

  • Zen7 Labs 开源全球首个去中心化支付智能体(DePA),打造下一代AI Agent 金融基础设施

    随着AI Agent经济崛起,支付成为制约智能体自主交易的关键瓶颈。Zen7Labs提出去中心化支付智能体DePA概念,并开源核心产品Zen7 Payment Agent。该方案具备原生多链兼容、免密授权、零托管安全等六大优势,通过四类Agent角色协同实现全流程自动化支付,有效融合传统跨境支付与加密支付优势。团队计划12个月内推出DePA Chain网络,构建低延迟、高安全的支付基础设施,为万亿美元级A

  • GEO如何改变ChatGPT搜索和Perplexity的游戏规则

    本文对比ChatGPT与Perplexity两大AI搜索平台:ChatGPT作为全能型助手,整合搜索与多任务处理,但存在信息时效性不足;Perplexity专注垂直搜索,强调引用透明与权威来源。针对AI搜索优化(GEO),提出差异化策略:面向ChatGPT需构建结构化知识库、强化品牌实体识别;面向Perplexity需注重权威数据引用和元数据优化。文章还介绍了AIBase的GEO监测工具,通过曝光率等指标量化内容在AI生态中的可见度,并给出可落地的优化行动方案。

  • 重磅预告:全链路自主进化 AI 数据分析师 TabTab 将于10月24日上线

    灵快科技推出的AI数据分析师TabTab将于10月24日上线。该产品通过Multi-Agent系统实现全链路自动化数据分析,覆盖数据获取、建模到可视化全流程。用户可用自然语言交互,系统自主规划任务并输出可维护结果,支持Excel、PPT等多种报告格式。核心定位为智能数据分析助手,旨在降低分析门槛,助力企业高效挖掘数据价值,适用于数据分析师、营销人员等各类用户。

  • 如何提升品牌在AI回答中的提及率?GEO优化3招,让ChatGPT主动提及你的品牌

    本文探讨AI搜索时代品牌面临的"隐身危机",指出AI搜索用户年增538.7%,但品牌在AI回答中提及率不足20%。提出三大核心策略:1)构建权威背书矩阵,通过知乎等高权重平台获取自然提及;2)优化AI友好内容,采用对话式标题和结构化数据;3)建立数据监测闭环,通过A/B测试持续迭代。强调需善用监测工具实时追踪品牌在豆包、文心一言等AI模型的曝光表现,避免内容"注水"。最终实现从"被动等待"到主动抢占AI"第一屏"的转变。

  • AI日报:阿里夸克“C计划”曝光;Veo3.1将增加视频“精确编辑”功能;Anthropic推出Claude Code网页版

    今日AI领域动态:阿里夸克启动"C计划"布局对话式AI应用,剑指字节"豆包";Anthropic推出Claude Code网页版,支持浏览器直接编码;谷歌Veo新增视频"精确编辑"功能,提升创作效率;Fish Audio升级S1语音克隆模型,10秒即可复刻真人声音;AWS美东故障影响ChatGPT等多项服务;DeepSeek-OCR推出"视觉记忆压缩"机制破解AI记忆瓶颈;Adobe推出AI Foundry服务,支持企业定制品牌AI模型;Anthropic发布Claude for Life Sciences,加速生命科学研究。

今日大家都在搜的词:

热文

  • 3 天
  • 7天