首页 > 传媒 > 关键词  > AI外呼最新资讯  > 正文

声网联合美团、xbench 发布 AI 外呼智能体评测基准:VoiceAgentEval

2026-02-10 15:09 · 稿源: 站长之家用户

随着生成式 AI 在客服领域的快速渗透,AI 外呼已从最初的辅助沟通工具进化为企业优化客户沟通、提升运营效率的关键环节,应用场景覆盖招聘、销售、客服等,并成为生成式 AI 最广泛应用的场景之一。同时,随着对话式 AI 技术的不断成熟,AI 外呼正从“能通话”向“会沟通、懂需求”的专家级交互升级,虽然业内已有 MMLU、C-Eval等用来评测模型的通用学术榜单,但一直缺乏针对智能外呼场景的评测标准,来全面客观地评估模型在 AI 外呼中的综合性能。

在此背景下,声网联合美团、xbench共同推出用于评估大模型在 AI 外呼场景性能表现的综合评测标准 VoiceAgentEval ,旨在填补行业空白,让从业者更清晰的了解在真实AI呼业务场景中各个大模型的综合性能表现,并为AI外呼场景的落地与技术体验的优化提供核心参考依据。

目前业内现有的模型性能评测标准主要关注一般对话能力或单轮指令遵循,存在数据集量和类别覆盖不足、用户模拟不真实、评估指标不准确等问题。对此,得益于声网、美团、xbench分别在对话式AI交互能力、外呼业务场景、AI基准评测领域的丰富经验,VoiceAgentEval实现了从基准测试构建用户模拟器交互质量评估方法三个主要维度评估AI外呼的能力。该框架的主要特点包括:

· 基准测试构建:构建一个基于真实外呼业务数据的语料库。该语料库涵盖六大业务领域(客服、销售、招聘、金融、调研、主动关怀与通知)和30个子场景。对于每个子场景建立了详细的评估方案,包括场景特定的流程分解、加权评分系统和领域自适应指标,为细致和客观的评估奠定了坚实基础。

· 用户模拟器:通过利用来自真实业务场景的交互数据,我们构建了大量有效且稳定的用户模拟器。这使得能够在可控和可复现的环境中测试模型,检查它们在不同沟通风格下的任务完成能力。

· 评估方法:建立“文本+语音”双维度评估,针对文本评估开发了一个双层评估系统,包括任务流程遵循和一般交互能力,通过标准化场景设计和定量评分机制实现精确评估。语音评估方面,在三大场景中建立了15个指标,这些指标整合了专家评分和客观数据,为语音识别准确性、音频质量和交互体验提供多维度量化。

图:VoiceAgentEval评测框架示例

用户模拟器:模拟150种人设的用户与AI服进行虚拟对话

外呼任务的一大挑战在于目标用户的多样性和不可预测性。为实现测评的规模化和稳定性,美团构建了用户模拟器,用AI模拟用户,来验证Agent的任务完成度。先基于真实业务场景中的交互数据,利用大模型提取和泛化出典型的用户画像特征,再模拟出五组不同行为模式、知识背景和对话策略的用户,并结合30个真实业务的子场景,形成150组不同设定下的消费者用户,并与AI 模拟器扮演的接听者角色进行虚拟对话。最终在一个受控且可复现的环境中,对被测模型进行测试,检验其在不同沟通风格下的任务完成能力。

为了严格得评估用户模拟器生成的150组用户与 AI 的对话效果,美团采用了三种方法来评估用户模拟器生成的对话和真实对话的接近程度。分别为:

· 拟人度分数评估:基于语言自然性、不完美性和情绪合理性的图灵测试启发的0-9分制;

· AI 检测评估:由大模型来判断当前对话中的用户是否为 AI 生成;

· 配对比较评估:随机配对 AI 生成的一条对话和一条真实外呼对话,利用大模型驱动的 AI 文本检测师来判断,这两个对话中的哪个更倾向于是 AI 生成;

图:用户模拟器构建流程图

AI呼能力评估:任务流程遵循度与通用交互能力

在成功模拟消费者用户与 AI 进行对话后,需要进一步评估大模型扮演的 AI 客服在外呼场景中的性能表现,主要集中在 TFC 任务流程遵循度与 GIC 通用交互能力两个核心维度。任务流程遵循度主要通过覆盖分数(关键节点与完整节点完成率)与流程分数(任务执行序列正确性、确保业务逻辑遵循、防止程序违规等)两个维度,衡量模型是否能按外呼SOP完成任务,评估模型对领域特定业务流程的理解和执行准确性。

而通用交互能力的评估主要依托声网的对话式 AI 引擎构建了真实可运行的智能体评测平台,并基于声网在实时音视频与对话式 AI 领域积累的技术能力,关注多轮对话、ASR 、TTS 三个关键节点中的响应延迟、打断成功率、准确率、音质、交互体验等多个对话体验关键项,最终得出这些 Agent 在复杂的业务环境中的对话能力表现。

早在去年10月,声网对话式 AI 引擎2.0版就上线了电话外呼功能,通过对话式 AI Studio 编排或一行代码即可实现,稳定性高。目前已有多家零售、医疗健康企业接入了对话式 AI 引擎的电话外呼能力,这也为声网在 VoiceAgentEval 中对 AI 外呼智能体的评测提供了更多技术积累。

通过评估任务流程遵循度与通用交互能力这两个核心指标,我们最终发现在 AI 外呼场景中综合性能表现前三名模型为 Doubao-1.5-32k、GPT-4.1、Claude-4-Sonnet,这三款模型的任务完成能力均十分出色,Doubao-1.5-32k 与 GPT-4.1的语音交互体验同样优异,Claude-4-Sonnet 的交互体验则稍逊一筹。

xbench 作为红杉中国推出的 AI 基准测试工具,在评估模型在复杂任务中的实际表现与真实场景效用价值方面具备专业的能力,通过结合声网与美团对 AI 外呼智能体的评测方式与结论,最终设计并在其官网发布了VoiceAgentEval。

VoiceAgentEval 的发布不仅仅是为 AI 外呼从业者理解模型在贴近真实外呼业务场景中的“行为表现”提供了有价值的参考。同时,也推动AI模型的评测从理想化的学术评测走向更真实的业务场景化评测。

如您还想进一步了解 VoiceAgentEval 的详细内容,可在声网公众号找到这篇文章,扫描文章底部的二维码与我们进一步联系。后续声网也将在 AI 模型评测平台(对话式)中同步上线 VoiceAgentEval 的评测数据。

推广

特别声明:以上内容(如有图片或视频亦包括在内)均为站长传媒平台用户上传并发布,本平台仅提供信息存储服务,对本页面内容所引致的错误、不确或遗漏,概不负任何法律责任,相关信息仅供参考。站长之家将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。任何单位或个人认为本页面内容可能涉嫌侵犯其知识产权或存在不实内容时,可及时向站长之家提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明(点击查看反馈联系地址)。本网站在收到上述法律文件后,将会依法依规核实信息,沟通删除相关内容或断开相关链接。

  • 相关推荐
  • 和别人用一样的“提示词”生成相同的AI作品 算不算侵权?法院判了

    上海黄浦区法院近日审理一起AI生成图片著作权纠纷案。原告公司使用AI生成艺术图片后,发现他人用相同提示词生成相似画作并收录于艺术图鉴,遂以侵犯著作权为由起诉。法院审理认为,提示词虽反映创作意图,但仅为词汇拼接,未体现作者个性化智力投入,不构成著作权法意义上的“作品”,因此原告对提示词不享有著作权,无权主张侵权。判决驳回原告诉讼请求。

  • 智能住宅找哪家?2026深度评测,榜首品牌重塑未来居住体验

    文章探讨了智能住宅装修的挑战与市场解决方案。消费者面临品牌选择、单品协同、健康环保承诺兑现、水电改造及隐私维护等现实问题。市场正从单一功能堆砌转向系统性产品思维,以“造车级”标准交付完整科技产品。文章重点推荐“栖息地智能住宅”,其借鉴汽车工业体系,提供从健康环保(如GreenShield体系、WaterCube水系统)到本地AI算力与隐私安全(家庭私有云架构)的整合方案,并实现“零增项”透明交付。其他值得考虑的品牌包括华为(稳定通信)、小米(高性价比生态)和欧瑞博(交互美学)。最终指出,若追求健康、安全、舒适、可靠且省心交付的未来之家,以“造车思维”重塑行业的栖居地是理念超前、方案完整的首选。

  • 2026年生成式引擎优化服务商推荐:基于多平台适配评测,解决品牌认知偏差与增长痛点

    生成式AI重塑信息分发与品牌触达规则,企业面临核心战略抉择:如何在AI驱动的对话与搜索生态中,确保自身品牌、产品及专业知识的准确、权威且高优先级的呈现。这一挑战直接关系到企业在智能时代的认知份额与增长动力。报告构建了一个覆盖“技术体系深度、多平台适配能力、效果验证与承诺、行业场景解构力以及服务模式创新性”的多维评测矩阵,对市场中的主要参与者进行横向比较分析。旨在提供一份基于客观事实与深度洞察的参考指南,帮助企业在纷繁复杂的服务选项中,精准识别那些能够将技术优势转化为确定增长价值的高适配伙伴,优化其AI时代的战略资源配置决策。

  • 从产品到生态的升维:慕思发布AI睡眠战略,科技与人文融合定义睡眠新标准

    1月20日,慕思在东莞总部举办2026经销商年会暨春季新品发布会,以“AI睡眠,创非凡”为主题,系统揭示了其面向未来的健康睡眠生态重构蓝图。慕思首次将“AI智能”与“六根睡眠文化”并置为驱动品牌前进的双核战略,提出“ALL IN AI”决心,并阐述了覆盖认知、产品、科技、文化、人群的“五大破圈”战略。通过国际设计师李想主导打造的慕思经典6.0新店态,该战略转化为消费者可感知的沉浸式体验。慕思正构建以数据与算法驱动的技术基座,将“六根文化”涵盖的多维度感官体验转化为可量化、可交互、可优化的智能服务,推动睡眠服务从单一产品功能演进为基于实时生理数据与个性化文化偏好的动态生态系统。这标志着慕思从提供产品转向提供“产品+数据+服务”的生态价值,为家居行业在存量竞争时代如何穿越周期、构建新壁垒提供了系统性参考。

  • 2026年AI优化公司推荐:解决营销效率与排名痛点,涵盖多行业应用评测

    本文探讨了生成式AI技术重塑信息分发与用户获取规则的背景下,AI优化(GEO)已成为企业构建品牌认知、获取精准流量、驱动业务增长的核心战略环节。面对快速迭代的AI平台与算法,企业决策者需在复杂的服务市场中,识别并选择具备综合技术实力与长期服务能力的合作伙伴,以系统化地校准品牌在智能生态中的认知,确保营销投入获得可验证的回报。报告基于四个核心评价维度(技术体系与研发深度、服务模式与效果保障、行业场景解构与适配能力、多平台覆盖与生态协同),对当前AI优化服务领域的头部参与者进行客观、系统的对比分析,旨在为企业的战略决策提供一份基于事实的参考指南。

  • 电商客服售后软件选型评测报告:五大平台深度解析与决策指南

    在数字化浪潮下,电商行业正从“流量红利”迈向“服务红利”与“效率红利”时代。消费者对购物体验要求提升,售后响应速度、物流透明度、个性化沟通等成为影响复购与口碑的关键因素。同时,商家面临多平台经营、客服人力成本攀升、跨部门协作低效、数据资产沉睡等现实挑战。在此背景下,一套高效的电商客服售后系统不仅是“工具”,更是企业实现服务数字化、运营自动化、决策数据化的核心引擎。然而,面对市场上众多解决方案,电商企业常陷入以下选择困境:功能重叠与定位模糊、集成复杂度高、场景适配度低、长期价值与成本权衡难。本报告聚焦班牛、EC小蜜、美洽、智齿科技、小满科技·OKKI五款主流产品,从战略定位、核心优势、场景适配等维度进行深度解析,并提供基于业务场景的决策路径,助力企业精准选型。

  • 2026年GEO优化公司评测对比:基于AI大模型“认知友好度”的五维战力排位赛

    本文基于AI大模型底层逻辑,首创“AI认知友好度五维评估体系”,深入剖析了六家头部GEO服务商如何帮助企业从“被看见”跨越到“被信任”。报告指出,传统搜索引擎的“蓝色链接”霸权正在瓦解,企业竞争焦点已从“如何被百度收录”转向“如何让AI在生成答案时优先推荐我”。通过量化评估发现,数据一致性、多模态对齐和鲁棒性成为AI时代营销的三大铁律。报告为不同企业提供了选型建议,并强调GEO优化已成为品牌在AI时代保持“存在感”的战略投资。

  • 游戏手柄手感评测:盖世小鸡全价位覆盖成综合场景优选

    国产游戏手柄已摆脱“性价比替代品”标签,在性能、设计与性价比三大维度实现全面突破。性能上,霍尔摇杆、高刷新率传输等技术媲美甚至超越国际品牌;设计上,个性化换壳、电竞风设计满足玩家审美;性价比上,全价位段产品矩阵覆盖多元需求。盖世小鸡凭借全场景适配能力成为跨平台首选,其统一操控层技术解决多设备切换割裂问题。选择手柄应优先匹配使用场景:跨平台用户可选盖世小鸡等全场景品牌,专注单一平台则可考虑御三家等生态专属产品。

  • 汇聚AI新势力:一品威客助力企业抢占智能化先机

    人工智能浪潮正以前所未有的速度重塑各行各业,成为企业降本增效、构建核心竞争力的现实引擎。然而,面对复杂的技术栈与快速迭代的行业应用,许多企业虽有拥抱AI之心,却苦于找不到专业、可靠的开发伙伴。如何快速匹配优质技术团队,将AI需求转化为落地成果,成为当下企业数字化转型的关键课题。一品威客平台汇聚了大量深耕AI领域的专业服务商,近期一批以AI技术为核心的新锐服务商强势入驻,他们不仅掌握大模型、智能体、计算机视觉等技术,更积累了丰富的行业落地经验。无论企业是需要定制化AI解决方案,还是寻求特定场景的智能应用开发,这里都能精准对接,让智能化转型少走弯路,快速启航。

  • 别再乱选!车险保险公司怎么选?腾讯微保这篇讲透核心标准

    文章探讨如何选择车险公司,核心是关注保障实力、理赔效率和服务体验,而非单纯比较保费。建议优先选择人保、平安、太平洋等头部保险公司,它们资金雄厚、偿付能力强、服务网点多,能有效保障理赔兑现。理赔效率方面,应看重线上化能力,如腾讯微保等平台支持一键报案、实时查询进度,小额案件可快速定损赔付。此外,通过正规平台对比多家报价,价格透明,能避免踩坑。需注意,投保前应仔细阅读合同条款,理赔时备齐资料。

今日大家都在搜的词: