首页 > 传媒 > 关键词  > 样本量最新资讯  > 正文

神策数据:六大环节,教你如何从 0 到 1 搭建一场 A/B 测试

2022-01-17 11:45 · 稿源: 站长之家用户

随着“增长黑客”概念的盛行,A/B 测试作为“数据驱动增长”的最佳实践受到了国内外众多公司的青睐。

A/B 测试的目的在于通过科学的试验设计、高效精准的流量分割算法来获取具有代表性的试验结论,并将该结论推广运用至全部流量。目前,A/B 测试已广泛运用于产品交互设计、推荐算法、运营策略制定等方方面面,在最优方案的判断与决策过程中为公司提供有力的数据支持。

因为市面上对于 A/B 测试搭建的信息都比较碎片化,没有成体系化的梳理,且缺少标准化、规范化的 A/B 测试工具,所以,神策数据结合数百场 A/B 测试的服务及交付经验,总结、沉淀出了建立假设、确定评价指标、设计试验、运行试验并获取数据、结果分析、最终决策六大环节,帮助企业顺利落地 A/B 测试,为客户带来价值。

神策数据 A/B 测试已得到充分的实践验证,通过科学规范的试验流程、高效精准的流量分割算法,帮助公司有效降低试验成本与风险,实现业绩增长。关注神策数据公众号,回复关键字“A/B 测试”即可免费体验!

一、建立假设

A/B 测试最核心的原理是假设检验。先假设,然后根据数据检验试验组和对照组的结果,辅助决策。一般情况下,假设成对出现,如果我们认为试验组和对照组的结果没有显著差异,那么可以称为零假设(H0);相反,则称为备择假设(H1)。

在试验前,我们需要先明确想要实现的结果。比如,我们希望通过优化注册流程,提高用户的注册转化率。针对这个场景,零假设就是优化后流程(试验组)和优化前流程(对照组)的用户注册转化率无显著差异,备择假设则是两组结果有显著差异。

另外,在建立假设的过程中,需要注意两点:第一,A/B 测试本身属于因果推断,所以要先确定原因和结果;第二,假设必须是可衡量的,需要有相应的评价指标来检验假设是否成立。

二、确定评价指标

注册流程优化的试验目的是为了提高注册转化率,那么注册转化率就可以作为检验假设是否成立的评价指标。同时,评价指标也需要分层级,确定唯一核心指标,辅助多个观察指标,才能从尽可能多的角度来评估试验结果。

评价指标主要分为三类:核心指标、驱动指标和护栏指标。

1、核心指标

核心数据指标通常情况下只有一个,或者是极少数指标的合集,很多时候是一家公司或组织的核心 KPI,可以驱动业务核心价值,比如注册转化率(衡量注册流程优化试验效果)、活动按钮点击率(评估某项推广活动试验的 CTR 效果)、人均使用时长(评估某项推荐算法对用户粘性的改进效果)等。

在确定核心指标时,需要满足两个关键原则:第一,简单的,易理解的,可以在公司/团队范围内被广泛接受;第二,相对稳定的,无需频繁为了一个新功能更新核心指标。

核心指标除了用来衡量试验的效果,还可以用来计算试验所需的样本量(将在后文中详细介绍),由此可见,核心指标直接关系着试验的成败,需要重点关注。

2、驱动指标

驱动指标一般比核心指标更短期,变化更快也更灵敏,帮助我们更加快速、全面地观测业务变化。我们可以通过两个案例做进一步了解:

在某项商品推广活动试验中,核心指标是下单转化率,运营同学可以使用客单价、人均下单次数、退货率等作为驱动指标。观察发现,虽然下单率有所提升,但退货率或客单价指标下降,此时便需要做针对性调整。

某个视频推荐列表试验中,核心指标是人均播放视频数量,驱动指标是完播率、人均观看时长,通过核心指标和多个驱动指标的配合来进行推荐算法效果的评估。

通过以上我们可以看出,驱动指标能够帮助我们从更多、更全面的角度来观察试验给业务带来的影响,尤其是当发现问题时,能够帮助我们及时分析原因、调整策略,通过不断优化达到最终的试验目的。

在确定驱动指标时,需要满足三个原则:第一,驱动指标与核心指标的目标一致,能够直接反映业务变化;第二,当指标发生变化时,能够有既定的途径和方法来优化指标,是可行动、与业务相关的;第三,驱动指标是核心指标的先导指数,需要具备足够的灵敏性,快速衡量大部分试验的效果。

3、护栏指标

护栏指标,可以理解为保护业务的指标,在实际应用过程中,护栏指标的异常可以有效反映出试验设计、基础设施、数据处理环节是否正常,能够帮助我们在评价试验效果时做出正确的权衡取舍,避免因为短期指标优化影响长期指标,从而得出值得信任的试验结果。

举个例子,我们在试验中设置一定的比例让用户命中试验分组(通常建议各组流量平均分配),实际运行中如果发现样本量和构建时的预期不一致,那么可以猜测是否是分流服务出了问题,导致可信度降低。

关注神策数据公众号,回复关键字“A/B 测试”即可免费体验!

三、设计试验

在确定试验评价指标之后,我们就可以开始进行试验设计,主要分为四个阶段:

1、选择正确的试验主体

试验主体是试验中进行分流的随机化单元,在试验时需确保分流主体与评价指标分析主体相同。

用户(通常为 user_id )是当前主流的随机化单元。如果分流主体是用户,那指标分析主体也应该是用户,例如人均会话数、人均点击量、人均支付金额等。

在实际业务场景中,可能使用其他分流主体,比如设备主体(device_id),按照设备进行随机化,意味着每台设备产生的指标数据是独立的,比如在点餐机或者自动售卖机(一般为 Android 系统)的试验场景中,不需要用户进行登录即可下单购买,那么此时试验的分流主体和分析主体就是这个独立设备,可以用每台设备的平均下单时长(完成下单的总时长/独立设备数)作为评价指标,用来衡量下单页优化效果。

除了以上两个常用的试验主体外,也会存在其他主体,例如在推荐算法试验中,可以用推荐的页面(或推荐的商品)作为试验主体单位等,在评估选择使用哪种随机化单元(分流主体)时,需要结合具体试验场景来考虑,可以重点从用户体验一致性、分流主体和评价指标主体一致性两个角度综合评估。

2、确定试验目标受众

当我们假设了一个试验并选定试验主体时,需要进一步明确试验的受众范围,也就是说需要明确哪些用户参与到试验中。通常有完全随机和定向筛选两种方式:

 完全随机,是指不做任何干预,所有的线上用户都是目标受众。

 定向筛选,是以特定的用户群体为目标。比如,某在线教育 App 的会员活动试验中,想要通过不同活动来探索和提升用户的购买转化,便将新用户设定为目标群体。

需要注意的是,当使用定向筛选圈定受众意味着当前的试验效果只对这部分用户有效,并不能代表线上全量用户应用后都具备相同显著的效果。因此,在实验结束将新 Feature 固化到线上时,需要考虑有针对性的发布策略。

3、确定试验样本量

(1)样本量并非越多越好

我们都知道试验的样本量大小对结果的精确度有直接影响,从统计学理论来讲,越大的样本量意味着有更大的几率检测出很小的变化,得出的结论信度就越高。

但在实际业务场景中,当我们回收到优胜方案时应尽快发布给全量用户,这样才能扩大试验效果、实现业务的全面增长。另一方面,虽然 A/B 测试的目标是验证某个优化方案能够提升收入指标、改善用户体验,但试验总会伴随着未知、未被考虑到的风险,就有可能出现与假设截然相反的结果。因此,快速分析定位原因,及时调整试验就显得尤为重要,“快”是A/B 测试的重要优势,能够快速应用、扩大收益;快速得出结论驱动决策等。

在进行试验设计时,我们需要在实际业务场景和统计理论中做到平衡:既要保证足够的样本量,又要把试验控制在尽可能短的时间内。

(2)如何确定试验所需的最小样本量

样本量并不是越多越好,那么该如何确定样本的数量呢?这里我们需要了解一下中心极限定理,通俗地理解为:只要样本量足够大,无论是什么指标,无论对应的指标是如何分布的,样本的均值分布都会趋于正态分布。基于正态分布,我们才能计算出相应的样本量,作出假设与检验。

样本量计算背后的统计学逻辑较为复杂,计算公式如下:

从公式中我们可以看出,样本量主要由 α、Power、△ 和 σ^2 四个因素决定,当确定了这几个变量,也就确定了试验所需的样本量。相关统计原理详见文末「补充阅读」。[1]

目前市面上有很多样本量计算工具,其背后的统计逻辑基本一致,这里需要提醒大家的是,大部分工具都只能计算比率类指标,而均值类(绝对值类)指标的计算需要用到历史数据,通常只能利用公式来进行计算。

图 神策数据最小样本量计算器(数据为模拟)

4、确定试验运行时长

只要试验结果显著,并且符合最小样本量,是否就可以停止试验了呢?答案是否定的。除了最小样本量之外,我们还需要考虑试验指标的周期性波动以及新奇效应影响。

(1)周期性

在实际业务运行过程中,往往需要考虑周期性带来的指标变化。比如,旅游行业在周末的用户访问量明显高于工作日;而办公软件的各项指标都证明在节假日的使用频率远低于工作日。因此,当需要考察的指标自身带有周期性特征时,那么在试验中就必须要考虑到周期性影响,不能单纯地根据结果显著性来做决策。我们通常会建议客户在合理的试验时间内至少包含一个完整的数据波动周期。

(2)新奇效应

在试验的初始阶段,可能会产生一些明显的效应,并在接下来的一段时间内趋于稳定。原因在于刚上线新策略时用户的兴趣值较高,从而引发新奇效应;随着时间推进,用户的新奇感会逐渐消失。所以,在做 A/B 测试时,我们需要评估引入的新策略能否引发新奇效应,从而判断当获得显著结果时,是否需要延长试验周期以得到稳定的结果。

关注神策数据公众号,回复关键字“A/B 测试”即可免费体验!

四、运行试验并获取数据

虽然试验上线前我们已经做了充分的测试工作,但仍需要验证试验是否按照预期的设定正常运行。其中以下两项工作需要重点验证:

 分流验证:分流比例和预期设定是否一致,不同分组策略是否正常展示,用户有无跳版本等。

 数据验证:缺少有效、准备好的评估数据,再多的试验也是徒劳。

在确保试验正常运行的情况下,我们还需要对不同分组的数据进行观察分析,避免因为设计缺陷或者引入功能 bug,造成重大业务损失。

五、结果分析

A/B 测试能够高效驱动决策。在统计学中,会采用 P 值法和置信区间法评估结果显著性,这里我们详细介绍一下使用频率较高的置信区间法。

置信区间是一个范围,最常见的是 95% 的置信区间。如何理解呢?对于一个随机变量来说,95% 的概率包含总体均值的范围,就叫做 95% 的置信区间。也可以简单理解为总体数据有 95% 的可能性在这个范围内。

在 A/B 测试中,我们会计算两组指标的差异值,如果计算得出的差异值置信区间不含 0,那么就可以拒绝零假设,认为两组结果差异显著;反之则接受零假设,认为两组结果差异不显著。

图 神策数据 A/B 测试-实验报告示意(数据为模拟)

六、数据驱动决策

运行 A/B 测试的终极目的为了提升业务指标。那么在收集试验数据到最终决策的过程中需要考虑哪些因素呢?

 试验结果差异是否真实可信,是否具备统计显著性?

 统计功效是否充足(通常根据是否大于 80% 来判定)?

 试验放量之后会带来哪些风险,风险处理的预备方案是什么?

显著结果往往比较容易判断,可以通过增加统计功效来提升真实显著的几率。但对于一些差异不显著的试验,就需要在试验方案中做出取舍,我们需要明确决策对未来可能产生的影响,并让影响尽量控制在可预测的范围内,而非局限于根据某个单一指标来进行决策。

以上是一个完整 A/B 测试流程,后续我们将结合具体业务案例,深入探索试验各个环节,敬请期待!关注神策数据公众号,回复关键字“A/B 测试”即可免费体验!

推广

特别声明:以上内容(如有图片或视频亦包括在内)均为站长传媒平台用户上传并发布,文章为企业产品宣传内容,本平台仅提供信息存储服务,对本页面内容所引致的错误、不确或遗漏,概不负任何法律责任,相关信息仅供参考。站长之家将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。任何单位或个人认为本页面内容可能涉嫌侵犯其知识产权或存在不实内容时,可及时向站长之家提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明(点击查看反馈联系地址)。本网站在收到上述法律文件后,将会依法依规核实信息,沟通删除相关内容或断开相关链接。

  • 相关推荐
  • 大家在看
  • 神策数据:从方法到实践,银行如何搭建用户体验管理体系?

    这套用户体验管理体系包括用户体验量化体系、产品基础优化、业务流体验迭代、用户体验专业团队组织机制等四大方面的建设...其次,要构建用户体系北极星指标-用户体验指数,由面到体,通过用户指标体系打分机制,构建用户体验指数...总体来看,银行用户体验管理体系建设的关键在于:用户体验体系的制定需要从用户体验视角出发结合业务目标,建立银行完善的数据基础建设和落地产品、业务流优化迭代建设机制,从而实现数据驱动用户体验提升,为业务发展的提供重要的支撑作用......

  • 神策数据创始人 & CEO 桑文锋讲述神策七年的不变与变

    作者丨桑文锋,神策数据创始人 & CEO...数据驱动是新时代的科学方法...神策数据根基平台帮助企业采集、打通全域数据,实现全域用户关联(ID-Mapping);神策分析云提供灵活、强大的用户行为和业务经营的数据分析和画像洞察;神策营销云基于精准的人群圈定驱动全场景的自动化营销;还有广告投放分析和代运营业务正在扩展神策产品服务的边界,满足了越来越多企业的数字化刚需...神策目前为企业提供的是产品、解决方案、实施服务一体化的完整体系...最后,数据安全是神策数据的生命线...过去这一年我对数据驱动的认知是,数据驱动是新时代的科学方法......

  • 神策数据:工具软件产品如何提升用户活跃与留存?

    但这些场景都比较零散和随机,用户可能随时会流失,当用户流失之后如果用大量的推送去召回用户,一方面不一定会击中用户诉求,另一方面可能会打扰用户导致用户关掉推送...在帮助工具软件产品提升留存活跃的问题上,除了周期类场景设计之外,让用户之间建立一些联系也是一个非常好的设计方向...在交付了产品核心价值的基础上,工具软件产品还可以通过周期性场景和关系壁垒来构建用户留存的产品运营框架,并通过用户运营体系辅助产品运营框架的落地,给用户带来更好的价值体验......

  • Web3.0第一场战争,在海外

    ”2021年Q4入局Web3.0面向海外市场打造去中心化内容交流平台的MetaNotey创始人郑小岳向猎云网表示,自己从2017年开始一直在关注相关领域,直到2021年他感受到Web3.0崛起的时代来了...当下硅谷顶级风投机构a16z,在Web3.0领域的投资布局链路十分长且涉及范围广,早在2013年, a16z 便拉开了加密投资布局的帷幕...3月9日,红杉资本印度参与了Web3.0基础设施公司电子协议签署平台EthSign的种子轮融资...VC对待web3.0投资的态度已经清晰可见......

  • 请别神化「私域」:六大陷阱,招招毙命

    企业内部各业务部门往往都是从自身出发,但私域会牵涉多方,有些部门可能要业务分流,有些部门可能要增加工作量,利益冲突因此出现...私域服务商咚咚来客的联合创始人韩耀文就表示,品牌推行私域首先反对的一定是财务部门,因为这会直接影响财务管理,增加其工作量...微博以粉丝为核心构建私域流量池,而后帮助品牌对接电商平台...从绝大多数私域运营方法论来看,首先,在公域里引流,将流量导入社群、品牌公众号;其次,销售或运营每天在其中发布广告和优惠信息,这两个环节就基本能够概括什么是“私域运营”......

  • 电动牙刷哪款好?护理博主经验推荐六大精品

    那么到底电动牙刷哪款好?为了让大家避坑,我用自己的实测经验为你们推荐六大精品...购买技巧二:一定要先选择档位在 3 个以上的电动牙刷,因为人的牙齿口腔的状态不是一成不变的,会受到健康状况、饮食习惯等方面的影响...扉乐是国内不伤牙领域公认最专业的品牌,它曾是牙齿口腔数据和技术方案商,创始人还坚称要用300%的技术品质去死磕知名品牌的高伤牙率!目前是不伤牙领域的领头羊,可在高强度震频下降低刷牙的80%伤害!而且还针对不易察觉的慢性伤牙,做了特殊优化......

  • 一图看懂骁龙8+:六大升级

    高通公司昨晚正式公布了全新一代骁龙8移动平台,骁龙8+正式亮相,全新旗舰平台骁龙8+实现了能效和性能双突破,在六个方面进行了大幅升级。骁龙8+由此前的三星4nm工艺改由台积电4nm打造,采用的依旧是1个X2超大核+3个A710大核+4个A510小核的八核心架构,官方称其性能提升了10%。同时功耗也得到优化,比起上代,骁龙8+整体要降低15%左右。官方同时也公布了一张长图,介绍了骁龙8+的六大升级,一起来了解一下。Snapdragon Smart智能:支持第七代高通AI引擎,在整体AI能效方面基于骁龙8进一步优化,提供接近20%的能效提升;Snapdragon Sight?

  • 健康博主李琦:冲牙器哪个牌子好?六大口碑力作推荐

    近期有很多朋友来向我咨询,问到最多的就是:冲牙器哪个牌子最好?冲牙器最大的槽点就是伤牙,冲牙器为什么会伤牙呢?因为选到了不专业的产品...哪怕是在超高脉冲下,也可减轻75%以上的损害!另外还针对冲牙器不易发现的长期慢性伤害,做了特殊技术优化!众多专业的牙医、口腔师主动推荐的品牌,由于从不做广告和宣传,也被誉为小众宝藏精品!作为从不做广告的小众宝藏精品,可能品质要求高,扉乐产量不大所以经常卖到断货!面对行业伤牙暴增的现状,都在拼颜值拼价格,而扉乐其专业、严谨、安全的理念,把冲牙器当医学产品我非常认同......

  • 详解饿了么拉新项目,手把手教你何从中赚取受益!

    饿了么的”天天赚现金”活动,不分新老用户,都可以邀请领取红包...饿了么“天天赚现金“活动,最新奖励政策是每邀请一位用户,你最高可赚60元...如果对方使用了被你所邀请后领取到的红包,你还会再获得最高20元的奖励...1、邀请用户时,一定要让对方用饿了么APP中的扫一扫功能,扫描你的邀请二维码...5、被邀请者领完红包以后,需要下单金额在使用红包减免以后的订单金额大于等于7元(到店自取订单除外)才会有更多的奖励收益......

  • 字节跳动,卷入一场虚拟女团风波

    贝拉还因生日会当天创下了10000舰长的纪录,成为了B站历史上第一位“万舰”虚拟主播——所谓舰长,类似于付费会员,价格为198元/月...今年年初,第一笔虚拟人融资也来自字节跳动——杭州李未可科技有限公司显示发生股东变更,新增字节跳动关联公司北京量子跃动科技有限公司...母公司ANYCOLOR旗下聚集了近150位不同类型的VTuber虚拟偶像,YouTube频道粉丝合计超4600万人,2021年一年的播放量达29亿4300万次......

今日大家都在搜的词: