A/B Testing
一、假设检验
假设检验(hypothesis testing)是指从对总体参数所做的一个假设开始,然后搜集样本数据,计算出样本统计量,进而运用这些数据测定假设的总体参数在多大程度上是可靠的,并做出承认还是拒绝该假设的判断。
如果进行假设检验时总体的分布形式已知,需要对总体的未知参数进行假设检验,称其为参数假设检验;若对总体分布形式所知甚少,需要对未知分布函数的形式及其他特征进行假设检验,通常称之为非参数假设检验。此外,根据研究者感兴趣的备择假设的内容不同,假设检验还可分为单侧检验(单尾检验)和双侧检验(双尾检验),而单侧检验又分为左侧检验和右侧检验。
假设检验的基本思想是反证法思想(逻辑上)和小概率事件原理(统计上)。反证法的思想是首先提出假设(由于未经检验是否成立,所以称为零假设、原假设或无效假设),然后用适当的统计方法确定假设成立的可能性大小,如果可能性小,则认为假设不成立,拒绝它;如果可能性大,还不能认为它不成立。小概率事件原理,是指小概率事件在一次随机试验中几乎不可能发生,小概率事件发生的概率一般称之为“显著性水平”或“检验水平”,用\(\alpha\),而概率小于多少算小概率是相对的,在进行统计分析时要事先规定,通常取\(\alpha\) = 0.01、0.05、0.10等。
一项检验结果在统计上是“显著的”,意思是指样本和总体之间的差别不是由于抽样误差或偶然而造成的。
常用的假设检验方法有Z检验、T检验、卡方检验、F检验等
第一类错误&第二类错误:
二、AB-test
AB-test是为同一个目标制定两个方案,在同一时间维度,分别让组成成分相同(相似)的用户群组随机的使用一个方案,收集各群组的用户体验数据和业务数据,最后根据显著性检验分析评估出最好版本正式采用。
1.适用场景
2.原理
3.流程
选取指标
建立假设
选取实验单位
- 用户粒度/设备粒度/行为粒度
计算样本量
- 中心极限定理:只要样本量足够大,无论是什么指标,无论对应的指标分布是怎样的,样本的均值分布都会趋于正态分布
- 有个公式
流量分割
分流:直接将整体用户切割为几块,用户只能在一个实验中。但是这种情况很不现实
分层:一个用户会处于多个实验中,只要实验之间不相互影响,我们就能够无限次的切割用户。这样在保证了每个实验都能用全流量切割的同时,也保证了实验数据是置信的。
实验周期计算
- 最小样本量 / 实验桶天均流量
线上验证
数据检验
- 绝对值指标用T检验
- 相对值指标用Z检验(相对值指标是二项分布,可以通过样本量的值计算出总体的值)
4.注意事项
三、Z检验与T检验
均值对比的假设检验方法主要有Z检验和T检验:
- 样本数量:
- Z检验面向总体数据和大样本数据
- T检验适用于小规模抽样样本。
- 适用条件:
- Z检验需要总体标准差已知或样本容量大于30;
- T检验对样本量无要求,可以小样本;但分析的数据对象需要满足正态分布;且需要考虑方差齐性(若不一致需改变检验参数)。
- 目的:Z检验和T检验都可以比较两个样本的均值是否有显著性的差异,或比较某个总体的均值与某个常数是否有显著性的差异。
- 总结:T检验比Z检验的普适性更强,Z检验要求知道总体标准差,但实际研究中无法获知总体标准差,一般都会用T检验。当样本量足够大的时候,数据接近正态分布,Z检验是T检验的一个特例。
四、辛普森悖论
- 总体数据上得出的统计结论和分组数据上的统计结论相反
- 原因:数据背后的产生机制不同,数据的总体和部分在结构上呈现较大的差异(第一次测试和第二次测试),而且存在潜在变量或混杂因素的影响(男女性别变量)
- 如何避免:注意各组数据的权重(即各组数据在整体评价中占的比例),可以一定的系数去消除分组资料基数差异造成的影响(如对占总体少数的样本加以更高的权重,即“逆概加权”,权重为该子群体在总群体中出现的概率的倒数),同时留意是否有潜在变量的影响,仔细分析因果关系。
避免发生: 在分析之前,一定要注意各组数据的权重,尽可能消除分组差异带来的影响 留意是否还有更多变量可用,从更多维度去分析因果关系 发生之后: 当样本量足够大,有统计意义时,以局部的信息为准,毕竟数据分析的本质就是要下钻剖析。 计算的时候可以用算术平均来替代加权平均。 最后用辛普森悖论的核心思想总结:简单的将分组资料相加汇总,不一定能反映真实情况。不论是工作,还是生活都是如此。