A/B Testing

一、假设检验

假设检验（hypothesis testing）是指从对总体参数所做的一个假设开始，然后搜集样本数据，计算出样本统计量，进而运用这些数据测定假设的总体参数在多大程度上是可靠的，并做出承认还是拒绝该假设的判断。

如果进行假设检验时总体的分布形式已知，需要对总体的未知参数进行假设检验，称其为参数假设检验；若对总体分布形式所知甚少，需要对未知分布函数的形式及其他特征进行假设检验，通常称之为非参数假设检验。此外，根据研究者感兴趣的备择假设的内容不同，假设检验还可分为单侧检验（单尾检验）和双侧检验（双尾检验），而单侧检验又分为左侧检验和右侧检验。

假设检验的基本思想是反证法思想（逻辑上）和小概率事件原理（统计上）。反证法的思想是首先提出假设（由于未经检验是否成立，所以称为零假设、原假设或无效假设），然后用适当的统计方法确定假设成立的可能性大小，如果可能性小，则认为假设不成立，拒绝它；如果可能性大，还不能认为它不成立。小概率事件原理，是指小概率事件在一次随机试验中几乎不可能发生，小概率事件发生的概率一般称之为“显著性水平”或“检验水平”，用\(\alpha\)，而概率小于多少算小概率是相对的，在进行统计分析时要事先规定，通常取\(\alpha\) = 0.01、0.05、0.10等。

一项检验结果在统计上是“显著的”，意思是指样本和总体之间的差别不是由于抽样误差或偶然而造成的。

常用的假设检验方法有Z检验、T检验、卡方检验、F检验等

第一类错误&第二类错误：

二、AB-test

AB-test是为同一个目标制定两个方案，在同一时间维度，分别让组成成分相同（相似）的用户群组随机的使用一个方案，收集各群组的用户体验数据和业务数据，最后根据显著性检验分析评估出最好版本正式采用。

1.适用场景

2.原理

3.流程

选取指标
建立假设
选取实验单位
- 用户粒度/设备粒度/行为粒度
计算样本量
- 中心极限定理：只要样本量足够大，无论是什么指标，无论对应的指标分布是怎样的，样本的均值分布都会趋于正态分布
- 有个公式
流量分割
- 分流：直接将整体用户切割为几块，用户只能在一个实验中。但是这种情况很不现实
- 分层：一个用户会处于多个实验中，只要实验之间不相互影响，我们就能够无限次的切割用户。这样在保证了每个实验都能用全流量切割的同时，也保证了实验数据是置信的。
实验周期计算
- 最小样本量 / 实验桶天均流量
线上验证
数据检验
- 绝对值指标用T检验
- 相对值指标用Z检验（相对值指标是二项分布，可以通过样本量的值计算出总体的值）

4.注意事项

三、Z检验与T检验

均值对比的假设检验方法主要有Z检验和T检验：

样本数量：
- Z检验面向总体数据和大样本数据
- T检验适用于小规模抽样样本。
适用条件：
- Z检验需要总体标准差已知或样本容量大于30；
- T检验对样本量无要求，可以小样本；但分析的数据对象需要满足正态分布；且需要考虑方差齐性（若不一致需改变检验参数）。
目的：Z检验和T检验都可以比较两个样本的均值是否有显著性的差异，或比较某个总体的均值与某个常数是否有显著性的差异。
总结：T检验比Z检验的普适性更强，Z检验要求知道总体标准差，但实际研究中无法获知总体标准差，一般都会用T检验。当样本量足够大的时候，数据接近正态分布，Z检验是T检验的一个特例。

四、辛普森悖论

总体数据上得出的统计结论和分组数据上的统计结论相反
原因：数据背后的产生机制不同，数据的总体和部分在结构上呈现较大的差异（第一次测试和第二次测试），而且存在潜在变量或混杂因素的影响（男女性别变量）
如何避免：注意各组数据的权重（即各组数据在整体评价中占的比例），可以一定的系数去消除分组资料基数差异造成的影响（如对占总体少数的样本加以更高的权重，即“逆概加权”,权重为该子群体在总群体中出现的概率的倒数），同时留意是否有潜在变量的影响，仔细分析因果关系。

避免发生：在分析之前，一定要注意各组数据的权重，尽可能消除分组差异带来的影响 留意是否还有更多变量可用，从更多维度去分析因果关系发生之后：当样本量足够大，有统计意义时，以局部的信息为准，毕竟数据分析的本质就是要下钻剖析。计算的时候可以用算术平均来替代加权平均。最后用辛普森悖论的核心思想总结：简单的将分组资料相加汇总，不一定能反映真实情况。不论是工作，还是生活都是如此。