一、假设检验

假设检验(hypothesis testing)是指从对总体参数所做的一个假设开始,然后搜集样本数据,计算出样本统计量,进而运用这些数据测定假设的总体参数在多大程度上是可靠的,并做出承认还是拒绝该假设的判断。

如果进行假设检验时总体的分布形式已知,需要对总体的未知参数进行假设检验,称其为参数假设检验;若对总体分布形式所知甚少,需要对未知分布函数的形式及其他特征进行假设检验,通常称之为非参数假设检验。此外,根据研究者感兴趣的备择假设的内容不同,假设检验还可分为单侧检验(单尾检验)和双侧检验(双尾检验),而单侧检验又分为左侧检验和右侧检验。

假设检验的基本思想是反证法思想(逻辑上)小概率事件原理(统计上)。反证法的思想是首先提出假设(由于未经检验是否成立,所以称为零假设、原假设或无效假设),然后用适当的统计方法确定假设成立的可能性大小,如果可能性小,则认为假设不成立,拒绝它;如果可能性大,还不能认为它不成立。小概率事件原理,是指小概率事件在一次随机试验中几乎不可能发生,小概率事件发生的概率一般称之为“显著性水平”或“检验水平”,用\(\alpha\),而概率小于多少算小概率是相对的,在进行统计分析时要事先规定,通常取\(\alpha\) = 0.01、0.05、0.10等。

一项检验结果在统计上是“显著的”,意思是指样本和总体之间的差别不是由于抽样误差或偶然而造成的。

常用的假设检验方法有Z检验、T检验、卡方检验、F检验等

第一类错误&第二类错误:

image-20230128201117888

二、AB-test

AB-test是为同一个目标制定两个方案,在同一时间维度,分别让组成成分相同(相似)的用户群组随机的使用一个方案,收集各群组的用户体验数据和业务数据,最后根据显著性检验分析评估出最好版本正式采用。

1.适用场景

2.原理

3.流程

image-20230219214701062
  • 选取指标

  • 建立假设

  • 选取实验单位

    • 用户粒度/设备粒度/行为粒度
  • 计算样本量

    • 中心极限定理:只要样本量足够大,无论是什么指标,无论对应的指标分布是怎样的,样本的均值分布都会趋于正态分布
    • 有个公式
  • 流量分割

    • 分流:直接将整体用户切割为几块,用户只能在一个实验中。但是这种情况很不现实

    • 分层:一个用户会处于多个实验中,只要实验之间不相互影响,我们就能够无限次的切割用户。这样在保证了每个实验都能用全流量切割的同时,也保证了实验数据是置信的。

      image-20230219213922886
  • 实验周期计算

    • 最小样本量 / 实验桶天均流量
  • 线上验证

  • 数据检验

    image-20230219214610725

    • 绝对值指标用T检验
    • 相对值指标用Z检验(相对值指标是二项分布,可以通过样本量的值计算出总体的值)

4.注意事项

三、Z检验与T检验

均值对比的假设检验方法主要有Z检验和T检验:

  • 样本数量:
    • Z检验面向总体数据和大样本数据
    • T检验适用于小规模抽样样本。
  • 适用条件:
    • Z检验需要总体标准差已知或样本容量大于30;
    • T检验对样本量无要求,可以小样本;但分析的数据对象需要满足正态分布;且需要考虑方差齐性(若不一致需改变检验参数)。
  • 目的:Z检验和T检验都可以比较两个样本的均值是否有显著性的差异,或比较某个总体的均值与某个常数是否有显著性的差异。
  • 总结:T检验比Z检验的普适性更强,Z检验要求知道总体标准差,但实际研究中无法获知总体标准差,一般都会用T检验。当样本量足够大的时候,数据接近正态分布,Z检验是T检验的一个特例。

四、辛普森悖论

  • 总体数据上得出的统计结论和分组数据上的统计结论相反
  • 原因:数据背后的产生机制不同,数据的总体和部分在结构上呈现较大的差异(第一次测试和第二次测试),而且存在潜在变量或混杂因素的影响(男女性别变量)
  • 如何避免:注意各组数据的权重(即各组数据在整体评价中占的比例),可以一定的系数去消除分组资料基数差异造成的影响(如对占总体少数的样本加以更高的权重,即“逆概加权”,权重为该子群体在总群体中出现的概率的倒数),同时留意是否有潜在变量的影响,仔细分析因果关系。

避免发生: 在分析之前,一定要注意各组数据的权重,尽可能消除分组差异带来的影响 留意是否还有更多变量可用,从更多维度去分析因果关系 发生之后: 当样本量足够大,有统计意义时,以局部的信息为准,毕竟数据分析的本质就是要下钻剖析。 计算的时候可以用算术平均来替代加权平均。 最后用辛普森悖论的核心思想总结:简单的将分组资料相加汇总,不一定能反映真实情况。不论是工作,还是生活都是如此。