统计学大纲

Posted by Sein on July 2, 2018

在解决问题的过程中,统计学使用了很多数学工具。问题和数学工具的对应关系,就构造了统计学这门应用科学的全部内容。从使用统计学去解决现实问题的角度来说,最重要的是理论完备:明白现实问题在什么情况下是能够被解决的,都使用了哪些数学工具,不同数学工具都有什么样的使用限制。其次是实施完备:掌握实验设计、算法的使用和对结果的正确解读。但是大多数的教材都是以数理公式推导和证明为主的。主要的原因在于,推导和证明是不变的,但是解决问题的最优方法是变化的,即使是同一个数学工具,它的应用范围也会随着自身的发展而变化。所以直接对方法论下结论是容易遭受非议的。另一个原因是推导和证明实际上暗含了数学工具的限制和解释,结合现实问题可以进一步的去做分析是否使用这个数学工具。所以要准确灵活的使用统计学,必须要建立一个框架,这个框架尽可能的包括所有统计学问题,然后将各种方法论、数学工具嵌入其中,并且不断打磨、修改。

先有问题,后有解决方法,在不同时期,问题是恒定的,但是解决方法在不停的迭代,解决方法的不完善也会产生新的问题。然后问题就会被分类,每一类对应不同的解决方案。我们现在所面对的情况是:有些问题没办法解决,有些却可以,但是答案并不全是确定的。还有一些问题必须满足一定的条件才能获得答案。

首先,要有一个起点,不仅仅表征开始,也是一种限制,免得问题太广泛导致无法讨论。这个起点就是,统计学主要的研究对象是数据,一切从数据开始。

1. 数据是从哪里来的?

1. 我们现在没有数据,该怎么开始?

  • 首先要做的是确认我们想了解、研究的对象,也就是总体。
  • 2. 我们有没有可能获得总体的全部数据?

  • 答案是否定的,我们很难甚至不可能用低成本完成所有个体的观测来组建总体的数据。即使设计实验获得所有数据,也属于历史数据。在更长的时间范围内我们得到的仍然是一个样本。所以在绝大多数情况下,我们获取的只是一个样本。
  • 3. 如何获得样本?

  • 除了尽可能的完整、一致、准确,统计学对样本有两个要求,一个是无偏差,另一个是要尽量减小变异性。
  • 统计学认为通过基于随机抽样的方法获得的样本就是无偏的。
  • 样本量和变异性成反比,因此选择更大的样本就能尽量减小变异性。
  • 4. 只要基于随机抽样就能获得无偏的样本吗?

  • 任何人和组织获得数据都依赖于特定的渠道或者方法,实际上渠道和方法本来就隐含一些条件。如果狭义的将所有个体称作总体,那获得的样本肯定是有偏的。换一个思路,用指定的条件来定义总体,才可能获得统计学概念的无偏样本。不过一方面要小心定义条件,另一方面要理解通过数据获得的推论是有适用条件的。
  • 5. 统计学对样本的定义,有什么意义吗?

  • 按照统计学的要求,样本实质上是一个随机变量序列,而依据概率论,随机变量的序列是存在极限性质的,这种极限性质有两个表述,一个是大数定理,另一个是中心极限定理
  • 大数定理中心极限定理是统计推断的理论依据,也就是说满足样本定义的数据,才能使用统计推断的方法。
  • 6. 当我已经获取数据,我如何确定数据是否满足统计学对样本的要求?

  • 当我们获取数据之后,首先要通过获取数据的渠道来确定总体的定义,即总体的限制条件。另外需要关注的是“人”这个因素,渠道有人工参与或者总体包含人的因素时限制条件也在不断的变化。一旦估计错误,样本就是有偏的。
  • 还需要注意的是,在很多数情况下,我们拿到的数据并非是一个单独的样本,而是一个样本集,按照样本之间的关系,可以分为独立样本和相关样本,相关样本主要包括一般相关样本和配对相关样本。
  • 一般相关样本是对相同对象不同角度的观测,配对相关样本是对相同对象不同时间或状态维度,同样角度的观测(也包括双生子实验),独立样本是对不同对象相同角度的观测(不同对象不同角度的观测没有比较的意义)。不同的样本关系来源于不同的实验设计,也对应不同的统计方法。

  • 2. 从样本数据中,我们能得到什么?

    在回答这个问题之前,要先做一件事,就是确认数据类型。不论是一组数值还是像DataFrame的数据表。这里使用一个简单的分类即数值型分类型。之所以先进行分类是因为数值型的数据拥有更多的信息,也是统计学关注的主要对象。

    描述性统计涉及概括和描述数据集,是统计学主要的应用场景,现在更多的被称为探索性数据分析(EDA)

    1. 样本量很少的时候很容易看明白,数据多起来就不行,怎么办?

  • 实际上,我们很难通过肉眼观察来理解样本,尤其在样本量很多的情况。要想在样本上施加我们的理解和洞察必须对样本进行抽象。当然在抽象过程中会造成信息损失,不同抽象方法损失的情况也不同。
  • 对于数值型样本,统计学沿用数学的表达:
  • 一阶矩:位置
  • 二阶矩:变异性
  • 三阶矩:偏度
  • 四阶矩:峰度
  • 这些度量表达能力有限,主要的作用是构建统计学公式和方法,尤其是位置和变异性
  • 位置和变异性都有多种计算方法,区别在于是否对离群值敏感。因此对应的公式和方法也会继承这种特性
  • 离群值的识别和处理是统计学中比较棘手的问题,虽然有一些判别的方法,但是还需要根据分析需求做取舍
  • 变异性是统计学的核心概念,统计学关注如何测量变异性,如何降低变异性,如何识别真实变异性中的随机性,如何识别真实变异性的各种来源,以及如何在存在变异性的情况下做出决策
  • 对于分类型样本通常使用众数和期望
  • 2. 用几个数字代表样本太抽象,很难理解,有没有其他的方法?

  • 我们经常使用数据绘制图表,一图胜千言。对于数值型样本,直方图、箱线图非常有用;对于分类型样本,会使用条形图和饼图,但是都属于误导性图,要谨慎使用
  • 直方图需要合适的间距,并且不能反应频数较低的类别,对应的,箱线图能很好的显示离群值
  • 图表最大的优点是容易理解,但是,上述的这些简单图表,只能反应样本自身的分布。如果两个样本的规模不同(即使相关样本,也可能存在缺失值的问题),就不能互相比较
  • 3. 是否有其他方法能突破图表的限制?

  • 答案是肯定的,我们还能够通过数据的分布来解决样本规模不同的问题
  • 简单的方法是绘制概率质量函数(PMF),但是只适用于样本规模较小的情况,当样本规模增大,分析结果会受随机噪音的影响而不准确
  • 更好的办法是绘制累计分布函数(CDF),CDF消除了PMF的缺点,而且方便百分位秩的计算。CDF被认为是展现样本分布的最优方法
  • 4. 获得数据的分布之后能做什么?

  • 我们通过观察样本得到的分布称为经验分布,在经验分布的基础上能够使用各种分析分布进行建模。常用的分析包括指数分布、泊松分布、正态分布、对数正态分布等
  • 分析分布是一种数据压缩形式,会忽略掉一些细节和特征。大多数情况下,经验分布可能会有一部分拟合某个分析分布,另一部分不能完全拟合,甚至更复杂,需要通过分析目的进行取舍
  • 使用分布分析的原因有两个:首先,分布分析只需要几个参数就能对数据进行概括,也很容易进行数学分析;其次,分析分布一般都对应某类自然现象或物理系统,可以对观测分布的形成做出解释
  • 5. 如何判断经验分布符合某一分析分布

  • 对于指数分布、泊松分布,可以绘制CDF补函数(CCDF),其结果是一条直线,然后和经验分布的CCDF比较,就能得到直观的结果
  • 对于正态分布,方法是绘制正态概率图,如果经验分布服从正在分布,结果也是一条直线,概率图也可用用来判断其他分布。类似的方法还有正态QQ图
  • 在实际应用中,如果需要一个量化的结果,卡方检验是最为有效的方法,在统计上,这一过程称为拟合优度检验
  • 6. 样本之间有什么联系?

  • 对于两个独立样本,我们通常会设计统计实验,使得产生数据的环境可控,之后可以直接对比样本的CDF(例如A/B检验)
  • 同样,对于两个配对相关样本也能直接对比CDF
  • 对于两个一般相关样本,由于观测的角度不同,各样本之间对应的总体也不同,不能直接比较样本分布:
  • 如果两个样本都是分类型的,可以使用独立性检验来验证样本间是否相关
  • 如果两个样本中,有一个是分类型,另一个是数值型,更多的时候需要分析在不同类别下,数值型样本子集之间的差异(类似于独立样本)
  • 如果两个样本都是数值型的,我们能够计算出相关系数,用来表征相关关系。但是相关系数的含义太抽象。
  • 7. 样本之间的关系,除了直接比较分布,能不能也用图表表示?

  • 当然可以,在探索性数据分析中,有许多相关矩阵和图表用来描述样本间的关系:
  • 两个数值型变量(六边形图和等势线)
  • 两个分类变量(列联表)
  • 一个分类型变量和一个数值型变量(小提琴图)
  • 用绘图的方式分析两个以上的变量并不直观,但是我们可以通过增加条件变量(可以是分类型,也可以是离散化的数值型)扩展到多变量分析

  • 3. 通过探索样本,我们能获得分布,发现一些现象或者趋势,然后怎么办?

    从样本中探索的现象是有意义的,即使来源于样本,也是客观存在的事实,但是,这些客观存在或者影响范围有限,或者已经成为过去。统计学主要的应用场景,就是利用样本对总体做推断,并且度量推断的可靠性。统计推断主要包括三类:点估计、区间估计、假设检验

    1. 通过样本计算的统计量和分布,是不是和总体有某种联系?

  • 通过已知样本的分布我们是没法办法直接获取总体的分布,但是通过一些方法和假设,我们能够得到总体的估计
  • 假设我们已知总体的分布类型,但不知道具体参数(即已知总体的概率密度函数,未知函数的参数),那么根据样本参数是可以估计总体分布参数的。可用的方法包括矩估计、最小二乘法、最大似然法、最大后验估计。这类方法在统计学中称为参数估计,获得的结果是一个数值,因此称作总体参数的点估计
  • 常用用于估计的参数包括:均值、标准差(正态分布族)、成功概率(伯努利分布族)
  • 参数估计的方法在统计学中产生了分歧,也派生了频率学派和贝叶斯学派(最大后验估计就是贝叶斯学派的方法)
  • 总体分布的概率密度函数是我们假设的,假设的依据是对总体的经验估计。但是现实中的情况要复杂的多,首先总体的分布不一定会完全总服从统计学中的典型分布。其次对于多峰分布的情况,是无法假设概率密度函数的
  • 2. 既然有这么多估计方法,在解决实际问题的时候,选哪种?

  • 矩估计使用简单,并且几乎每次都能求出估计值,虽然结果未必优秀,但还会在其他方法不易实施的时候使用
  • 最大似然法是最为流行的求估计量方法
  • 统计学通过估计方法的总体性能来选择。总体性能包括:无偏性、均方误差最小、一致性、鲁棒性等
  • 3. 已经获得总体参数的估计,如何判断估计值是否有效呢(即估计值和总体的参数值到底有多少偏差)?

  • 实际上,我们没有直接的办法判断估计值是否有效,也就是说即使我们能够对点估计的结果作出评估,但是没有任何方法能度量估计值和总体参数的关系。要想解决这个问题,我们需要一个完全不同于点估计的新方法
  • 统计学给出的方法是:定义一个置信度,计算出估计值的一个范围(置信区间),得出在一定概率下置信区间会包含总体参数值。这种方法称作区间估计
  • 实际上我们也无法评估置信区间是否有效,也就是说区间估计并不是一个直接解决问题的方法。但是通过给定一个概率前提,获得对应结论,当概率足够高,我们就能够间接的解决问题
  • 在实际计算中,如果样本容量小于30,或者总体的均值和标准差都是未知的,计算置信区间就需要引入t分布,而t分布的前提是总体服从正态分布。这就导致了很多情况下,区间估计对总体分布是有要求的。另一方面即使总体不满足正态分布,区间估计的结果仍然能被接受
  • 值得注意的是,样本容量越大区间估计的精度越高,更高的置信度会降低精度
  • 4. 区间估计除了能预估总体分布的参数之外还能做什么?

  • 区间估计提供了联系样本和总的方法,除了预估总体的均值、标准差、成功概率,还能实现独立样本(假设总体服从正态分布)总体均值差的区间估计,或者配对相关样本总体比例差的区间估计
  • 实际上,还有很多参数按照参数估计的方法是无法给出估计的,比如中位数、相关系数等
  • 5. 如果总体分布是未知的,是不是就没有办法对总体做出估计了?

  • 总体分布未知,也存在满足使用参数估计方法的可能。统计学提供多种判断方法,包括符号检验、K-S检验、游程检验
  • 6. 如果经过判断,完全不能对总体做出任何假设,那如何估计总体?

  • 统计学还提供非参数估计方法,使用样本来推断总体分布。可用的方法包括直方图密度估计、k近邻估计、核密度估计(Parzen窗估计)
  • 构造区间估计,当前更流行得非参数方法是自助法。不同于其他方法,自助法能直接构建统计量的抽样经验分布。因此对统计量的选取没有限制
  • 7. 既然有这么多方法实现区间估计,那究竟那种方法更好?

  • 区间估计精度最高,但是限制也很多
  • 基于秩的非参数方法适用性好,但是精度低
  • 自助法作为非参数方法,适用性好,在小样本下精度高于区间估计,大样本下精度略低
  • 8. 根据大数定理,如果样本容量超过一个规模,是否就不用参数估计,而是以样本参数作为总体参数的近似呢?

  • 首先要声名的是即使数据本身很多,我们关注的样本容量不一定足够大,一方面我们观察的样本可能发生的概率很小,另一方面数据可能需要分类处理
  • 当样本确实已经超过一个规模,我们实际上认为样本参数近似总体参数,问题是如何界定这个规模。如果总体规模是一个确定的值,那么这个样本规模是可以计算的,但是如果总体理论上是无限的,那就很难估计这个规模是多少
  • 9. 从样本中观察到的现象,是不是一定会在总体中出现?

  • 答案是否定的,样本的获取是随机的,也就是说从样本中观察到的现象,有可能是一种巧合
  • 统计学提供的方法是假设检验。通过否定总体特征的定量的断言(原假设),即证明在样本中,原假设为真是小概率事件。由此推导出原假设的对立(备择假设)为真。其中,p值是统计显著性的依据
  • 根据备择假设的设计方法,假设检验的验证过程分为单尾检验(备择假设为检验统计量大于或小于某个值)和双尾检验(备择假设为检验统计量不等于某个值)
  • 根据样本间的关系,通常假设检验的设计包括:
  • 对于单个样本,可以进行单尾/双尾检验,检验统计量是样本的均值
  • 对于两个独立样本,习惯性的使用单尾检验,检验统计量是均值的差,另外要求独立样本对应的两个总体方差相同
  • 对于配对相关样本,首先要对两个样本逐项做差,产生新的样本,可以进行单尾/双尾检验,备择假设为新样本的均值和0的关系
  • 10. 如何评估假设检验的结果是否合理(也就是说满足什么条件,才能认为样本中的现象也会在总体中出现)?

  • 统计学的解释是:如果p值小于阈值α,那么我们可以说效应在统计学上是显著的
  • 要特别注意的是,统计学上是显著的,并不意味着总体也存在类似现象,因为有可能出现第一类错误和第二类错误
  • 同时降低两类错误的唯一方法是增加样本规模,当然我们也能够通过设置一个合理的阈值来权衡两类错误,但是在实际使用的时候很难实现(实际使用的时候更多默认为p值越小结果越可信)
  • 在实际分析场景里,对同一数据的检验越多,就越容易受到随机性的影响。可以使用统计校正,但是有效性不好评估
  • 11. 假设检验的检验统计量只能基于均值吗?

  • 假设检验一般选用均值或均值差作为检验统计量,原因是均值的鲁棒性优于方差
  • 但是如果是分类型样本,无法得出均值,就没办法使用参数假设检验方法
  • 对于涉及比例的检验,统计量可以是比例或比例的差值
  • 12. 假设检验有哪些非参数方法?

  • 答案是肯定的。非参数检验随着统计学的发展也在进行方法迭代,传统的非参数方法放弃对数值的关注而只基于秩,会失去大量的可用信息,从而影响检验效能
  • 基于秩的非参数检验方法,按照样本的关系主要分为:
  • 对于单个样本,有卡方检验(检验比例)、二项分布检验、单样本K-S检验、单样本Wilcoxon检验、游程检验
  • 对于两个独立样本,有Mann-Whitney U检验、K-S检验、W-W游程检验等方法
  • 对于两个配对样本,有McNemar检验、Wilcoxon符号秩检验、符号检验等方法
  • 13. 更为主流的非参数检验方法是什么?

  • 置换检验是一种适用性广泛的推断方法
  • 置换检验需要有两个及以上样本才能进行,单个样本情况通过自助法推断(配对相关样本处理方法类似)
  • 置换检验也有p值,并且更容易理解,即比观测结果更极端的结果的频率
  • 置换检验能够推广到多个总体的检验
  • 14. 我们能够对两个样本进行假设检验,当我有多组样本的时候,是不是只要两两处理就行了?

  • 答案是否定的,最主要的原因是对数据进行大量的假设检验会增高第一类错误的发生机率,即多重检验问题。统计学的解决方法是方差分析
  • 对于分类型数据可以使用卡法检验,要注意频数小于5的时候需要合并分组
  • 方差分析和卡方检验只能判断多组样本对应的总体的均值是否相等
  • 15. 要是判断哪一组总体均值和其他组样本不同该怎么做?

  • 统计学将这类问题称作多重比较方法,比较主流的是费舍尔LSD方法
  • 多重比较方法在使用中需要修正第一类错误的概率,常用的有Bonferroni方法、Tukey方法、Duncan多重比较方法