数据科学与统计学

Posted by Sein on August 24, 2018

提到数据科学,不能不提一篇论文,2015年9,David Donoho在普林斯顿大学John Tukey百年纪念大会上发表,名为《50 years of Data Science》。讨论数据科学的各个方面。在论文中,对数据科学做了如下定义:Data Science is the science of learning from data; it studies the methods involved in the analysis and processing of data and proposes technology to improve methods in an evidence-based manner.

Donoho认为数据科学和统计学有所交叉,数据科学重视从数据中学习,对数据的描述和理解被称为探索性数据分析(EDA),但是数据科学对统计推断的有效性和实用性保持怀疑态度,并认为通过经验方法严格测量绩效,获得的预测结果更加可信。这种通过经验方法实验的做法称作共同任务框架 The Common Task Framework(CTF)。CTF也是机器学习建模的标准方法。

统计学和数据科学在实验中最大的区别是:统计学更关注结论的统计显著性,数据科学关注是否能找到最佳的处理方案

因此,数据科学对统计方法提出了很多异议,并给出自己的解决方案:

1、数据科学即使在拥有大量数据的情况下,仍然关注抽样,因为和现有数据相比,随机抽样可以减小偏差,并生成高质量的数据集。抽样方法和分布能帮助我们量化随机变异性导致的潜在误差。

2、数据科学只关注获取样本的抽样方法和样本本身,但是当总体是由可建模的物理过程生成的,理解总体的生成过程对分析、建模会有积极的作用。

3、中心极限定理是区间估计和假设检验的底层机制,但是在数据科学中,任意场景都能使用自助法,很少正式的使用区间估计和假设检验,因此对中心极限定理关注的较少。

4、对于数据科学,置信区间是一种了解样本结果可能的变化情况的工具。更多的作用是了解某个估计量的潜在误差情况,并确定是否需要更大的样本。

5、对正态分布的关注源于很多统计量在抽样分布中是正态分布的,大多数原始数据不符合正态分布。数据科学中优先考虑的是经验概率分布和自助法,如果都不可用,才考虑正态性假设。因为假设数据符合正太分布,可能导致对极端事件的错误估计(长尾分布)。

6、对于显著性检验,统计学采用的方法是基于定义的假设检验。数据科学使用置换检验计算p值。数据科学更多的是将p值作为一种可以辅助决策的信息。比如通过p值决定一个特征应该包含在模型中还是剔除。

7、对一个统计实验的结果提出的假设越多,获得某个假设显著性验证结论的可能越大。统计学提出校正的方法处理此类问题;数据科学面对的问题更复杂,属于多重比较问题。对于预测建模,可以通过交叉验证和使用验证集降低得到虚假模型的风险。对于非监督模型必须应意识到对数据的查询和操作越多,随机性可能发挥的作用就更大。另外可以使用重抽样和模拟等启发式方法,为随机性提供基准测试。这样就可以将观察到的结果与基准测试进行比较。

8、在数据科学中,同假设检验一样,方差分析、卡方检验也不作为显著性检验方法,而是将此类方法作为一种过滤器,用来确定某个效应或特征是否值得进一步考虑。

9、无论是A/B测试,还是A/B/C……测试,数据科学的实验目标并不是要简单地确定统计显著性,而是要给出最佳的处理。因此,更多的使用多臂老虎机算法

10、回归是建立多个预测变量与一个结果变量之间关系的过程。统计学的重点在于发现对观测数据的良好拟合,以解释或描述一些现象。使用“样本内”的度量去评估一个模型。数据科学的目标通常是预测新数据的值,因此使用的是基于对“样本外”数据预测准确性的度量。采用变量选择方法来降维,创建更高效的模型。

11、统计学的最新进展均致力于为回归和分类提供更强大的自动预测建模技术。这些方法都属于统计机器学习。不同于经典的统计方法,统计机器学习是数据驱动的,并不试图在数据上强加线性结构或其他的整体结构。机器学习和统计学在预测建模上并不存在一条明确的分界线。机器学习更关注如何开发可扩展到大规模数据上的高效算法,以便于优化预测模型。统计学更关注的是概率理论和模型的底层结构。例如:Bagging算法和随机森林方法完全是从统计学领域发展出来的。而Boosting方法是从这两个学科中发展起来的,只是在机器学习一方得到了更多的关注。