P值已死?统计假设检验的简介
2018年05月14日 由 yuxiangyu 发表
426689
0
我们可以通过假定具体结构来解释数据,并使用统计方法来确认或否定假设。这种假定被称为假设(hypothesis),用于此目的的统计检验被称为统计假设检验(statistical hypothesis tests)。
当我们想要声明数据的分布或者一组结果是否与应用机器学习中的另一组结果不同,我们必须依靠统计假设检验。
在本教程中,你将了解统计假设检验以及如何解释和仔细说明统计检验的结果。
完成本教程后,你将知道:
- 统计假设检验对于量化关于数据样本问题的答案很重要。
- 统计假设检验的解释需要正确理解p值和临界值。
- 无论显著性水平如何,假设检验的结果仍可能包含错误。
让我们开始吧。
教程概述
本教程分为3个部分, 他们是:
- 统计假设检验
- 统计检验解释
- 统计检验中的错误
统计假设检验
在这里,我们感兴趣的不是数据本身,而是对数据的解释。
在统计数据中,当我们希望开始询问有关数据的问题并解释结果时,我们使用统计方法来提供有关答案的信心或可能性。一般来说,这类方法被称为统计假设检验或显著性检验。
术语“
假设 ”可能会让你思考科学,我们在这里研究假设。在统计学中,假设检验在给定假设下计算一些数量。检验的结果使我们能够解释这个假设是否成立。
我们将在机器学习中使用的两个具体示例是:
- 假设数据具有正常分布的检验。
- 假设两个样本来自相同的基础人口分布的检验。
统计检验的假设被称为零假设或假设0(简称H0)。它通常被称为默认假设,或者没有任何变化的假设。
违反检验的假设通常被称为第一个假设,简称假设1或H1。因为我们知道的是证据表明H0可以被否定,所以H1是“
其他假设 ” 的简称。
- 假设0(H0):检验的假设成立,并在某个重要程度上被接受。
- 假设1(H1):假设检验不成立,并在一定程度上驳回。
在我们接受或拒绝零假设之前,我们必须解释检验的结果。
统计检验的解释
统计假设检验的结果必须解释为我们开始提出请求。
对于初学者和经验丰富的从业者来说,这可能会引起很多混淆。
统计假设检验的结果可能有两种常见形式,而且必须以不同的方式进行解释。它们是p值(假定值)和临界值。
解释p值
我们通过解释p值来描述统计学显著性的发现。
例如,我们可能会发现对数据样本执行正态性检验,发现数据样本偏离高斯分布的可能性不大,从而有效地接受了零假设。检验结果在选定的统计显著性水平上被接受,我们可以在描述结果时使用。
统计假设检验可能会返回一个称为p或p值。这是一个量,我们可以用来解释或量化检验的结果,并接受或拒绝零假设。这是通过将p值与预先选择的称为显著性水平的阈值进行比较来完成的。
在显著性水平通常是由希腊小写字母组成,简称。
用于alpha的常见值是5%或0.05。较小的alpha值表明对零假设的接受度更强,例如1%或0.1%。
将p值与预先选择的alpha值进行比较。当p值小于alpha时,结果具有统计显著性。这意味着检测到变化:默认假设可以被拒绝。
- 如果p值> alpha:接受零假设。
- 如果p值< alpha:不接受零假设。
例如,如果我们正在执行一个数据样本是否正常的检验,并且我们计算了一个0.07的p值,我们可以这样说:
检验发现数据样本是正常的,接受5%显著性水平的零假设。
可以通过从1中减去显著性水平来反转显著性水平,以给出观察到的样本数据的假设的置信水平。
confidence level = 1 - significance level
因此,也可以使用以下语句:
检验发现数据是正常的,接受95%置信水平的零假设。
常见的p值错误解释
本节重点介绍统计检验结果中对p值的一些常见误解。
真假零假设
p值的解释并不意味着零假设是真或假。
这意味着我们选择接受或拒绝基于经验证据和选择的统计检验的特定统计显著性水平的无效假设。
仅限于提出概率主张,而不是简单的二元或关于结果的真假请求。
p值作为概率
一个常见的误解是,p值是给定数据时零假设为真或假的概率。
概率上可以写成如下:
Pr(hypothesis | data)
这是不正确的。
相反,p值可以被认为是嵌入在统计测试中的给定预定假设的数据的概率。
再次,使用概率符号,这将被写为:
Pr(data | hypothesis)
它使我们能够推断数据是否符合假设。而不是相反。
如果零假设为真,则p值是衡量数据样本可能被观察的可能性的度量。
调优
这并不意味着你可以重新取样你的域名或调整你的数据样本并重新运行统计测试,直到你达到预期结果。
这也并不意味着你可以在运行测试后选择你的p值。
这就是所谓的p-hacking,意味着你所呈现的结果将是脆弱的,并不具有代表性。在科学方面,这甚至会有欺诈性。
解释临界值
有些测试不会返回p值。
相反,他们可能会返回一个临界值列表及其相关的显著性水平,以及一个测试统计量。
这些通常是非参数或无分布的统计假设检验。
返回p值或临界值列表的选择实际上是一种实现选择。
结果以相似的方式解释。不是将单个p值与预先指定的显著性水平进行比较,而是将检验统计量与选定显著性水平的临界值进行比较。
- 如果检验统计量<临界值:接受零假设。
- 如果检验统计量> =临界值:拒绝零假设。
再次,结果的含义是相似的,因为所选择的显著性水平是接受或拒绝给定数据的基本假设的概率决定。
结果以与p值相同的方式呈现,如显著性水平或置信水平。例如,如果计算正态性检验,并将检验统计量与5%显著性水平的临界值进行比较,则可以将结果表述为:
测试发现数据样本是正常的,接受5%显著性水平的零假设。
要么:
测试发现数据是正常的,接受95%置信水平的零假设。
统计测试中的错误
统计假设检验的解释是概率性的。
这意味着测试的证据可能表明结果并且是错误的。
例如,如果alpha为5%,则表明20(最多)1次,由于数据样本中的统计噪声,零假设将被错误地接受或拒绝。
给定高p值,这可能意味着零假设是真实的(我们说得对)或者零假设是假的,并且发生了一些不太可能的事件(我们犯了一个错误)。如果出现这种类型的错误,则称为误报。我们错误地相信统计检验的零假设或假设。
或者,低p值或者意味着虚假设假(我们说得对)或者是真的,并且观察到了一些罕见且不太可能的事件(我们犯了一个错误)。如果发生这种类型的错误,则称其为错误否定。我们错误地认为拒绝零假设。
这两类错误中的每一种都有一个特定的名称。
- I型错误:错误地拒绝了真正的虚假设或错误肯定。
- II型错误:错误接受假虚假设或错误否定。
所有的统计假设检验都有可能产生这些类型的错误。虚假的发现或虚假的混乱是可能的; 他们很可能。
理想情况下,我们要选择一个显著性水平,以尽量减少这些错误之一的可能性。例如一个非常小的重要程度。虽然0.05和0.01等显著性水平在许多科学领域中很常见,但更难攻击的科学,比如物理学。
通常使用(3 * 10)^ - 7即0.0000003的显著性水平,通常称为 5-sigma。这意味着这一发现是由于350万个独立重复实验中的概率为1。要使用这样的阈值可能需要大量的数据样本。
尽管如此,这些类型的错误总是存在的,在展示和解释统计测试结果时必须牢记在心。这也是为什么重要的是独立验证发现的原因。
总结
在本教程中,你会了解统计假设测试以及如何解释和仔细说明统计测试的结果。
具体来说,你了解到:
- 统计假设检验对于量化关于数据样本问题的答案很重要。
- 统计假设检验的解释需要正确理解p值。
- 无论显著性水平如何,假设检验的结果仍可能包含错误。