统计显著性 :
当研究结果由随机因素引起是一种小概率事件,从而认为其可能是由系统性操纵引起。要确定一个所观察结果是统计显著的,需要运用统计显著性检验,又称零假设显著性检验或假设检验。研究者需要事先设定一个显著性水平,即α。α水平是在零假设为真时拒绝零假设的概率,或错误拒绝零假设所承担的风险。然后,研究者需要从总体中抽取一个样本。从这个样本中获得的某一观察结果总有可能是由抽样误差引起的。因此,研究者需要计算所获结果的p值。p值指当零假设为真时所获结果或更极端结果出现的概率。当p<α时,这个结果在统计学上是显著的,或具有统计显著性意义。显著性水平需在数据收集开始前就设定,一般定为5%。根据研究领域或问题不同,也可以设定更高或更低的水平。统计显著性检验不能用来评价样本对总体的代表性,只能回答如果样本代表总体,那么所获结果的可能性有多大。
18世纪,英国学者J.阿巴思诺特和法国学者P.-S.拉普拉斯分别运用统计显著性检验计算男女出生比率是否存在差异。英国统计学家R.费希尔是这种方法的主要推动者,他在《科研工作者用统计学方法》(1925)一书中称其为显著性检验,并建议0.05为拒绝零假设的临界值(他后来又建议α水平要根据具体情境设定,而不是固定为0.05)。1933年,波兰统计学家J.内曼和英国统计学家E.皮尔逊提出显著性水平的概念,用α表示,并建议α值在数据收集开始前就要设定好。
统计显著性并不表明变量之间的关系就一定是重要的,它只是表明在统计学上是重要的。因此,有必要区分统计显著性和实际显著性。实际显著性指变量之间确实存在显著性关系,研究者的目的也是发现这种显著性。例如,有研究者发现,在20世纪80年代的非洲地区,家庭是否有电视与感染艾滋病存在显著负相关,即具有统计显著性。但显然,这种关系并不具有太大的实际意义,因为电视并不会导致艾滋病。为了测量一项研究的实际显著性,研究者引入了效应量和可重复性的概念。
鉴于以上情况,研究者开始质疑零假设检验的滥用问题。有些学术期刊甚至禁止使用这种方法,而推荐使用其他方法(如基于贝叶斯统计的置信区间)来作统计推断。也有研究者建议,为了减少第一类错误及增加研究的可重复性,应把α值从0.05改为0.005。