现代心理与教育统计学

二、相关系数

字体:16+-

相关系数(coefficient of correlation)是两列变量间相关程度的数字表现形式,或者说是用来表示相关关系强度的指标。作为样本间相互关系程度的统计特征数,常用r表示,作为总体参数,一般用ρ表示,并且是就线性相关而言。相关系数与、s一样,也是应用比较广泛的一个有代表性的统计量。下面的表达式描述了相关系数的取值情况:

-1.00≤r≤1.00

上式表明:

1.相关系数r的取值范围介于-1.00至+1.00之间,它是一个比率,常用小数形式表示。

2.相关系数的“+、-”(正、负)号表示双变量数列之间相关的方向,正值表示正相关,负值表示负相关。

3.相关系数r=+1.00时表示完全正相关,r=-1.00时表示完全负相关,这二者都是完全相关。r=0时表示完全独立,也就是零相关,即无任何相关性。

4.相关系数取值的大小表示相关的强弱程度。如果相关系数的绝对值在1.00与0之间,则表示不同程度的相关。绝对值接近1.00端,一般为相关程度密切,接近0值端一般为关系不够密切。

在对最后一点做具体判定时,尚须考虑计算相关系数时样本量的大小。如果样本量较小时,受取样偶然因素的影响较大,很可能本来无关的两类事物,却计算出较大的相关系数。例如,欲研究身高与学习有无关系,如果只选3~5个人,很可能遇到个子愈高学习愈好这一类偶然现象。这时计算出的相关系数虽然可能接近1.00,但实际上这两类现象之间并无关系。因此,在判定相关是否密切时,要把样本量大小与相关系数取值大小综合起来考虑,一般要经过统计检验方能确定变量之间是否存在显著的相关。另外,若是非线性相关关系,而用直线相关计算r值可能很小,但不能说两变量关系不密切。

对相关及其相关系数概念的理解,可以根据数据等级之间的一致性加以进一步说明。假设五个儿童做了A、B、C、D四种测验,把五个儿童在测验A的成绩分数按高低排序,并列出相应的B、C、D三个测验的分数,结果见表5-1:

表5-1 五名学生四种测验的分数

然后,把五个儿童B、C、D的测验分数也按高低排序,用直线把每个学生的A与B、A与C、A与D 测验分数分别连接,产生图5-1:

图5-1 利用数据等级一致性说明相关关系的图解

从图5-1可以看到,成对分数之间的连接线越接近平行线,正相关值越高;连接线越能相交在一点,负相关值就越大。当连接线交叉点越多时,表明相关值越接近于零。图5-1只是完全正相关、完全负相关和近似零相关的示例。在心理和教育科学研究,以及行为科学研究中,完全正、负相关极其罕见,实际得到的r值绝大多数落于+1和-1之间的某一点上。