现代心理与教育统计学

一、点二列相关

字体:16+-

(一)适用资料

通常,有些变量的测量结果只有两种类别(dichotomy),如男性与女性、房东与房客、成功与失败、及格与不及格、是与否、生与死、已婚与未婚等等。这种按事物的某一性质划分的只有两类结果的变量,称为二分变量(dichotomous variable)。二分变量又分为真正的二分变量(true dichotomy)和人为的二分变量(artificial dichotomy)两种。真正的二分变量也称为离散型二分变量,前面的例子都是离散型二分变量。所谓人为的二分变量,是指该变量本来是一个连续型的测量数据,两种结果之间本来是一个连续统一体,但被某种人为规定的标准划分为两个类别。在这种情况下,一个测量结果很明显地要么属于这个类别,要么属于另一个类别,两种类别之间一般也不会被看做是连续的。有时一个变量是双峰分布,也可划分为二分称名变量,如文盲与非文盲,可规定一个界限,文盲指识字极少的人,其余的人为非文盲,就识字量来说可能形成双峰分布形态。

如果两列变量中有一列为等距或等比测量数据,而且其总体分布为正态,另一列变量是二分称名变量,此时,给“二分”变量的一系列观测值,即两种变化结果赋予对应的数字,如1、0,就得到一个“二分”数列,另一个连续变量的一系列观测值就是一个点数列。如果一个点数列中的点与一个“二分”数列中的点存在一一对应的关系,则称这两个数列为点二列。点二列相关法(point-biserial correlation)就是考察两列观测值一个为连续变量(点数据),另一个为“二分”称名变量( 二分型数据)之间相关程度的统计方法。

点二列相关多用于评价由是非类测验题目组成的测验的内部一致性等问题。是非类测验题每题的得分只有两种结果:答对得分,答错不得分,每一题目的“对”、“错”就成为二分称名变量,而整个测验的总分是一列等距或等比性质的连续变量,要计算每一题目与总分的相关(称为每一题目的区分度),就需应用点二列相关方法。

(二)公式及计算

计算点二列相关的公式是:

p与q是二分称名变量两个值各自所占的比率,p+q=1;

st是连续变量的标准差。

点二列相关系数的取值在-1.00至1.00之间。相关越高,绝对值越接近1.00。

【例5-9】 有一是非式选择测验,每题选对得 2分,共有 50题,满分100分。表5-14是20名学生在该测验中的总成绩及第5题的选答情况。问这道题与测验总分的相关程度如何?

表5-14 点二列相关计算数据

解:已知N=20,第五题答对的10人,答错的10人,

设 p为答“对”第五题学生的比率;

q为答“错”第五题学生的比率;

st为所有学生总成绩的标准差。

答:第5题与测验总分之间的相关系数为0.766,相关较高,即第5题的答对答错与总分有一致性。表明第五题的区分度较高。

【例5-10】 一个测验满分为20分,想了解该测验结果与文化程度是否有关,文化程度分为文盲(0)、非文盲(1)。下表是部分被试实验结果,试求其相关系数。

解:已知N=12,被试中文盲人数为5人,非文盲人数为7人,

设 p为文盲被试的比率;

q为非文盲被试的比率;

st为所有被试在该测验中总成绩的标准差。

从表中的数据计算得:

答:计算文化程度与该测验总分之间的相关系数为-0.89,相关较高。从计算结果可见,文盲、非文盲与测验得分存在较高的一致性,即文盲得分少,非文盲得分多。