(一)适用资料
二列相关(biserail correlation)适用的资料是两列数据均属于正态分布,其中一列变量为等距或等比的测量数据,另一列变量为人为划分的二分变量。例如,在一个测验中,测验成绩常常会划分为及格和不及格,人的健康状态分为健康与不健康两类,平时的学习成绩依一定标准将其划分为好、差两类,根据年龄划分为成人与儿童,根据身高划分为高与矮等等,它们均属于正态分布的连续测量数据,但都被按照某一标准人为划分为两类。
(二)公式及计算
计算二列相关有两个公式,两个公式应是等效的。
p为某一分类在所有二分变量中所占的比率。
y为标准正态曲线中p值对应的高度,查正态分布表能得到。
二列相关系数的取值在-1.00~1.00之间。绝对值越接近1.00,其相关程度越高。
【例5-11】 表5-15是108名学生某个测验总分分组数据和在某道问答题上得分依一定标准将其分为对、错两类后的数据,请问这道问答题的区分度如何?
解:这个测验的总分和这道问答题的原始得分呈正态分布,但问答题的分数又区分为二分型数据,故此题应该用二列相关计算区分度,即相关系数。
表5-15 二列相关的计算
设某一得分组的人数为ft,某一分组中答对某一题目的人数为fp,答错该题目的人数为fq
根据分组数据中使用估计平均数计算平均数(参见第三章资料卡)的公式,分组数据计算标准差(参见第四章资料卡)的公式:
p=63/108=0.583,q=1-0.583=0.417
查正态分布表,当p=0.583时,y=0.39024
代入公式5-14a,得:
代入公式5-14b,得:
因计算误差的存在,结果有微小差别。
答:这道问答题的区分度为0.66。
二列相关不太常用,但有些数据只适用于这种方法。在测验中,二列相关常用于对项目区分度指标的确定。有时,某一题目实际获得的测验分数是连续性测量数据,这些分数的分布为正态,当人为地根据一定标准将其得分划分为对与错、通过与不通过两个类别时,计算该题目的区分度就要使用二列相关。如果题目的类型属于错与对这样的是非类客观选择题,计算该题目的区分度就应该选用点二列相关。二者之间的主要区别是二分变量是否为正态分布。总的原则是,如果不是十分明确,观测数据的分布形态是否为正态分布,这时,不管观测数据代表的是一个真正的二分变量,还是一个基于正态分布的人为二分变量,这时就用点二列相关。当确认数据分布形态为正态分布时,都应选用二列相关。只要有任何疑问,选用点二列相关总是较好的选择。在实际的研究当中,二列相关很少使用。