在心理与教育研究中经常会遇到研究内容相同的两格表、四格表或R×C表,即因素内容、分类项目都相同的计数资料,这些资料有的是来自不同的研究者,有的是同一个研究者不同或相同时期的研究,在调查或实验之前并未考虑数据合并问题,而是在搜集到数据之后,才想合并它们,如何将这些数据合并,更充分地利用这些数据信息,这就是数据合并问题。当同质性检验的结果表明各类数据同质,就可将它们合并处理。如果是探索性实验,那么在后续的正式实验中,实验变量就可作出相应的调整。
(一)两格表及四格表数据的合并
1.简单合并法
即将所有的数据合并到同一个两格表或四格表中,然后计算χ2量,并进行假设检验。应用简单合并法的条件是:①各分表某特征的相应比率接近;②各分表(小样本)的χ2量都未达显著水平,即分表小样本齐性。
【例10-14】 表10-4的数据是来自不同研究者的研究结果,各研究者所研究的被试年龄不同,但内容相同。问是否有必要合并?
表10-4 两格表简单合并法
【例10-15】 表10-5是四格表的数据:
表10-5 四格表简单合并法
各分表χ2均未达显著水平,属于齐性样本且各样本的相应比率接近,故可用简单合并法全部合并。
合并后χ2达显著水平,这是由于各样本某特征的比率相同,原来样本数目小,合并后样本变大了的缘故。
2.χ2相加法
即将各分表的χ2值相加,查自由度为分表数目的χ2表,确定显著性水平。这种方法虽常被应用,但反应不灵敏,因它没有考虑到各表中的比率方向,所以对于有相同比率方向的各分表分辨力较差。表10-4中χ2相加得8.41,df=4,表10-5中∑χ2=5.2981,df=3,均未达显著水平。
这种方法的应用条件是:①各样本容量相差不超过2倍;②且表中各相应比率的取值在0.2至0.8之间。应用下式进行显著性检验:
4.加权法
表10-6 加权法计算及各符号含义
表10-6所列的2×2表的两个样本容量相差悬殊(每个样本可分为ni1、ni2两个样本),且比率pi1、pi2不在0.2至0.8之间,不能用χ值相加法合并,需用加权法合并数据信息。将表10-6各数代入公式10-15
查正态表Z=1.61,其双侧概率为0.1074。
表10-6资料如果用简单合并法,四格表如下所示:
5.分表理论次数合并法
这种方法是分别计算每个分表中各格的理论次数,然后将每个分表各对应格的理论次数相加,作为简单合并表的理论次数,再据此计算χ2值,这种方法是在没有更好的方法可用时,不得已而采用的一种方法,应用这种方法有一个缺点,是它不遵循df=1的χ2分布,但仍然用χ2统计量,这样就使问题复杂化。
(二)R×C表数据的合并
R×C表需要合并数据信息,条件同四格表一样:各次调查或研究所引起的不同影响必须消除,即实验或调查的控制要相同,表中各相应比率方向要相同等。常用的方法有如下两种:
1.简单合并法
这种方法要求各分表中相应的比率接近且各样本齐性。
表10-7 R×C表的数据合并
表10-7有两个分表,各分表χ2不显著,属齐性样本,且表中各格对应的比率相接近(见表内括号里的比率),符合合并条件,合并后结果如下:
计算χ2=6.78,df=2,查χ2表知差异达0.05显著水平。这显然是由于合并数据使样本变大的结果。因为各小样本虽然差异均未达显著水平,但差异方向相同(各格对应比率相同),主要由于样本不够大。而合并后使样本增大,就使差异达显著水平了。
2.分表理论次数合并法
即先分别计算每个分表中各格的理论次数,然后将各分表的实计数合并,作为总表的实计数,将各分表对应格的理论次数相加作为总表的理论次数,然后用χ2基本公式计算χ2值。查df=(R-1)(C-1)的χ2表,确定显著性水平。具体见下表10-8。
表10-8 不同年级对教学方法的评价
表10-8所列的三个年级的数据出自不同的研究者之手,研究之初并未考虑合并样本。研究之后,考虑到研究内容相同意欲将其合并,下面是合并后的3×3数据表格:
总表内各格的理论次数是由各分表的理论次数相加,而不是由总表边缘次数与原数按理论次数公式计算的,如表中左上角单元格内理论次数35.7是由三个分表的理论次数相加(10.5+15.5+9.7=35.7),其余各格也同样如此。数据合并后χ2值达显著水平,说明评价与教学方法有关联。