当总体相关系数未知时,可用样本的相关系数作为其无偏点估计值。而区间估计则有下述几种情况:
(一)当总体相关系数为零时
根据ρ=0时样本相关系数的分布为t分布便可计算其置信区间:
其中:tα/2的自由度为n-2
应用公式7-10计算置信区间,必须满足ρ=0的条件。即样本相关系数r是根据从总体相关系数为零的总体中随机抽取的容量为n的样本计算得到的,由于抽样误差的存在,样本的相关系数在零上下取值,而r恰为零的机会实际上并不多。一般情况下我们无法知道总体相关系数是否为零,用公式7-12计算的置信区间包含0值在内,说明该样本可能是取自相关为零的总体,也说明所计算的置信区间是正确的(所依据的分布及标准误正确)。若计算的置信区间不包含0值在内,则说明该样本之总体相关不为零,也说明所计算的置信区间不正确(所依据的分布及标准误不对)。这种情况应该用Z分布。
(二)当总体相关系数不为零时
1.如果n>500,可用下式计算置信区间:
其中:Zα/2分别为Z0.05/2=1.96,Z0.01/2=2.58
因公式7-9及公式7-13的应用受限制较大,因此,这种方法一般应用很少。
2.利用费舍Z函数分布计算
费舍发现不论样本容量n之大小,亦不论总体相关ρ=0还是ρ≠0函数的分布近似正态分布。因此可用Z的置信区间,估计相关系数r的置信区间,具体步骤如下:
(1)将样本相关系数转换成Z函数,有两种方法可选用:
b.查附表8(r-Zr转换表),由样本r值查Zr值。
(2)计算Zr的置信区间
其中:Zr为费舍Z函数
Zα/2为查正态表得到的Z分数,二者意义不同
(3)将Zr的置信区间转换成相关系数,亦有两种方法可选用:
b.查附表8(r-Zr转换表),将Zr转换成r值,因为Zr置信区间有上下两个值,故也可查得两个r值,这两个值便是总体相关系数的置信界限。
【例7-9】 某校120名学生通过甲乙两测验,计算相关系数为 r=0.24,问该两测验总体相关系数ρ的0.95置信区间。
解:假设其总体相关系数为ρ=0,
查t表,t0.05/2(118)=1.98(取df=120的近似值)
0.95的置信区间为:0.24-1.98×0.089<ρ<0.24+1.98×0.089
0.064<ρ<0.416
用t分布计算的0.95置信区间不包含0在内。说明该样本的总体相关系数不为零,因此解题时的假设,以及所用的标准误、所依据的t分布都不恰当,从而用此方法所求的置信区间也是不恰当的。正确的方法应该用Z函数方法。
查附表8 ,r=0.24时Zr=0.245
Z0.05/2=1.96,因此0.95置信区间为:
0.245-1.96×0.0925<Zr<0.245+1.96×0.0925
0.064<Zr<0.426
Zr=0.064,查附表8(Zr-r转换表)得r为0.064
Zr=0.426,查附表8(Zr-r转换表)得r为0.40(近似值)
答:总体相关系数ρ的置信区间为0.064~0.40之间。作此结论犯错误的概率为0.05,正确的概率为0.95。
可见,一般情况下对总体相关系数ρ的估计,用Z函数转换的方法是可取的,只是计算步骤稍麻烦一些。