(一)用公式计算
1.平均数的估计或检验时样本容量的确定
公式14-15和公式14-16即简单随机抽样进行平均数的估计或假设检验时确定样本容量的公式,只是在实际应用中还需注意条件不同时,公式需要相应变化。
(1)当从有限总体抽样时,公式14-15、公式14-16分别成为:
(2)当总体标准差σ未知时,以样本标准差s(或以往类似调查研究所得标准差)代替,公式中Zα/2,Zβ相应变为tα/2,tβ。这时出现一个问题,tα/2,tβ与Zα/2,Zβ不同,它们不是常数,根据自由度df=n-1的变化而改变,但是在样本容量确定之前df不可能已知,对于这种情况,一般采取逐步接近的办法。
以公式14-15为例,当σ未知,公式变为:
tα/2要根据df=n-1来确定,在n没确定时tα/2未知,这时一般先用Zα/2代替tα/2,按上式算出n0,然后再根据df=n0-1查出tα/2,代入公式14-19式求出n1,接着再按df=n1-1查出n2,这样重复进行下去,直至两次先后求得的结果相同为止。例如,进行总体平均数的抽样调查,要求最大抽样误差d≤3,总体标准差的估计值s=12计算样本容量多大为宜(定α=0.05)。
查t分布表 df=62-1=61 t0.05/2=2
将t0.05/2=2代入原式,得
当df=64-1=63时,t0.05/2=2仍然可以认为是2
n1=n2=64
同此样本容量64为宜。
在实践中为了简便,当样本容量n估计不会很小时,直接就按公式14-20计算,并不一定使用接近法。
同样,公式14-16、公式14-18等公式中的σ未知时均可以用样本s代替,而Zα/2,Zβ不变。
(3)以上所举进行差异检验时确定样本容量的公式只用于样本平均数与总体平均数的差异检验。当进行两样本平均数的差异检验时,确定样本容量的公式为:
无限总体:
有限总体:
n1,n2分别为两个样本的容量
其他字母的意义与前面相同。
【例14-3】 某研究者要调查某大城市平均每个家庭每月花多少钱给孩子买玩具,要使误差不超过0.5元,且具有95%可信程度(即α=0.05)则至少应该调查多少个家庭。(抽样方式为简单随机抽样,据以往有关调查,估计s=3元)
解:由于在全市范围调查,可以近似看成无限总体。
已知d=0.5,α=0.05,s=3
若用接近法计算:
两种算法结果差不多。
所以,该调查应至少抽取140个家庭。
【例14-4】 韦氏智力测验平均智商μ0=100,标准差σ=15,有关研究估计,某偏远地区儿童的智商至少比常模水平低6分。为了对这个估计进行检验,从该地区随机抽样,对儿童进行韦氏智力测验,若规定α=0.01,β=0.10则至少应取多大样本。
解:本题属于样本平均数与总体平均数的差异检验,据题意δ=6,σ=15
单测检验Z0.01=2.32,Z0.10=1.28
【例14-5】欲调查两地区毕业生数学成绩的差异是否达到10分,从两地区分别随机抽样,进行一次数学考试,如果现定,当实际上两地区无差异或差异很小而在抽样调查(考试)中错误地判断为差异达到10分的概率α=0.05;当实际上两地区差异达10分,而错误地判断为无差异的概率α=0.20,则应各抽多少被试(据同类考试结果估计两地区标准差相等,s1=s2=14.3)
解:据题意δ=10,sp=14.3
应当用双侧检验,Zα/2=1.96,Zβ=0.84
代入公式14-21
答:因此至少应从两地各抽33人。
(4)在使用公式14-16至公式14-22等有关假设检验的随机抽样公式时,还应注意单、双侧问题。同样是α=0.05,但单侧的Z0.05与双侧的Z0.05不同(单侧为1.645,双侧为1.96),因此公式中Zα依单、双侧检验而有不同的值。对于β却无论检验是单侧还是双侧,上述公式中的Zβ均按单侧求之,从图14-3可以看到,即使检验为双侧问题,对β也只讨论一侧的情况。因此在本节例3双侧检验时,α=0.05要查Zα/2=1.96;β=0.20却仍按单侧查Zβ=0.84。
至于β在事先究竟定为多少合适,并无固定准则。在假设检验中由于主要目的在于检验“差异”,本来无差异而错判为有差异的概率一定要小,或者说拒绝无差假设的把握一定得大,故而α一般规定得很小(0.05或0.01)。对β错误往往并不予重视,不必定得像α那样小,但β增大时,统计检验能力(1-β)降低(见本书第八章),所以β值也不宜定得太大,一般规定为0.10、0.20或0.30的占多数。
当然,如果样本容量已知,α值及其他条件也已确定,则β就是个确定的值了,可以利用公式14-16等计算出来,从而可以对该检验的统计检验力作出评价。
2.比率的估计或检验时样本容量的确定
前面所述关于平均数的估计或检验时确定样本容量的公式,尽管显得复杂,而且不止一种,其实基本公式只有两个:
根据总体标准差是否已知,抽样总体是有限还是无限,假设检验时是样本与总体μ比较还是两个样本比较等不同条件,基本公式SE的计算要有所变化。因而从上述基本公式出发,引出了适用于不同条件下的确定样本容量的公式。
对于比率的估计或检验,同样可以从上面基本公式出发,根据不同条件下比率的标准误SEp公式得出各种条件下确定样本容量的公式。本章第二节已给出了不同情况下比率标准误的公式,对于样本容量的公式就不再一一给出了。
另外,前面所举的确定样本容量公式都是指简单随机抽样而言。无论是平均数还是比率的调查研究,不同的抽样方法,样本分布的标准误有所不同。将分层抽样或阶段抽样的标准误代入上面的两个基本公式,同样可得到分层抽样或阶段抽样时样本容量公式。但是,在实践中为了方便,不管是哪种抽样方法,常常都按简单随机抽样时的公式来计算样本容量。例如,分层抽样时,按道理应该将公式14-8、公式14-9等标准误公式代入到(A)或(B)两个基本公式中,求出样本容量。但在实践中可以按简单随机抽样的样本容量公式直接计算出样本容量,然后再按比例或最佳方式将样本容量分配到各层。这样虽然算出的样本容量比应有的大一些(因为分层抽样的标准误比简单随机抽样的标准误小),但做起来很方便,尤其是简单随机抽样的样本容量不但可以用公式计算,还有现成的表可供查用。
(二)查表确定样本容量
本书附有不同统计量的简单随机抽样的样本容量确定表,在实际进行抽样调查研究时可直接根据不同条件查出应该抽取的样本容量,非常方便,下面分别举例介绍。
1.有关平均数的抽样研究
(1)由样本平均数估计总体平均数时的样本容量
这时可查附表20,只要确定了α并算出s/d,即可在表中找到相对应的样本容量n。表中左边纵列为s/d的整数值,上面横行为s/d值的一位小数值。例如在α=0.05时,s/d=7.4,则从附表20-A中可查到与s/d=7.4对应的值是213,这就是所求的样本容量。
在本节【例14-3】中,d=0.5,s=3,α=0.05
即 s/d=3/0.5=6.0
在附表20-A中查得n=141
在【例14-3】的计算结果 n=140,可见查表的结果与用公式计算的结果出入很小。
(2)两个样本平均数进行差异显著性检验时的样本容量
这时可查附表22(A~E),查表时先求δ/s值,然后根据单、双侧不同α值及(1-β)值找出对应的样本容量n,注意查得的n与前面用公式算得n意义相同,表示两个样本各自应该具有的容量,即n=n1=n2。
在本节【例14-5】中,δ=10,sp=14.3
双侧检验α=0.05,β=0.20,(1-β)=0.80
查附表22-C
(1-β)=0.80与δ/s=0.70相交处为33。
即n=n1=n2=33
与公式计算结果相同。
(3)样本平均数与总体平均数差异显著性检验时的样本容量
这时仍然利用附表22(A~E),因为样本平均数与总体平均数差异显著性检验和两个样本平均数差异显著性检验之间存在着一定关系。
样本平均数与总体平均数差异检验时样本容量公式为
两个样本平均数之间差异检验时样本容量的公式为
一般两样本平均数差异检验要求方差齐性,可以认为sp≈s1≈s2(这时sp可用s表示),那么在其他条件都相同的情况下,公式14-21除以2即为公式14-16,也就是说,样本平均数与总体平均数差异检验时确定样本容量仍查附表22(A~E),将查得的结果除以2即可。
例如在本节【例14-4】中:
单侧检验α=0.01,β=0.10,(1-β)=0.90
查附表22-D得164
164/2=82即所需样本容量。
与【例14-4】中用公式计算的结果基本一致。
2.有关比率的抽样研究
(1)由样本比率估计总体比率时的样本容量
比率的抽样分布严格讲只有当总体比率在0.05左右才可近似服从正态分布,随着总体比率偏离0.05越大则抽样分布也越偏离正态。
由于目的只是对总体比率进行估计,因此总体比率不可能已知,一般代之以样本比率,而在抽样之前样本比率也无从计算,只能根据经验或已有类似研究结果进行初步估计。
由于上述两方面的原因,进行总体比率的估计时,无论是用公式计算还是查表,都不是十分精确的。附表21使用时仅供参考,表中左边一列表示最大允许误差d,上面一横行为根据已有信息估算的样本比率。
【例14-6】 某城市对高三学生进行统一模拟数学考试之前,计划对及格率作抽样估计,误差要求不超过4%,并规定α=0.05,问需要抽多大的样本?(在前不久曾作过一次类似的模拟考试,当时对及格率抽样调查的结果为65%)
解:0.65可作为这次样本及格率的估算值即p=0.65 d=0.04 α=0.05
查附表21-A得
n=546
(2)两个样本比率差异显著性检验时所需样本容量n(n=n1=n2)
Δ=Φ1-Φ2
根据Δ和(1-β)及其他不同条件,查附表23来决定样本容量。
【例14-7】 有一项关于父、母亲对体罚学生所持态度的调查研究,目的在于检验父亲与母亲对体罚的赞成率有否显著差异。据有关调查,母亲中大约有20%的人赞成体罚,父亲中可能赞成的人更多些,那么父亲中赞成体罚的人能否达到40%?若定α=0.05,β=0.20,则进行这个检验至少需抽多大的样本?
解:先查附表24,进行数据转换
p1=0.20,与之对应的Φ1=0.927
p2=0.40,与之对应的Φ2=1.369
即Δ=1.369-0.927=0.442
又:α=0.05,(1-β)=0.80单侧检验。
再查附表23-B,表中无Δ=0.442,
在(1-β)=0.80一行:Δ=0.40时 n=77
Δ=0.50时 n=49
即 n1=n2=63
答:从父亲、母亲中至少各抽63人。
(3)样本比率与总体比率差异检验时的样本容量
这种情况使用附表23和附表24。先根据附表24,算出Δ值,然后按α、(1-β)、Δ值查出相应的n再被2除即所需样本容量。
3.关于相关系数的抽样研究
各种类型的相关研究中,一个很重要的问题就是由样本的相关系数能否说明总体上存在着相关关系。因而必须对从样本算得的相关系数进行显著性检验(见第八章)。即:
H0:ρ=0
H1:ρ≠0(双侧检验)
H1:ρ>0或ρ<0(单侧检验)
这时,所需样本容量可由附表25查出(表中ρ=ρ-0,它本身的意义与前面δ或Δ意义相同)。
【例14-8】 某研究者对双生子进行韦氏儿童智力测验,结果相关系数r=0.60,为了检验这个结果,若定α=0.01,(1-β)=0.80,至少应取几对双生子?
解:据题意,ρ=0.60 α=0.01 1-β=0.80
需单侧检验,查附表25-D
N=23
答:至少需要23对双生子作为被试。
在使用附表25时,有一点值得注意:一般认为,严格服从正态分布的研究结果(指抽样结果)不易得到,因而计算相关系数时N≥30为宜。而表25中相应的各个N值均指理论上为了保证样本的代表性而至少应取的值。如果查得的N<30(如例【14-8】),建议在实践中取N=30为宜。当然,若查附表25的结果N>30则实践中最好按所查结果决定样本容量,不宜随便减少,否则将使研究结果达不到所规定的α和(1-β)水平。