(一)方法
当总体容量很大时,直接以总体中的所有个体为对象,从中进行抽样,在实际调查或研究中存在很大困难。例如,调查全国某一年龄组城市儿童的认知能力,若直接从该年龄组的儿童中简单随机抽样,首先遇到的困难是将全国各城市该年龄组的儿童编号过程;其次所抽到的个体在全国范围分布得很散,使研究人员很难进行实际的调查。如果进行分层抽样,它只是把总体按某种特性分成不同的几个部分(层),在每一层中均须抽样,总的来说还是在原总体范围内抽取个体,当总体很大时仍然存在较大的人力、财力方面的困难。
在实际研究中,对于这类大范围的调查研究一般采取阶段抽样方法,像上面那样的调查,若第一阶段先以城市为抽取单位,从全国所有城市中随机抽取一部分城市(这样等于用这部分城市代表所有城市),第二阶段再从所选取的城市中随机抽取调查对象(个体),这就是两阶段随机抽样(two-stage random sampling)。
一般而言,进行两阶段抽样时,首先将总体分成M个部分,每一部分叫做一“集团”(或“群”),第一步从M个“集团”中随机抽取m个作为第一阶段样本,第二步是分别从所选取的m个“集团”中抽取个体(ni)构成第二阶段样本,可见第一阶段样本中的单位,相对于第二阶段来说又是总体(分总体)。
设总体容量为N,某一“集团”的容量为Ni,所需样本容量为n,从某一“集团”所抽个体数为ni
若各个“集团”的容量Ni均相同,记作i,则各个ni也应相同(i),这时:
学习者应注意两阶段抽样与分层抽样的根本区别。从形式上看,似乎都分成两步:第一步将总体分成若干部分,第二步再分别从部分中抽取个体。但二者在第一步中有着根本区别。在分层抽样中,对于每一个部分总体(即“层”)均需从中抽取个体,因而没有第一阶段样本的问题。而在两阶段抽样中,将总体分成若干个“集团”后,并不是对每一个“集团”都再进行第二阶段抽样,而是从所有的“集团”中先抽取一部分“集团”,这里实际上进行了第一阶段的抽样,构成了第一阶段样本,然后再对所选“集团”作第二阶段抽样。
(二)标准误
在进行两阶段抽样时,大部分情况是有限总体,这里给出有限总体情况下的抽样标准误。
1.平均数的标准误
(1)一般情况下(各Ni不相等):
式中:N为总体容量
M为总体中所有的“集团”数
m为第一阶段所选取的“集团”数(即第一阶段样本的大小)
Ni为某一“集团”所含个体的数
2.比率的标准误(样本较大时)
【例14-2】 某幼儿园大班有4个班,共90人。从中任选两个班(N1=20,N2=27),再从两个班中分别抽取一部分儿童n1=13,n2=17,调查大班儿童每周看电视的时间,结果其中一个班(n1=13)平均数1=4(小时),s1=2;另一班(n2=17)平均2=4.6,s2=2.5。求用这种抽样方法所得的平均数标准误是多少。
解:N=90 N1=20 N2=27 M=4 m=2
n1=13 n2=17 s1=2 s2=2.5
将上面各项值代入公式14-13
(三)评价
一般而言,两阶段抽样相对于简单随机抽样,标准误要大些(即抽样误差大些),这主要是由于存在第一阶段的抽样,使得第二阶段抽样时已经不是从全总体中抽取,而是从全总体的部分代表(第一阶段样本)中抽取。但是,两阶段抽样简便易行,节省经费,因而它是大规模调查研究中常被使用的抽样方法。
抽样方法还有一种分类是根据每次抽取的样本是否在下次抽样前放回总体中,分为有放回抽样和无放回抽样。有放回抽样(sampling with replacement)是指每次从总体中抽取一个个体,观测后放回总体中,再抽下一个,对这n个个体总体变量值作观测,所得到的样本(理论值)被称为“简单样本”(simple sample),或“i.i.d.样本”(independent identically distributed)。与此对应的是无放回抽样(sampling without replacement),即每次从总体中抽一个个体,观测后不放回总体中,再抽下一个,或者等价地,从总体中一下子取出n个个体进行观测。在无放回抽样下得到的样本,从理论上讲就不再是简单样本了,但是当总体中个体的数目很多(与样本大小比较)时,从总体中抽掉一些个体没有太大的区别。在这种情况下,即使是无放回抽样也可以近似地看成是有放回抽样,即简单样本。
不管采用什么类型的抽样方法,为保证样本代表性,在抽样时必须遵循随机化原则,即在抽样时,总体中每一个体按照概率原理被抽取的可能性是相等的,否则,样本研究就不会具备代表性。各种随机抽样方法为保证这一环节的成功起着非常重要的作用。