随机化(randomization)是抽样研究的基本原则。所谓随机化原则,是指在进行抽样时,总体中每一个体是否被抽取,并不由研究者主观决定,而是每一个体按照概率原理被抽取的可能性是相等的。
由于随机抽样使每个个体有同等机会被抽取,因而有相当大的可能性使样本保持和总体有相同的结构。或者说,具有最大的可能使总体的某些特征在样本中得以表现。所以说随机抽样可以保证样本代表总体。
图14-1 样本平均数的正态分布
如果不按随机原则抽样,则由于总体中个体不能保证以相同的可能性被抽取,所抽的样本也就不能很好地代表总体,而且对于结果的精确度不能进行上述的客观评价。比如,一个大学心理系的教师要进行一项研究,内容是经常干扰一个成年男子(比方说年龄在20~50岁之间)的睡眠,看对他的情绪会造成何种影响。很少有人会愿意把自己作为一个样本来研究,于是该教师只好去请求和他比较要好的学生、老师来做志愿者。这时,他抽样的对象(即实际上的母体)范围很窄。那么,这位研究人员从这项研究中得出的结论,只能说适用于学校的成年男子,而不是全社会的成年男子。统计分析就是依据样本所提供的信息,正确推论总体的情况。在这一过程中,最根本的一环是确保样本的代表性及对实验的良好控制。所以,在推论统计的研究中必须进行随机抽样,或者说随机化是抽样研究的基本原则。
【资料卡14-1】
抽样偏差
1936年,富兰克林·迪拉诺·罗斯福(Franklin Delano Roosevelt)与艾尔弗雷德·兰登(Alfred Landon)共同竞选美国总统。此时,美国失业人数高达九百万,在1929—1935这段期间实际收入下降了约1/3,经济正由大萧条中逐渐恢复回升。兰登竞选主题为“小政府”,口号为“挥霍浪费的人必须离任”、“我们应该专心致力于自己的事务”。罗斯福竞选主题为“扩大内需”,口号为“在我们能够平衡联邦政府的预算之前,必须先平衡美国人民的预算”。
绝大多数观察家认为罗斯福将毫不费力的获胜,而《文学文摘》(Literary Digest)杂志根据大约240万人参加的一次民意测验预测,兰登会以57%对43%的优势获胜。《文学文摘》的显赫威望支持着它的预测,因为自1916年起,在历届总统选举中该杂志都能正确地预测出获胜的一方。实际的竞选结果是罗斯福以62%对38%的一边倒优势赢得了1936年的选举,连任总统。
同年,由社会心理学博士乔治·盖洛普(George Horace Gallup,1901—1984)主持的盖洛普民意调查公司却成功地预测了大选的结果。盖洛普从《文学文摘》杂志调查的240万人的样本中抽取了3千人,在《文学文摘》公布其预测之前预测兰登以56%对44%赢此选举,这个结果仅以1个百分点(实际与预测百分率之间差的单位)的误差提前预言了《文学文摘》的预测结果。盖洛普对他们的调查提出质疑,因为当时电话和汽车只局限在高收入阶层中使用。他以性别及年龄作配额抽样(quota sampling),仅依据一个约5万人的样本,预测罗斯福将以56%对44%胜出当选。尽管他对罗斯福所得选票的预测误差为62%-56%=6个百分数点,但这一结果的正确预测使《文学文摘》销声匿迹,此后不久就垮了,而盖洛普则名声大噪。
这是重要民意测验曾作出过的最大误差。接受民意测验的人数这么多,但《文学文摘》这么大的预测误差是怎么产生的呢?目前关于此问题的解释集中在取样策略方面。 ①取样方法:邮寄1千万份问卷,回收420万份,但调查对象是从电话簿、汽车车主的登记资料以及选举人的登记名单中选取。在经济大萧条时期,电话和汽车并不像现在这样普遍,当时仅有1100万人拥有住宅电话,但900万人失业,仅针对拥有汽车和电话的少数人进行调查并不具有代表性,但是这些名单比较容易得到。②取样偏差(selection bias):取样中包含过多的富人,而该年贫富间选举倾向相距极大。那些富人支持共和党的候选人,那些未能被调查的低收入民众却大部分支持民主党的罗斯福,导致调查结果失真。③没有回答或拒回答(non-response),或低回复率(response rate)引起偏差。邮寄发出的调查问卷大约有1000万张,但只有少数的调查表被收回,有效回复率仅为23%。在收回的调查表中,兰登非常受欢迎。于是,该杂志预测兰登将赢得选举。以芝加哥为例,问卷寄给1/3的登记选民,回收约20%的问卷,其中超过一半宣称将选兰登,但选举结果却是罗斯福拿到2/3的选票。对此,有的研究者认为回复此项调查的样本对象大都心存偏见,因为兰登的支持者比罗斯福的支持者更倾向于回答此项问卷。
这说明规模小而仔细的抽样调查,反而比大而不当的调查更好。当取样有偏差时,再多的样本也没有用。现在,从统计抽样的理论看,当年盖洛普的配额抽样方法(即每一个调查人员事先即已根据第一类别要抽出固定数目的样本,如性别、年龄、种族、居住所在地、经济状况等)未免粗糙,但比起《文学文摘》的调查而言,还是比较好。但是,1948年盖洛普及几家大型民调公司对当年的美国总统选举结果却做出了错误预测。民意调查结果显示杜威会以5%至15%的优势领先竞选连任的杜鲁门,但选举结果杜鲁门却以4.4%赢了杜威。学者分析这次选举预测失败的原因,发现可能是:①民意调查访问时间距投票日不够接近,没有现出杜鲁门的声势已有起色。②采用的配额抽样偏向容易接受访问的群众,达不到统计随机取样的要求。③没有评估不表态民众的可能投票倾向。④杜鲁门的危机意识促使支持他的人踊跃投票,而杜威的支持者则反之。
此后运用抽样进行民意调查的技术与方法,历经各种研究与修正,数十年来在美国历次总统大选所做的民意调查的预测结果与大选结果几乎都完全吻合。在抽样时合理地使用随机原理取得样本,其应用成效已深获肯定与重视。当前大多数应用统计不会像前面的例子错得那样厉害,但在需要考虑选择正确的样本时,还是要非常谨慎小心。
——整理自(美)弗里德曼等著,魏宗舒等译,统计学,北京:中国统计出版社,1997年pp.367~381。