当数据量很大时,应该把所有的数据先划分为若干分组区间,然后将数据按其数值大小划归到相应的组别内,分别统计各个组别中包括的数据个数,再用列表形式呈现出来,就构成了分组次数分布表(grouped frequency table)。
(一)编制分组次数分布表的步骤
1.求全距
全距(range)指最大数与最小数两个数据值之间的差距。从被分组的数据中找出最大数与最小数,二者相减所得差数就是全距。
2.决定组距与组数
组距(interval)是指任意一组的起点和终点之间的距离,用符号i表示。决定组距的大小,需要以全距为参考。全距大,则组距可大一些;全距小,则组距可小一些。组距经常取2、3、5、10、20等数值,这样便于分组,便于计算分组区间和组中值。如果先确定了组数,就可以用全距除以组数后,取整数表示组距。
组数(分组数目)的多少要根据数据的多少来定。如果数据个数在100以上,习惯上一般分10~20组,经常取12~16组。数据个数较少时,一般分为7~9组。如果数据的总体分布为正态,可用下面的经验公式计算组数(K),这样可使分组满足渐近最优关系。
那么,应该如何掌握分组的标准呢?一般说,分组数目多,则组距小,计算精确,但它要求总的数据量大,否则会出现有的组距内无次数分布的现象,那将使整个数据的分布规律显示不明显,也就不能发挥次数分布表的作用了。如果分组少,组距就大,计算简单,但引进计算误差较大。因此,要做到既不增加搜集数据的工作量,又能使分组后的计算精确到最大限度,使用上述公式分组是一个较好的方法。
3.列出分组区间
分组区间即一个组的起点值和终点值之间的距离,又叫组限。起点值称组下限,终点值称组上限,组限有表述组限和精确组限两种。例如,一组组距为10的分组数据,它们的表述组限为10~19,20~29,30~39,40~49等,实际上它们的精确组限(或称实际组限)分别为9.5~19.499,19.5~29.499,29.5~39.499,39.5~49.499等。这种做法是为了简便也易于计算。在写分组区间时要注意这样几点:在列出的分组区间内,最高组区间应包含最大的数据,最低组区间应包含最小的数据。最高组或最低组的下限最好是组距i的整数倍。各分组区间一般在纵坐标上按顺序排列,数值大的分组区间排在上面,数值小的分组区间排在下面。在呈现表格时,各分组区间使用表述组限,并且为了书写方便,通常只用整数写下限值,然后在右侧画一横线。例如,前面组距为10的一列数据的分组区间可写为10~,20~,30~,40~等。不过在登记次数时必须明确,一定要按精确组限将数据归类划分到相应的组别中。
4.登记次数
依次将数据登记到各个相应的组别内,一般用画线记数()或写“正”字的方法。为确保登记准确,第一次登记后需再核实。
5.计算次数
根据登记的结果计算各组的次数,计算各组次数的总和即总次数。并核对各组次数总和与数据的总个数是否相等。
然后,取消画线登记次数一栏,重新制表。新表包括的栏目有:第一列为分组区间,第二列为各分组区间的组中值。组中值是每组精确下限加上组距的二分之一,或精确下限与精确上限之和的一半。第三列为次数(f)。这样整理的统计表就是次数分布表,见表2-3。表2-3中第四列和第五列为相对次数,分别用频数比率(f/N)和百分次数表示,这两列有时可不用列出。
为了进一步熟悉并掌握编制分组次数分布表的具体方法,下面是一个具体实例。
【例2-2】 下面是100名学生在某项测验中的成绩分数,试将它制成一个次数分布表。
76.0 77.5 82.0 90.5 81.0 85.5 71.0 80.5 92.5 77.0
88.0 81.0 76.5 67.0 83.0 84.0 84.0 62.0 79.0 72.0
89.0 78.0 78.0 80.0 78.5 76.5 75.0 79.5 86.0 81.5
75.0 84.0 90.0 80.0 86.0 84.5 68.5 71.0 86.0 81.5
79.5 80.5 73.0 93.0 83.0 72.0 68.0 71.0 87.0 78.0
66.0 83.0 87.0 82.5 79.5 80.0 82.0 81.0 86.5 83.5
71.5 83.0 91.0 96.0 75.5 89.0 87.5 69.0 74.0 70.0
77.5 75.0 79.0 79.0 80.5 74.5 77.0 82.5 72.5 73.5
73.5 76.0 88.5 85.0 89.5 78.5 76.0 74.0 98.0 73.0
94.0 79.0 80.0 75.5 83.5 82.0 65.0 74.5 80.0 70.5
这一组学生成绩分数的分布范围在62~98之间,测验分数属于连续性随机变量,编制分组次数分布表的方法步骤如下:
第一步,找出最大值与最小值分别为98.0、62.0,全距为98-62=36。
第三步,列分组区间。因为这组数据最小值为62.0,组距定为3.0,因此,最低组的下限取为60.0,既可将最小值62.0包含在最低组内,其值又是3.0的整数倍,这样比较好。各组区间可写为:60.0~,63.0~,66.0~,69.0~,72.0~,75.0~,78.0~,81.0~,84.0~,87.0~,90.0~,93.0~,96.0~,最高组 96.0~99.0,也可将最高分98.0包括进去。为书写方便,这里各分组区间用整数表示。在对数据进行分组时,按各组的精确组限归类,如:59.5~62.499,62.5~65.499,以下类推。
第四步,登记与计算次数。登记次数时要特别注意处于分组区间分界点(breakpoint)上的几个值。如:62.5,65.5,68.5,71.5,74.5,77.5,80.5,83.5,86.5,89.5,92.5,95.5,都应登记到上一组。表2-2是登记结果。登记完毕后应再核实一次,确保无误后,计算次数。表中∑f是指所有各组的次数和。
表2-2 次数分布表的登记表
第五步,编制次数分布表。这一步要注意组中值的计算。表2-3是一个综合的次数分布表,其中的第一、二、三列共同组成了一个分组次数分布表,主要包括分组区间、组中值(midpoint of interval)和频数。第四、五列为相对次数,这两列可根据需要决定是否列出。
表2-3 次数分布表
(二)分组次数分布表的意义与缺点
编制分组次数分布表,可将一堆杂乱无序的数据排列成序。从表中可以发现各个数据的出现次数是多少,其分布的状况如何。如表2-3告诉我们77.5~80.5这一组人数最多,90分以上及 70分以下的人数较少。同时,次数分布表还可显示这一组数据的集中情况(平均值大约在78~80之间)及差异情况等。
分组次数分布表也有缺点。从表2-3看,原始数据不见了,只见到各分组区间及各组的次数,所有的分组次数分布表都是这样。根据这样的统计表提供的数据资料计算得到的平均值,会与用原数据计算的值有一定的出入。这是由于用分组数据编制次数分布表时,假设各区间的数据均匀分布,并用各组的组中值代表各原始数据,而不管数据原来的情况所造成的误差,这个误差称归组效应。同一组数据,随着分组组距的加大,分组数目减少,引进的误差就会变大,反之则变小。不过根据次数分布表的编制要求,分组区间不能无约束变大。因此,就一组数据而言,组距的变化引进的计算误差也不会很大,对以后的进一步统计分析,一般不会带来需要注意的影响。从另一个角度讲,将不规则的数据按一定的规律加以调整,对以后进一步统计分析也有利。