(一)数据检查和分类
主要检查数据的完整性和正确性。统计资料完整性的检查,就是要根据调查(测查)项目检查是否填写齐全,避免遗漏,删去重复。正确性就是检查收集的资料是否真实可靠。
数据分类,也称统计分类或统计归组,就是把收集来的数据进行分组归类。一般又分为品质分类和数量分类。
1.品质分类
是按事物性质划分为不同的组别、种类。例如,以性别为标志可分为男与女;以“理解能力”“思维的灵活性”“合作精神”为标志,可分为好的、较好的、差的等几种水平,每种水平可看成一类,每一类可再给以相当的数量,可以通过各类所包含的数据再进行数量化的比较和分析。
2.数量分类
即按数量的属性分类。有顺序排列法、等级排列法和次数分布法等。
(1)顺序排列法:将各数据从大到小或从小到大进行排列。这样就可看出最高分和最低分是多少、各分数出现的次数和位于中间的是什么数等。
(2)等级排列法:即根据顺序排列划分等级,但与顺序排列不同,它是按数值所含的意义确定,若是学习成绩,测查某一方面能力的分数,应以数值大的排为第一等级,若是反映时间,则最小的数值排为第一等级。
(3)次数分布法:是指总体或样本按随机变量(数据)大小次序在频率上的排列。也就是编制次数分布表。
(二)统计分组
表9-1是一组未经整理的数据,从表上看不出什么规律,但通过分组整理就可了解分布大致的情况,步骤如下。
表9-1 37位学生的测量成绩
1.不全距
求全距也称求两级差。全距以R表示,就是全部数据中的最大数减最小数。本例全距(两级差):
R=98-57=41
2.确定组数
视数据资料的性质和数据多少而定。通常数据在100以上可分为10~20组,数据在100以下可分为5~10组。一般以10组以上、20组以下为宜,这样可使计算方便而又不失其精确性。本例中全距为41,分为9组比较适当。
3.求组距
组距就是每一组的间距,即每组所包含的单位。组距以“i”表示。
为计算方便,以组距取5为宜。
4.确定各组上限和下限
上限就是每组的最高分,下限就是每组的最低分。根据本题分数分布情况,我们把第一组确定为56~60分,第二组定为61~65分,其余类推。
5.求各组的组中值
组中值=(上限+下限)÷2
第一组的组中值=(56+60)÷2=58
第二组的组中值=(61+65)÷2=63
同样,第三组为68;第四组为73,依此类推。
(三)编制次数分布表和累积次数分布表
对资料进行分组整理后,将数据按其数值大小列入各个相应的组别内,便可以呈现一个有规律的表式。这种统计表称之为次数分布表。制作步骤如下。
1.标记各组次数
把原始分数里的每一个分数标到次数分布表中的“标号”栏,一般用“||||”或“正”字标号。例如,57和60都属50~60这一组,就在这一组的“标号”栏中划“‖”。这主要是为计算次数方便。
2.根据标号记次数(又称频数)
这样,我们便得到了一个分组次数分布表(见表9-2)。
表9-2 次数分布表的制作
从表9-2可以看出数据分布的集中趋势和分散的情况。但若想知道儿童测量成绩在若干分数以上的人数或若干分数以下的人数及其百分比,则需要编制累积次数表,见表9-3。
表9-3 累积次数分布表的制作
根据表9-3,欲知成绩在若干分数以上人数,即从由大到小的累积次数这一栏内找其对应数即可。例如,要问成绩在76分以上者有多少,即从累积次数由大到小找到第五个数“26”便是,占全体人数的70%;若想知成绩在76分以下的人数,即从由小到大的累积次数,由下向上找到第四组“71~75”对应数是11便是,占全体人数的30%。