在第二章介绍累加次数分布表和累加次数曲线时提到过百分位数(percentile),又叫百分位点的概念。它是指量尺上的一个点,在此点以下,包括数据分布中全部数据个数的一定百分比。第P百分位数(P-percentile)就是指在其值为P的数据以下,包括分布中全部数据的百分之p,其符号为Pp。
由于以全距表示一组数据的离散程度时,受极端数的影响很不准确,因此,有人提出取消分布两端10%的数据,即用P10和P90之间的距离作为差异量数,即百分位差。
(一)百分位数的计算
公式如下:
式中:Pp为所求的第P个百分位数;
Lb为百分位数所在组的精确下限;
f为百分位数所在组的次数;
Fb为小于Lb的各组次数的和;
N为总次数;
i为组距。
如果得到了向上累加频数分布表,求百分位数的步骤如下:
1.找到P百分位数所对应的名次,即n×P%;
2.从累加频数中找到该名次所在的分组,以及该组的频数f和组距i;
3.找到该分组区间精确下限值Lb和此值以下的累加频数Fb;
4.将上面的这些数据代入公式即可计算n×P%对应的数值。
【例4-1】 用下面的次数分布表计算该分布的百分位差P90-P10。
解:先计算P10和P90两个百分位数。
157×10/100=15.70
157×90/100=141.30
P90-P10=51.56-19.33=32.23
答:该分布的百分位差P90-P10是32.23。
常用的百分位差除P90-P10外,还有P93-P7。但这两种百分位差,虽然比全距较少受两极数值的影响,但仍然不能很好地反映中间数据的散布情况,因此只作为主要差异量数的补助量数,在实践中很少使用。
应该看到,计算百分位数的公式与前面提到的用分组数据计算中数的原理一致。事实上,中数就是百分位数P50,公式4-2中的P%等于50%时,它就是中数公式。因为在中数以下或以上,刚好有全部数据个数的50%。
(二)百分位数与百分等级
除了运用上面的公式计算百分位数外,也可运用累加次数分布曲线图百分位数求解。图4-1的累加次数分布曲线图是根据【例4-1】数据绘制而成,图中左边的数字表示的是实际频数,右边的数字是百分等级。横坐标上的数字是分组区间的组中值。比如,要计算P10的百分位数,先从右边标有10%的刻度位置向图中的曲线画一条与横轴平行的线,再从这条平行线与曲线的交点处向横坐标画垂直线,垂直线与横轴相交处的刻度值就是P10的百分位数。需要注意的是,用这种方法求得的百分位数由于受图中曲线精确程度的影响,与用公式计算结果相比,它只是一个粗略的估计值。
图4-1 用累加次数分布曲线图求百分位数
反过来,利用百分位数的计算公式也可以计算出任意分数在整个分数分布中所处的百分位置,称为该分数的百分等级(percentile rank ,符号为PR)。百分等级是一种相对位置量数,它是百分位数的逆运算,在心理和教育研究中广泛应用。当分数按照大小顺序排列后,用百分等级就可以表示任何一个分数在该团体中的相对位置。例如,某人考试成绩的百分等级PR为80,就意味着他的成绩比79%的人要好,但比20%的人要差。 百分等级的计算公式是:
式中:PR——百分等级;
X——给定的原始分数;
f——该分数所在组的频数;
Lb——该分数所在组的精确下限;
Fb——小于Lb的各组次数的和;
N——总次数;
i——组距。
读者可以用【例4-1】中的数据,设定某个原始数据值,求它的百分等级,练习这一公式。同样,百分等级也可以用累加次数分布曲线图求得,只是方向相反。