在选用差异量数时,可以考虑下面这些因素:
(1)当样本是随机取样时,s、Q、R,这几个差异量数的可靠性依次降低;
(2)当要求计算要容易、快捷时,R、Q、s依次变得繁杂;
(3)当要求统计量进一步使用时,s远远胜过其他差异量数;
(4)在偏态分布中,Q比s更常用;
(5)当分布是截尾分布时,只有Q能正确地指出分布的变异性。
除此之外,还有一点非常重要,就是在选用差异量数时,同时应考虑选用合适的集中量数。差异量数与集中量数是描述数据特征的两类最基本的统计量,它们共同描述一组数据的全貌,即集中趋势和离中差异。这两种量数之间既有密切联系,也有严格区别。集中量数描述的是次数分布的典型性,指的是量尺上的一个点值,差异量数反映了次数分布的变异性,是量尺上的一段距离。一组数据集中量数的代表性如何,可用差异量数的大小来说明。差异量数越小,集中量数的代表性则越大;差异量数越大,集中量数的代表性则越小;差异量数为零时,表明这组数据的集中量数彼此相等,且等同于原始数据,这种情况只有在原始数据都完全相同的情况下才会出现。但几组数据如果集中量数都相同,这并不表明它们的差异量数也相同。例如下面三组数据:A组的数据是7,7,8,8,8,9,9;B组的数据是4,5,7,8,9,11,12;C组的数据是1,4,7,8,9,12,15。这三组数据中每组有7个数据,平均数相同都是8。它们的分布如下图所示:
图4-3 平均数相同的三组数据分布图
从上图中可以明显看出,A组数据的最大数与最小数只相差2,明显地非常集中;C组数据最大数与最小数相差14,最为分散;B组居中,最大与最小的数相差为8。也就是说,A组平均数8的代表性最大,C组的平均数的代表性最小。每组数据的波动不大一样,图4-3直观地显示了这三组数据的分布。A组的数值以平均数为中心集中在一起,变化较小;B组的变化较大,C组变化最大,其差别一望而知。显然,只用集中量数不可能真实地反映出它们的分布情况,这时就要使用差异量数。
因此,要想描述一组数据的全貌,必须同时使用集中量数和差异量数。因为集中量数描述数据的典型性特点,差异量数描述的是数据的变异性特点。当选用中数作为描述一组数据的集中量数时,差异量数通常选用Q或其他百分位差为宜,因为它们计算方法的原理是一致的,都是用插值法求得的。大多数情况下,人们更多的是用平均数和标准差一起来描述一组数据的全貌。