(一)计算公式
方差(variance),也称变异数、均方。作为样本统计量,用符号s2表示,作为总体参数,用符号σ2表示。它是每个数据与该组数据平均数之差乘方后的均值,即离均差平方后的平均数。方差是度量数据分散程度的一个很重要的统计量。它就是前面讲过的动差体系中的二级动差,用二级动差表示全部数据分布的差异度,这种方法消除了平均差不便于代数运算的缺点。
标准差(standard deviation),即方差的平方根,用s或SD表示,若用σ表示,则是指总体的标准差。方差与标准差是最常用的描述次数分布离散程度的差异量数。本章只是讨论样本数据,故方差的符号用s2,标准差的符号用s。计算标准差的基本公式如下:
【例4-3】 计算6,5,7,4,6,8这一组数据的方差和标准差。
解:已知X1=6,X2=5,X3=7,X4=4,X5=6,X6=8,N=6
① 求平均数
② 求离均差的平方和
③ 代入公式4-7和公式4-8,求方差与标准差
将∑x2、N,代入公式4-7、公式4-8得:
答:这组数据的方差为1.67,标准差为1.29。
运用公式4-7与公式4-8分别求方差与标准差,都要先求平均数,再求离均差。若平均数不一定是一个整数或者有不能除尽的数,那么在计算过程中就会引入计算误差,计算也会很冗繁。此时可以直接使用原始分数计算方差与标准差。公式如下:
式中:∑X2——原始数据的平方和;
(∑X)2——原始数据总和的平方;
N为数据个数。
上面的这两个公式分别与公式4-7与公式4-8是等价的,它源于求方差与标准差的基本公式。有兴趣的读者可利用连加和的法则与平均数的特点的数学表达式推导证明。
【例4-3】 中的数据,如果采用公式4-9计算,其步骤如下:
① 求原始数据的平方和
② 求原始数据的总和∑X=X1+X2+X3+X4+X5+X6=6+5+7+4+6+8=36
③ 代入公式4-9求方差
将∑X2、∑X、N,代入公式4-9得:
上述结果与公式4-7计算的结果相同。
在计算方差与标准差的这些公式中,公式4-7利用平均数计算,直观容易理解,但平均数是一个导出分数值,当小数位有限制时,方差和标准差容易受平均数的影响而使精度受损。公式4-9则利用了每一个原始分数来计算方差,其精确度更高,可以消除计算误差。这一点需要读者注意。尤其利用计算机时既不怕计算繁复,又可消除计算误差使精确度更高,所以它就是经常使用的最好方法。
(二)计算分组数据的标准差与方差
当数据分组编制成次数分布表后,计算方差与标准差就可用下面的公式:
上面的公式是由计算方差与标准差的基本公式推演而来,其中第二个公式称为组距离差计算法。公式中d=(Xc-AM)/i(其中AM为估计平均数,Xc为各分组区间的组中值,i为组距,f为各组区间的次数,N=∑f为总次数)。次数分布的原始数据分别用各分组区间的组中值Xc代表,落入各分组区间数据的总离均差用fx表示。下表(数据来源于表2-3)说明了分组数据求方差与标准差的步骤:
表4-1 分组数据计算标准差和方差
将∑fd2、∑fd、N、i代入公式4-12
计算得到的标准差为s=7.113。这个数值与根据【例2-2】中的原始数据计算的标准差s=6.99,略有出入。主要原因是由于归组效应造成的。
(三)总标准差的合成
由于方差具有可加性特点,在已知几个小组的方差或标准差的情况下,可以计算出几个小组联合在一起的总的方差或标准差。这种计算常在科研协作中应用,例如先了解各班学生情况,再了解全年级情况;或先了解各年级情况,再了解全校总的情况。在教育与心理的科研工作中,经常合成各实验点的资料,也会牵涉方差或标准差的合成。需要注意的是,只有在应用同一种观测手段,测量的是同一个特质,只是样本不同时,才能应用下面的公式合成方差和标准差。计算总方差和总标准差的公式如下:
si为各小组标准差;
Ni为各小组数据个数;
【例4-4】 在三个班级进行某项能力研究,三个班测查结果的平均数和标准差分别如下,求三个班的总标准差。
解:利用公式4-14
∑Ni=42+36+50=128
③计算sT
答:三个样本组的总标准sT是16.15。
【资料卡4-1】
差异量数图示
下表中是为了说明离差平方和、方差、标准差之间关系模拟的一组数据:
从表中的数据计算得到离差平方和(sum of deviation square或sum of square,SS)∑x2为88,也称为均方和; 离差平方和的平均数,即样本方差(variance),也被称为均方(mean square,MS)的s2是12.57; 均方的方根或称均方根差(root mean square deviation)为s=3.55,就是上表中的标准差。下图是对s2,s,x,∑x2等概念间的相互关系的一个图示说明。
在这个图解的第Ⅰ部分,坐标轴上以平均数为参考点,标记了7个被试原始分数的离均差。它以距参考点的直线距离来表示,与上表中第三列的数值一致。离均差的平方以各个正方形的面积来表示,对应的是表中第四列的数字。均方和(SS)以所有正方形面积的总和来表示,它包含88个单位面积,每一个单位面积等于图中被试③或被试⑤标记的正方形面积的大小。图中第Ⅱ部分表示的是这组数据的方差与标准差。方差用单个正方形来表示,大小为第Ⅰ部分所有正方形总面积除以7的结果。正方形的边长就是标准差。
(四)方差与标准差的性质和意义
1.性质
方差是对一组数据中各种变异的总和的测量,具有可加性和可分解性特点。统计实践中常利用方差的可加性去分解和确定属于不同来源的变异性(如组内、组间等),并进一步说明各种变异对总结果的影响,是以后统计推论中最常用的统计特征数。
标准差是一组数据方差的平方根,它不可以进行代数计算,但有以下特性。
(1)每一个观测值都加一个相同常数C之后,计算得到的标准差等于原标准差。即如果Yi=Xi+C,则有sY=sX。这一性质表明,若一组数据中的每一个数都加上一个相同的常数,则这组数据彼此的离散程度并不改变,而只是数据分布在数轴上以常数为距离做整体平移。
(2)每一个观测值都乘以一个相同的常数C,则所得的标准差等于原标准差乘以这个常数。即若Yi=C×Xi,则有sY=C×sX。
(3)以上两点相结合,每一个观测值都乘以同一个常数C(C≠0),再加一个常数d,所得的标准差等于原标准差乘以这个常数C。即若Yi=C×Xi+d(C为不等于零的常数),则有sY=C×sX。
2.方差与标准差的意义
方差与标准差是表示一组数据离散程度的最好指标。其值越大,说明次数分布的离散程度越大,该组数据较分散;其值越小,说明次数分布的数据比较集中,离散程度越小。它们是统计描述与统计推断分析中最常用的差异量数。在描述统计部分,只需要标准差就足以说明一组数据的离中趋势。
标准差具备一个良好的差异量数应具备的条件:①反应灵敏,每个数据取值的变化,方差或标准差都随之变化;②计算公式严密确定;③容易计算;④适合代数运算;⑤受抽样变动影响小,即不同样本的标准差或方差比较稳定;⑥简单明了,这一点与其他差异量数比较稍有不足,但其意义还是较明白的。