教育测量的主要工具是测验,测验的质量直接影响到教育测量的效果,因此,在使用某个测验之前,必须对其进行科学的质量分析。测验的质量一般要从两个方面来分析:一是分析每个项目的质量指标,即分析测验项目的难度和区分度。二是分析整份测验的质量指标,即分析测验的信度和效度。
一、项目质量分析
(一)难度
1.难度的概念
难度是指测验项目的难易程度,它通常是用答对或通过该项目的人数比例来表示。一个测验项目,如果大部分被试都答对或通过,则该项目的难度就小;相反,难度就大。
2.难度的计算
(1)二分法记分项目(客观题)的难度计算。二分法记分项目是指只有答对和答错两种情况的题目,答对得分,答错0分,因此,也称(0、1)记分项目,如选择题、是非题、填空题、匹配题等。这类项目的难度计算一般有两种方法。
①通过率。用答对或通过该项目的人数的百分比表示:
式中P为项目难度,R为答对或通过该项目的人数,N为全体被试人数。
例1:200名学生参加考试,答对某项目的人数为160人,则
如果答对的人数为60人,则
如果答对的人数为200人,则
如果没有人答对,则
从例1可以得到以下两个结论:
第一,P值的范围:0≤P≤1
第二,通过人数越多,P值越大,项目难度越小;通过人数越少,P值越小,项目难度越大。可见,难度值与难度成反比。
②极端分组法。当被试人数较多时,为节省时间和精力,可采用此法,具体步骤如下。
第一步,按测验总分从高到低依次排列试卷。
第二步,从最高分的试卷开始,由高到低依次取出全部试卷的27%作为高分组;从最低分的试卷开始,由低到高依次取出全部试卷的27%作为低分组。
例2:在370名被试中,选出高分组和低分组人数,其中高分组有70人答对第一题,低分组有40人答对第一题,求第一题的难度。
解:高分组和低分组的人数是
因此,第一题的难度为0.55。
在选择题和是非题中,凭猜测选择正确答案的机会是1/K(K是每题中选项的数目),这样,对于是非题(K=2)而言,猜测的成功率为50%,对于四重选择题,猜测的成功率为25%。可见,猜测会使被试的得分高于他的真实水平,对测量带来误差,即猜测误差。为了平衡猜测对难度的影响,需采用下面的公式进行校正:
式中CP为校正后的难度值,P为实得难度值,K为备选答案数目。
例3:有A、B两个项目,项目A为四重选择题,通过率为0.58,项目B为是非题,通过率为0.65,试比较两题的难度。
解:A、B两项目校正后的难度值分别是
因为CPA>CPB,所以项目A比项目B的难度小。
(2)非二分法记分项目(主观题)的难度。非二分法记分项目是指每个项目不只有答对和答错两种结果,而是从满分到零分之间多种可能结果,也叫(0、K)记分项目,如问答题、论述题、作文、阅读理解等,这类项目的难度计算也有两种方法。
例4:某道论述题满分12分,所有被试在这道题上的平均得分为3.6分,求该论述题的难度。
解:该论述题的难度是
因此,该论述题的难度为0.30。
②极端分组法。当被试人数较多时,也可采用极端分组法,具体步骤如下。
第一步,按测验总分从高到低依次排列试卷。
第二步,从最高分的试卷开始,由高到低依次取出全部试卷的25%作为高分组;从最低分的试卷开始,由低到高依次取出全部试卷的25%作为低分组。
第三步,分别为高分组、低分组编制项目分析表。
第四步,按下列公式计算难度。
例5:有100名被试参加某个测验,其中第5题是论述题,满分10分。按高、低分各占总人数的25%分组,其中第5题的得分统计如表6-1所示,求该题的难度。
表6-1 论述题分析表
在分析表中,x为被试在该题得到的各种分数,f为得到各种分数的人数,fx为各种分数与得到各种分数的人数之乘积。
解:以上数据,已知N=25,XH=211,XL=146,H=10,L=4,
则有:
因此,这道论述题的难度为0.523。
3.难度对测验的影响[8]
(1)难度对测验分数分布的影响。测验项目的难度值越小,项目的难度就越大,通过该项目的人数就越少,测验分数就越集中在低分端,分数分布越呈正偏态分布(如图6-1);项目的难度值越大,项目的难度就越小,通过该项目的人数就越多,测验分数就越集中在高分端,分数分布越呈负偏态分布(如图6-2)。因此,测验项目过难或过易,都会造成测验分数偏离正态分布,使测验分数的离散程度变小。特别是,当项目难度值为1时,所有被试都得满分;当项目难度值为0时,所有被试都得0分。这两种情况都不能反映被试之间实际存在的差异。
图6-1 测验分数集中在低分端呈正偏态
图6-2 测验分数集中在高分端呈负偏态
(2)难度对测验鉴别力的影响。测验的主要功能之一就是鉴别被试实际水平的高低,适中的难度可以加大被试得分的差异,从而提高测验的鉴别力。当项目难度为0.5左右时,测验得分的方差最大,测验的鉴别力最高。
4.测验的适宜难度[9]
测验的项目难度多少才合适,取决于测验的目的和性质,不能认为每个项目的难度值都等于0.5最好。事实上,一方面,如果每个项目的难度值都等于0.5,那么此测验会使测验分数的分布呈双峰状态,即有50%的人所有项目都答对,得满分,另外50%的人所有项目都答错,得0分。这样的测验就只能区分出好与差两个极端被试的差异,却不能对各种被试做更精确的区分,因此,最好是使项目的平均难度接近0.5,即在0.50±0.20之间。这样,被试的测验分数将接近正态分布,有较大的鉴别力。另一方面,项目难度不能一概而论,应由测验目的确定,如果测验的目的是选人,则应采用难度值接近录取率的项目,比如要选出20%的优生参加学科竞赛,适宜难度应为0.20,如果要选出20%的差生补习,则适宜难度应为0.80。可见,测验目的不同,测验项目所要求的适宜难度也不同。
另外,测验的性质不同,难度也不一样。一般来说,速度测验的难度不宜太难,而且每个项目的难度值应接近相等;难度测验则要求难度值应在0.5左右。但不管是速度测验还是难度测验,一般应防止被试得满分,因为满分的意义很不明确,我们无法了解被试的最高水平。
(二)区分度
1.区分度的概念
项目区分度也称鉴别力,是指测验项目对被试实际水平的区分程度。如果一个项目能将不同水平的被试区分开来,也就是说,在某项目上水平高的人得高分,水平低的人得低分,我们就说这个项目有较高的区分度;反之,如果项目对不同水平的被试不能很好地鉴别,水平高与水平低的被试所得分数差不多,甚至正好相反,我们就说该项目区分度低,所以测量学家把区分度称为测验是否具有效度的“指示器”,并作为评价项目质量、筛选项目的主要指标与依据。
区分度用D表示,其取值范围是-1≤D≤1。当0<D≤1时,称积极区分。D值越大,区分效果越好。当-1≤D<0时,称消极区分。当D=0时,无区分作用。
2.区分度的计算
在理论上,区分度是以项目得分高低与实际能力水平之间的相关系数来表示的。但是,被试的实际能力水平是很难直接测量的,因此,在具体估计项目的区分度时,常常用被试测验总分代表其实际能力水平,即假定总分高的被试实际能力水平也高,相反,则实际能力水平低。
(1)极端分组法。此方法主要是适用客观题和主观题的区分度计算。
①二分法记分项目(客观题)区分度的计算。
计算公式为:D=PH-PL
式中,D为区分度,PH为高分组(即排名前27%的被试)在该项目上的通过率,PL为低分组(即排名后27%的被试)在该项目上的通过率。
例6:在370名被试中,选出高分组和低分组人数,其中高分组有70人答对第一题,低分组有40人答对第一题,求第一题的区分度。
解:高分组和低分组的人数为
因此,第一题的区分度为0.30。
②非二分法记分项目(主观题)区分度的计算。
计算公式为:
式中,D为区分度,XH为高分组(即排名前25%的被试)测验总分,XL为低分组(即排名后25%的被试)测验总分,H为该项目最高得分,L为该项目最低得分,N为被试总人数。
例7:有100名被试参加某个测验,其中第5题是论述题,满分12分。按高低分各占总人数的25%分组,其中第5题的得分统计如表6-2所示,求该题的区分度。
表6-2 论述题分析表
在分析表中,x为被试在该题得到的各种分数,f为得到各种分数的人数,fx为各种分数与得到各种分数的人数之乘积。
解:以上数据,已知N=25,XH=238,XL=158,H=12,L=4,
则有:
因此,这道论述题的区分度为0.40。
1965年,美国测验专家伊贝尔(R.L.Ebel)根据长期的经验提出了用鉴别指数评价项目性能的标准,如表6-3所示。
表6-3 测量的鉴别指数与优劣评价
以上标准仅供参考,不是绝对的。
(2)相关法。相关法就是通过计算项目得分与测验总分的相关系数来估计区分度的方法。由于测验项目的类型不同,采用的相关法也不同。
①积差相关法。非二分法记分项目(主观题)的区分度,可采用积差相关计算。即计算某项目得分与测验总分的相关系数。
其计算公式为:
例8:12名学生参加某学科测验,其中第6题(主观性试题)得分为x,测验总分为y,结果如下,求第6题的区分度。
则,区分度为:
因此,第6题的区分度为0.60。
②点二列相关法。二分法记分项目(客观题)的区分度,可采用点二列相关法计算。
其计算公式为:
例9:10名学生参加某学科测验,其中第1题(选择题)得分为x(1表示答对,0表示答错),测验总分为y,结果如下,求第1题的区分度。
解:根据表中数据求得
则,区分度为:
因此,第1题的区分度为0.354。
3.区分度与难度的关系
区分度与难度有密切的关系。难度直接影响到项目得分的方差,而方差又反映项目得分的离散程度,直接影响到区分度的大小。研究表明,难度越接近0.50,分数的分布范围越大,方差越大,区分度也越大。表6-4说明了区分度与难度的关系。
表6-4 区分度与难度的关系
二、测验质量分析
难度和区分度是测验项目的质量指标,但即使每个项目都有适宜的难度和较高的区分度,合成一份测验后质量也未必就好,因此还需要分析整份测验的质量指标,即分析测验的信度和效度。
(一)信度
1.信度的概念
信度是指测验结果的可靠性,即测验结果的一致性或可信性程度。换句话说,一个信度高的测验,对同一个人或同一组被试先后施测两次,结果应保持一致,否则,就是信度不高的测验。
一个好的测验,只要按测量规则进行操作,其结果就不应随测验使用者或使用时间等方面的变化而发生较大的变化。例如:用标准的钢尺去测量一张桌子的长度,无论是谁,只要操作方法正确,所测的结果是基本一致的,但如果所用的是一种具有较大弹性的皮尺,则不同的人或同一个人在不同时候去测量,其结果必然会有较大的误差,这说明用皮尺去测量信度不高。
信度是任何一个测验的必要条件,对于教育测量来说,更为重要。因为教育测量的对象主要是精神现象,所测量的特性不易把握,为了能真实地反映被试的某种特点,需要更加注意测验的信度,从而正确地判断测量结果的价值。只有信度高的测验才能成为教育工作有用的工具,否则,测量的结果是无意义的、无效的。
2.信度的类型和估计方法
(1)重测信度。重测信度是指用同一测验,对同一组被试先后施测两次,然后根据被试的两次测验分数计算其相关系数。
重测信度是假定所测量的特性处于相对稳定的状态,如果用同一测验对相同被试先后施测两次,其结果相同或相近,说明测验结果具有稳定性,信度高,如果两次测验结果相差较大,则说明测验结果缺乏稳定性,即信度低。因此,重测信度也叫稳定性系数。
其基本模式为:
两次测验均以A表示,即两次测验完全相同,A的下标1和2表示同一测验施测两次,时距可短至几分钟,长可达数年。
重测信度即稳定性系数可使用积差相关系数的公式计算:
例10:用学习动机测验对15名被试先后施测两次(间隔时间为2周),得分如下,求该测验的信度。
解:根据表中数据求得
则,区分度为:
因此,该测验的信度为0.86。
使用重测法要注意以下三点。
①两次测验之间的时间间隔要适宜。重测信度的大小常常受两次测验的时间间隔长短的影响,间隔时间过短,第一次测验记忆犹新,容易回忆出上次的答案,因而夸大了稳定性,间隔时间过长,被试可能由于经验积累、练习、成熟的影响,成绩就可能与第一次大有差别,因而降低稳定性。间距应多长,应视测验类型和准备如何利用测验结果而定。比如,测量人格、智力等相对稳定的特质的测验,时间间隔可长些,学业成就测验的时间间隔要短些。在报告重测信度时,一般要说明时间间隔及被试在此期间的有关活动。
②重测法适用于速度测验而不适用于难度测验。因为速度测验题目较多,测验有足够长度,时间较紧,被试无暇慢慢地回忆,所以第一次测验的记忆影响较少。
③应注意提高被试的积极性,由于重测法是把原测验再测一次,所以被试容易兴趣索然,采取不积极合作的态度,使第二次测验质量降低,所以,调动被试的积极性很重要。
(2)复本信度。复本信度是指用两个等值(所测特质、题型、题数、难度、区分度等方面相同),但具体内容不同的测验,在最短时间内,对相同被试先后施测两次,然后根据两次测验分数计算其相关系数。
复本信度是衡量两个不同版本的测验的等值程度的指标,被试如果具备某一心理特质,那么,用性质相同而题目不同的两个等值测验来施测,结果应该具有一致性,否则的话,说明测验信度低。因此,复本信度也叫等值性系数。
其基本模式为:
这种方法是编制两份等值的测验(复本),先用第一种测验A对被试进行施测,接着(时距可短,两次测验接着进行)再用第二种测验B进行施测,然后求两次测验的积差相关系数,计算公式同上。
例11:对10名被试用两个等值的测验施测,测验得分分别用x和y表示,测验结果如下。求该测验的信度。
根据上面的计算方法,可求得:
因此,该测验的信度为0.78。
使用复本法要注意以下三点。
一是复本法的关键是两个测验必须等值,即两个测验所测特质、题型、题数、难度、区分度等方面相同,只是具体内容不同。要编制这样等值的两份测验非常不容易。
二是两次测验时距宜短,以避免知识积累、练习效应等因素的影响。
三是如果两次测验紧接着进行,要注意避免被试的厌倦心理。
(3)同质信度。上面的两种估计信度的方法,都必须对被试施测两次,然后计算两次得分的相关系数。同质信度只需施测一次。
同质信度也称内部一致性系数,是指测验内部所有项目间的一致性。这里讲的是分数的一致,而不是项目内容或形式的一致。若测验的各个题目得分有较高的正相关时,不论题目内容和形式如何,测验为同质的。相反,即使所有题目看来都好像测同一特质,但相关为零或负相关时,这测验还是异质的。
①分半信度。分半信度是将测验中的测题平均分成两组(比如奇数题与偶数题),然后分别计算每一组的得分,并求两者的积差相关系数。
但是,求得的相关系数还不是同质信度,因为把试题分成两组后,试卷的长度减少了一半,这会降低测验的信度,一般来说,测验越长,信度越高,因此,求出相关系数后还需用斯皮尔曼—布朗公式加以校正。公式为:
式中rtt为分半信度,rhh为分半测验分数的相关系数。
例12:15名被试在6个项目组成的测验上的得分如下,求该测验的信度。
解:分别求出被试在奇数题(1、3、5题)与偶数题(2、4、6题)上的总得分,如下所示。
计算得到:
于是有:
用斯皮尔曼—布朗公式校正:
因此,该测验的分半信度为0.925。
使用斯皮尔曼—布朗公式必须符合下列条件:分半后两组分数的平均分和标准差相同或接近,即两半测验等值。如果不满足条件,信度估计会出现误差。这时可采用下面两个公式来估计信度。
式中r为信度值,S2a与S2b分别为两半测验分数的方差,S2t为测验总分的方差。
式中r为信度值,S2d为两半测验分数之差的方差,S2t为测验总分的方差。
下面以弗拉南根公式为例计算测验的信度。
例13:15名被试在奇偶分半测验上的得分如下,求该测验的信度。
解:根据表中的数据求得
奇数题的方差为:S2a=20.12
偶数题的方差为:S2b=23.84
测验总分的方差为:S2t=81.43
于是有:
因此,该测验的分半信度为0.92。
②库德—理查逊公式法。由于测验分半的方法多种多样,不同的分法将得到不同的分半信度,而要把一个测验分拆成真正等值的两半是不容易的。能否不作拆分而直接通过一次施测所获得的数据来估计测验信度呢?库德(G.F.Kuder)和理查逊(M.W.Richardson)提出了一系列的公式来估计测验的信度,较常用的是K-R20公式:
式中k为构成测验的项目数,p为各项目的通过率,即难度,q=1-p,S2t为被试各项目得分之和的方差。
例14:有一个包含6个项目的测验,10名被试得分如下(通过得1分,未通过得0分),求该测验的信度。
解:根据表中的数据求得
于是有:
因此,该测验的分半信度为0.47。
③α系数法
分半信度适用于(0 1)和(0 K)记分的项目,库德—理查逊公式只适用于(0 1)记分的项目,α系数法适用于(0 K)记分的项目。α系数法由克伦巴赫(L.J.Cronbach)提出。公式为:
式中k为构成测验的项目数,S2i为各项目得分的方差,S2t为被试各项目得分之和的方差。
例15:有一个包含6个论文式题目的测验,5名被试得分如下,试求该测验的信度。
解:首先,求各项目得分的方差S2i和方差之和。
其次,求被试各项目得分之和的方差,即求41、63、43、57、54的方差:S2t=68.96。
最后,求α系数。
因此,该测验的分半信度为0.85。
计算内部一致性系数,需注意下列问题。
一是若用分半法时,以按奇数题和偶数题分为两半为宜。若把整个测验分为前后两半,一方面,前半部分试题与后半部分试题未必等值;另一方面,被试者在完成后半部分试题时,可能因疲劳、厌倦等原因而影响回答质量,以致前后反应不一致,影响信度。
二是速度测验不宜用分半法。因为速度测验的项目难度低,被试得分多少在很大程度上取决于答题数量的多少,分半法易使得分相同,从而会夸大分半法的信度。
(4)评分者信度。评分者信度是估计不同评分者对同一测验评分一致性程度的指标。
一般论文式考试,只能提供列出答案要点的参考答案而无固定的标准答案,因而不同的评分者对同一份试卷往往给分不同,甚至有很大的悬殊。在作文测验、投射测验、品德测验、创造力测验等的评分中,都存在这个问题。评分者之间的评分不一致,说明评分的信度不高,评分者所评的分数越一致,评分的信度越高。
要计算评分者评分的一致性系数,需区分评分者的人次数。若只有两人评N份试卷,或一人先后两次评N份试卷,可用斯皮尔曼(Spearman)等级相关的公式计算;若三个以上的评分者评N份试卷时,则需计算肯德尔和谐系数(Kendall Coefficient of Concordance)。
①斯皮尔曼等级相关。评分者为两人时,将两人的评分转化为等级,求等级相关系数。
式中rR为等级相关系数,D为两人评分的等级之差,N为试卷数。
例16:甲、乙两位教师评阅10份作文试卷,结果如下,问两位教师的评分是否一致?
将表中数据代入等级相关公式,求得
可见,两位教师评分的一致性系数比较大,评分基本可靠。
②肯德尔和谐系数。有多名评分者,将评分转化为等级,求肯德尔和谐系数。
式中W为和谐系数,K为评分者人数,N为被评对象数,Ri为被评等级总和。
例17:有5位教师对8篇作文进行等级评定,结果如下,问5位教师的评定结果是否一致?
解:由表中数据可求得
于是有:
可见,5位教师评分的和谐系数很大,评分可靠。
一般来说,W大于0.90时,可认为评分者信度较好。
3.测验的适宜信度
信度系数究竟以多大为好,没有明确的标准,要看测验的目的和类型。对于学科测验,信度系数要求达到0.90以上,智力测验要求达到0.80以上,人格测验能达到0.60以上就很不错了。
4.提高测验信度的措施[10]
(1)适当增加测验项目的数量。一般而言,测验越长,信度值越高。原因在于:第一,测验加长,就可能改进项目取样的代表性,从而更好地反映被试的真实水平;第二,测验的项目越多,在每个项目上的随机误差就可以互相抵消。
(2)测验的难度要适中。过难或过易都会使个体间得分差异减小,降低信度。只有当测验难度水平使测验分布范围最大时,测验的信度才会最高,通常这个难度水平为0.50。
(3)测验要有良好的区分度[11]。测验的信度与项目的区分度有密切的关系,整个测验中各项目的区分度的平均值越大,测验的信度就越高。表6-5说明了区分度与信度的关系。
表6-5 区分度与信度的关系
(4)测验的时间要充分。测验的时间限制也会影响信度的高低,如果安排的时间不够,考生不能从容回答所有问题,也就不能真实地反映被试的实际水平。因此,测验的时间要充分。当然,这里不是说,要保证所有被试都能做完试题,而是以大多数被试为标准来设定考试的时间。
(5)测验的程序应统一。测验程序直接关系到信度的高低。测验的程序统一包括试卷统一、测验开始时的指导语、回答问题的方式、分发及收回试卷的办法、测验时间的掌握等。
(6)评分要尽量做到客观化、减少评分误差。评分是测验的一个重要环节,如果这一关把握不好,测验就等于前功尽弃了。信度系数是根据实得分数算出的,如果评分不准确,信度也就不准了。因此,要求评分要尽量做到客观,减少评分误差。
(二)效度
一个好的测验,信度高是必要条件,但并非充要条件。不可信的测验肯定没有效,但可信的测验未必有效,而有效的测验必定可信,因此,对教育测量而言,效度显得更为重要。
1.效度的概念
效度是指测量结果的准确性和有效性的程度,即一个测验对所要测量的目标准确测量的程度。通俗地说,测验能否测量到我们所要测量的东西的程度就是效度。
我们可以从以下几方面来理解效度[12]。
一是测量的效度始终是对一定的测量目的而言的。任何测量都有某种特定的目的和功能,判断效度的高低,就是判断测验达到目的的程度。如果能正确、真实地测量出所想测量的东西,那么效度就是高的;反之,则是低的。例如,一个智力测验,如果实际测量的不是智力的高低而是知识的多少,那么此测验的效度就低。即使某些公认效度较高的测量,也不能要求它在不同目的的测验中保持相同的效度。
二是测量的效度也是对测量的结果而言的。一种测量工具只有经过实际测量,才能根据测量的结果判断它的效度。所以,也可以把效度理解为测量的结果正确反映所欲测量的特性或功能的程度。
三是一种测量的效度只是高或低的问题。例如,要测量学生的数学能力,我们不会用语文题目来作为测题,总是会用一些数学题。因此,学生的数学能力或多或少会反映出来一些,不会毫无反映。换言之,测验结果总有一定的效度,只是效度高低不同罢了。
四是在教育测量中,效度问题比在其他领域的测量更为重要。首先,教育测量的对象大多是精神现象,只能通过对其具有可测性的外部表现(如言语和动作等)的测量,以间接认识其心理活动、心理特征或知识水平等;其次,学生的心理活动、心理特征与其外部表现之间,一般仅具有相关关系而无函数关系,外部行为并不能准确无误地反映某种心理状态。此外,教育测量的对象不是物而是具有主观能动性的人。人能有意识地调节自己的外部行为,掩盖自己的内心活动,这就增加了认识其精神现象的难度。所以,教育测量必须考虑是否测量到了所要测量的东西,在多大程度上测量到了这些东西。也就是说,必须考虑测量的效度问题。
2.效度的类型和估计方法
效度的类型目前被广泛采用的是弗兰士(J.W.French)和米希尔(B.Michbel)提出的分类,他们将效度分为内容效度、构想效度和效标效度三种。
(1)内容效度。内容效度是指测验内容取样的适当性,也就是测验内容对想要测量的全部内容的代表性。以考查学习成绩为目的的测验来说,课程标准所规定的全部教材内容是学生必须掌握的。但一份测验不可能测量全部教材内容,这就有测验内容是否有代表性的问题。事实上,要用有限的几个或几十个测题代表全部教材内容是比较困难的,所以测验题目的代表性有大有小,测验的内容效度也就有高有低。
在编制测验时,内容效度是一个相当复杂和不易解决的问题。以成就测验为例,固然要求测验题目能代表学习过的全部内容,但仅仅在形式上做到这一点还不能保证足够的内容效度,因为学习成绩的高低要从学习内容的巩固程度、理解程度和应用能力等行为反应去考查,如果测验题目大多是只需死记教材内容就可以回答的问题,那么,对全面测量学生的成绩这一目的来说,内容效度仍然不够高,也就是说,还没有完全测量到所想测量的特性。[13]
因此,一个测验要具备较好的内容效度必须满足两个条件:①要确定好内容范围,并使测验的全部项目均在此范围内。②测验项目是已界定的内容范围的代表性样本。
估计内容效度可采用下面两种方法。
一是逻辑分析的方法。根据课程标准的要求,勾画出学生应掌握的知识内容的范围和深度,提出应形成的技能名称等,然后以逻辑分析的方法估计测验在多大程度上代表了所要测量的全部内容,在多大程度上能够测量出所要测量的特性和功能。逻辑分析的方法实质上是对测验内容进行逻辑推理的评判方法,是一种定性分析方法。
如果是借用现成的(别人编制好的)测验,那么,在分析内容效度时,首先要考虑测验编制者是根据什么教材来编制的,是用来测量什么内容的。如果二者一致,那么,此测验可期望获得较高的内容效度。反之,如果测验内容与被试学习的教材不一致,例如,测验是根据高中教材乙种本编制的,我们却用来测验学习高中甲种本教材的被试。显然这个测验就不能很好地代表甲种本的教材内容,所以测验的内容效度就低。然后再考虑测验在多大程度上能代表教材内容,在多大程度上能够测量出所要测量的特性和功能。[14]
用逻辑分析的方法估计内容效度时,需要制订两个表:一个是测验的双向细目表,分别列出各单元教材内容在测验中应占的百分比和所要求的各种行为反应(目标)在全部行为反应中应占的百分比。如表6-6所示。
表6-6 ××课程测验双向细目表
(续表)
第二个表是测验试题分类表,根据各单元教材内容列出试题,并注明各单元教材内容在测验中占的百分比和各类题目所占的百分比。如表6-7所示。
表6-7 ××课程测验试题分类表
最后,对照比较这两个表,根据各部分相符合的程度,判断内容效度。
知识链接:布卢姆的教育目标分类法
布卢姆于1948年开始致力于教育目标的分类研究,1956年公布了认知领域的目标分类体系,他把教育目标分为认知领域、情感领域和动作技能领域,再把认知领域分为识记、理解、应用、分析、综合和评价等六类。布卢姆的认知目标分类法一直被认为是测验目标分类的依据,我国目前许多测验的命题,均以布卢姆的目标分类法为基础来确定测验的目标。
1.识记:主要指记忆知识,对学过的知识和有关材料的识别和再现。这一目标要求学生做到:确认、定义、配对、指出名称、选择、默写、背诵、描述、标明、列举、说明等。
2.理解:主要是对知识的掌握,能抓住事物的实质,把握材料的意义和中心思想。这一目标要求学生能做到:了解事实与原理,解释文字资料,解释图表,转译文字资料为另一种资料形式,验证方法与过程,对所学的内容进行概述,举例说明所学过的问题等。
3.应用:指把所学过的知识应用于新情境。这一目标要求学生做到:表现、列举、计算、设计、示范、运用、操作、解答实际问题等。如应用几何知识测量土地面积;应用意识对物质有能动的反作用原理去论述精神文明建设的重大意义;运用所学过的知识去解答实际问题;制作图表;设计模型;正确使用表现手法与过程等。
4.分析:指能将知识进行分解,找出组成的要素,并分析其相互关系及组成原理。这一目标要求学生达到:能对事物进行具体分析、图示、叙述理由、举例说明、区别、指明、分开、再分,认出在推理上的逻辑错误;区别真正事实与推理,判断事实材料的相关性。例如,划分文章段落,写出段意及找出中心思想;指出一个实验中哪些是自变量、哪些是因变量等。
5.综合:与分析相反。指把各个元素或部分组成新的整体。理解、应用和分析虽然也有将部分组合与重建的意思,但没有综合这样完整,综合更具独创性。这一目标要求学生能做到:联合、组成、创造、计划、归纳、重建、重新安排、总结等。如写出一份结构完整的论文提纲;提出一份系统的实验计划或方案等。
6.评价:指根据一定的标准对事物给予价值的判断。这一目标要求学生能做到:比较分析、评价效果、分辨好坏、指出价值。如判断文艺作品成败之处;判断事件的真伪;判断一个调查的科学价值;判断某一实验结果的价值;判断解决问题的过程与方法的成败等。
布卢姆上述六类目标是有层次、有顺序的,识记是最低层次,是最基本的要求。其余依次是理解、应用、分析、综合、评价。评价为认知领域的最高层次,是前面五种目标的综合并增加了价值标准。这六类目标,由简单到复杂,由低级到高级依次排列,组成层次结构。
资料来源:胡中锋.教育测量与评价[M].广州:广东高等教育出版社,2006:54~55。
二是统计分析方法。也有人认为内容效度可以采用定量分析方法来描述。比如,克伦巴赫提出可以从同一教学内容范围的总体中抽取两套独立的试题,用这两套试题分别对相同的被试进行测验,两次测验的相关系数,可以用来估计内容效度。若相关较高,可以认为内容效度亦高;若相关较低,则两个测验至少有一个内容效度低。
还有人提出了前后测比较法,即在传授某种知识之前先对被试进行一次测验(如在正式学习物理学之前测验物理知识),这时被试对所测验的内容当然知之甚少;然后正式传授这种知识,一定时间后测验所学内容,比较两次测验结果,如果后期测验成绩好,就说明测验测量到了课堂上所教的内容,效度高,相反则效度低。[15]
显然,这些方法是存在争议的。前一种方法实际上是计算信度的复本法,即使两套测验的相关系数高,也只能说明测验的信度高,而不能说明测验内容的取样是适当的,能代表想要测量的全部内容,因为信度高未必效度就高。后一种方法也存在很大的问题,即使后期测验成绩好,也不能说明这个测验的效度高,因为同样不能说明测验内容的取样是适当的,能代表想要测量的全部内容。
(2)构想效度。构想效度是指测验能测量到心理学理论中的某种结构或特征的程度。这里的“心理学理论中的某种结构或特征”,是指心理学理论所涉及的抽象而属假设性的概念、特性或变量,如智力、性格、气质、兴趣、态度、动机、焦虑、创造力等。
确定构想效度,首先要从某一理论出发,提出关于某一心理特质的假设,然后设计和编制测验并进行施测,最后对测验的结果采用相关或因素分析等方法进行分析,验证与理论假设的相符程度。[16]例如,比奈应用逻辑分析方法研究智力行为的心理结构,认为智力不单纯是智力行为的很多不同方面的总和,而是一种连锁性的过程,其中包括判断、解决问题和推理能力。如果根据这种理论编制的智力测验,确实能测量出被试的判断、理解和推理能力,就可以认为所编制的测验具有结构效度。又比如,我们假想人的创造力可以分解为人的思维流畅性、灵活性和创造性三大特性,并根据这三大特性编制测验,若有足够的证据来证明该测验确实可以测到这些特性,则认为该测验是个结构效度较高的创造力测验。
确定构想效度的方法主要有以下几种[17]。
一是测验内法:通过研究测验的内部结构来分析测验的构想效度。主要包括确定测验的内容效度和考察测验的同质信度等。如果内容效度高,说明测验的内容能测量到我们想要测量的心理学理论中的某种结构或特征;同质信度高,说明测验内部所有项目间是一致的。
二是测验间法:通过分析几个测验之间的关系来分析测验的构想效度。测验间法有多种,如相容效度、区分效度、因素分析等。相容效度是把自己所编制的测验的施测结果,与另一个性质相同且被公认具有较高结构效度的测验结果比较。例如,把新编的智力测验的结果与斯坦福—比奈智力量表的测验结果相比较,如果两个测验结果的相关系数高,说明新编制测验具有较高的结构效度;区分效度是指新编制一个测验,使之与另一个已知测验无关或相反。然后求两测验的相关系数,相关系数低则说明新编制测验与已知测验所测量的特质不同,效度高;相关系数高,则说明新编制测验与已知测验相容,效度低;因素效度是通过对一组测验进行因素分析,找到影响测验分数的共同因素,每个测验在共同因素上的负荷量即每个测验与共同因素的相关系数高,效度就高。
三是效标关联法:如果一个测验与效标具有高相关,该测验的构想效度就高。
四是实验操作法:通过控制某些实验条件,观察其对测验分数的影响,也可以获得构想效度的信息。例如,在进行一个关系重大的考试前,对被试施测焦虑测验,如果靠前的焦虑分数比平时显著提高,说明该焦虑测验有较高的构想效度。
(3)效标效度。效标指的是衡量测验有效性的外在标准,通常是指我们所要预测的行为。如果一个测验能够预测将来实际发生的事情,就是一个好的测验。例如,用高考成绩来预测被试在大学的学习成绩,如果预测准确性高,就说明高考是一个好的测验。这里,被预测的行为是衡量测验是否有效的标准,简称效标。所谓效标效度,是指测验分数与效标之间的一致性程度,即测验对我们感兴趣的行为能够预测到的程度。因为效标效度需要有实际证据,所以又叫实证效度。
以什么作为效标,要视测验的目的而转移。如果测验(如高三的模拟考试)的目的是预测学生的高考成绩,那么高考成绩即为效标;而高考的目的是预测学生入大学后的学习情况,这时,学生在大学的学习成绩又成了高考成绩的效标。所以,在估计效标效度时选择什么作为效标,是一个十分重要的问题。
效标效度分为两种:一种是效标资料与本测验分数可以同时获得,称为同时效度或并存效度。同时效度的高低用效标与测验分数的相关系数来估计。例如,对初中二年级学生施行教师自编测验,考查其学习成绩,接着再用公认的对测量初二学生成绩具有较高效度的标准化测验施测于相同的学生,然后计算两次测验成绩的相关系数。如果相关系数高,说明自编测验的结果与效标一致,即自编测验有较高的同时效度,相反,同时效度低。
另一种是效标在本测验之后相当时间获得的,称为预测效度。预测效度是指测验结果对未来的行为或测验成绩(即效标)能够准确预测的程度。预测效度的高低也是用效标与测验分数的相关系数来估计。例如,模拟考试成绩可用高考分数做效标,如果两者相关系数高,说明模拟考试的预测效度高。
效标效度的估计方法很多,如相关法、分组法、预期表法、命中率法等。这里我们只介绍应用较广泛的相关法。
①积差相关法。当测验分数与效标都是连续变量时,可采用积差相关法。
例18:10名被试语文模拟考试与升学考试的成绩如下,求模拟考试的预测效度。
解:根据积差相关系数的计算方法,可求得
积差相关系数很大,因此模拟考试有很高的预测效度。
②等级相关法。当测验分数为连续变量,效标为等级变量时,把连续变量转化为等级变量,求斯皮尔曼等级相关系数。公式为:
例19:8名学生的某学科成绩与思维测验成绩如下,求学科成绩的同时效度。
(续表)
解:根据等级相关系数的计算方法,可求得:
等级相关系数很大,因此学科测验有很高的同时效度。
3.提高效度的措施[18]
(1)精心编制测验。首先,测验内容要符合测验目的的要求;其次,项目表述必须清楚、简明,所用字、词、句能被学生理解,内容应能引起被试的兴趣,排列由易到难,但前面的题目不应暗示后面的答案;再次,项目难度要适宜,有足够的区分度;最后,试卷印制清楚,无错误和遗漏,并力求精美。
(2)妥善组织测验。严格按照测验程序进行,不做超出规定的解释,掌握好时间。评分时务必遵循评分标准,仔细登记,避免错误。另外,两次测验间隔的时间也影响效度,所以,间隔长短,一定要按测验目的合理安排。
(3)适当增加测验的长度。增加测验的长度可以增大测验内容对全部内容的代表性,也就越能够测量到所要测量的东西。
(4)正确处理效度和信度的关系。信度是效度的必要条件,但不是充要条件。信度高的测验效度不一定高,但效度高的测验信度一定也高。