认知诊断评价理论基础

第二节 等值和垂直量表化

字体:16+-

在已有的认知诊断评价研究文献中,极少涉及测验等值问题的研究内容。等值在此难道是个不必要和不重要的问题吗?只要是需要对不同测试情形下的被试得分或测验进行比较,那么,等值就是一个必需的过程。在大规模评价项目中,对不同测试情形下的结果进行比较是非常重要而又非常常见的,因此,等值的问题应该得到关注。

在认知诊断评价理论框架下,被试典型的得分模式表现为离散的属性掌握模式,这与经典测量理论和项目反应理论框架下的被试得分模式不同。另外,项目参数包括属性模式和题目及属性参数,这些参数的类型与项目反应理论的参数也存在差异,参数之间的等值转换模式还没有得到研究。

基于认知诊断评价理论及其模型的等值研究非常少,还没有成熟的等值方法得到广泛认可。但还是需要让研究者们理解关于等值的概念及其基本逻辑过程。因此,本书介绍了相关的内容,希望能够引起大家的关注,并在此基础上对认知诊断评价理论架构下的等值问题进行深入的研究。

本章内容首先需要解释清楚几个在中英文文献中经常出现的相关概念。虽然有些作者可能会使用不同的术语,但进行一些界定是必要的,至少让读者可以明白出现这么多不同的用语,是因为在实际研究中存在许多不同的具体测量情形。

量表化(scaling)是测量学中一个最基础的概念。测量的目的就是要给被试某方面的心理特质指定一个值,而对这个值的大小的意义解释就需要依赖于某个度量单位系统。量表化指的就是建立统一的具有可比性(comparability)和参照性(reference)的度量(scale)系统的过程。“scale”这个单词有尺子的意思,如用于量身高的工具叫“scale”,用于称体重的工具也叫“scale”,而我们心理学中广泛使用的用于测量心理特质的量表也叫作“scale”,心理量表是用于测量心理量的工具,将被试在心理量表上的得分对照常模参照表(即统一长度)就可以判断他在总体中的位置,以及这个得分意味着什么,而能够对被试得分进行这种解释。量表与一般的非标准化调查问卷是不同的,未经过标准化的调查问卷就只能评价当前参与测试的样本群体的相对位置。量表化总是针对某种特质或某个相关特质领域进行的。量表化的途径非常多,如读者非常熟悉的经典测量理论中介绍的各种测量常模的建立。为了建立统一度量系统的量表化过程可能会使用很多测量数据转换方法,如链接、等值、校准、一致化等。

链接(linking)这个术语在使用时,经常会代表两种意义:一种是包含建立两个测验之间各种关系的过程,如等值、校准、预测;另一种是指代相对比较狭窄的范围,一般是指建立两个测量目标相同的测验之间的比较系统,而且,虽然这两个测验有相同的目标或者结构(construct),但是,测验之间的难度分布、信度指标可能都不一样,有人又称这种情形为校准过程。不过,在大多数学者的认识中,链接一般指的是第一种意义,本书关于链接一词的使用一般也是指第一种意义,而第二种意义使用下面将要介绍的“校准”一词来指代。

等值(equating)这个术语一般是指建立两组或多组平行测验之间的比较系统的过程。所谓平行测验是指若干不同测验,这些测验的编制过程、测试过程和解释过程几乎按照相同的严格界定进行,测验的范围相同、测验的具体章节内容相同、测验题型和计分规则相同、测试条件和过程相同、测验难度等计量学指标分布相同。

校准(calibration)这个术语是指建立两个结构相同,但难度分布或信度指标可能不一致的测验分数之间的统一分数量表。比如,为了追踪了解小学生在数学课程上的进步状况,需要建立不同年级间数学分数的比较系统,以便了解当某个学生从三年级升入四年级之后,其数学水平是否得到提高,这种比较关系的建立过程就是垂直量表化(vertical scaling)。在这种情形下,不同年级的数学测验虽然目标领域是一样的,但测验难度分布却是不一样的。另外一种实际情形就是,由于某智力测验完整版的测试时间太长,容易导致被试作答疲劳,因此同时编制了一个简缩版,简缩版与完整版所测量的结构是一样的,题型也是一样的,难度分布等统计学指标也保持一致,只是题目量减少了。随着题目量的减少,测验的信度指标也就发生了变化,测验开发者当然希望建立完整版测验与简缩版测验分数之间的比较关系,这样才能让使用者无论作答了哪个测验,均能得到相似的结果解释,这个关系的建立过程也叫作校准。

一致化(concordance)这个术语一般是指建立两个测量目标相近(similar)的测验之间的比较关系。所谓测量目标相近,就是测验目标内容之间有较高的相关,但却并不完全一样(identical)。比如,建立韦氏智力量表分数与瑞文测验分数之间的比较关系的过程,就可以称为一致化过程。

调谐(moderation)一词一般是指两个测量目标或结构不同的测验上的分数建立比较关系的过程。其中一种典型的设计方法是,两个测验通过分别建立与第三个测验(调谐测验)之间的关系,来达到相互比较的目的。典型的过程是,一组被试作答第一个测验与调谐测验,另外一组被试作答第二个测验与调谐测验,这种设计可以对两组被试在不同测验上的得分进行比较。另外一种更简单的设计,就是两个测验施测于同一批被试或两个随机等组的被试,从而建立两组分数之间的等值关系,这个其实就是观察分数等值方法。

预测(projection)一词一般指的是在两个测试不同目标或结构的测验之间建立分数的比较关系的过程。在建立比较关系时,预测一般是用一个测验上的得分去预测另一个测验上的得分,具体的方法通常是用回归分析(regression analysis)建立同一组被试在两个测验上的得分之间的关系。

调谐和预测两种方案所处理的测验一般都是测量不同的目标或结构。比如,一般能力倾向测验经常是以分测验(subtest)的形式成组编制的(test battery),每个分测验所测量的结构之间有很大的差异,但是通过这种测验,可以了解被试在不同领域之间的优势和劣势。当然,在编制这类测验时,需要考虑分别建立总测验和各个分测验的比较系统,以便比较被试在不同分测验上所处的位置。另外,通过调谐这种方案所建立的分数比较关系是对称的,但通过预测这种方案所建立的比较关系却不是一一对称的。

为什么文献上会出现这么多相关术语,就是因为对测验进行量表化时可能会涉及各种不同的情形,以及量表化的目的可能不同。科龙和布雷南指出,在对测验进行量表化时,至少需要对以下四个方面的情形特征加以考虑。

①推断(inferences):在根据被试两个测验上的分数所蕴含的意义进行推断性解释时的相似性程度。如果在做出推断性解释时的相似性程度越高,那么,这两个测验所测内容结构就应该非常一致,适应的参照总体也越相似,测试条件也应该一致。那么,相应的量表化方法也应该越严格。

②结构(constructs):两个测验所测结构和内容的相似性程度。相似性程度的高低会影响我们应该选择什么样的量表化方法。

③总体(populations):两个测验测试的总体及解释所参照的总体的相似性程度。

④测量条件(measurement conditions):两个测验测量条件的相似性程度,如测验长度、测验模式、施测条件等。

根据这些情形条件的不同,在进行量表化时就可能需要使用不同的方案和方法。比如,对于“等值”所处理的情形,应该是两个测验经等值后的分数可以进行相同的推断解释,两个测验测量了相同的特质结构,测验结果解释的参照总体相同,在相同的测量条件下进行施测。对于“一致化”所处理的情形,就要求两个测验测量的特质结构相似,测量条件相似,相同的测验分数可以进行近似的推断和解释,测验结果解释的参照总体相似。而对于我国分省高考的情形,测试的结构可能存在很大差异,施测的条件存在差异,测验分数的参照总体存在差异,两省高考之间相同的测验分数不能进行相似的推断。当然,我们还是希望能够建立不同省份之间高考分数的比较关系,只是需要应用不同的量表化方案。

虽然有这么多的术语,它们分别代表了不同的应用情境,它们之间有着不同的具体目标,但最后的目的是一样的,那就是建立不同测验分数或不同被试群体之间比较系统的关系,即进行统一量表化。而且有些量表化方案在具体实施时,可能会使用相同的数据采集设计方式,甚至使用相同的数据统计分析方法。比如,垂直量表化和等值在数据采集设计和建立比较关系的统计分析方法上就有许多相同或相似之处。

下面的内容主要是关于等值的设计模式及等值转换方法的介绍。在国内,关于等值概念的应用似乎比较宽泛,基本与这里讲到的链接(linking)一词的指代范围一致。本章以下内容将会遵照国内的传统叫法,只是读者自己需要明白各种情境下的等值需要注意的问题,并逐步建立自己关于量表化概念、方法的正确认识和交流习惯。等值一般包括被试分数等值、被试能力水平参数等值和项目参数等值。本章最后还会讲到现在及将来在教育及心理评价中具有非常重要应用价值前景的垂直量表化(vertical scaling)或叫垂直链接(vertical linking)的模式和方法问题。

一、等值

等值是将测量同一心理特质的不同测验分数或项目参数,通过一定的设计和数学模型,转换到统一的单位系统中去的过程。

等值是进行大规模评价中经常用到的测量技术。在大规模评价活动中,经常会用到多个测验测量不同的被试群体,但是,又希望最终的测试结果是可以进行相互比较的。在我国,高考应该是较大规模的全国统一考试,现在是各个省份进行自主命题考试,虽然考试大纲是统一的,但不同省份命制的具体题目千差万别,如果不进行等值设计,各个高校在招生时就只能按照在各省分配名额的方式进行,因为各省考试分数之间不可比较。现在,我国也开始重视教育质量进步的评价问题,除定性分析之外,用测试分数进行评价应该是一个重要手段,教育质量进步评价涉及纵向评价问题,而根据不同年份的不同测验结果如何能够评价学生成绩的进步情况呢?这也需要进行等值设计,以保证测验分数的可比性。

另外,考试安全是考试组织者最为关心的问题之一,为了保证考试的安全,组织者几乎想尽了各种办法。其实,如果能够建立大型题库,并实行计算机化自适应考试,测试组织者几乎不用花多少心思就可以解决考试的安全问题。有些考试单位已经开始研究尝试建立题库。不过,题库的建设如果离开了项目参数等值过程,这个题库几乎就没有多大价值,至少没有充分发挥它应有的价值。

(一)进行等值的条件

在两个测验之间进行等值必须具备一定的条件。根据洛德的观点,等值一般应当具备以下条件。

1.测验内容同质

洛德认为,测试不同特质(traits)的测验之间不能进行等值。被等值的两个测验必须是测量相同的心理特质或特质领域。对测试完全不同的心理特质的测验进行等值是没有意义的。就像将数学成绩与语文成绩进行比较,这是没有必要的。

2.测验信度相等

洛德认为,不同信度测验上的分数不能进行等值。如果一个不可靠的测验上的分数可以等值到一个可靠的测验上,那么就不用专心去开发可靠的测验了。所以,被等值的两个测验必须有相等的信度水平。测验的信度不同,意味着测验结果的可靠性程度不同,不同可靠性程度的测验进行等值的结果也是不可靠的,两个进行比较的分数也就不平等。比如,一个信度高的测验和一个信度低的测验,在其中一个测验上的90分可能对应着另一个测验上的88分,也有可能对应另一个测验上的92分。

3.测验难度水平相同

洛德认为,不同难度水平测验上的分数不能进行等值,因为不同难度水平的测验,在测量被试能力水平时的信度是不一样的。

4.测验严格平行

洛德认为,只有严格平行测验上的分数才能进行等值。

5.测验可靠

洛德认为,只有完全可靠(reliable)的测验上的分数才能进行等值。

根据洛德提出的以上这些等值条件,下面又有几条延伸的解释性条件。

6.等值过程对称

从x测验到y测验的等值关系,与从y测验到x测验的等值关系,应是互逆的,两个测验上的分数或项目参数的转换结果应该保证是一对一的关系。要做到这一点,就必须保证所有等值测验分数的严格单调性,即更高能力水平的被试无论在哪个测验上的得分总是高于更低能力水平被试的分数,而更低能力水平被试的得分总是低于更高能力水平被试的得分。这就要求等值测验必须做到洛德提到的前五点要求。

7.等值结果公平

考生参加被等值的任何一个测验,得到的分数在等值以后都是一样的。这也要求等值测验必须做到洛德提到的前五点要求,特别是第四点关于测验严格平行的要求。

8.样本不变

两个测验之间的等值转换关系不依赖于某个具体的测试样本。无论选择的样本能力水平分布如何,应该可以得到相同的等值结果。这也要求等值测验必须做到洛德提到的前五点要求,特别是第三点关于测验难度水平相同的条件。

9.等值过程可递推

如果测验x与测验y之间有等值转换关系f(x)=y,测验y与测验z之间有等值转换关系g(y)=z,那么测验x与测验z之间一定有转换关系存在,h(x)=g[f(x)]=z。这种关系还可以推至更多的测验形式。这就要求等值测验必须做到洛德提到的前五点要求。

许多学者认为,如果测验之间符合以上关系,其实根本就不用进行等值转换,因为同特质、同难度水平、同信度、严格平行、完全可靠的测验分数是可以直接进行比较的。然而,在现实测试条件下,以上条件不可能完全达到,总是需要进行一些校正,于是,这些条件成为我们应该追求的目标。当然现实条件不能偏离标准太远,否则等值结果就没有任何意义。也正是基于对以上条件的认识和现实的测试条件,许多学者建议,这种测验分数转换过程不应叫等值(equating),而称为链接(linking)更加妥当。

(二)等值设计

等值设计是为收集适合进行等值转换的测试数据的工作,主要涉及一般测试中的三个方面的内容:一是测验的设计;二是被试样本的设计;三是测验与被试样本之间的组合模式。

要进行不同测验结果之间的转换,使两个测验结果可以相互直接沟通,就必须首先找到转换的共同逻辑。这就和我们日常中的人际关系一样,如果你想要结识某位陌生人并与他建立联系,经常是通过中间介绍人进行联系,或者是通过某个共同关心的话题进行交流。等值设计的目的就是设计不同测验之间进行沟通的中间媒介。

等值中的基本元素就是测验项目和被试样本,所以,等值的中间媒介也就集中于对这两个元素的设计中。现在经常使用的等值设计模式有以下几种,我们逐一进行介绍。

图10-1 单组设计模式

1.单组设计

单组设计是从被试样本的角度找到不同测验结果之间进行等值转换的沟通模式。这种设计模式就是让同一批被试先后参加两个需要进行等值转换的不同测验,两个不同测验结果之间就通过相同的被试样本建立了联系,具体设计模式如图10-1所示。

从图10-1可以看出,纯粹从形式上看,这种设计模式其实是让一组被试样本参加了一个超长的测验,只是这个测验被分为两个阶段进行。这种设计得到的等值数据最直观、最简单。

单组设计通过让同一组被试参加两个不同测验的方式,消除了测验之间被试样本的能力差异。然而,这种等值设计模式可能会引起两种测试的顺序效应:练习效应和疲劳效应。

因为进行等值的两个测验必须是测量相同的特质领域,所以,第一个测验可能会对第二个测验起到练习的作用,从而提高被试在第二个测验上整体的作答表现,这种整体成绩的提高又会反映在等值转换关系中,导致第二个测验的成绩存在测试的顺序优势。另外,让同一组被试参加两个测验,又有可能引起疲劳效应,特别是测验仅仅是用于研究目的时,被试作答的消极情绪会更加明显,这就可能降低被试在第二个测验上整体的作答表现。同样,这种整体成绩的降低也会反映在等值转换关系中,导致第二个测验的成绩存在测试的顺序劣势。顺序优势和顺序劣势能否相互抵消呢?它们是否对每个被试的影响程度都是一样的呢?如果无法平衡顺序效应,就应该从设计模式上进行必要的改良。

为了消除顺序效应,学者们提出了经改良的单组设计模式——平衡组设计,这种设计模式将同一个被试群体再随机地分成两个子被试组,其中一个子被试组先施测测验1再施测测验2,另一个子被试组则先施测测验2再施测测验1,也就是说,在同一测试时间内,一半被试测试测验1,另一半被试测试测验2。经过这样的改良之后,被试的顺序效应可以得到比较好的控制。

2.等组设计

等组设计也是从被试样本的角度找到不同测验结果之间进行等值转换的沟通模式,这种设计模式是让两个能力分布相同的被试样本组分别参加两个需要进行等值转换的不同测验。由于两个被试组的能力分布相同,因此他们在两个测验上的分数就可以通过这一共同特性建立比较关系。

能力分布相同意味着能力分布的平均数、标准差等各阶动差指标均相同,因此,这两个组的被试应该是来自同一个总体的两个样本。在实践中,为了得到真正的“等组”被试样本,常用的做法有两种:一种是匹配被试组;另一种是随机等组。匹配被试组的做法是,在挑选两个被试样本时,必须成对地进行挑选,每一对被试的特质水平是相同的,最终得到的被试样本不但对总体具有代表性,而且两个被试组被试的水平需要一一对应。随机等组的做法是从同一个被试总体中以随机抽取的方式得到两个被试样本组,由于是完全随机抽取的,因此只要抽取的样本容量足够大,具有足够的代表性,我们就有理由相信这两个样本组被试的特质分布状态是一致的,即这是两个等组被试样本,这种设计模式也称为随机等组设计。从被试样本抽取的要求和过程可以看到,匹配被试组设计要求严格、过程复杂,但等值结果会更加可靠;而随机等组设计要求相对宽松、过程更加简单,但一定要保证更大的样本容量及其代表性,才能保证等值结果的稳定性。

与单组设计模式相比,等组设计的优点在于每个被试只参加两个等值测验中的一个测验,因此,可以消除各种形式的顺序效应。其缺点在于,两个被试样本组必须有相同的“能力分布”这个前提条件,这在实践中比较难以满足。

等组设计的具体模式如图10-2所示。

图10-2 等组设计模式

注:“×”表示该被试未作答该测验,在匹配被试组设计中n1=n2,随机等组设计对n1、n2则没有相等的严格要求,但应该非常接近。

单组设计和等组设计的等值转换关系比较容易得到。

3.共同被试组设计

共同被试组设计,仍然是从被试样本的角度找到不同测验结果之间进行等值转换的沟通模式。这种设计模式就是在参加两个测验测试的两组被试中,有一小部分被试同时参加了两个测验的测试,这一小部分被试就被称为共同被试组(common group)。

共同被试组设计与单组设计有许多共同的地方,只是为了节约人力、时间和管理成本,共同被试组设计希望通过抽取一个典型被试团体作为等值转换的中介。由于项目参数仍然是由全体被试的作答数据共同估计的,因此,该典型团体的被试容量和分布形态就不用像单组设计一样严格要求,但共同被试组应该做到每个被试的典型性,也就是被试总体中的各个特质水平分布区间应该都有代表。

共同被试组设计的具体模式如图10-3所示。

图10-3 共同被试组设计模式

注:“×”表示该被试未作答该测验,在共同被试组设计中,n1、n2一般会大于n3,共同被试组只是为了建立两个独立组之间的链接关系而抽取的一个典型的代表性样本。

4.锚测验设计

锚测验(anchor test)设计,也叫作共同题(common test)设计,是从测验项目的角度找到不同测验结果之间进行等值转换的沟通模式,这种设计模式是将两个不同的测验分别施测于不同的被试样本组,但这两个测验中分别包含一组相同的题目(共同题)用来作为进行等值转换的中介,这一组共同题目叫作锚测验,两个测验中的非共同题目叫作独立测验(unique test)。在实际的等值设计中,锚测验与独立测验有两种常用的组合模式:内锚设计模式与外锚设计模式。当锚测验中的题目与独立测验中的题目同时施测,并一起参与被试记分时,我们称之为内锚设计模式;当锚测验中的题目不与独立测验同时施测,也不一起参与被试记分时,我们称之为外锚设计模式。当然,不管锚测验是否参与记分,这些题目都将与独立测验中的题目一起参与参数估计过程。

作为两个独立测验进行等值转换的中介,锚测验必须遵循以下原则:①锚测验题目的内容能代表整个测验,锚测验就是整个测验的浓缩版;②锚测验题目的难度指标全距应该足够宽,区分度指标应该至少在中等水平以上;③锚测验题目应该尽量涵盖测验中的所有题型;④为了达到以上要求,同时保证结果的稳定性,锚测验的题目量一般应该达到整个测验长度的1/4至1/3。

锚测验设计对被试样本的要求没有像单组和等组设计般严格,而且锚测验相对于被试样本来说,无论是题目的获取过程,还是测试的过程,都是比较容易控制的,因此锚测验设计的应用更加广泛。

锚测验设计的具体模式如图10-4所示。

图10-4 锚测验设计模式

以上各种等值设计模式各有优势和缺点,从被试样本的角度设计,容易引起诸如练习效应、疲劳效应、消极的应考情绪等问题,从测试项目的角度设计,容易产生题目内容和参数的代表性、题目内容的安全性等问题。因此,研究者在实际进行等值设计时,需要深入分析各种测试条件,了解被试样本的获取及作答动机情况,了解测试内容的分布、题目量及测试过程的安全性。然后,综合设计一种符合实际的等值数据收集模式。

(三)等值转换方法

从实际问题解决的过程来看,等值工作首先要在深入分析各种测试条件的基础上,综合设计一种最符合实际情形的等值数据采集方案。然后,研究考虑一种把两个测验上的作答数据进行转换的技术途径和具体方法。等值设计就是设计等值数据的采集方案,接下来,我们要介绍各种常用的等值数据转换方法。

不论是哪种等值设计模式,等值总是在至少两个测验情境之间进行的。在进行等值转换之前,甚至应该在等值设计之前,还有一项非常重要的工作,就是首先需要确定转换后的分数或参数量表(scale)的单位。这就像我们中国人在听到汽车的速度为每小时50英里(1英里约等于1.61千米)时,可能很多人一下子不知道这个速度究竟有多快,这时就会习惯性地把它转换为公里来进行评价,因为我们平时关于汽车速度习惯使用的参照单位就是公里(1公里等于1千米)。在这里的等值转换也一样,我们需要确定一个合适的参照单位,然后,所有分数或参数都转换到这个参照单位上去进行统一的评价。在等值实践中,我们经常会选择其中一个测验的测试数据作为参照单位系统,这个测验就被称为量表测验(scale test),其他测验的分数和参数都转换到这个测验的单位上来,需要进行单位转换的测验称为原始测验(raw test)。

在选择量表测验时必须遵循一些原则:①量表测验应该是足够稳定的,也就是有比较高的信度;②量表测验的内容对测量目标应该具有充分的代表性;③量表测验中项目难度分布应该合理,一般应该保持与参与测试的被试样本一样的分布形态,区分度指标应该都是在中等以上;④测试样本足够大,以保证测试数据能够获得稳定的被试和项目参数,测试数据能够反映被试样本的真实行为;⑤在有多个测验进行等值时,一般选择难度分布偏中等的测验,而在纵向等值中,则一般选择中间的测验作为量表测验,让两边的测验向中间等值,这样可以减少等值误差的累积。

1.基于经典测量理论的等值数据转换方法

(1)随机等组-线性等值法

随机等组-线性等值法的原理是:由于两个被试组是来自同一个总体的随机样本,因此,他们有完全相同的能力水平分布,据此,这两个被试组在两个测验上形成的得分分布中,分数位置水平相同的被试应该就是能力水平相同的被试,对应的两个分数也就是等值的。

我们已经习惯于用标准分数来表示分数在被试群体中的位置,于是,在两个测验上标准分数相同的分数就是等值分数了,如下式所示:

令:

得到:

式(10-23)就是线性等值转换的常用关系式,a和b称为等值转换系数,x为需要进行转换的原始测验分数,y为转换到量表测验单位上之后的分数。

这个等值方法可能存在的误差,主要就是原理假设能否成立,也就是样本是否来自同一个总体,他们能否都很好地代表总体。

(2)随机等组-等百分位等值法

随机等组-等百分位等值法的基本原理其实与上面这个线性等值法是一样的,都是基于两个被试组是来自同一个总体的随机样本,他们有完全相同的能力水平分布,据此认为,两个被试组在两个测验分数分布中,位置相同的分数就是等值的。只不过在这里,标志位置信息的是百分等级,而不是标准分数。

对原始测验分数进行等百分位等值转换的具体步骤如下。

第一步:编制原始测验分数和量表测验分数的简单次数及累积次数分布表。

第二步:根据原始测验的简单次数和累积次数分布表,求取某个分数x的百分等级PR。

第三步:根据量表测验的简单次数和累积次数分布表,求取PR所对应的分数y。

第四步:原始测验分数的等值分数就是y。

2.基于项目反应理论的等值数据转换方法

我们首先以三参数逻辑模型为例来认识以下式子之间的关系。首先,根据该模型,有以下关系式同时成立:

三参数逻辑模型为:

如果把式(10-24)至(10-27)代入式(10-28),经化简后,将会得到式(10-29):

基于项目特征曲线的等值系数估计方法有多种。海巴拉最早提出基于项目特征曲线的等值法。下面介绍的两种等值系数估计方法均基于共同题设计模式(锚测验设计)。

海巴拉方法的等值系数估计过程如下,符号使用也尽量按照海巴拉的习惯。

①选择某个项目反应理论模型,分别独立估计出两个测验的被试参数和项目参数,我们称这两个测验为T1和T2。

②我们将测验T1定为量表测验,测验T2上的参数需要进行单位转换。

③为了让测验T2上的能力值与测验T1上的能力值具有可比性,就必须进行单位量制转换,θj,1=β·θj,2+α,其中,θ的第二个下标表示测验单位。海巴拉还特别说明,任何非线性形式的量表转换都将违反逻辑模型关于项目特征曲线形式的基本假设。

④完美的等值应该意味着,对于所有的共同题(common item,锚题)i(i=1,2,…,m)都有:

在这里,参数的第二个下标仍然表示测验单位。

⑤接下来的等值工作,就是找到能使式(10-30)对所有共同题都成立的β和α的值。

⑥海巴拉认为,在实际等值工作中,由于抽样误差和模型匹配问题,式(10-30)的两边不可能对所有共同题都能保证完全相等。所以,我们就应该找到使两边的值尽量接近β和α的值。于是,需要定义一个反映式(10-30)偏离程度的标准函数(criterion function),并找到使该标准函数最小化的β和α值。

⑦对于题目i(i=1,2,…,m)和被试j(j=1,2,…,n),定义差异变量:

并定义损失函数来标志各种偏离造成的信息损失,于是,题目i的等值误差(equating error)可以表示为:

总的等值误差为:

⑧能使Q值最小化的β和α值,就是损失函数L的最佳等值系数估计值。

海巴拉还给出了具体估计β和α值的方案:首先对反应函数的差异如式(10-31)进行平方运算,消除正负符号;然后对锚测验项目逐个地求所有被试的反应函数差异平方均值;然后累加所有锚测验项目的差异平方均值;最后估计能使这个累加和最小化的等值系数,求解能使函数最小化的参数的问题,经常会转化为函数对未知参数求一阶导,并令其为0的过程,而解一阶导方程的方法经常就是采用牛顿-拉夫孙迭代方法。具体的求导和解一阶导方程的过程在此就不详细叙述了,有兴趣的读者可以参看相关文献,或者使用现成的程序。

斯托金-洛德基于项目特征曲线法提出了另外一种等值系数估计的方案。斯托金-洛德方法在构建等值方程估计等值系数时与海巴拉方法稍有不同,他们首先定义被试在测验上的真分数为他在所有项目上的正确反应概率之和:

在共同题等值设计中,会有两套独立估计的锚测验项目参数。但是,斯托金-洛德方法认为,只要项目参数经过了单位转换,同一个被试在锚测验的两套已知参数上计算出来的真分数应该是相等的,于是有:

这就是斯托金-洛德方法建构的等值方程,接下来的问题又是找到能使F达到最小时的β和α的估计值。问题的解决仍然是转化为函数对未知参数求一阶导,并令其为0的过程,而解一阶导方程的方法仍然采用牛顿-拉夫孙迭代方法。具体的求导和解一阶导方程的过程在此就不详细叙述了,有兴趣的读者可以参看相关文献,或者使用现成的程序。

从以上介绍可以看出,海巴拉方法与斯托金-洛德方法的不同在于,海巴拉方法是基于各个被试在单个项目上的反应函数的差异,而斯托金-洛德方法则是基于各个被试在所有共同项目上的反应函数累加和(真分数)差异。读者在选择时可以任意挑选一个。

3.基于认知诊断评价理论的等值过程

基于认知诊断评价理论的等值研究还非常少,辛和张(Xin & Zhang,2015)研究了认知诊断模型下观察分数的局部等值方法。许和冯戴维研究了基于GDM模型的等值问题。

冯德林顿和威伯格(van der Linden & Wiberg,2010)提出了基于潜在真值的观察分数等值转换方法——局部等值(local equating)法。他们首先假设两个等值测验测量了相同的潜在特质结构,于是有以下观察分数转换模式:

θ为被试潜在能力水平;Fy|θ是测验Y上潜在能力水平为θ的被试的观察分数累积分布;Fx|θ是测验X上潜在能力水平为θ的被试的观察分数累积分布。

上式表达的转换过程类似于经典测验等百分位等值转换过程,首先求取某观察分数x在测验X上的百分等级,然后对应该百分等级在测验Y上转换回等值分数。当然,这个转换过程的内在逻辑与经典测验等百分位等值有着本质的不同,局部等值是基于潜在真值的转换,而经典测验等百分位等值是完全基于观察分数本身的转换。

辛和张研究了局部等值法在认知诊断模型中的观察分数等值问题。首先,他们假设两个等值测验测量了相同的潜在特质结构,拥有相同的邻接矩阵或可达矩阵,即Ax=Ay或Rx=Ry,于是两个测验就会有相同的被试属性掌握模式(AMP)集;同时假设相同的被试属性掌握模式代表了相同的被试领域水平。基于此,局部等值法就可以应用于认知诊断模型的观察分数等值转换中。

由于各种误差因素的存在,相同属性掌握模式的被试可能会有不同的观察作答反应模式(ORP)或观察分数(observed score),这些不同的观察作答反应模式或观察分数将形成一个分布。于是有以下观察分数转换模式:

α是被试属性掌握模式,在实际等值转换过程中,α可以用估计值代替。

二、垂直量表化

垂直量表化也叫垂直链接,指的是在某个特质领域内,在纵向发展的不同水平(如年龄、年级)群体之间,建立关于群体或个体特质水平发展状况的评价参照体系的过程。从概念上可以看出,垂直量表化是针对不同年龄或年级被试群体进行的,进行量表化的内容领域是相同的,如一般认知能力、语言能力、数学能力等。量表化的目的是建立不同年龄段或年级段之间的统一量表体系,从而可以评价和发现个体或群体的动态发展水平和趋势。进行垂直量表化的测验对于不同年龄或年级被试来说,虽然测试领域是相同的,但题目的具体内容和难度是不一样的,因此,这样的测验就不能称为平行测验,也就不能通过等值的方法进行统一量表化。不过,在许多进行垂直量表化的方案中,可能会在相邻的两个年龄段或年级段测验之间设置部分共同题目,以便建立测验分数之间的连接关系,这与等值方案中的共同题(锚题)设计思想却又是相同的。

垂直量表化可能会涉及两种不同的被试情形:一种是在同一个时间段内,收集不同年龄段或年级段的被试测试数据,并进行的垂直量表化,不同年龄段之间的被试是相互独立的;另一种则是在不同的时间段,收集同一组被试的测试数据,对他们的特质水平进行的垂直量表化,进行量表化的被试是相同的,只是他们的水平随着时间发展发生了变化。第二种情形下的等值设计本身会比较简单,因为可以直接使用单组不同测验的设计模式,同样可以评价各个被试在不同时间段水平位置的发展变化情况,及整个群体的特质发展状况。然而,第二种情形下的等值时间跨度太宽,不利于数据收集工作。下面讲述的内容主要是针对第一种情形的。

(一)垂直量表化设计

在进行垂直量表化时,一般可能会涉及多个年龄段或年级段。其中一种设计方案是用一个统一的锚测验,也叫量表测验,施测于所有年龄段或年级段的被试,从而建立垂直量表,然后,不同年龄段或年级段的被试在非锚测验上的得分就可以链接到该垂直量表上。然而这种设计方案可能存在问题,因为锚测验中有的题目对于低年龄段或低年级段的被试来说太难了,甚至根本就没有学过,而有些题目对于高年龄段或高年级段的被试来说又太容易了。这两种情形下的题目,对于相应年龄段或年级段的被试水平估计均不能提供任何信息。根据这种想法,锚测验对于不同年龄段或年级段被试的信度就可能存在很大差异,从而导致所建立的垂直量表不稳定。

垂直量表化的另一种设计方案是,先找一个起始年龄段或年级段,首先建立它与相邻年龄段或年级段之间的链接,然后进一步建立该相邻年龄段或年级段与下一个相邻年龄段或年级段之间的链接,以此类推,从而建立起所有年龄段或年级段之间的垂直量表。这种设计方案可能也需要使用锚题,然而,锚题对于相邻年龄段或年级段来说,信息量衰减不会太明显。因此,通过相邻年龄段或年级段建立链接来进行垂直量表化,应该是一个更合理的选择。下面介绍的量表化过程主要就是围绕这种设计模式。

1.共同题设计

这种设计模式与前面等值部分介绍的共同题设计模式本质上是一致的,只是需要链接的被试组别更多,而且相互之间是纵向发展的。具体设计模式参考图10-5。

图10-5 垂直量表化-共同题设计模式

根据这种设计模式,3年级被试组需要作答本年级非锚测验T3,同时需要作答适合3、4年级的锚测验C34,4年级被试需要作答本年级非锚测验T4,同时需要作答两个锚测验:适合3、4年级的C34和适合4、5年级的C45。因此,除了最低年级组和最高年级组,其余各年级组均需要作答2个测验,为了避免被试出现作答疲劳现象,就需要考虑结合下面介绍的随机等组设计。

2.随机等组设计

随机等组的概念与等值部分内容中的概念是一致的,只是对于垂直量表化来说,随机等组是在同一个年级组或年龄组内抽取,而且需要抽取更多个被试组。具体设计模式参看图10-6。

图10-6 垂直量表化-随机等组设计模式

根据图10-6所示的设计模式,除了最低年级组和最高年级组之外的其他年级组均需要抽取3个随机等组被试组,其中一组作答与水平更低相邻年级组的锚测验,一组作答只属于本年级组的测验,另外一组则作答与水平更高相邻年级组的锚测验。而最低年级组和最高年级组只需要作答与其相邻的一个锚测验和一个只属于本组的测验。

根据以上介绍,共同题设计和随机等组设计其实是相互渗透、相互组合的。不管是哪种设计模式,不同年级或年龄水平被试总体之间不可能存在等组设计模式(即使找到等组,也不具有年级或年龄代表性),因此,不同年级或年龄水平之间总是要通过锚测验进行链接。不同年级或年龄组之间的等值转换关系也总是基于锚测验来建立。

(二)等值关系转换方法

根据不同的设计模式,可以运用本章第二节所讲述的等值转换方法,建立不同测验分数之间的等值转换关系。在这里专门介绍一下另一种经常用于垂直量表化的转换方法:瑟斯顿绝对量表法(Thurstone absolute scaling method)。

应用瑟斯顿方法要满足两个严格的假设:①进行转换的被试样本总体服从正态分布;②由潜在特质决定的特质分数是严格单调上升的,也就是潜在特质水平越高,则其观察分数也必定会越高,这样才能保证所有转换关系的一致性。

我们先简要地介绍一下在这两个假设基础上,瑟斯顿绝对量表法涉及的几个基本式子。同时,在垂直等值设计中,不同水平群体必须通过锚测验进行链接。所以,下面叙述的内容情境也是专门参照这种设计进行理解的。如果被试群体水平不同,又没有设计锚测验进行链接,下面式子中的各种变量关系将无法理解。

对于锚测验上某个任意观察分数x,可以分别计算出它在两个被试组得分分布中的位置指标——z分数:

这个就可以表示为瑟斯顿绝对量表法关于两个被试组的分数之间的转换关系式。如果我们把第一组(变量下标为1者)规定为量表测验组,第二组规定为原始测验组(变量下标为2者),那么,式(10-41)可以表示某个相同观察分数,在原始测验组上的位置转换到量表测验组之后的相应位置。也就是说,式(10-41)可以表示相同观察分数在原始测验组与量表测验组之间的位置对应关系。我们也可以这样来理解式(10-41)表达的意义:在原始测验被试组上处于某个位置的被试,在量表测验被试组中将会处于什么位置。从形式上,瑟斯顿绝对量表法还经常会通过一个等值转换表来呈现,在这个等值转换表中,第一列为观察分数;第二列为观察分数在量表测验上对应的位置;第三列为观察分数在原始测验上对应的位置。

如果在等值设计中,两个被试样本组测试的试卷题目完全一样,通过式(10-41)即可以完成等值转换,就可以找到相同观察分数在两个被试组中的位置指标——z分数。这种转换模式与前面讲到的随机等组线性等值相近,只不过通过式(10-20)就可以找到相同z分数在两个被试组中的两个观察分数。在随机等组线性等值中,两个被试组水平相同,但测验难度水平不同,导致两组分数不同。在这种情形下,原始得分位置相同的被试水平也相同,但原始得分不同;在锚测验垂直等值中,测验难度水平相同,但两个被试组水平不同,导致两组分数不同,在这种情形下,原始得分相同的被试水平也相同,但在本群体中所处的位置不同。

不过,在实际等值设计中,常见的情形是,锚测验只是整个测验的一部分,我们是希望通过锚测验设计来等值被试在整个测验上的得分。于是,我们还必须了解更多的相关式子。

瑟斯顿根据两组被试水平之间与两组题目难度之间有相同转换关系模式的假设,认为式(10-41)与式(10-43)的斜率和截距应该对应相等,即有:

有了这两个式子,就可以估计原始测验组被试在作答量表测验组整个测验后的得分的平均数和标准差。

瑟斯顿绝对量表法等值转换结果的可靠性可以通过两个方面进行评价:一方面是通过直观观察,看观察分数对应的两列位置分数在坐标平面上的散点图是否是直线关系,越接近直线,等值转换结果越可靠;另一方面是通过计算两列位置分数之间的皮尔逊相关系数进行统计评价,线性相关系数越接近1,说明等值转换结果越精确可靠。在绘制散点图时,一般横坐标为原始测验的位置分数,纵坐标为对应的量表测验的位置分数,散点表示相同观察分数分别在原始测验和量表测验上的对应位置,如图10-7所示。

图10-7 分数地位散点图

在实践中,瑟斯顿绝对量表法经常也会先将观察分数进行正态化转换,具体过程如下:

①分别绘制两组原始分数的简单次数和累积次数分布表,并把累积次数转换为相应的百分比例。

③按照式(10-41)对两列正态化分数进行等值转换。需要特别注意的是,在这里,正态化z分数代替了前面讲的观察分数。式子中的平均数、标准差是根据两列正态化z分数,也就是z′计算得到的。

正态化转换是非线性转换,它会改变分数的分布形态,但是不会改变分数之间的排列顺序,因此,正态化z分数更大的值仍然对应原始观察分数中更大的值,这就保证通过正态化z分数仍然可以找到对应的原始观察分数。

关于瑟斯顿绝对量表法在实际使用中的效果,有许多评价。基于瑟斯顿绝对量表法的等值转换效果必须是在各个假设条件成立的前提下才能保证。首先,来自正态分布总体的被试样本的得分分布也应该服从正态分布。其次,由潜在特质水平决定的观察分数或转换分数很难保证严格的单调关系,它们总会受到各种随机因素的影响,这当然就会进一步影响基于这个假设的等值转换关系式的精确性。另外,关于“两组被试水平之间与两组题目难度之间有相同转换关系模式”的假设应该成立,然而,这一点在垂直等值情形中很难做到,当然,如果所有被试测试的题目完全一样,结果会更好。也许垂直等值方法需要进行更多研究。另外,锚测验要对整体测验具有很好的代表性,这样才能保证两个被试组在锚测验上的分布性质,能够被推广到他们在整个测验的作答分数分布形态上。

瑟斯顿绝对量表法不仅可以应用在垂直等值设计情形中,还可以应用在横向等值设计情形下,甚至这种情形下的等值效果会更好,因为在横向等值设计情形下,瑟斯顿绝对量表法的各种假设更容易得到满足。

本章小结

本章主要介绍了认知诊断评价中涉及的两个重要研究领域,即信息量和等值。然而,目前这两个领域并未得到广泛深入的研究,因此在此独立成章一并进行简要介绍。

认知诊断评价首先需要实现对被试认知状态的精确估计,为此,需要收集被试在测验项目上的作答信息,并以此为基础确认对被试认知发展状态的认识。

在认知诊断评价中,信息反映了不同项目在认识被试或鉴别不同被试认知发展状态时的价值大小。信息量反映了不确定度的大小、认识误差的大小或测量误差的大小。信息的大小与项目本身(信息源)的特征有关系,同时与被试本身(信息接收者)的特征也有关系。为了能够精确地估计或鉴别不同被试水平,经常借助信息量指标作为参照,挑选能够为被试带来更大信息的项目进行测试,以实现有目的的、更加高效的测试评价过程。

认知诊断评价理论中的项目和被试参数化方式与项目反应理论存在着较大的差异,因此,其信息量的计算表达方式也不相同,但根本原理却是一致的。部分指标的具体应用请参看认知诊断计算机化自适应测验一章中的相关内容。

等值是大规模评价的必要过程,它能够保证不同群体在不同时间、不同测试模式之间的可比性。认知诊断评价领域关于等值的研究还非常少,本章只是简要介绍了两个已有研究中的等值方法,而对于模型参数的等值转换研究还未发现。希望通过对各种等值方法的介绍能够为进一步的等值研究提供参考借鉴。

思考题

1.信息、信息熵和信息量的概念是什么?

2.综合前面章节所学到的知识,你了解的评价信息量的主要方法有哪些?

3.等值的意义是什么?等值设计的主要方法有哪些?