认知诊断评价理论基础

第二节 认知诊断评价理论假设检验

字体:16+-

认知诊断评价理论提出了诸多的模型,每种模型都有与之相适应的问题情境。在选择一个合理的模型之前,首先需要分析问题情境,检验模型是否很好地描述了该问题情境。只有模型和问题情境之间相互适应,基于该模型进行的数据分析和结果评价才是有效的,否则其结果就会偏离评价的目标,产生误导。

一、作答过程真实性检验

在测量过程中,被试真实地表达自己的能力水平或意愿,是保证测量结果和评价过程准确性的基础。

检验被试作答过程是否真实的最直接的方法,就是通过客观取证的手段,即重要的测量项目在严格的监控条件下进行,通过监控直接观察被试的作答状态。在许多情形下,通过直接查看监控以发现被试作答真实性是难以实现的,特别是当测量的对象规模非常大时,这时就需要通过能够进行大规模筛查的方法进行甄别。当然,有些不真实作答即使通过监控也是很难辨别的,如不认真地随机作答。

另外,可以从测量的具体过程进行分析,检查测试过程是否能够保证激发被试足够的动机以尽量真实地表现自己的特质水平。首先,要看测试的目的是什么,如果测试是用于研究的,那么被试的行为动机可能就没有那么强烈,导致作答结果不能完全反映被试的真实能力水平。如果测试是用于选拔、达标等可能影响被试自身利益的,那么就可能激发被试强烈的行为动机,从而使被试尽量真实地表现自己的能力水平。当然,对于社会倾向性测验,其作答情形可能正好相反,即被试在作答这类测验时,特别是当测验结果可能会影响自身的前途时,被试往往会企图掩盖自己的不足,做出符合社会一般期许的反应。对于测验目的可能给测验数据造成不同结果的问题,我们需要谨慎地对待。我们很多时候收集数据都是用于研究的,相比用于选拔等的测验,其结果的测量误差一般会更大,信度也会更低,当然效度也就会受到影响。麦克丹尼尔(McDaniel)等人就通过元分析发现,面试成绩对工作绩效的预测效度由于目的不同(研究目的和管理目的)而存在显著差异。所以,用于不同目的的测验一般不宜直接进行比较,需要首先进行必要的校正。其次,要检查测验施测时使用的指导语能否激发被试的作答动机,有些测验即使是用于研究的,我们也可以通过恰当的指导语来激发被试足够的作答动机。一般来说,除了一般需要说明的指导语之外,通过以下方法可以尽量地获得被试的真实作答反应:①让与被试有密切关系的人作为主试宣读指导语并监控测试过程;②明确说明研究的意义,意义的表达必须能够引起被试的关注,许多研究的意义可以从长远意义和社会意义的角度进行阐述;③明确表达研究的艰巨性,以及被试的作答对研究成败的关键性作用;④明确说明被试作答之后将会获得奖赏;⑤明确说明作答结果完全保密,且绝对不用于个人评价,并亲笔签上研究者的姓名(不能打印和复印)以做出承诺。另外,检查测试时的客观环境是否能够激发学生的作答动机也是非常重要的。在组织测试时,应该首先获得与被试关系密切者的积极支持和配合,在这方面应该花较多的时间进行沟通和商谈,并得到正式的支持承诺。测试最好不要安排在被试的休闲时间,测试的过程和形式应该让被试感觉到非常正规,还要注意测试地点的布置和安排不要影响被试正常作答。最后,要检查是否保证了足够的测试时间,以便被试能够充分发挥正常水平来作答所有测验项目。关于测验测试的时间,首先需要有经验的测验编制者进行主观估计,同时,还必须进行预测试以获取测试真实的正常时间。

我们还可以通过事后数据分析,检查是否存在作答数据不够真实的证据。数据分析可以主要从两个角度进行。首先,从数据描述的角度,可以从以下几个方面进行检查:①测验是否存在大量未作答情形,有经验的测验设计和编制者一般会较好地考虑到测试时间的合理安排。在这种情况下,如果作答数据中仍然出现大量未作答情形,那么,我们有理由相信被试没有认真作答。②被试总体得分分布偏离预想。一般情况下,研究者总是想选择一批特质水平分布较宽的被试,因此会通过预先调查来选择合适的被试。然而,如果被试的实际作答结果严重偏离研究者的预想,这也可能成为我们怀疑被试作答过程真实性的证据。③被试个体在各个项目上的作答没有规律。研究者在设计测试项目时,总是会根据自己的经验设计不同难度或不同维度的项目。然而,如果被试在所有项目上的作答结果没有表现出符合预期的规律,那么,我们也可以怀疑他没有认真作答。④被试作答结果存在形式上的规律性,如选择题的答案全部一致,或答案循环安排,如“ABC-ABC-ABC”的作答形式,这也可以作为被试未认真作答的证据。从数据推断的角度,可以从以下两个方面进行检查:①回访。研究者可以在测试以外的时间回访部分参与测试的被试,探查他们当时真实的作答态度和原因。当然,这个回访一定要在完全放松的环境下进行,让回访对象完全放松,不存在任何顾虑。关于访谈的方法和技巧,可以参考相关文献的内容。②效度验证。研究者可以收集一些关于测验的效标数据,如被试的老师对他们平时表现的评定、期末考试成绩、性格评定,等等。通过与这些效标证据的比较,可以大致看出被试的作答过程是否表现真实。

现在有许多学者研究了使用统计方法检验被试作答结果的真实性。这种方法一般需要首先建立真实作答状态下的理论模式,然后通过鉴别各种实际作答模式与理论模式之间的距离,从而做出作答真实性程度的判断。

龙冈(Tatsuoka,1996)在其提出的认知诊断方法中构建了一个个人作答模式拟合指数——ζ,用于鉴别被试的非正常作答模式。我们可以将其作为一个检验被试作答真实性的统计指标加以应用。由于后面的章节会详细介绍该指标,因此,这里只是简单介绍这个指标在检验作答真实性时的可能应用。

将f(X)重写为X的线性函数形式:

对于能力值为θi的被试,函数f(x)的期望为0,其方差为:

于是,作答模式拟合指数ζ就定义为函数f(X)的标准化形式:

根据上面的定义,我们可以注意到,当固定某个被试时,T(θ)、K(θ)和Var[f(X)]均为常数,而P(θ)也是固定的向量。也就是说,当我们在验证某个作答模式是否异常时,ζ指数只受到实际观察作答模式X与期望作答模式P(θ)之间一致性程度的影响。当X与P(θ)越保持一致变化趋势时,f(X)越小;当X的大小顺序偏离P(θ)的大小趋势时,f(X)就会增大。需要再次提醒的是,f(X)的期望为0,但实际上f(X)可能会取正值,也可能会取负值。

作答模式拟合指数ζ反映了被试实际作答模式偏离理论作答模式的程度,如果ζ值比较大,研究者就应该怀疑该被试的实际作答模式是不正常的。那么,究竟ζ值多大才应该被怀疑呢?这可能需要根据整个测试群体的ζ值分布,同时结合往年根据经验发现的非正常作答比例来协助判断。但无论如何,统计量只能为找出异常作答模式提供辅助信息,研究者却不能只依赖该信息做出被试是否作答异常的最终判断。

二、局部独立性检验

局部独立性检验与IRT中的检验原则是一样的。局部独立性检验需要从被试和项目两个角度进行。

从被试作答的角度检验其局部独立性,这其实与第一个假设,即作答过程真实性假设存在一些内容的交叉,但局部独立性假设主要强调统计意义上的依赖性偏差,重点关注欺骗性作答,主要是确定被试个体的作答过程没有得到任何外部因素的协助,完全是其自身特质水平的真实表现。

被试作答的局部独立性检验一方面可以通过当时对测试过程的监察,以发现被试是否存在借助外部因素为自己的作答提供便利的情况,这是最客观可信的检验手段;另一方面可以通过数据分析的方法检查被试是否存在非正常作答情形。我们可以合乎逻辑地认为:在正常作答情形下,低水平被试只能答对低难度项目,对更高难度项目的正确作答概率比较低;只有高水平被试才能答对几乎所有低难度项目,同时对高难度项目的答对概率更高。从另外一个角度来说,如果被试能够答对高难度项目,那么他就应该有更高的概率能够答对更低难度的项目,同时,被试答对相同难度水平的项目的概率应该是相近的。如果实际作答情形不符合这种规律,那么,我们就有理由相信某(些)被试可能存在非正常作答行为。基于以上这种逻辑判断和规律,我们就可以通过统计分析的手段对非正常作答情形进行探查。在具体进行探查时,关键是首先要知道被试的真实水平。如果只有被试水平的排序信息,也是可以进行探查的,然后根据不同水平的被试,对比他们之间的实际作答模式,以找到怀疑他们作答过程异常的证据。关于被试的真实水平信息,如果研究者能够从外部获取关于被试真实水平的评价,当然是更加客观公正的,但大多数情形下,特别是全国性大规模测验,获取每个被试水平的外部独立评价是非常不现实的,因此,必须从测试数据内部进行分析。

第一种方法是以测验总分作为被试水平的标志,然而,由于测验总分包含了所有题目的得分,包括在非正常作答项目上的得分,因此,这种方法只有在非正常作答项目占分比例较低的情形下才有效。可是,在分析之前却又无法确切知道被试在哪些项目上存在非正常作答的可能,因此,这种方法虽然简单,但却显得比较粗略,只能进行初步的探查。

第二种方法是可以从被试的作答模式上进行分析,也就是根据被试对不同难度水平项目的作答情况进行评价。首先对测验的所有项目进行难度排序,被试如果能答对难度较高的项目,他就很可能答对难度水平更低的项目,当然,偶尔答对一个较高难度项目的情形应该排除在外。同时,相近难度水平项目的答对概率应该是比较一致的。如果被试的作答反应模式与项目难度的排序存在显著的差异,我们就应该怀疑其作答不正常。那么,如何检验作答反应模式与项目难度排序之间的差异呢?这方面的判断还没有统一的标准,研究者可以比较正确作答项目与错误作答项目之间的难度平均数,也可以根据排序不正常项目在测验中所占的比例进行判断。不过,前文作答过程真实性检验描述的ζ统计量在此同样可以提供判断依据。

第三种方法是检查相同作答模式被试的分布比例。对于1、0记分题目,一个测验包含30多个项目是非常正常的。从理论上来说,30个项目组成的测验将有230种作答模式,也就是有超过10亿种被试作答反应模式。当然,在正常情形下,有些作答模式是不可能出现的,如高难度项目答对,而容易项目答错的作答模式,还有些作答模式本来就有更多的出现可能。其实,如果把被试作答模式与被试能力水平对应的话(很多测量学研究者就是这样处理测验作答数据的),那么各种作答模式出现的概率就应该服从与能力水平一样的分布。在这种情况下,如果按测验总分排序的作答模式分布偏离正常分布太大,我们就可以有理由怀疑测验中可能存在非正常作答情形,因为非正常作答模式经常只出现在几个孤立的分布点上。因此,在探查非正常作答模式时,经常需要首先对分布进行平滑化处理,然后比较某个点上的正常分布与实际分布之间的差异。当然,这种探查方法对大规模测验中可能出现的集中舞弊现象可能会比较有效。

不过,用统计分析手段对非正常作答被试进行探查,在有些情形下很难有效。因为在实际测试中,被试一般是对在自己能力水平范围内的题目自己独立作答,而对较难的项目才借助外部力量。这样的话,其作答结果仍然会呈现出比较合理的模式。因此,统计分析过程需要仔细、谨慎,综合多方面信息进行判断。

从项目的角度检验其局部独立性,主要是要确定各个项目之间是否存在内容相依或结果关联。一方面,我们可以通过专家分析的方法,判断测验中的各个项目之间是否存在相互依存关系。另外,项目之间的局部独立性有时候还可能会受到测验题目形式的影响。比如,关于相同题干下的多个设问题型,被试对题干的不同理解可能就会影响该题干下所有问题的作答结果,语文和英语阅读理解就是这类题型的典型例子,而相同题干下的多步骤解答记分题型,除了会受到相同题干的影响之外,后续步骤的解答还会受到前面步骤解答正确与否的影响。另一方面,我们也可以通过统计分析的方法,判断测验项目之间是否存在相依关系。现在把经常用于检验项目相依关系的统计量称为Q3统计量,该统计量的定义过程如下:

首先,定义

其中,uik为第k个被试在第i个题目上的得分,Pi(θk)为被试正确反应概率。根据这个式子的定义,可以计算出每个被试在每个项目上的d值。然后,定义

r为两个题目i和j之间的相关系数,其相关系数的计算是基于式(4-5)所定义的d值的,也就是说,在计算相关系数之前,首先需要把得分矩阵中的各个0和1形式的分数转换为d值。当我们所选择的项目反应模型与测验数据拟合良好时,Q3统计量的相关系数r按照Fisher转换为z值后,将服从正态分布,其平均数为0。对于三参数逻辑模型,其方差为1/(n-3),其中,n为参与相关系数计算的被试样本容量。相关系数r按照Fisher转换为z值的式子如式(4-7)所示:

ln为取自然对数符号。当然,读者也可以通过查表的方式获得转换值,许多应用类统计书都会提供这类转换表。

有研究者又指出,使用Q3统计量对项目相依性进行检验的实际应用,很少基于正态分布理论对其Fisher转换值进行检验,而是直接给Q3统计量的绝对值划定一个临界值,根据经验,该临界值定为0.2。如果Q3统计量的绝对值大于该临界值,则可以认为这两个项目之间可能存在相依关系。

三、补偿性检验

根据补偿效应的判定规则,存在补偿效应意味着作答结果是正确有效的,另外还必须使用不同的解题方案。补偿效应具体体现在认知诊断评价理论中,就是在某些题目的作答上,被试可能使用了不同的知识属性(答题策略),却获得了同样正确的作答结果,于是我们认为,这些不同的答题策略包含的知识属性之间存在相互补偿的关系。在解决相同的问题时运用了不同的知识属性,这可能是因为被试掌握了其中一种解题策略包含的知识属性,但未掌握另外一种解题策略包含的知识属性,也可能是因为该被试掌握了所有的知识属性,只是选择了其中一种解题策略。

我们可以根据以上关于补偿效应的概念来划分其检验的方法。

第一种检验方法是专家判断法。首先,邀请三四位领域专家,让他们理解并熟悉测验认知模型(参见后面关于属性定义的相关内容)及其示例题目的命制规则,同时解释补偿效应的概念。其次,专家基于认知模型初步判断属性之间是否存在补偿效应。再次,专家对示例题目的解题策略进行演示,分析是否存在不同的解题策略。最后,结合认知模型和示例题目,判断该领域的知识属性之间是否存在补偿效应。

第二种检验方法是基于被试作答的原始资料分析的方法。为了检验测验认知属性之间是否存在补偿效应,可以将测验认知模型定义时命制的典型事例题目组成试卷,挑选一批来自不同子群体且在该领域水平中等及以上的被试作答试卷。作答过程中要求被试将答题的策略和具体过程详细地写出来。研究者根据对被试的这些原始作答信息的分析,判断每个典型项目是否有不同的解题策略,并据此分析属性之间的补偿效应。

第三种检验方法是基于统计分析的方法。统计分析方法一般基于测试样本数据进行推断。首先,选择一个认知诊断模型,最好选择非补偿模型,因为补偿模型经常是可以解释非补偿数据的,在此以非补偿的DINA模型(关于该模型的具体介绍请参见后面有关章节的内容)为例。根据测试数据,估计被试属性掌握模式和项目参数。然后,将所有被试按属性掌握模式进行分类,同时,将所有题目按测试属性进行分类,即测验Q矩阵。根据测试的属性个数,每次对单个题目进行检验。首先检验测试了单个属性的题目,然后检验测试了更多属性的题目。在对各个题目进行检验时,将在该题目上正确作答的被试分成两类:一类掌握了该题目要求的所有属性;另一类未掌握该题目要求的所有属性。

按照DINA模型的定义,被试未掌握要求的属性却答对题目的情形被认为是猜测的结果,但这种情形也有可能是因为题目属性未定义完备,或存在其他的解题策略。当未掌握要求的所有属性的被试答对比例足够高时,我们应该怀疑题目属性定义可能出现了偏差。出现这类属性定义偏差的情形有三种:第一种是属性定义错误,在作答中的表现是,掌握和未掌握该属性的被试答对的整体比例均较低;第二种情形是定义的属性数目超过了题目应该要求的属性数目,在作答中的表现是,掌握了两个属性和掌握了其中一个必要属性的被试答对比例相近,但只掌握了另外一个非必要属性的被试答对比例较低;第三种情形是有可能存在其他解题的替代方案,即运用其他属性也可以答对,这就是补偿效应,在作答中的表现是,掌握了题目定义属性和未掌握题目定义属性的被试答对比例均较高。

因此,在掌握了题目要求的属性的被试答对比例足够高的前提下,当未掌握题目要求的所有属性的被试答对比例超过了正常猜测的答对比例时,就需要进一步检验该题目是否有替代的解决方案,即这类被试在作答中可能使用了不同的知识属性。不过,通过统计分析的方法找出替代的具体属性或属性组合是一个比较复杂的过程,这时可以结合专家的分析和判断,也可以结合被试作答原始信息资料的方法进行判断。

以上几种假设检验都是针对数据资料本身的特性进行分析检验的。对测验资料假设进行逐项检验可能是一个非常烦琐的过程,而且有些假设条件之间本来也是相互关联的,如作答过程真实性可能会影响被试的局部独立性。

假设检验都是为数据资料选择合适的分析模型提供证据保障的,为此,我们可以假设所选择的模型与数据资料之间是拟合的,然后检验基于所选择模型的分析结果是否符合预期,来判断模型选择的合理性。下面介绍另外两种检验方法。

四、模型-资料拟合检验

不同的认知诊断模型建立了包含不同参数的项目反应函数,以描述不同水平被试答对每个项目的概率。借鉴项目反应理论中的模型-资料拟合检验方法,我们可以基于不同水平被试的观察答对比例与项目反应函数的答对比例之间的一致性来构建拟合检验统计量。其实已经有许多研究者提出了各种基于这种分析逻辑的检验方法。我们以DINA模型为例,首先,依据该模型估计所有被试的属性掌握模式,并将属于相同属性掌握模式的被试归类到一组;其次,根据DINA模型的项目反应函数计算各组被试(其实,对于DINA模型来说,这时候只有两个组,即掌握了项目测量的所有属性的被试组和未掌握项目测量的所有属性的被试组)在各个项目上的答对概率(期望比例),同时,统计各组被试(注意与前面分组一致)在各个项目上实际观察答对比例;最后,计算期望答对人数与观察答对人数之间的差异统计量,即拟合统计量,作为所选模型与实际观察数据之间拟合程度的指标。拟合性程度指标可以使用皮尔逊卡方统计量(Pearson chi-squares),如式(4-8)所示:

其中,k表示被试按属性掌握模式分组的组数(同样,对于DINA模型来说,这时只有两个组,即掌握了项目测量的所有属性的被试组和未掌握项目测量的所有属性的被试组),foj和fej分别为各个组正确作答的观察被试个数和期望被试个数。正确作答的观察被试个数,通过直接点算相应组的实际正确作答人数得到;正确作答的期望被试个数,通过相应组总人数乘项目反应函数计算的正确作答概率得到。

另外,杨统计量是实际使用非常广泛的另一个模型拟合性程度指标,也叫Q1统计量,其定义如式(4-9)所示:

式子中,k表示被试按属性掌握模式分组的组数,Nj表示处于第j组的被试数量,Qij表示第j组被试在第i题上的实际观察正确作答比例,Eij表示第j组被试在第i题上的期望正确作答比例,这里就是通过模型的项目反应函数计算得到的正确反应概率,也可以用杨提出的式(4-10)进行计算:

Pi(αl)就是属性掌握模式为αl的被试在第i题上的正确反应概率,杨统计量渐近地服从自由度为(k-c)的卡方(χ2)分布,c表示模型中的参数个数。杨同时定义整个测验与所选项目反应模型的拟合程度为各个题目Q1的累加和。

另外,有一些在各学科领域常用的模型资料拟合统计量,如AIC统计量(Akaike information criterion)、BIC统计量(Bayesian information criterion)、DIC统计量(deviance information criterion)等,也可以用于指导我们选择更合适的认知诊断模型。其实,AIC统计量、BIC统计量和DIC统计量的建构逻辑原则非常相近,但在应用中存在一些差异。我们依次介绍这几个统计量及其使用。

AIC统计量是在给定一批数据资料的情形下,表示多个统计模型之间对该数据资料的拟合质量的测量指标。AIC统计量分析了每个模型相对于其他模型的拟合质量,因此可以协助为数据资料选择更合适的模型。AIC统计量是基于信息理论建构的,表示了使用某个模型来解释数据资料时相对的信息丢失量。当然,模型的参数越多,越能更好地解释数据,越能利用和传递数据包含的信息,但模型本身就会显得更加复杂而难以处理。因此,AIC统计量是在模型和数据的拟合优良性与模型的简化程度之间进行权衡的指标。AIC统计量无法提供关于某个模型绝对意义上的拟合程度评价信息,即使所有模型实际上拟合数据的程度都很差,AIC统计量也无法给出一个临界信息。因此,这类拟合统计量被归类为相对拟合统计量。

假设有一批数据资料U,统计模型M用于解释这批数据。W表示模型估计的参数个数。比如,DINA模型估计的参数数目为2J(题目参数个数,J为题目数)+2K-1(被试参数数目,K为测验属性个数),Lmax表示模型的极大似然函数值(关于极大似然函数的概念请参见参数估计一章中的相关内容),Lmax=P(U|θ,M),θ为使似然函数达到极大值的参数值。AIC统计量定义如下:

在一批备选模型中,AIC统计量越小的模型被认为是拟合数据资料越好的模型。根据式(4-11)可以知道,数据资料的拟合质量(通过似然函数评价拟合质量)越高,模型参数数目越小,AIC值越小。不鼓励过度拟合(overfitting),因为增加参数数目几乎总是会提升模型的拟合度。

在实际应用中,我们首先计算所有备选模型的AIC值,然后选择AIC值最小的模型。然而,实际观察数据资料总会存在误差效应,因此,如果有模型的AIC值与最小AIC值非常接近,这时应该如何选择呢?这时可以计算一个评价指标exp[(AICmin-AICi)/2],i表示一个与AIC值最小的模型竞争的模型。该评价指标表示了竞争模型相对于当前最小AIC值模型来说,有多大可能成为AIC值最小的模型。如果该评价指标值比较大,那么在选择模型时就需要更加谨慎。比较稳妥的办法是增加观察数据资料,使更佳拟合模型的选择趋于一致,同时保证参数估计的精确性和结果解释的稳定性。

BIC统计量同样是在候选模型有限的情形下选择一个最佳模型。该统计量同样认为,模型参数越多,拟合数据资料的可能性越大,但会导致过度拟合的结果。为此,BIC统计量也对模型参数的数量设置了惩罚项,而且BIC统计量对此的惩罚力度更大。BIC统计量定义如下:

在多个候选模型中,BIC值最小的模型是最合适的模型。BIC值会随着需要自由估计的参数数目的增加而增大,同时也会随着模型的估计误差方差的增大而增大。也就是说,因变量(结果变量)估计偏差和自变量(解释变量)的数目会导致BIC值变大。因此,小的BIC值就意味着更少的待估参数和更佳的模型拟合度。不同模型之间的BIC值差异及其意义的判断一般参照以下标准:0~2意味着模型效率差异不明显;2~6意味着推荐选择BIC值更小的模型;6~10意味着强烈建议选择BIC值更小的模型;大于10意味着两个模型具有显著不同的解释力和应用价值,BIC值小的模型应该被选择。

BIC统计量比AIC统计量更严厉地惩罚参数冗余,当然,两者之间的差异会受到样本容量及样本容量与参数数目的相对大小的影响。另外,BIC统计量和AIC统计量一样都是相对拟合统计量,均没有绝对意义上的统一的临界值。

关于DIC统计量,我们首先定义离差统计量:

其中,y代表了结果数据,θ是模型的未知参数,P(y|θ)是似然函数,C是一个常数。这个常数在对不同模型进行比较时会被抵消,因此我们在实际应用中不用知道它的具体取值。

DIC统计量更倾向于选择数据拟合良好的模型,因此可能会产生过拟合的评估结果。同时,与AIC统计量和BIC统计量一样,DIC统计量是一个相对拟合指标。DIC统计量也容易受到样本容量大小的影响,同时,只有当后验分布渐近多元正态分布时,DIC统计量的检验结果才是可信的。

五、被试-模型拟合检验

在进行模型-资料拟合检验时,一般都是通过作答数据检验各个项目是否拟合模型,很少关注被试作答行为是否拟合当前模型。主要是因为被试是一个随机化的样本,而测验是一个相对稳定的结构化变量。其实,在实际的评价项目中,当前所选模型可能对有些被试的作答结果无法很好地进行解释,也就是说,当前模型参数也许并不能很好地描述被试真实的潜在特质水平。因此,从被试评价的角度来说,有必要对每个被试也进行模型-资料拟合检验,以对被试水平做出更加准确的判断。

对于认知诊断评价,被试与模型之间的拟合检验显得尤为重要。因为被试作答测验时所应用的知识结构也许与模型所定义的那些知识结构并不是一致的。崔等人基于属性层级方法(attribute hierarchy method,AHM)的思想,提出了一种检验被试拟合程度的统计量指标——层级一致性指标(hierarchy consistency index,HCI)。

在项目反应理论中,对于某个被试来说,当某个题目的答对概率较高却作答错误,而当某个题目的答对概率较低却作答正确时,我们认为这样的作答模式是不正常的。

在认知诊断评价中,被试水平不再只是通过一个单独的能力水平分数来评价,而是通过其在多个测验属性上的发展状态来评价。这些测验属性之间很有可能存在层级关系(虽然有的诊断模型在参数估计过程中并不强调属性层级的作用,但在补救教学阶段却仍然必须定义属性间的层级关系)。这时就必须要检验被试在作答反应中所运用的知识结构是否与基于该层级关系建立的Q矩阵一致。

Qr矩阵定义了每个项目测量的知识属性,被试必须掌握这些属性才能答对项目。于是,通过比较被试的观察反应模式和Qr矩阵的属性定义模式,就可以评估被试在作答项目时是否运用了与Qr矩阵定义的知识属性或属性组合不同的属性或属性结构。

如果被试掌握了项目测量的所有属性,那么他就应该可以答对该项目,于是,他也就可以答对所有包含答对项目子属性(项目属性是另一项目属性的子集)的项目。基于该逻辑思想,被试i的HCI指标的构建模式如下:

其中,

Sj包括测量了项目j属性子集的所有项目;

以一个被试的观察作答反应模式为例,具体计算HCI指标的过程如下:

⑤计算HCI指标值,并做出拟合程度判断。

HCI指标和前文介绍的个人作答模式拟合指数均可以对被试的异常作答模式进行检验,均依据观察结果与期望结果之间的差异做出判断。当然,这两个统计量指标的具体构建模式存在着明显的不同。

本章小结

模型-资料拟合检验检查模型参数及函数形式是否能够较好地解释或预测数据资料。每个模型都是基于研究者对数据资料形成逻辑的认知而提出的,并用参数化的函数来表示这种逻辑关系。研究者的认知需要通过对实际数据的分析进行检验。每个模型均是一个解释数据的有机整体,包括参数的设置、函数的形式及相应的假设条件,它们共同支撑模型对数据的解释,因此,任何部分的扭曲都将导致模型整体对数据解释的偏离。当然,模型的不同组成部分对整体模型的影响程度不同,有些条件还具有较好的稳健性。

我们虽然从不同的角度提出对模型进行检验,从每个角度又提出了各种不同的检验方法,但正如上面所说,其实不同角度的检验之间存在着内在的关联,均检验被试作答模式是否与模型的建构逻辑一致。因此,只要有一个角度的检验结果发现了数据偏离模型,这就意味着整个模型无法很好地解释该数据结果。

思考题

1.思考作答过程真实性假设的意义和主要的检验方法。

2.思考局部独立性假设的意义和主要的检验方法。