第二节项目与测验质量评价

字体:16 +-

认知诊断测验的质量评价包括对单个项目质量的评价和对测验整体质量的评价。测验作为评价被试素质水平的工具，无论是单个项目质量的评价还是测验整体质量的评价，其目标均是能够为评价被试提供稳定的、有效的信息。

一、项目质量评价

在经典测量理论和项目反应理论中，项目质量分析包括项目呈现形式的分析（如文字表述方式、提问方式、选项内容长短不一等方面的检查）、选项分析、难度和区分度分析等，在项目反应理论中，还可以针对测验目标分析每个项目的信息量（测量误差信息）等。

在认知诊断评价中，项目质量分析的内容角度与项目反应理论基本是一样的，但认知诊断测验项目的应用情境还是有一些关键的不同之处，因此在具体的项目质量分析过程中存在一些差异。

首先，在认知诊断评价中，测验项目编制的主要目的是对被试进行诊断，而不是对被试进行排序或选拔。诊断测验一般是低厉害测验。因此，项目的功能主要是诊断各类被试学习不足的方面。

其次，在认知诊断评价中，对被试的评价并不是在一个一般（general）维度上的水平测量，而是对多个子属性的掌握状态的评估。因此，不同项目可能测量了不同的子属性，项目质量评价就需要考虑在不同子属性上的测量信息。

再次，在认知诊断评价中，不同的诊断模型或方法构建差异非常大，其参数意义也存在很大的不同。因此，在用模型参数对项目质量进行评价时并不能一概而论。

最后，在认知诊断评价中，作为评价的目标——被试属性发展状态的表示方式也存在差异。潜分类模型将被试属性发展状态表示为在一系列属性上离散的掌握模式，而连续潜特质模型则将被试属性发展状态表示为在一系列属性上连续的掌握模式。被试水平的不同表示方式会影响基于被试测试数据的分析方式。

根据项目质量分析的一般架构，同时结合认知诊断评价的具体情境，对认知诊断测验的项目质量分析可以从以下几个方面进行。

一是项目内容及其表述方式的检查。项目内容表述不清，容易使作答者无法理解或理解出现偏差，从而导致出现不同的作答结果，无法准确认定被试的认知属性。对项目内容表述方式的检查一般是要求文字表述清楚且通顺，不会引起误解。文字的表述尽量使用短句，不要有太多的连接词和修饰词，尽量不要使用反问句式。文字表述的内容要使作答者和题目命制者在意义理解上达成一致。

具体的内容检查过程中，先由有经验的测验编制专家对各个项目的表述方式进行完整的检查；然后找到部分被试代表对各个项目表述的意义进行解释，并尝试作答，以此分析被试对各个项目意义的实际理解是否与命题专家一致。

二是选项分析。针对选择题型一般需要进行选项分析。在经典测量理论和项目反应理论中，一般认为，选项中除了正确选项就是错误选项。在认知诊断评价中，项目的选项分析显得尤为重要，它认为项目的各个选项均提供了关于被试属性发展水平的信息，当然这对选择题型题目命制者也提出了更高的要求。

在进行项目选项分析之前，需要从测验开发者那里获得关于各个选项测试的属性及其水平的信息。一般来说，一个项目测试的属性最好不要随着选项的变化而变化，但是可以随着选项的变化而表示不同的属性掌握水平，每个错误选项代表一种错误的解题规则。

在认知诊断测验项目选项分析中，首先从内容上分析各个错误选项是否代表了该项目测试属性的主要错误规则。选择题的选项除正确选项外，一般代表了对某个概念或规则理解的偏差，这也正是认知诊断评价的主要关注目标。在某属性上可能的主要错误规则需要领域专家进行判断，因此，第一项选项分析工作需要领域专家完成。其实，这项工作可以在测试之前的认知模型定义或题目命制阶段完成。

假设第一步工作已经做得很好，选项分析的第二步就是统计每种选项上的被试人数。但在认知诊断评价中，我们关注的重点并不是正确选项人数是否占优势，或错误选项之间分布是否均匀等问题。我们关注的是代表不同错误规则的错误选项上的人数比例。如果某错误选项上的人数比例较高，这可能意味着教育者的教育过程出现了问题，当然也很可能是该选项表达的内容很难与正确选项区分开来。如果某错误选项基本上没有作答者选择，那么可能因为其表述的倾向过于明显，当然也有可能是作答者根本不会出现这类错误规则，该选项就应该被删除。

三是项目参数质量分析。项目参数分析是项目质量分析中的重要内容之一。在经典测量理论中，项目参数主要是从测试群体的角度进行评价的，它要求项目区分度高，难度适中。在项目反应理论中，项目参数则可以从测试个体的角度进行评价，它仍然要求项目区分度高，但项目难度则可以针对不同的被试水平有不同的价值，被试水平与项目难度越接近，则可以获得越大的信息量。总之，在评价被试时，项目参数的大小是有优良之分的，因为它能影响测量误差的大小。

在认知诊断评价中，根据对数据资料的不同解释逻辑，构建了许多包含不同参数的模型，这些模型参数的意义也不相同。但无论项目参数如何构建，各种模型的被试参数反映的总是关于属性的掌握状态。项目参数是以被试的实际作答表现来估计的，反映了被试某方面的分布特征，与被试水平分布有着内在的关联。在评价被试属性掌握状态时，不同模型的项目参数值大小同样有优劣之分、合适与不合适之分。

被试属性与测验属性是一致的，但不同项目测试的属性及属性个数可能并不相同，因此，项目提供的信息是针对其测试的属性来说的。由于模型参数不一致，所以我们无法统一评价项目参数的大小，但我们可以给出项目参数评价的基本原则，那就是参数的大小应该以评价被试相应属性提供的更大信息量为标准。以DINA模型为例，其项目参数包括失误参数和猜测参数，两种参数均是表示作答结果偏离被试真实水平表现的程度，也就是说，这两个参数值越大，意味着该项目在评价被试真实水平时会有更大的误差，信息量也就越小。不过，失误参数和猜测参数分别反映了被试群体的不同分布特征，失误参数反映了高水平被试的作答分布特征，而猜测参数则反映了低水平被试的作答分布特征。失误参数值高意味着该项目不适合评价高水平被试，猜测参数值高则意味着该项目不适合评价低水平被试。如果两个参数值均较高，则该项目应该被替换。

二、测验质量评价

测验质量评价是从整体上评价测验在测量被试水平时的稳定性和有效性，也就是评价测验的信度和效度水平。

（一）测验信度评价

信度反映了测验受到随机误差因素影响程度的大小。随机误差因素非常多，研究者已经针对一些重要的随机误差因素开发了测量其影响大小的方法和技术。比如，时间对测验结果稳定性的影响，研究者一般通过同一测验在两次不同时间测量结果的一致性程度来表示；题目抽样对测量结果一致性的影响程度则通过复本信度、分半信度或其他内部一致性信度指标来测量；等等。项目反应理论基于项目参数计算测验对不同能力水平被试提供的信息量大小，以此反映测验在估计被试能力水平时的测量误差，项目参数反映了项目本身的编制质量。

在认知诊断评价中，测验结果的稳定性或一致性同样是非常重要的问题，在提供诊断性结果的评价中，这甚至是一个需要更加重视的问题。

诊断结果随时间的稳定性同样可以根据两个不同时间测试结果的一致性程度进行评价。但是在认知诊断评价中，有两个具体问题需要在测验结果一致性检验时加以考虑。一是诊断的目标内容本身随时间的推移而发生变化的规律。有些诊断的目标特质随着时间的推移呈现出非常稳定的特征，如智力水平、性格特征、价值观等，而有些特质则会随着时间的推移而出现明显的变化，如知识的掌握、技能的进步、情绪特征等。对于不同的诊断目标特质，在评价测验的稳定性时，其测试的时间间隔和评价标准是不同的。二是测验结果一致性的具体计算方法。在认知诊断评价中，被试水平通过一个向量来表示其在各个属性上的掌握状态，而在各个属性上的掌握状态可能是离散的，也可能是连续的表示形式。对于离散型数据，我们可以借鉴模式匹配率（pattern match ratio，PMR）和平均属性匹配率（average attribute match ratio，AAMR）的计算方法来评价测试结果的一致性程度。PMR和AAMR指标的计算方法如下：

其中，N为样本容量；Ni_match表示被试i在两次测试中的属性掌握模式是否完全一致，完全一致取值1，否则取值0；K为测验属性个数；Nik_match表示在两次测试中被试i对属性k的掌握状态是否完全一致，完全一致取值1，否则取值0。

对于连续型数据，我们也可以模仿以上匹配率的构建模式来构建一致性评价指标。但由于误差因素的影响，连续型数据很难达到模式完全匹配的结果，因此，我们只构建基于每个被试在每个属性上的整体一致性指标，该指标称为平均属性一致性（average attribute consistency，AAC）。该指标的计算形式如下：

题目抽样给测验结果一致性带来的影响也可以通过复本信度、分半信度等指标来测量。但是在计算结果一致性时，同样需要考虑被试水平表示方式的不同导致解决办法在形式上的差异。由于同样是评价两组被试水平测试结果的一致性程度，因此，我们还可以借鉴重测信度的评价方法来对测验内部一致性进行估计。

以上两个测验结果一致性指标是用比率的形式来表示的，用于评价测验在结果一致性上的相对质量，但并没有提供绝对的标准。

（二）测验效度评价

测验效度是测验的本质特征，是评价测验价值的基本指标。心理测量的目标是通过测验等方法，以观察分数的形式来获得被试在某个潜在特质上的位置水平的信息，并将此信息应用于评价被试在不同领域的适应性水平。效度是衡量测验达到开发者评价目标的程度的指标。评价测验效度的角度有两种：一是从测验本身内容的角度评价测验测量的目标领域完备性；二是从测验外部寻找测验有效性的证据。测验本身的内容是外部有效性的理论基础，外部有效性则是测验拓广价值的体现。

从测验本身内容的角度评价测验有效性，主要论证测验是否很好地代表了测量目标领域的内容。雷通等人认为，认知诊断评价首先需要建立关于目标领域的认知模型，该认知模型包括了知识、技能、策略等及其层级关系。然后，领域专家严格按照该认知模型的定义命制测验题目。艾姆布雷孙等人提出的认知设计系统（见上一节内容）则对认知模型的构建、测验题目的设计和模型的验证进行了详细的规划，是编制一份具有较好结构效度和内容效度的测验的指导规则。

当然，在严格按照设计规则命制了测验之后，我们仍然需要对该测验的内容效度进行考察。验证的具体过程就是，找到一批独立于测验项目命制专家的领域专家，由这批专家独立地对所有测验题目测试的属性进行重新定义，建立测验属性Q矩阵，并以此属性矩阵来评估测验是否很好地代表了目标领域的内容及其权重。

有许多途径可以从测验外部寻找测验有效性的证据。编制认知诊断测验的目的是诊断被试在测验本身代表的目标领域中发展的不足之处，因此，实验干预的方法是检验该类测验有效性的最佳途径。有研究者（Tatsuoka & Tatsuoka，1997）就用实验干预的方法验证了诊断测验的有效性。他们首先通过前测（pretest）对被试在某领域的认知状态进行诊断，发现这些被试认知发展的不足之处，然后针对这些不足之处进行补救教学和辅导，在认为这些被试已经掌握了相应的内容之后，对被试进行后测（posttest），以检验针对相应内容的干预效果。他们还在一段时间之后检验了被试对知识内容的保持状况。还有研究者也是通过前测、干预教学、后测加访谈的方法检验了英语阅读技能诊断测验的有效性。

本章小结

效度与信度是评价任何测验编制质量必需的指标。相对于传统的评价测验，认知诊断评价测验的编制是一个更加精细化的过程，它需要一个更加严密的测验编制指导架构来支撑题目的编制过程。

艾姆布雷孙等人基于对认知心理学理论、方法在指导测验编制时具有的独特重要性的认识，提出了指导测验编制的认知设计系统，该指导架构逻辑非常严密，对编制高质量的认知诊断测验具有重要的指导意义。

初步测验编制后的质量分析是保证测验实现诊断目标的关键步骤。项目质量分析和测验整体质量分析均是为了保障测验的效率、信度和效度。

思考题

1.请深入思考和分析艾姆布雷孙等人提出的测验编制原则和具体流程。

2.如何保证认知诊断测验的信度和效度？

第二节 项目与测验质量评价

第二节项目与测验质量评价