二、编制测验的一般步骤

字体:16 +-

测验的性质不同,编制测验的具体过程和方法也不相同,但各种测验编制的基本步骤却是共通的(张进辅,曾维希, 2006)。一般而言,编制测验要经过以下几个步骤。

(一)确定测验目的

在编制测验时,首先要根据需要确定测验的对象、目标和目的,即要明确地知道测谁、测什么和为什么测的问题,只有这样才能检验试题的可靠性和有效性。

1.测验对象

测验对象(object),指测量什么人。只有了解被测者的年龄、智力水平、知识结构、社会经济和文化背景等资料,编制测验才能做到有的放矢。

2.测验目标

测验目标(target),指测量什么。是测学业成绩、能力,还是个性?这也是编制测验首先要考虑的问题。不仅要明确测验目标,还要尽可能将它具体化,即要考虑测验应包括哪些具体方面,以及通过什么方法和在何种程度上去测量这些具体目标。

3.测验目的

测验目的(purpose),指编制的测验是干什么用的。测验的用途不同,所设计的操作形式、题目形式、题目范围和难度都会有差异。职业测评的目的是实现人适其职,职得其人;人尽其才,才尽其用,它在研究、咨询、辅导和组织对员工的职业开发中都占据重要的地位,是不可或缺的工具。具体来说,它的功能包括以下几个方面。

预测功能:预测个体在教育训练、职业训练以及未来工作中的表现。

诊断功能:评估个体的长处和短处、优势和劣势,并诊断个体在兴趣、价值观和职业或生涯决策等方面的特质。

区别功能:区别出个体的某些特质类似于哪一类的职业群体。

比较功能:依据测量学指标,将个体素质(能力倾向、兴趣、价值观等)与某些效标团体相比较,从而观察两者之间的匹配程度。

探测功能:了解个体在职业发展的连续过程中,其职业决策、职业适应性的行为、态度,以及能力方面的一般状况,以便提供必要的职业辅导。

评估功能:对职业咨询或辅导的进展情况和效果进行评估。

职业测评包括许多功能,企业需要它,各种组织需要它,个人也需要它。它能服务于人力资源规划,为招聘、安置、考核、晋升提供依据,同时也是个人择业的参考,是职业规划与开发的基础。职业测评无疑可以实现组织和个人“双赢”的目的。

(二)制订编题计划

编题计划是编制测验的总体构思,它主要有两个用途。①编题计划指明了应该编哪些方面的测验项目以及编多少个项目,因此,编题结束后,可比照计划核对测验项目是否反映了所要测量的领域。②在计分时可按计划百分比确定每类测验项目的分数标准。编题计划要明确的信息主要有两个:一是全面而有代表性的测验内容,不至于使测验题偏离了应测的范围;二是对各个内容点的相对重视程度,通常用百分比来标明。

(三)编拟题目

编拟题目是测验编制中的重要环节。如果题目编拟不好,测量目标便难以达到,测验计划也难以落实。编拟题目一般包括以下几个阶段。

1.收集资料

一个测验是否有效,取决于该测验是否能够测得研究者所要测的东西,为此,就需要收集适当的测验资料和题目。现成的理论从来都是设计测验题目的最好参考。例如,设计职业兴趣测验,可以按照霍兰德等人的著名理论构架把职业兴趣分为六大类型,来编制相应的题目。专家无疑是设计测验题目的重要资源,在实际操作上,既可以直接邀请专家设计题目,也可以参考专家的有关经验、建议或以往的工作。以人格测验为例,描述人格的术语可作为题目的来源。阿尔波特等人曾总结出17953个描述人的特点的形容词,这些词进行归纳后,就可作为编制题目的参考。

尽管不同性质的测验所依据的资料内容和题目各异,但都必须遵循几个共同的原则。①资料和题目要丰富。资料收集越齐全,编题工作越顺利。例如,编制人格测验,需要收集描述人格特征的大量词汇、临床观察的资料、已有的人格测验量表中的测试题等。②资料和题目要有普遍性。这有两层意思:一是当编制智力类测验时,所收集的资料对于不同的文化背景、不同的经济地位、不同地区的个人或团体应当是公平的,应尽可能避免特殊知识经验对测验结果的影响;二是当编制人格测验时,所收集的资料应当能够全面反映某一文化背景中的团体的基本人格特征。③资料要有趣味性。资料的趣味性可以减少被测者由于缺乏足够的动机而引起的测量误差。

2.编写和修订题目

编拟题目常常要经过拟写、编辑、预试和修改等一系列步骤,而且这些步骤可能不断重复,直到将初步满意的题目汇集起来组成一个预备测验。编写题目要注意以下几个问题:①测验项目的取样应当对欲测的心理品质具有代表性,只有测验项目真实反映测量对象的特征时,才能保证测验结果的有效性;②测验项目的取材范围要同编题计划所列项目范围一致;③测验项目的难度应有一定的分布范围,如果是能力测验或学业成就测验,就应该包括各种不同难度的测验项目,以鉴别各种不同能力或不同知识水平的人员,如果是人格测验,就应当选编那些在不同方向的备选答案上都有一定人数分布的项目,以鉴别具有不同人格特征的人员;④编写测验项目的用语要力求精练简短,浅显明了;⑤初编题目的数量要多于最终所需要的数量,以便筛选或编制复本;⑥测验项目的说明必须简明。

(四)题目的试测与分析

初步筛选的题目,必须进行测试,并分析题目的性能,从而为进一步筛选题目提供客观依据。

1.试测

题目的优劣,不能单凭主观臆测来决定,必须将初步筛选出的题目组合成一种或几种预备测验形式,并试测于一组被试以获取借以分析题目质量的客观性资料。在试测过程中应注意以下问题:①试测对象应取自将来正式测验适用的群体,取样应注意代表性,人数不必太多也不可过少。②试测的实施过程与情境应力求与将来正式测验时的情况相似。③试测应有较为充裕的时间,使每个被测者都能将题目做完,以便收集充分的资料使统计分析结果更为可靠。④在试测过程中,应对被试的反应情况进行记录,如完成试测所花费的时间,题意有哪些不清之处,被试对哪些题目易产生误解以及其他有关问题。⑤试测时应注意保密,对于一些重大的测验,可以分散试测,即把一套试题拆散,分到不同地区或混杂到不同试卷中进行;还可以提前几年试测,使人无法知道何时正式采用。有时在正式试卷中也可安排少量不计分的题目,经过检验分析以供将来使用。

2.项目分析

预测完成以后可以对预测的结果进行项目分析。项目分析主要涉及题目的难度、区分度、测验结构的合理性等。根据分析结果对题目进行选择、修改,而后选择较好的题目组成正式测验。

(五)合成测验

经过试测和项目分析之后,就可以选出性能优良的题目加以适当的编排,组合成测验。

1.题目的选择

选择测验项目有三个指标:①测验的性质,即要选择那些能够测量所要测量的内容的项目。假如要测量的是阅读能力,就不能选择测量运算能力或语言推理能力的项目。②项目的难度。选择多大难度的项目并无固定的标准,选拔性测验要求难度大些,考查性测验则要求难度不可太高,人格测验则不要求难度。③项目的区分度。一般来说,项目的区分度越高越好,对于选拔性测验尤为如此,但有时也可以保留若干区分度不高的项目,这要视项目的重要性而定。

对题目进行初步选择可以细分为如下几个步骤:①检查题目是否符合细目表中某一单元格内容的要求;②根据细目表对各部分所要求的比例选择适当数量的测试题,尽量覆盖整个细目表的内容;③检查题目是否适合施测的对象和施测的条件;④检查题目是否适合施测的对象和施测的条件;⑤检查题目的难度是否恰当,一般来说,难度定为0.5较为合适(能力、技能类的题目除外);⑥检查所选择的题目是否彼此独立,没有重叠,即回答某一问题所需的知识与能力是否与回答其他问题无关。在选择题目时还要注意测量工具的长度。一个测量工具究竟包括多少题目较为合适,既要看是否能完全满足测量目的的要求,也要根据测量工具的时间限制和被测者的年龄、阅读水平而定。通常应该在正式测试前,根据试测测量工具所需时间,对测量工具长度进行调整。

2.题目的编排

在对测试题初次选择完毕之后,就应决定如何对选出的题目进行最佳编排。测试题的编排方式因测量工具类型的不同而有所差别,下面是题目编排的一般原则:①将测量相同因素的测试题排列在一起;②尽可能将同一类型的测试题组合在一起,这样只需对每一类型的试题做一次说明,也方便被测者回答,同时还可以简化计分工作和对题目的统计分析;③难度测验的题目应按由易到难排列,这样可以鼓舞被测者的士气,避免某些被测者一开始就因较多题目回答不出而失去信心,也可以使被测者熟悉反应程序,消除紧张情绪,同时还可避免被测者在难题上耽搁较长时间而影响了后面的回答;④对于人格测验,应尽量避免将测量同一特质的题目编排在一起,以免被测者猜测出题目所要测查的因素。

测验编制者要对测验进行最佳编排,必须根据测验目的与性质,考虑被测者的作答心理和反应方式,以及题目格式的类型和难度。测验一般有三种编排方式:①并列直进式,这种方式是按测验的性质将题目组成若干分测验,同一分测验中的测题,则依其难度由易到难排列,如韦克斯勒量表;②螺旋式,这种方式是将各类题目按照难度或年龄分成若干不同层次,再将不同性质的题目予以组合,进行交叉式排列,其难度则逐渐升高,采用这种编排方式,主要是让被测者不至于在一段时间内只对同一性质问题作答,保持被测者作答的兴趣,如比奈-西蒙智力测验;③混合式,这种方式是指将所有的题目按照难度排列,而不管题目的性质。一般不将同一性质的题目编排在一起,态度、人格、心理健康等量表多采用此法。

3.编制复本

在很多情况下,为了增加实际的效用,测验需要编制复本,复本越多,使用起来越方便。各份复本必须等值,等值是指符合下列条件:①测量的是同一种特质;②具有相同的形式;③题目数量相同;④内容范围相同但具体题目不应重复。只要有足够数量的题目,编制复本并不困难。先将所有适用的题目按难度排列,次序为1, 2, 3, 4, 5…如果要分成两份等值的试卷,可采用下面的方法:

A本: 1, 4, 5, 8, 9…

B本: 2, 3, 6, 7, 10…

如果要分成三份复本,可采用下面的方法:

A本: 1, 6, 7, 12, 13…

B本: 2, 5, 8, 11, 14…

C本: 3, 4, 9, 10, 15…

采用上面的方法可使复本之间在难度上基本平衡,从而获得大体相同的分数分布。复本编好后,如果有条件应该再试测一次,以决定各部分是否真正等值。

(六)测验的标准化

一个测验的好坏,取决于该测验的标准化水平。标准化是指测验的编制、施测、评分以及解释测验分数的程度的一致性。具体地说,测验标准化包括下列内容。

1.测验内容

这是标准化的前提,是对所有被测者实施相同的题目,如果测验内容不同,所测得的结果就无法比较。

2.施测过程

标准化的第二个条件是所有被试必须在相同的条件下施测,其中包括以下几个方面。①相同的测验情境,如统一的采光条件,统一的桌椅高度,统一的场所布置等。②相同的指导语,指导语一般包括两部分:一是向被试说明测验的目的,以便解除被测者的顾虑;二是向被试说明如何对测验项目进行反应。指导语必须事先拟好,印在测验项目的前面,并且力求清晰、简单、明了,避免引起误解。③相同的测验时限,测验的时间限制是测验程序中的重要方面。不过,不同的测验对时限要求不同。一般来说,人格测验对时限的要求不太严格,甚至不要求时间限制;但能力测验和学绩测验必须考虑时限问题。确定时限一般采用尝试法,即通过预测来决定。通常的时限为大约90%的被测者在预定的时间完成全部测验项目即可。

3.测验评分

评分的客观性是标准化测验的第三个条件,评分的客观性意味着两个或两个以上的评分者对同一份测验试卷的评定是一致的。只有当评分是客观的时候才能将分数的差异归于被试间的差异。但要做到完全客观(一致)的评分是较困难的,一般来说,不同评分者之间的一致性达到90%以上,便可认为评分是客观的。客观性评分要求:①对反应要及时清楚地记录,以免由于记忆丧失造成混乱,特别是对口试和操作测验,此点尤为重要,必要时可以录音和录像。②要有一张标准答案或正确反应的表格,即计分键。选择题测验的计分键包括每一测验项目正确反应的号码或字母;问答题的计分键包括一系列的正确答案和允许变化的范围;论文题的计分键包括一致可接受的答案要点;人格测验没有正确答案,计分键上指明的是具有或缺少某种人格特征者的典型反应。③将被试的反应和计分表进行比较,对反应进行分类。对于选择题来说,这个程序是很容易的,但是当评分者的判断可能是唯一起作用的因素时(如问答题、论文题),就需要对评分规则做详细的说明,评分时将每一个人的反应和评分说明书上所提供的样例进行比较,然后按最接近的答案样例给分。从标准计分这个问题我们也可以看出,测验分数虽然看似一个确定的值,但是其中可能由于多方面的原因,如实施、评分以及标准样本的代表性等,对分数的真实性产生影响,因此,绝不可把测验分数看成是固定不变的。这一点在解释分数时应特别注意。

4.测验分数的解释

一个标准化的测验,不仅指测验内容、施测过程和评分程序的标准化,也指对测验结果解释的标准化。如果对同一测验结果(分数)可做出不同的解释,那么测验便失去了客观性。测验编制者为了说明和解释测验结果,必须根据测验的性质、用途以及所要达到的测量量表的水平,按照统计学的原理,把某一标准化样本的测验分数转化为具有一定参照点、等值单位的导出分数。将被测量的事物置于该位置,看它离开参照点多少单位的计数,便得到一个测验值,这就是制定测验量表的过程。量表因单位和参照点不同,可分为类别、等级、等距和等比四种不同水平的量表。为了在解释分数时有所依据,需要制定常模或标准。缺少稳定的参照系,同一个分数就可能做出不同的推论或解释。对于选拔安置等常模参照测验,可通过试测,从被测者总体的代表性样本中获得一个具有代表性的分数分布作为常模。对于诊断或达标等目标参照测验,可根据测验目标要求,制定相应的标准。

(七)对测验的鉴定

测验编好后,必须对其质量进行鉴定,为此要收集测量学方面的资料,对测量的信度和效度的试卷是不能正式使用的,特别是不能用于意义重大的评选或选拔测验。

(八)编写测验说明书

为了使测验能合理地实施和使用,在正式测验编写完成后,还应编制一份测验说明书(或测验手册),对下列问题做出详尽而明确的说明:①测验的目的、功用和适用范围;②编制测验的理论背景以及选择题目的根据;③测验的实施方法、时限及注意事项;④标准答案与评分方法;⑤常模或标准以及分数转化表;⑥信度、效度资料。测验说明书是给施测者看的,有时也可为被试编写一份测验指南,指出测验目的、考核范围、题目形式、数量、作答方式与时限,并附模拟试题。这样做的目的是使被试心中有数,明确复习方向,缓和紧张焦虑情绪。