三、测验题目的编制技术

字体:16 +-

编制题目是研制测验的核心环节,要编制出好的测验,必须掌握编制题目的方法与技巧(张进辅,曾维希, 2006)。

(一)编制题目的一般原则

对测验题目进行编写要遵从内容、语言、表达与理解四个方面的一些原则,这些原则可以归纳为以下几个方面。

1.针对题目内容的原则

要求题目的内容符合测量工具的目的,避免贪多而乱出题目;内容取样要有代表性,符合测量工具计划的内容;各个试题必须彼此独立,不可互相重复或牵连,切忌一个题目的答案影响对另外一个题目的回答。

2.针对题目语言的原则

使用准确的当代语言,不要使用难懂的词句;文句须简明扼要,既排除与解题无关的陈述,又不要遗漏解题的必要条件;最好一句话说明一个概念,不要说明两个或两个以上的概念;意义必须明确,不得含糊,尽量少使用双重否定句。

3.针对题目表达的原则

尽量避免主观性和情绪化的字句;不要伤害被试的感情,避免涉及社会禁忌或个人隐私;避免诱导和暗示答案;避免令被试为难的问题(被试没有明确结论或羞于启齿的问题)。

4.针对题目理解的原则

题目应有确切答案,不应具有引起争议的可能(创造力类测验除外);题目内容不要超出被测对象的知识和能力范围;题目的格式不要引起误解。

(二)各类题目的编制

1.选择题

选择题通常包括两个部分:一部分是题干,即呈现一个问题的情境,由直接问句或不完全的陈述句构成;另一部分为选项,即对问题的几种可能的回答,包括正确答案及若干(一般1~5个)错误答案,这些错误答案叫作诱答,其主要作用在于迷惑那些无法确定答案的被试。选择题可以考查记忆分析、鉴别推理、理解和应用知识的能力,也可以考查对某一事物的看法和观点。选择题的主要优点包括:①适用范围广,从一般知识到复杂能力的测量均可使用;②题意明确,被测者的反应简单,容易计分;③与其他形式的客观题相比,更少受猜测和反应定势的影响,较为客观;④选择题的题量可以较大,考查的范围更广,取样代表性较高。选择题的不足之处在于诱答难以编制,诱答的数量要求多,而且还要似是而非,让那些不知道正确答案的被试感到无从选择,这相对来说较为困难。另外,选择题不易测出个体组织能力、表达能力和创造性等特点。

编制选择题时应遵循以下几个原则:①题干使用简单而且清晰的用词,使被试明确题干的完整意思;②不要将选项夹在题干中间,或者在题干前出现与问题无关的材料;③选项要简练,尽量将选项中共同的词句(如限定语、条件)移至题干中,这样不仅可以使题意清楚,而且可以减少被测者的阅读时间;④除特殊情况,所有选项的长度应该大致相等,而且与题干的联系要紧密,否则,本来正确的答案可能会因为逻辑上或语法上与题干不一致而被错误地排除;⑤避免在题目中出现帮助被试猜测正确答案的线索;⑥对于人格和态度的测量工具,题干的陈述不应带任何倾向性,避免被试倾向于选择社会赞许性高的选项;⑦如果选项是数字、日期、年龄等有逻辑顺序的材料,则最好仍按顺序排列,否则应随机排列,另外,所有选项最好形式相同,如同为时间、人名、地点等,长度、难度应大致相同;⑧答案在选项中的位置应当随机出现,没有任何规律。

2.是非题

是非题容易受被测者反应定势和猜测的影响,测验分数的可靠性不如选择题。反应定势是指部分被测者在回答问题时,其答案的选择建立在题目的形式或位置上(如偏向正面回答或否定回答),而不是建立在题目内容的基础之上。另外,是非题仅有两种答案,即使猜测,也有50%答对的可能性,如果还有其他额外的线索,猜对的可能性还会更高。弥补这一缺陷的方法之一是加大题目数,使每一题目分数的偶然性对总分的影响相对减小。当然,是非题也有其长处,它能很快书写和阅读,因此题量可以较大,便于广泛取样,计分也比较客观。在能力测验中,是非题多用于只需快速粗略判断被测者能力的情况;在人格测验中,是非题多用于只需判断一般行为的问卷中。

编写是非题时要注意以下几点:①测查的内容应以有意义的事实、概念或原理为主;②每道题只能包括一个重要的概念,避免两个以上的概念出现在同一题目中,造成“半对半错”或“似是而非”的情况,还要把各个概念放在题干的重要位置上;③除特殊情况,尽量避免否定的叙述,尤其是要避免双重否定的叙述,因为采用否定的叙述容易使人困惑,否定词也容易被一些粗心的被试所忽略;④测验中正确题目与错误题目的长度、复杂性应尽量一致;⑤正确的题目数与错误的题目数应该基本相等,两种题目应按随机方式排列。

3.匹配题

匹配题可以说是选择题的一种变式。匹配题干一般包括多个反应项(匹配项)和多个刺激项(被匹配项),用反应项来匹配刺激项。匹配题有完全匹配(刺激项与反应项的数量相等)和不完全匹配(反应项目多于刺激项目)两种形式。通常,刺激项目和反应项目分别排成两列。匹配题容易编制,而且可以在短时间内测量大量相关联的材料,覆盖面较广,但它一般只能测量简单记忆的事实材料或概念关系,并且要求编制的选项必须是同质的。

下面是对编制匹配题的一些建议:①刺激项目和反应项目应该分成两列,通常反应项安排在右边。②配对数目不可过多或过少,最好使用不完全匹配,使反应项数目多于刺激项数目,并且最好不限制每个反应项被选择的次数,这样可以降低猜测的概率。一般可以列举6~15个项目,其中反应项应比刺激项多2~3项。③匹配题的反应项与刺激项的性质必列。④应该对匹配方法、匹配的依据加以明确规定和说明,同时说明反应项可以被选择的次数。⑤同一组的反应项与刺激项最好印在同一页纸上。⑥反应项与刺激项应以不同形式的序号加以标识,反应项前冠以数字,刺激项前则冠以英文字母或甲、乙、丙、丁等以免混淆。

4.填空题

填空题是由回答者对删去关键词、字的句子进行补充填答的开放式题目。前面的选择题、是非题、匹配题均属于封闭式题目,就记忆的测量而言,封闭式题目属于“再认性”测量,而开放式题目属于“回忆性”测量。回忆性测量的难度大于再认性测量。填空题应用范围较广,其优点是猜测因素比封闭式题目少,特别适合测量记忆性学习材料。但它不及封闭式题目客观,无法用计算机阅卷。

编制填空题应注意:①填空题只能有唯一的正确答案,而且可以用一个词、词组或短语作答,否则,不适宜采用填空题;②删去的词句必须是有重要意义的,除了语文测验中特殊需要的以外,不宜省略连词、介词、冠词等;③最好不用指定参考资料中的原句,以免助长被测者死记硬背的不良习惯;④填空题的空格不宜过多,以免破坏题意的完整性。

5.问答题

问答题的主要优点在于它能够测量被测者组织材料的能力、综合能力和文字表达能力,有的甚至可以测量评价能力和创造能力,而这些能力是其他客观题难以测量的。相对来说,问答题有以下优势:①较好编制,题目无须太多;②不需准备备选答案,答案是由被试自己生成的;③可以避免被试随机猜测答案。但是,问答题的劣势也很突出。首先,问答题一般回答时间长,分值大,因此题量不宜太多,所以能测量到的内容也有限,对行为的取样受到局限。由于取样代表性差,可能使被测者偶尔对某个论题碰巧很熟,得到“虚假的高分”,而另外一些被试碰巧不熟,而得低分。因此问答题容易造成成绩的偶然性,使测量结果的信度受到影响。其次,问答题的评分标准不容易标准化。相对来说,评分者在掌握评分方法时可能有一定的主观性,而且不同评分者的评分结果很难保持高度一致。已有研究发现,不同评分者对同一答案的评分一致性相关系数仅为0.62~ 0.72。同一评分者对两份等值的答案的评分信度更低,仅为0.42~0.43。即使同一评分者在隔一段时间后再评价同样的测验,也会前后评分不一致。最后,问答题的评分容易受书写的整洁程度、个人成见等无关因素的影响。这可能是评分者的非客观性的主要来源之一。一方面,卷面形象可能使评分者形成印象分,影响最终评价;另一方面,问答题的阅卷比较费时,对评分者的耐心和仔细程度也是个挑战。

一般来说,在可以用客观题施测的情况下,尽量不要采用问答题形式。如果需要采用问答题施测,题目编写者应该使问题及评分标准尽可能客观。在编制时应注意以下几点:①问题应清楚而且明确,使被试了解答题要求;②题目的数量不要太多;③在编制题目时应该有一个理想答案或一系列答题标准,一些可接受的答案应有所规定和说明。

6.操作性测试题

在很多情况下,操作的方法和过程是重要的测量目标,而这是纸笔测验无法测量的,这时可以采用操作性测量形式。操作性测试题要求被测者对未来真实情景中的行为进行模拟,其真实性要高于纸笔测验。操作性测试题通常分为注重过程和注重结果两种形式。考查仪器操作、演讲、演奏乐器和其他各种技能,就需要采用注重过程的形式,这些内容需要在工作过程中进行评鉴。有些活动则要在活动结束后考查结果,如文章、图画等。当然,也有的需要同时考查过程和结果。操作性测试有多种不同的分类方法,按测试情境的真实性程度可以分为:①纸笔的操作性测试,虽用纸笔但偏重于模拟情境下知识的应用,如编制、编写某项操作计划、步骤、注意事项等;②模拟操作测试,强调正确的程序,被测者需要在模拟情境下完成与真实活动相同的动作,如驾驶员的考核等;③工作样本操作测试,其真实性最高,包括真实作业的全部要素,但是在有控制的条件下去完成的,如司机在专用场地内的考核、师范学生的教学实习等。

设计操作性测试题的主要原则有:①明确所要测量的目标,并将其操作化,即要进行工作分析得出操作中最重要的因素,找出具有代表性的工作样本;②要建立作业标准,规定通过此项作业的最低标准,如操作的准确性(误差多少)、速度(时限多少)、步骤的正确性或某些主观品质(如熟练程度和优秀水平)等,都应该标准化;③选择合适的真实性程度,通常情况下真实性程度越高,模拟的代价越大,应根据所考核目标的不同,选择不同真实程度的测试方法,以便在最节约的前提下获得最多的信息;④指示语简单明确,让被试知道要干什么和在什么条件下去做;⑤有明确的计分方法,操作项目的计分要有不同形式,差别要大。有些项目根据完成题目的数量和错误次数客观计分就可以了;有些项目的评分则较为困难,这种项目可以采用“作品量表”来计分。“作品量表”一般包括一系列按顺序排列的不同作业程度、水平、质量的标准样本,评定时参照这些标准样本对被测者的结果进行评分;如果被考核的操作活动可以分为多个方面或几个步骤,则可以按每个方面或步骤完成的情况分别给分,最后统计总分。

7.面试题

面试是目前在企业及各类组织中最流行的考查手段,但面试的考核缺乏心理测量学的严格性,易受考官个人偏见的影响。不仅如此,由于面试既要看被测者对问题回答的质量,还要看整个面试过程中的行为表现,如情绪紧张度、应变能力等,更加大了面试计分的难度。因此,面试效果的好坏往往取决于面试考官,所以,面试考官必须对面试主题有充分的了解,对于所要求的反应有清晰的认识。另外,用于描述或评定被测者反应的词语,必须具体化,避免含糊不清的陈述。