第三节教育测量研究法的实施

字体:16 +-

前面两节内容介绍了教育测量研究法的基础知识，本节将介绍教育测量研究法的具体实施，主要包括测验的编制、测验的选择、测验的使用以及测验在教育领域的应用等内容。

一、测验的编制[19][20][21]

测验是教育测量的主要工具。为了在教育科研和实际应用中充分发挥测验的功能和作用，必须编制出各种高质量的测验。

不同性质、不同用途的测验，其编制过程与方法是不同的，但由于测验原理大体相同，因此，编制测验的基本程序也大体一致。

（一）明确测验对象、目标和用途

1.明确测验对象

明确测验对象就是要明确编制的测验是用来测量谁的，即用于何种团体。因此，需要了解被试的性别、年龄、职业、受教育程度、民族、文化背景等情况，才有可能编制出合适的测验。

2.明确测验目标

明确测验目标就是要明确编制的测验是用来测量什么的，是能力、人格，还是学业成就。不但要明确测量的目标，还要对测量的目标加以分析，转换成可操作的术语，即将目标具体化。例如，德若伽提斯（L.R.Derogatis）为了测量人的心理健康状况，根据人们广泛的精神症状，包括躯体感觉不适、情绪、情感、思维、意识、人际关系、生活习惯、饮食睡眠等内容编制了症状自评量表（SCL—90），测量因子包括十个。

躯体化：主要反映被试的身体不适感，包括心血管、胃肠道、呼吸等系统的不适，及头痛、背痛、肌肉酸痛及焦虑等其他躯体表现。

强迫症状：主要指那种明知没有必要，但又无法摆脱的无意义的思想、冲动、行为等表现，反映临**的强迫症状群。

人际关系敏感：主要指个人不自在感和自卑感，尤其是在与他人相比较时更突出。

抑郁：主要指忧郁苦闷的感情和心境，反映与临**抑郁症状群相联系的广泛的概念。

焦虑：主要指游离不定的焦虑及惊恐发作，反映临**明显与焦虑症状相联系的精神症状及体验。

敌对：主要指恼怒，发脾气和冲动的特征，从思维、情感及行为三个方面来反映病人的敌对表现。

恐怖：主要反映对孤独和公共场合的惧怕。

偏执：主要指对他人不满和无中生有的程度，反映猜疑和关系妄想。

精神病性：主要反映神经质的强烈程度，其中幻听、思维播散、被洞悉感等反映精神分裂样症状项目。

其他因子：主要反映睡眠及饮食等情况。

3.明确测验用途

明确测验用途就是要明确编制的测验是用来干什么的，是要对被试做描述，还是诊断，是选拔，还是预测。用途不同，编制测验时的取材范围以及项目难度也不同。

（二）编制测验计划

编制测验计划，就是对测验进行总体设计和构思。一是构思测验的内容结构和项目形式；二是构思每一个内容、目标的相对重视程度。例如，成就测验的编制计划通常要制订两个表，一个是双向细目表：其中一维是教学内容，另一维是要达到的行为目标；另一个是测验试题分类表：其中一维是教学内容，另一维是试题类型。两个表中的分数可以体现对每一个内容、目标的相对重视程度（这在前面已述）。又如，测量心理健康状况的症状自评量表（SCL—90）的内容结构包括躯体化、强迫症状、人际关系敏感、抑郁、焦虑、敌对、恐怖、偏执、精神病性、其他因子十个因子；项目都是选择题，要求被试根据自己最近一个星期或现在的情况从五个选项中选择一个与自己的实际情况相符的选项；量表中测量每个因子的项目数量不同（每个项目记分相同），说明了相对重视程度也不同。如表6-8所示。

表6-8 SCL—90各因子的项目数及编号

（续表）

（三）编写测验项目

编制好测验计划后，接下来就要编写具体的测验项目。这是测验编制过程中最重要的步骤之一。

1.搜集测验资料

一个测验的好坏与测验材料的选择适当与否有密切关系，为此要注意以下几点。

（1）资料要丰富。搜集的资料应达到如下要求：①全面性。搜集的资料要全面反映测验目标的要求，不可有任何一方面的漏缺；②准确性。搜集的资料要准确地反映测验目标的本质，不要有任何偏差；③真实性。搜集的资料要与被试的实际状况相一致；④次量性。搜集的资料不仅要有足够的数量，还要有足够的累积次数[22]。这样测验内容便不致有偏颇，而且能提高行为样本的代表性。

（2）资料要体现公平性。搜集测验资料要考虑对测验对象尽可能的公平。而要保证公平，就要克服测验偏差（test-bias）。测验偏差是指某些被试由于性别、民族、种族、社会经济地位、文化背景、知识经验、宗教信仰或其他亚群体特征，致使在测验过程中受到冒犯或不公平的惩罚。所谓冒犯，意指测验中出现了性别歧视、对某些特殊种族或宗教群体的忽视、辱骂、讥讽等现象。这种冒犯性测验将导使某一群体的被试在测验过程中产生消极情绪，分散注意力，降低测验成绩。例如，据调查，男性大多从事高声望的工作且收入高，而女性大多从事低声望的工作且收入低，为什么？这道题有性别歧视的现象，冒犯了女性被试。所谓不公平的惩罚，意指被试由于某一特定亚群体的特征，致使这一群体的学生没学过、不理解或不熟悉测验的内容和要求，从而降低测验成绩。例如，以中国足球为题，写一篇不少于500字的短文。这道题不公平地惩罚了那些不了解足球的被试。[23]

2.选择项目形式

测验的具体编制需要考虑测验项目采用何种形式的问题，一般情况下，任何项目都可以用几种不同的形式呈现，需要从中选择一种最佳的呈现方式。我国心理学家廖世承、陈鹤琴曾提出五条选择测验项目形式的原则：使受测者容易明了测验做法；受测者在做测验时不会因为项目形式不当而做错；做法简洁、省时；记分省时省力；经济。为此，在选择项目形式时，要考虑以下三点。

（1）测验目的和材料的性质。如果要考查被试对概念和原理的记忆，宜用简答题；要考查被试对事物的辨别和判断能力，宜用选择题；要考查被试综合运用知识的能力，宜用论文题。

（2）被试个体或团体的特点。被试个体或团体的特点不同，测验采用的项目形式也不同。比如，对幼儿宜用口头测验，对于文盲或识字不多的被试不宜采用要求读和写的项目；对有语言缺陷的被试要尽量采用操作项目。

（3）各种实际因素。当被试人数过多，测验时间和经费有限时，宜用选择题进行团体纸笔测验；而人数少，时间充裕，又具备需要的实验仪器和设备时，可采用操作测验。

3.编写测验项目

编写测验项目是一个不断反复的过程，包括写出、编辑、预试和修改等。在这个过程中，编制者对测验项目要进行反复的修改，改正意义不明确的词语，取消一些重复的和不适用的项目。然后将初步满意的项目汇集起来组成一个或几个预备测验。

编写项目要注意以下问题：一是项目的范围要与测验计划相一致；二是项目的数量要比最后所需的数目多一倍至几倍，以备筛选和编制复本；三是项目的难度必须符合测验目的的需要；四是项目的说明必须清楚明白。

（四）项目的试测与分析

初步编写的项目在内容和形式上从表面上看也许符合要求，但是否具有适宜的难度和较高的区分度，必须通过试测进行项目分析。

1.试测

预备测验应在小样本范围内进行试测，以鉴别项目性能的优劣。试测应注意以下几点。

（1）试测对象应是将来正式测验应用群体的代表性样本。

（2）试测的实施过程与情境应力求与将来正式测验时的情况相近似。

（3）试测的时限可稍宽一些，最好使每个受试者都能将题目做完。以收集受试者较充分的反应资料，使统计分析的结果更为可靠。

（4）在试测过程中，应对受试者的反应情形随时加以记录，如在不同时限内一般受试者所完成的题数、题意不清之处及其他有关问题。

2.项目分析

项目分析包括质的分析和量的分析。质的分析是从内容取样的适当性、项目的思想性以及表达是否清楚等方面加以分析；量的分析是对预测结果进行统计分析，确定项目的难度、区分度、备选答案的适宜性等。

由于试测的被试样本可能会有取样误差，故由此得到的项目分析结果未必完全可靠；为了检验所选出的项目的性能是否真正符合要求，通常需再选取来自同一总体的另一样本再测一次，并根据其结果进行第二次项目分析，看两次分析结果是否一致。如果某个题目前后差距较大，说明该题的性能值得怀疑。这种在两个独立样本中进行项目分析的过程叫作复核。

（五）合成测验

经过试测和项目分析，下一步就可以选出性能优良的项目进行适当的编排，组合成测验。

1.项目的选择

选择项目的指标有三个：一是测验的性质，即要选择那些能够测量所需要的特质的项目，例如，想要测量的是观察能力，就不能选择测量阅读能力或者记忆能力的项目；二是项目的难度；三是项目的区分度。最好的项目，就是只测定所需要的特征，并能对该特征加以有效区分的难度合适的题目。

2.项目的编排

项目选出之后，必须根据测验的目的与性质，并考虑受试者作答时的心理反应方式，加以合理安排。

项目编排的总体原则是要由易到难。这样可以使受测者较快熟悉作答程序，消除紧张情绪，建立信心，顺利进入测验情境。也可以避免受测者在前面的难题上耽搁太多的时间，而影响对后面问题的解答。在测验最后可有少数难度较大的题目，以测出受测者的最高水平。

常见的排列方式有两种：一是并列直进式：将整个测验按项目材料的同质性分为若干分测验，在同一分测验的项目，则依其难度由易到难排列；二是混合螺旋式：先将各类项目依难度分成若干不同的层次，再将不同性质的项目予以组合，做交叉式的排列，其难度渐次升进。此种排列的优点是，受试者对各类试题循序作答，从而维持作答的兴趣。

3.编造复本

为增加实际的效用，一种测验有时需要有两个或两个以上的等值型，即复本。测验的各份复本必须等值，所谓等值需符合下列三个条件。

（1）各份测验测量的是同一种心理特质。

（2）各份测验包含相同的内容范围，但项目不应有重复。

（3）各份测验题型相同，题目数量相等，并且有大体相同的难度分布。

只要有足够数量的题目，编造复本的手续是很简单的。先将所有合用的题目按难度排列，其次序为1、2、3、4、5、6…如果要分成两个等值的测验本，可采用下面的分法。

A本：1、4、5、8、9、12、13、16、17、20…

B本：2、3、6、7、10、11、14、15、18、19…

如果要分成三个等值的测验本，可采用下面的分法。

A本：1、6、7、12、13、18、19、24…

B本：2、5、8、11、14、17、20、23…

C本：3、4、9、10、15、16、21、22…

采用上面的分法可使复本之间在难度上基本相等，从而获得大体相同的分数分布。复本编好后，应该再试测一次，以确定各份测验间究竟是否等值。

（六）测验使用的标准化

为了减少误差，必须控制无关因素对测验目的的影响，这个控制的过程，称作标准化，包括测验编制的标准化和测验使用的标准化。测验使用的标准化又可分为施测过程标准化、评分计分标准化、分数解释标准化三个环节。

1.施测过程标准化

（1）指导语。给受测者的指导语属于测验刺激的一部分，它的内容通常包括对测验目的的说明和受测者应该如何作答的指示（包括如何选择反应、记录反应、以及时限等）。由于主试者的一言一行，甚至表情动作都会对受测者产生影响，所以主试者一定要严格遵守施测指导语，不要任意发挥和解释。

（2）时限。确定测验的时限，要考虑施测条件和实际情况的限制以及被试的特点，不过更重要的是考虑测量目标的要求。

2.评分、计分标准化

测验使用标准化的第二个要素是客观评分。客观性意味着两个或两个以上的受过训练的评分者之间有一致性。只有当评分是客观的时候才能够把分数的差异完全归于受测者的差异。为使评分尽可能客观，有以下三点要求。

（1）及时而清楚地记录反应情况。特别是对口试和操作测验，此点尤为重要，必要时可以录音和录像。

（2）要有一张标准答案或正确反应的表格，即计分键。选择题测验的计分包括一系列正确的答案和允许的变化；论文题的计分键包含各种可能答案的要点；人格测验不可能有明确而统一的答案，计分键上指明的是具有或缺少某种人格特征者的典型反应。

（3）将受测者的反应和计分键比较，对反应进行分类。对于选择题来说，这个程序是很容易的，但是当评分者的判断可能是一个起作用的因素时（如论文题），就需要对评分规则做详细的说明，评分时将每一个人的反应和评分说明书上所提供的样例相比较，然后按最接近的答案样例给分。

分数评出后还要进行合成计算，即将各项目分数合成分测验分数，再将分测验合成测验总分数。

3.分数解释标准化

一个标准化测验，不但编制、施测和评分要标准化，对分数的解释也必须标准化，如果同一个分数可做出不同的推论，测验便失去了客观性。

多数测验用常模作为解释分数的依据，如智力测验和人格测验，测验分数必须与常模比较，方能显出它所代表的意义。也有一些测验并不将被试的分数与其他人比较，而是看其是否达到某种标准，如毕业考试、英语水平测试、钢琴考级、律师、会计师的资格考试等。

（七）搜集信度、效度资料

测验编好后，必须对其测量的可靠性和有效性进行考验，为此就要进行测量学方面的分析，搜集信度和效度资料。包括调查的样本与时间，信度、效度系数以及这些数据是在什么情境下得到的。

（八）编写测验指导手册

为使测验能够合理地实施与应用，在正式测验编写完成后，还要编制一份说明书，就下列问题做出详尽而明确的说明。

●本测验的目的和功用。

●编制测验的理论背景以及选择项目的根据。

●测验的实施方法、时限及注意事项。

●测验的标准答案和评分方法。

●常模资料，包括常模表，常模适用的团体及对分数如何做解释。

●测验的信度、效度资料。

经过以上六个步骤，一个测验便可正式交付使用了。

二、测验的选择

从上面可以看到，编制测验是一个相当复杂且困难的过程，要求编制者在教育与心理测量方面受过严格系统的训练。因此，在教育科研和实际应用中，如果需要使用测验，研究者首先要做的是去选择你需要的测验，只有肯定确实没有合适的测验可供选择时，才去编制你需要的测验。

（一）选择测验的基本要求

1.所选测验必须适合测量的目的

每个测验都有其特殊的用途和适用的范围。我们在选用时，应当慎重考虑，认真取舍，不能“拉来黄牛当马骑”。例如，想了解人格倾向和个性心理特征，可选择有关的人格测验；想了解被试者近期的心态，有无心理疾病症状，可选择心理健康测验；想了解神经系统类型、遗传特征和对外界反应的特点，可选择气质测验；想了解被试的人际交往能力、公关能力与合群性等，可选择人际关系测验；想分班或因材施教，可选择智力测验或成就测验；想诊断学习困难，可选择学习障碍测验；学生即将毕业，面临升学或就业选择时，可选择职业兴趣、职业性格、职业价值观、职业适应性、职业能力倾向测验，等等。

2.所选测验必须符合教育与心理测量学的要求

选择测验不能仅根据测验目的，还应考察测验是否经过了标准化，它的信度、效度如何，常模样本是否符合研究者所需的测试对象，常模资料是否太久而失效等。在现实生活中，许多人将一些通俗读物、报纸杂志或互联网上的测验当作科学的心理测验来使用，实际上这些测验大多不符合教育与心理测量学的要求，可信度不大，仅供娱乐消遣之用，但许多人却十分信服。即使是科学的心理测验，倘若个人自行施测，不懂得分数如何解释，也会产生不良后果。例如，有人通过互联网上的测验自行对照，判断自己是神经症，因而终日惶恐不安。

另外，标准化测验需经常修订，使测验内容、常模样本、分数解释更符合时代要求，但许多人在科研与实际应用中却经常使用没有重新标准化的经典测验，更有甚者，将国外的测验直接译过来使用，而不考虑我国国情，这种做法是不妥的。

（二）测验的来源与选择

教育与心理测验处于迅速变化的状态，新测验不断涌现，旧测验又出修订本，测验分数的解释也不断改进。面对这种情况，如何寻找和选择合适的测验，是我们进行教育科研和实际应用必须认真思考的问题。

1.在教育与心理测验专门文献中寻找和选择

目前世界上测验的数目很多，其中，内布拉斯加大学伯勒斯心理测量研究所出版的《心理测量年鉴》几乎囊括了以英语出版的所有商业性心理测验、教育测验和职业测验，而且每年几乎都有新的测验出现。年鉴介绍的测验包括一位或几位测验专家对测验的批评性评论，以及每个测验所附的已出版的全部参考书目，也定期给出出版者、价格、测验所适用的被试的年龄等常规信息。伯勒斯研究所的另一份刊物是《已出版的测验》，这份刊物累积介绍所有以英语出版的商业性测验，以及事实信息和参考书目。

在国内，《心理卫生评定量表手册》《行为医学评定量表手册》《精神病学评定量表手册》《性格与社会心理测量总览》是当前中国心理健康领域使用的测评工具汇总。也有一些公司出售各种商业性测验量表。

2.在学术论文中寻找和选择

有些教育与心理学刊物上发表的学术论文，专门研究测验的实际使用或者新测验的编制，这些资料可以提供寻找所需测验的信息。因此，可以根据使用目的通过检索教育与心理学学术论文的方法寻找所需要的测验，或了解测验使用者对测验的评价和成功应用的证据，结合自己的研究需要选择适当的测验。

3.在专业书籍中寻找和选择

教育与心理测量的专业书籍，为了论述测验原理或使用方法，通常会提到某些测验，这也是获得有关测验的重要信息来源。

三、测验的使用

一个好的测验，必须按正确的方法使用，才能最大限度地发挥其效用。

（一）测验前的准备

测验前的准备工作是保证测试顺利进行和测验实施标准化的必要环节。准备工作主要包括以下几个方面。

1.预告测验

事先通知被试，让他们知道测验的时间、地点、内容范围、试题的类型等，使他们做好心理准备。

2.测验环境的准备

在实施测验过程中，由于客观环境因素的影响，可能会出现某种误差。为了使测验的结果准确，就必须尽量控制误差。因此，主试必须对测验时的光线、通风、温度及周围是否有噪音等加以考虑。

3.测验材料的准备

测验材料包括测验题目、答卷纸、记分键、指导书、纸、笔、记时表等。主试最好先模拟一遍测验，看测验材料准备是否齐全。

4.主试自身的准备

主试必须熟悉并能流利地用口语说出指导语；熟悉测试的具体程序；做好应付突发事件及被试提问的心理准备。

（二）施测过程中应注意的事项

施测标准化测验的基本原则是努力减少无关因素对测验结果的影响。为此必须注意以下几点。

1.协调好主试与被试的关系

在施测过程中，如果主试与被试的关系不协调，就有可能出现两种影响测验的情况：一种是使被试对测验产生“阻抗”，不予合作；一种是被试出现“测验性焦虑”，使其测验分数达不到他应有的水平。只有在一个良好协调的关系中，被试才能最好地发挥他对测验的反应。

2.严格按测验规定的步骤与方法施测

在测验时，必须使用统一的指导语，主试读完指导语后，应再次询问被试有无疑问，但回答时应该严格按照指导语，不做额外的解释，以免对被试产生暗示作用。时限的掌握要准确，主试应事先告诉被试测验的具体时限，对于有分测验的测验，主试应根据有关时限的操作语执行。

3.要注意排除各种干扰测验的无关因素

测验中不应让无关人员在场；要妥善处理测验中的偶发事件，如被试突然发病、有人作弊等，并做好记录。

（三）测验后的注意事项

测验结束后要进行记分和解释，将被试的反应数量化并赋予意义。需要注意以下几点。

1.严格按照测验规定的标准记分

主试应当认真阅读标准化测验手册，熟练掌握记分键，特别是主观题的记分要求，不得随意记分。

2.测验结果的解释应谨慎，避免对被试造成不良后果

一个同样的测验得分，可因被试不同的生活环境、文化背景和受试时的精神状态不同，而得出差异很大的解释。有一个心理很脆弱的女孩到某心理门诊咨询，做艾森克人格测验（EPQ）时，精神质因子得分较高，主试就对这个女孩说，她有精神病倾向，结果使这个女孩背上了很大的精神压力，本来精神问题并不严重，经他这么胡乱解释测验结果，病情反而加重了，这与主试对测验结果的解释缺乏科学性、严谨性有密切关系。

3.对测验结果要保密

主试应尊重被试的人格，对测验结果加以保密，未经被试同意，不得告诉他人，除非对个人或社会可能造成危害时，才能告知有关方面。

四、测验在教育领域中的应用

（一）测验在教育工作中的应用

1.甄选、分类、安置

测验的基本功能是测量个体间的差异。在教育工作中，经常要对学生进行甄选、分类、安置。比如，对超常儿童或智力落后儿童的鉴别，选拔参加各种竞赛的学生，对学生按能力编班、分组，以便因材施教，等等。这就需要首先了解学生之间的个别差异，而这仅仅靠教师的经验做出主观直觉判断是不行的，必须通过测验并依据测验才能准确、客观地了解学生，并针对学生的实际情况准确地甄选、合理地分类、恰当地安置。

2.诊断、预测、评价

在教育工作中，可以使用测验来发现学生适应不良的原因和学习困难所在，弄清是由于存在智力缺陷或缺乏某种特殊能力，还是由于没有掌握好某方面的知识，抑或是由于性格不良和存在心理障碍，从而采取必要的帮助和补救措施。单科测验可以诊断学生所犯错误的类型，找出每个学生的弱点，以决定采用什么样的方法弥补，这都是测验的诊断功能。测验还有预测功能，如智力测验、能力倾向测验常用于推测某人在某方面成功的可能性，各种职业测验可以预测某人将来的职业选择、职业稳定性、职业满意度和职业成就。测验还可以用于评价个体的方方面面，例如，测验既可以用于评价个体在智力、人格特征上的差异，也可以用于评价学生的学习状况、教师的教学方法和教学效果；测验还有助于人们的自我评价，使一个人知道自己的优势和不足。

（二）测验在教育科研中的应用

1.搜集资料

搜集资料是教育科研的重要步骤之一。许多科研课题都需要数据资料的支持，而搜集数据资料的一个简便易行又比较可靠的方法是测验法。如教学方法改革、教学模式改革、课程内容改革等，需要借助于测验提供量化的数据资料，才能做出科学的结论。

2.建立和检验假说

教育中的许多理论假设是在对测验数据进行分析整理的基础上提出来的，又往往需要通过测验来比较和检验。例如，智力因素与非智力因素在学习活动中的作用、男女学生思维能力的差异等假设，可以通过测验来比较和检验。如果我们在教育工作中发现某种教育理论与实际不符时，也可以通过测验获得的实证资料去推翻它。

3.实验分组

在教育实验研究中，为了有效地控制实验误差，提高实验效果，常常需要进行等组实验设计。所谓等组，是指各组除实验因子（如研究三种教材的质量或两种教学方法的教学效果）外，所有能影响实验的其他因素，特别是学生的原有水平，必须基本相同或相近。只有等组实验，才能把实验效果的差异归结为是实验因子造成的。

等组实验设计的方法是，把学生的测验分数从高到低排序，其次序为1、2、3、4、5、6…如果分两组，可采用下面的分法。

甲组：1、4、5、8、9、12、13、16、17、20…

乙组：2、3、6、7、10、11、14、15、18、19…

如果分三组，可采用下面的分法。

A组：1、6、7、12、13、18、19、24…

B组：2、5、8、11、14、17、20、23…

C组：3、4、9、10、15、16、21、22…

总之，测验是一种定量化程度很高的测量技术。由于测验编制十分严谨，并且经过标准化和鉴定，因此其结果是准确可靠的。实践证明，测验法较之观察法、访谈法等方法更准确、客观。另外，测验还可以在较短的时间内搜集到大量的量化资料，因此它是一种重要的教育科研方法。但是，测验不是万能的方法，它有着不可忽视的局限性。首先，不同的测验所依据的理论基础不尽相同，所测特质的定义、观点及概念系统也不同，因此同样性质的测验测量的可能是不完全相同的心理特质；其次，测验属于间接测量与取样推论，不可能完全准确；最后，测验过程中的一些无关因素的干扰很难完全排除，会影响到测验结果的稳定性和准确性。也就是说，测验无论在理论上还是方法上都有不完善的地方。因此，要相信测验能为我们提供有价值的资料，但不能完全迷信测验，在利用测验结果做决策时还必须结合其他方面的因素和信息。

【思考与实践】

1.教育测量有哪些基本要素？

2.教育测量有什么特点？

3.测验有哪些分类方式？请举几个例子。

4.为什么说测验的效度比信度更重要？

5.举例说明测验的编制过程。

6.试对某次测验进行质量分析（包括难度、区分度、信度和效度分析）。

7.编制一份某学科测验的双向细目表和一份测验试题分类表。

[1] 郑日昌，蔡永红，周益群.心理测量学.北京：人民教育出版社，1999：5.

[2] 胡中锋.教育测量与评价（第二版）.广州：广东高等教育出版社，2006：3～4.

[3] 胡中锋.教育测量与评价（第二版）.广州：广东高等教育出版社，2006：6.

[4] 郑日昌.心理测验与评估.北京：高等教育出版社，2005：44.

[5] 郑日昌.心理测验与评估.北京：高等教育出版社，2005：45.

[6] 郑日昌，蔡永红，周益群.心理测量学.北京：人民教育出版社，1999：45.

[7] 郑日昌，蔡永红，周益群.心理测量学.北京：人民教育出版社，1999：11.

[8] 朱德全，宋乃庆.教育统计与测评技术.重庆：西南师范大学出版社，2008：109～110.

[9] 朱德全，宋乃庆.教育统计与测评技术.重庆：西南师范大学出版社，2008：110.

[10] 胡中锋.教育测量与评价.广州：广东高等教育出版社，2006：36～37.

[11] 朱德全，宋乃庆.教育统计与测评技术.重庆：西南师范大学出版社，2008：113.

[12] 胡中锋.教育测量与评价.广州：广东高等教育出版社，2006：38～39.

[13] 王汉澜.教育测量学.郑州：河南大学出版社，1987：75.

[14] 王汉澜.教育测量学.郑州：河南大学出版社，1987：76.

[15] 王汉澜.教育测量学.郑州：河南大学出版社，1987：77.

[16] 郑日昌，蔡永红，周益群.心理测量学.北京：人民教育出版社，1999：55.

[17] 郑日昌，蔡永红，周益群.心理测量学.北京：人民教育出版社，1999：55～57.

[18] 胡中锋.教育测量与评价.广州：广东高等教育出版社，2006：44～45.

[19] 郑日昌.心理测验与评估.北京：高等教育出版社，2005：46～50.

[20] 侯怀银.教育研究方法.北京：高等教育出版社，2009：183～190.

[21] 郑日昌，蔡永红，周益群.心理测量学.北京：人民教育出版社，1999：14～26.

[22] 张其志，陈尚生.中小学生发展性心理健康评价模式的构建.载《中小学管理》，2003（11）：36～37.

[23] 张其志.测验偏差：评价测验质量的第三个标准.载《韶关学院学报》，2013（7）：130～134.

第三节 教育测量研究法的实施

第三节教育测量研究法的实施