編製題目是研製測驗的核心環節,要編製出好的測驗,必須掌握編製題目的方法與技巧(張進輔,曾維希, 2006)。
(一)編製題目的一般原則
對測驗題目進行編寫要遵從內容、語言、表達與理解四個方麵的一些原則,這些原則可以歸納為以下幾個方麵。
1.針對題目內容的原則
要求題目的內容符合測量工具的目的,避免貪多而亂出題目;內容取樣要有代表性,符合測量工具計劃的內容;各個試題必須彼此獨立,不可互相重複或牽連,切忌一個題目的答案影響對另外一個題目的回答。
2.針對題目語言的原則
使用準確的當代語言,不要使用難懂的詞句;文句須簡明扼要,既排除與解題無關的陳述,又不要遺漏解題的必要條件;最好一句話說明一個概念,不要說明兩個或兩個以上的概念;意義必須明確,不得含糊,盡量少使用雙重否定句。
3.針對題目表達的原則
盡量避免主觀性和情緒化的字句;不要傷害被試的感情,避免涉及社會禁忌或個人隱私;避免誘導和暗示答案;避免令被試為難的問題(被試沒有明確結論或羞於啟齒的問題)。
4.針對題目理解的原則
題目應有確切答案,不應具有引起爭議的可能(創造力類測驗除外);題目內容不要超出被測對象的知識和能力範圍;題目的格式不要引起誤解。
(二)各類題目的編製
1.選擇題
選擇題通常包括兩個部分:一部分是題幹,即呈現一個問題的情境,由直接問句或不完全的陳述句構成;另一部分為選項,即對問題的幾種可能的回答,包括正確答案及若幹(一般1~5個)錯誤答案,這些錯誤答案叫作誘答,其主要作用在於迷惑那些無法確定答案的被試。選擇題可以考查記憶分析、鑒別推理、理解和應用知識的能力,也可以考查對某一事物的看法和觀點。選擇題的主要優點包括:①適用範圍廣,從一般知識到複雜能力的測量均可使用;②題意明確,被測者的反應簡單,容易計分;③與其他形式的客觀題相比,更少受猜測和反應定勢的影響,較為客觀;④選擇題的題量可以較大,考查的範圍更廣,取樣代表性較高。選擇題的不足之處在於誘答難以編製,誘答的數量要求多,而且還要似是而非,讓那些不知道正確答案的被試感到無從選擇,這相對來說較為困難。另外,選擇題不易測出個體組織能力、表達能力和創造性等特點。
編製選擇題時應遵循以下幾個原則:①題幹使用簡單而且清晰的用詞,使被試明確題幹的完整意思;②不要將選項夾在題幹中間,或者在題幹前出現與問題無關的材料;③選項要簡練,盡量將選項中共同的詞句(如限定語、條件)移至題幹中,這樣不僅可以使題意清楚,而且可以減少被測者的閱讀時間;④除特殊情況,所有選項的長度應該大致相等,而且與題幹的聯係要緊密,否則,本來正確的答案可能會因為邏輯上或語法上與題幹不一致而被錯誤地排除;⑤避免在題目中出現幫助被試猜測正確答案的線索;⑥對於人格和態度的測量工具,題幹的陳述不應帶任何傾向性,避免被試傾向於選擇社會讚許性高的選項;⑦如果選項是數字、日期、年齡等有邏輯順序的材料,則最好仍按順序排列,否則應隨機排列,另外,所有選項最好形式相同,如同為時間、人名、地點等,長度、難度應大致相同;⑧答案在選項中的位置應當隨機出現,沒有任何規律。
2.是非題
是非題容易受被測者反應定勢和猜測的影響,測驗分數的可靠性不如選擇題。反應定勢是指部分被測者在回答問題時,其答案的選擇建立在題目的形式或位置上(如偏向正麵回答或否定回答),而不是建立在題目內容的基礎之上。另外,是非題僅有兩種答案,即使猜測,也有50%答對的可能性,如果還有其他額外的線索,猜對的可能性還會更高。彌補這一缺陷的方法之一是加大題目數,使每一題目分數的偶然性對總分的影響相對減小。當然,是非題也有其長處,它能很快書寫和閱讀,因此題量可以較大,便於廣泛取樣,計分也比較客觀。在能力測驗中,是非題多用於隻需快速粗略判斷被測者能力的情況;在人格測驗中,是非題多用於隻需判斷一般行為的問卷中。
編寫是非題時要注意以下幾點:①測查的內容應以有意義的事實、概念或原理為主;②每道題隻能包括一個重要的概念,避免兩個以上的概念出現在同一題目中,造成“半對半錯”或“似是而非”的情況,還要把各個概念放在題幹的重要位置上;③除特殊情況,盡量避免否定的敘述,尤其是要避免雙重否定的敘述,因為采用否定的敘述容易使人困惑,否定詞也容易被一些粗心的被試所忽略;④測驗中正確題目與錯誤題目的長度、複雜性應盡量一致;⑤正確的題目數與錯誤的題目數應該基本相等,兩種題目應按隨機方式排列。
3.匹配題
匹配題可以說是選擇題的一種變式。匹配題幹一般包括多個反應項(匹配項)和多個刺激項(被匹配項),用反應項來匹配刺激項。匹配題有完全匹配(刺激項與反應項的數量相等)和不完全匹配(反應項目多於刺激項目)兩種形式。通常,刺激項目和反應項目分別排成兩列。匹配題容易編製,而且可以在短時間內測量大量相關聯的材料,覆蓋麵較廣,但它一般隻能測量簡單記憶的事實材料或概念關係,並且要求編製的選項必須是同質的。
下麵是對編製匹配題的一些建議:①刺激項目和反應項目應該分成兩列,通常反應項安排在右邊。②配對數目不可過多或過少,最好使用不完全匹配,使反應項數目多於刺激項數目,並且最好不限製每個反應項被選擇的次數,這樣可以降低猜測的概率。一般可以列舉6~15個項目,其中反應項應比刺激項多2~3項。③匹配題的反應項與刺激項的性質必列。④應該對匹配方法、匹配的依據加以明確規定和說明,同時說明反應項可以被選擇的次數。⑤同一組的反應項與刺激項最好印在同一頁紙上。⑥反應項與刺激項應以不同形式的序號加以標識,反應項前冠以數字,刺激項前則冠以英文字母或甲、乙、丙、丁等以免混淆。
4.填空題
填空題是由回答者對刪去關鍵詞、字的句子進行補充填答的開放式題目。前麵的選擇題、是非題、匹配題均屬於封閉式題目,就記憶的測量而言,封閉式題目屬於“再認性”測量,而開放式題目屬於“回憶性”測量。回憶性測量的難度大於再認性測量。填空題應用範圍較廣,其優點是猜測因素比封閉式題目少,特別適合測量記憶性學習材料。但它不及封閉式題目客觀,無法用計算機閱卷。
編製填空題應注意:①填空題隻能有唯一的正確答案,而且可以用一個詞、詞組或短語作答,否則,不適宜采用填空題;②刪去的詞句必須是有重要意義的,除了語文測驗中特殊需要的以外,不宜省略連詞、介詞、冠詞等;③最好不用指定參考資料中的原句,以免助長被測者死記硬背的不良習慣;④填空題的空格不宜過多,以免破壞題意的完整性。
5.問答題
問答題的主要優點在於它能夠測量被測者組織材料的能力、綜合能力和文字表達能力,有的甚至可以測量評價能力和創造能力,而這些能力是其他客觀題難以測量的。相對來說,問答題有以下優勢:①較好編製,題目無須太多;②不需準備備選答案,答案是由被試自己生成的;③可以避免被試隨機猜測答案。但是,問答題的劣勢也很突出。首先,問答題一般回答時間長,分值大,因此題量不宜太多,所以能測量到的內容也有限,對行為的取樣受到局限。由於取樣代表性差,可能使被測者偶爾對某個論題碰巧很熟,得到“虛假的高分”,而另外一些被試碰巧不熟,而得低分。因此問答題容易造成成績的偶然性,使測量結果的信度受到影響。其次,問答題的評分標準不容易標準化。相對來說,評分者在掌握評分方法時可能有一定的主觀性,而且不同評分者的評分結果很難保持高度一致。已有研究發現,不同評分者對同一答案的評分一致性相關係數僅為0.62~ 0.72。同一評分者對兩份等值的答案的評分信度更低,僅為0.42~0.43。即使同一評分者在隔一段時間後再評價同樣的測驗,也會前後評分不一致。最後,問答題的評分容易受書寫的整潔程度、個人成見等無關因素的影響。這可能是評分者的非客觀性的主要來源之一。一方麵,卷麵形象可能使評分者形成印象分,影響最終評價;另一方麵,問答題的閱卷比較費時,對評分者的耐心和仔細程度也是個挑戰。
一般來說,在可以用客觀題施測的情況下,盡量不要采用問答題形式。如果需要采用問答題施測,題目編寫者應該使問題及評分標準盡可能客觀。在編製時應注意以下幾點:①問題應清楚而且明確,使被試了解答題要求;②題目的數量不要太多;③在編製題目時應該有一個理想答案或一係列答題標準,一些可接受的答案應有所規定和說明。
6.操作性測試題
在很多情況下,操作的方法和過程是重要的測量目標,而這是紙筆測驗無法測量的,這時可以采用操作性測量形式。操作性測試題要求被測者對未來真實情景中的行為進行模擬,其真實性要高於紙筆測驗。操作性測試題通常分為注重過程和注重結果兩種形式。考查儀器操作、演講、演奏樂器和其他各種技能,就需要采用注重過程的形式,這些內容需要在工作過程中進行評鑒。有些活動則要在活動結束後考查結果,如文章、圖畫等。當然,也有的需要同時考查過程和結果。操作性測試有多種不同的分類方法,按測試情境的真實性程度可以分為:①紙筆的操作性測試,雖用紙筆但偏重於模擬情境下知識的應用,如編製、編寫某項操作計劃、步驟、注意事項等;②模擬操作測試,強調正確的程序,被測者需要在模擬情境下完成與真實活動相同的動作,如駕駛員的考核等;③工作樣本操作測試,其真實性最高,包括真實作業的全部要素,但是在有控製的條件下去完成的,如司機在專用場地內的考核、師範學生的教學實習等。
設計操作性測試題的主要原則有:①明確所要測量的目標,並將其操作化,即要進行工作分析得出操作中最重要的因素,找出具有代表性的工作樣本;②要建立作業標準,規定通過此項作業的最低標準,如操作的準確性(誤差多少)、速度(時限多少)、步驟的正確性或某些主觀品質(如熟練程度和優秀水平)等,都應該標準化;③選擇合適的真實性程度,通常情況下真實性程度越高,模擬的代價越大,應根據所考核目標的不同,選擇不同真實程度的測試方法,以便在最節約的前提下獲得最多的信息;④指示語簡單明確,讓被試知道要幹什麽和在什麽條件下去做;⑤有明確的計分方法,操作項目的計分要有不同形式,差別要大。有些項目根據完成題目的數量和錯誤次數客觀計分就可以了;有些項目的評分則較為困難,這種項目可以采用“作品量表”來計分。“作品量表”一般包括一係列按順序排列的不同作業程度、水平、質量的標準樣本,評定時參照這些標準樣本對被測者的結果進行評分;如果被考核的操作活動可以分為多個方麵或幾個步驟,則可以按每個方麵或步驟完成的情況分別給分,最後統計總分。
7.麵試題
麵試是目前在企業及各類組織中最流行的考查手段,但麵試的考核缺乏心理測量學的嚴格性,易受考官個人偏見的影響。不僅如此,由於麵試既要看被測者對問題回答的質量,還要看整個麵試過程中的行為表現,如情緒緊張度、應變能力等,更加大了麵試計分的難度。因此,麵試效果的好壞往往取決於麵試考官,所以,麵試考官必須對麵試主題有充分的了解,對於所要求的反應有清晰的認識。另外,用於描述或評定被測者反應的詞語,必須具體化,避免含糊不清的陳述。