職業心理與測評

二、編製測驗的一般步驟

字體:16+-

測驗的性質不同,編製測驗的具體過程和方法也不相同,但各種測驗編製的基本步驟卻是共通的(張進輔,曾維希, 2006)。一般而言,編製測驗要經過以下幾個步驟。

(一)確定測驗目的

在編製測驗時,首先要根據需要確定測驗的對象、目標和目的,即要明確地知道測誰、測什麽和為什麽測的問題,隻有這樣才能檢驗試題的可靠性和有效性。

1.測驗對象

測驗對象(object),指測量什麽人。隻有了解被測者的年齡、智力水平、知識結構、社會經濟和文化背景等資料,編製測驗才能做到有的放矢。

2.測驗目標

測驗目標(target),指測量什麽。是測學業成績、能力,還是個性?這也是編製測驗首先要考慮的問題。不僅要明確測驗目標,還要盡可能將它具體化,即要考慮測驗應包括哪些具體方麵,以及通過什麽方法和在何種程度上去測量這些具體目標。

3.測驗目的

測驗目的(purpose),指編製的測驗是幹什麽用的。測驗的用途不同,所設計的操作形式、題目形式、題目範圍和難度都會有差異。職業測評的目的是實現人適其職,職得其人;人盡其才,才盡其用,它在研究、谘詢、輔導和組織對員工的職業開發中都占據重要的地位,是不可或缺的工具。具體來說,它的功能包括以下幾個方麵。

預測功能:預測個體在教育訓練、職業訓練以及未來工作中的表現。

診斷功能:評估個體的長處和短處、優勢和劣勢,並診斷個體在興趣、價值觀和職業或生涯決策等方麵的特質。

區別功能:區別出個體的某些特質類似於哪一類的職業群體。

比較功能:依據測量學指標,將個體素質(能力傾向、興趣、價值觀等)與某些效標團體相比較,從而觀察兩者之間的匹配程度。

探測功能:了解個體在職業發展的連續過程中,其職業決策、職業適應性的行為、態度,以及能力方麵的一般狀況,以便提供必要的職業輔導。

評估功能:對職業谘詢或輔導的進展情況和效果進行評估。

職業測評包括許多功能,企業需要它,各種組織需要它,個人也需要它。它能服務於人力資源規劃,為招聘、安置、考核、晉升提供依據,同時也是個人擇業的參考,是職業規劃與開發的基礎。職業測評無疑可以實現組織和個人“雙贏”的目的。

(二)製訂編題計劃

編題計劃是編製測驗的總體構思,它主要有兩個用途。①編題計劃指明了應該編哪些方麵的測驗項目以及編多少個項目,因此,編題結束後,可比照計劃核對測驗項目是否反映了所要測量的領域。②在計分時可按計劃百分比確定每類測驗項目的分數標準。編題計劃要明確的信息主要有兩個:一是全麵而有代表性的測驗內容,不至於使測驗題偏離了應測的範圍;二是對各個內容點的相對重視程度,通常用百分比來標明。

(三)編擬題目

編擬題目是測驗編製中的重要環節。如果題目編擬不好,測量目標便難以達到,測驗計劃也難以落實。編擬題目一般包括以下幾個階段。

1.收集資料

一個測驗是否有效,取決於該測驗是否能夠測得研究者所要測的東西,為此,就需要收集適當的測驗資料和題目。現成的理論從來都是設計測驗題目的最好參考。例如,設計職業興趣測驗,可以按照霍蘭德等人的著名理論構架把職業興趣分為六大類型,來編製相應的題目。專家無疑是設計測驗題目的重要資源,在實際操作上,既可以直接邀請專家設計題目,也可以參考專家的有關經驗、建議或以往的工作。以人格測驗為例,描述人格的術語可作為題目的來源。阿爾波特等人曾總結出17953個描述人的特點的形容詞,這些詞進行歸納後,就可作為編製題目的參考。

盡管不同性質的測驗所依據的資料內容和題目各異,但都必須遵循幾個共同的原則。①資料和題目要豐富。資料收集越齊全,編題工作越順利。例如,編製人格測驗,需要收集描述人格特征的大量詞匯、臨床觀察的資料、已有的人格測驗量表中的測試題等。②資料和題目要有普遍性。這有兩層意思:一是當編製智力類測驗時,所收集的資料對於不同的文化背景、不同的經濟地位、不同地區的個人或團體應當是公平的,應盡可能避免特殊知識經驗對測驗結果的影響;二是當編製人格測驗時,所收集的資料應當能夠全麵反映某一文化背景中的團體的基本人格特征。③資料要有趣味性。資料的趣味性可以減少被測者由於缺乏足夠的動機而引起的測量誤差。

2.編寫和修訂題目

編擬題目常常要經過擬寫、編輯、預試和修改等一係列步驟,而且這些步驟可能不斷重複,直到將初步滿意的題目匯集起來組成一個預備測驗。編寫題目要注意以下幾個問題:①測驗項目的取樣應當對欲測的心理品質具有代表性,隻有測驗項目真實反映測量對象的特征時,才能保證測驗結果的有效性;②測驗項目的取材範圍要同編題計劃所列項目範圍一致;③測驗項目的難度應有一定的分布範圍,如果是能力測驗或學業成就測驗,就應該包括各種不同難度的測驗項目,以鑒別各種不同能力或不同知識水平的人員,如果是人格測驗,就應當選編那些在不同方向的備選答案上都有一定人數分布的項目,以鑒別具有不同人格特征的人員;④編寫測驗項目的用語要力求精練簡短,淺顯明了;⑤初編題目的數量要多於最終所需要的數量,以便篩選或編製複本;⑥測驗項目的說明必須簡明。

(四)題目的試測與分析

初步篩選的題目,必須進行測試,並分析題目的性能,從而為進一步篩選題目提供客觀依據。

1.試測

題目的優劣,不能單憑主觀臆測來決定,必須將初步篩選出的題目組合成一種或幾種預備測驗形式,並試測於一組被試以獲取借以分析題目質量的客觀性資料。在試測過程中應注意以下問題:①試測對象應取自將來正式測驗適用的群體,取樣應注意代表性,人數不必太多也不可過少。②試測的實施過程與情境應力求與將來正式測驗時的情況相似。③試測應有較為充裕的時間,使每個被測者都能將題目做完,以便收集充分的資料使統計分析結果更為可靠。④在試測過程中,應對被試的反應情況進行記錄,如完成試測所花費的時間,題意有哪些不清之處,被試對哪些題目易產生誤解以及其他有關問題。⑤試測時應注意保密,對於一些重大的測驗,可以分散試測,即把一套試題拆散,分到不同地區或混雜到不同試卷中進行;還可以提前幾年試測,使人無法知道何時正式采用。有時在正式試卷中也可安排少量不計分的題目,經過檢驗分析以供將來使用。

2.項目分析

預測完成以後可以對預測的結果進行項目分析。項目分析主要涉及題目的難度、區分度、測驗結構的合理性等。根據分析結果對題目進行選擇、修改,而後選擇較好的題目組成正式測驗。

(五)合成測驗

經過試測和項目分析之後,就可以選出性能優良的題目加以適當的編排,組合成測驗。

1.題目的選擇

選擇測驗項目有三個指標:①測驗的性質,即要選擇那些能夠測量所要測量的內容的項目。假如要測量的是閱讀能力,就不能選擇測量運算能力或語言推理能力的項目。②項目的難度。選擇多大難度的項目並無固定的標準,選拔性測驗要求難度大些,考查性測驗則要求難度不可太高,人格測驗則不要求難度。③項目的區分度。一般來說,項目的區分度越高越好,對於選拔性測驗尤為如此,但有時也可以保留若幹區分度不高的項目,這要視項目的重要性而定。

對題目進行初步選擇可以細分為如下幾個步驟:①檢查題目是否符合細目表中某一單元格內容的要求;②根據細目表對各部分所要求的比例選擇適當數量的測試題,盡量覆蓋整個細目表的內容;③檢查題目是否適合施測的對象和施測的條件;④檢查題目是否適合施測的對象和施測的條件;⑤檢查題目的難度是否恰當,一般來說,難度定為0.5較為合適(能力、技能類的題目除外);⑥檢查所選擇的題目是否彼此獨立,沒有重疊,即回答某一問題所需的知識與能力是否與回答其他問題無關。在選擇題目時還要注意測量工具的長度。一個測量工具究竟包括多少題目較為合適,既要看是否能完全滿足測量目的的要求,也要根據測量工具的時間限製和被測者的年齡、閱讀水平而定。通常應該在正式測試前,根據試測測量工具所需時間,對測量工具長度進行調整。

2.題目的編排

在對測試題初次選擇完畢之後,就應決定如何對選出的題目進行最佳編排。測試題的編排方式因測量工具類型的不同而有所差別,下麵是題目編排的一般原則:①將測量相同因素的測試題排列在一起;②盡可能將同一類型的測試題組合在一起,這樣隻需對每一類型的試題做一次說明,也方便被測者回答,同時還可以簡化計分工作和對題目的統計分析;③難度測驗的題目應按由易到難排列,這樣可以鼓舞被測者的士氣,避免某些被測者一開始就因較多題目回答不出而失去信心,也可以使被測者熟悉反應程序,消除緊張情緒,同時還可避免被測者在難題上耽擱較長時間而影響了後麵的回答;④對於人格測驗,應盡量避免將測量同一特質的題目編排在一起,以免被測者猜測出題目所要測查的因素。

測驗編製者要對測驗進行最佳編排,必須根據測驗目的與性質,考慮被測者的作答心理和反應方式,以及題目格式的類型和難度。測驗一般有三種編排方式:①並列直進式,這種方式是按測驗的性質將題目組成若幹分測驗,同一分測驗中的測題,則依其難度由易到難排列,如韋克斯勒量表;②螺旋式,這種方式是將各類題目按照難度或年齡分成若幹不同層次,再將不同性質的題目予以組合,進行交叉式排列,其難度則逐漸升高,采用這種編排方式,主要是讓被測者不至於在一段時間內隻對同一性質問題作答,保持被測者作答的興趣,如比奈-西蒙智力測驗;③混合式,這種方式是指將所有的題目按照難度排列,而不管題目的性質。一般不將同一性質的題目編排在一起,態度、人格、心理健康等量表多采用此法。

3.編製複本

在很多情況下,為了增加實際的效用,測驗需要編製複本,複本越多,使用起來越方便。各份複本必須等值,等值是指符合下列條件:①測量的是同一種特質;②具有相同的形式;③題目數量相同;④內容範圍相同但具體題目不應重複。隻要有足夠數量的題目,編製複本並不困難。先將所有適用的題目按難度排列,次序為1, 2, 3, 4, 5…如果要分成兩份等值的試卷,可采用下麵的方法:

A本: 1, 4, 5, 8, 9…

B本: 2, 3, 6, 7, 10…

如果要分成三份複本,可采用下麵的方法:

A本: 1, 6, 7, 12, 13…

B本: 2, 5, 8, 11, 14…

C本: 3, 4, 9, 10, 15…

采用上麵的方法可使複本之間在難度上基本平衡,從而獲得大體相同的分數分布。複本編好後,如果有條件應該再試測一次,以決定各部分是否真正等值。

(六)測驗的標準化

一個測驗的好壞,取決於該測驗的標準化水平。標準化是指測驗的編製、施測、評分以及解釋測驗分數的程度的一致性。具體地說,測驗標準化包括下列內容。

1.測驗內容

這是標準化的前提,是對所有被測者實施相同的題目,如果測驗內容不同,所測得的結果就無法比較。

2.施測過程

標準化的第二個條件是所有被試必須在相同的條件下施測,其中包括以下幾個方麵。①相同的測驗情境,如統一的采光條件,統一的桌椅高度,統一的場所布置等。②相同的指導語,指導語一般包括兩部分:一是向被試說明測驗的目的,以便解除被測者的顧慮;二是向被試說明如何對測驗項目進行反應。指導語必須事先擬好,印在測驗項目的前麵,並且力求清晰、簡單、明了,避免引起誤解。③相同的測驗時限,測驗的時間限製是測驗程序中的重要方麵。不過,不同的測驗對時限要求不同。一般來說,人格測驗對時限的要求不太嚴格,甚至不要求時間限製;但能力測驗和學績測驗必須考慮時限問題。確定時限一般采用嚐試法,即通過預測來決定。通常的時限為大約90%的被測者在預定的時間完成全部測驗項目即可。

3.測驗評分

評分的客觀性是標準化測驗的第三個條件,評分的客觀性意味著兩個或兩個以上的評分者對同一份測驗試卷的評定是一致的。隻有當評分是客觀的時候才能將分數的差異歸於被試間的差異。但要做到完全客觀(一致)的評分是較困難的,一般來說,不同評分者之間的一致性達到90%以上,便可認為評分是客觀的。客觀性評分要求:①對反應要及時清楚地記錄,以免由於記憶喪失造成混亂,特別是對口試和操作測驗,此點尤為重要,必要時可以錄音和錄像。②要有一張標準答案或正確反應的表格,即計分鍵。選擇題測驗的計分鍵包括每一測驗項目正確反應的號碼或字母;問答題的計分鍵包括一係列的正確答案和允許變化的範圍;論文題的計分鍵包括一致可接受的答案要點;人格測驗沒有正確答案,計分鍵上指明的是具有或缺少某種人格特征者的典型反應。③將被試的反應和計分表進行比較,對反應進行分類。對於選擇題來說,這個程序是很容易的,但是當評分者的判斷可能是唯一起作用的因素時(如問答題、論文題),就需要對評分規則做詳細的說明,評分時將每一個人的反應和評分說明書上所提供的樣例進行比較,然後按最接近的答案樣例給分。從標準計分這個問題我們也可以看出,測驗分數雖然看似一個確定的值,但是其中可能由於多方麵的原因,如實施、評分以及標準樣本的代表性等,對分數的真實性產生影響,因此,絕不可把測驗分數看成是固定不變的。這一點在解釋分數時應特別注意。

4.測驗分數的解釋

一個標準化的測驗,不僅指測驗內容、施測過程和評分程序的標準化,也指對測驗結果解釋的標準化。如果對同一測驗結果(分數)可做出不同的解釋,那麽測驗便失去了客觀性。測驗編製者為了說明和解釋測驗結果,必須根據測驗的性質、用途以及所要達到的測量量表的水平,按照統計學的原理,把某一標準化樣本的測驗分數轉化為具有一定參照點、等值單位的導出分數。將被測量的事物置於該位置,看它離開參照點多少單位的計數,便得到一個測驗值,這就是製定測驗量表的過程。量表因單位和參照點不同,可分為類別、等級、等距和等比四種不同水平的量表。為了在解釋分數時有所依據,需要製定常模或標準。缺少穩定的參照係,同一個分數就可能做出不同的推論或解釋。對於選拔安置等常模參照測驗,可通過試測,從被測者總體的代表性樣本中獲得一個具有代表性的分數分布作為常模。對於診斷或達標等目標參照測驗,可根據測驗目標要求,製定相應的標準。

(七)對測驗的鑒定

測驗編好後,必須對其質量進行鑒定,為此要收集測量學方麵的資料,對測量的信度和效度的試卷是不能正式使用的,特別是不能用於意義重大的評選或選拔測驗。

(八)編寫測驗說明書

為了使測驗能合理地實施和使用,在正式測驗編寫完成後,還應編製一份測驗說明書(或測驗手冊),對下列問題做出詳盡而明確的說明:①測驗的目的、功用和適用範圍;②編製測驗的理論背景以及選擇題目的根據;③測驗的實施方法、時限及注意事項;④標準答案與評分方法;⑤常模或標準以及分數轉化表;⑥信度、效度資料。測驗說明書是給施測者看的,有時也可為被試編寫一份測驗指南,指出測驗目的、考核範圍、題目形式、數量、作答方式與時限,並附模擬試題。這樣做的目的是使被試心中有數,明確複習方向,緩和緊張焦慮情緒。