第一節 職業測評工具的編製
一、測評工具的科學指標
“工欲善其事,必先利其器”,科學有效的測評工具是決定測評效果的關鍵因素。“工具”從廣義上講包括職業測評的各種方法,而心理測驗是最有特色、最符合標準化要求的測量方法。職業心理測評是心理測驗的重要組成部分,是在心理學和管理學的基礎上,用心理測驗、情景模擬等測量手段,對人的職業興趣、能力、人格等因素進行科學的分析,以幫助個體了解自己所屬的心理類型,根據自己的興趣、能力、人格來選擇職業的科學方法。科學的職業測評以特定的理論為基礎,經過設計問卷、抽樣、統計分析、建立常模等程序編製,必須符合以下幾個指標:信度(可靠性)、效度(有效性)、區分度(鑒別性)、常模(可比性)、客觀性和實用性,它們是良好測驗的特征。信度、效度、區分度以及常模都是衡量一個測評工具質量高低的關鍵性測量學指標。職業測評工具的以上技術指標必須達到一定的要求才能保障測評的有效性和科學性。因此,了解相關技術指標的內涵和計算方法對於人才測評具有重大意義(張進輔,曾維希, 2006)。
(一)標準化、客觀化
標準化、客觀化是實施測驗所要達到的基本技術指標。客觀化即在收集測評數據時,要對測試的材料、情境、程序、時間、結果處理等方麵加以係統控製,以保證收集信息的客觀性。標準化即製定統一的測評標準體係,以保證測評結果的公正有效。為達到對測評結果解釋的一致性,還要建立規範嚴格的測評程序,以減少測評的主觀性。
首先,在一個好的測驗中,凡編入測驗的試題,都是從專家和相關人員事先有組織、有計劃、有係統地擬出的大量題目中提取,經過多次廣泛的測試,並嚴格分析,反複篩選,最後才確定下來的。未經測試的試題,不能作為標準化測驗的試題使用。為了保證試題的客觀性,標準化測驗常以客觀性試題為主。但為了考查被試組織概念、言語表達和其他高層次的思維過程,也可采取適量的主觀性試題,但必須講究技術,如對答案內容加以控製,命題力求明確,擬定比較具體的評分細則等。其次,測驗的實施要求極其嚴格,一般備有測驗指導手冊或指南,詳細規定如何向被測者說明測驗目的,怎樣指導被測者按正確的方法回答問題,對測驗實施環境的要求,測驗時間的限製,以及對測驗中可能發生的偶然事件的處理方法,等等,這些規定必須在測驗過程中被嚴格執行,以保證測驗結果的客觀性。最後,計分方法要求標準化。為充分保證評卷時的客觀性,必須按照說明書所規定的計分公式和計分方法進行分數評定,絕不可摻入個人意見。對於主觀性試題,要先確定標準答案的要點,然後將被試的答案與標準答案對照,給出應得分數。
(二)信度
信度是指一個測驗所測結果的穩定性程度,亦稱可靠性。用一個測量工具反複測量某一被測對象的同一種屬性,其多次測量結果之間的一致性程度就叫作信度。一個好的測驗必須具有較高的信度。例如,標準的電子秤是測量重量的一種好的工具,隻要操作方法正確,無論何時或何人去測量同一本書的重量,其結果應該是基本一致的。由此可見,信度是衡量測驗質量的基本指標,因此,編製測驗時首先要鑒定測驗的信度(戴海琦,張峰,陳雪楓, 2005)。
信度是反映測驗成績在不同條件下的一致性程度及測驗受隨機誤差影響的程度。信度較好的測驗,不易受到隨機誤差因素的影響;信度較差的測驗,較容易受隨機誤差因素的影響。估計信度的方法有再測信度、複本信度、分半信度、同質性信度、評分者信度等。信度係數隻能在與同類測驗進行比較的基礎上才能決定其能否被接受。信度係數越接近1.0,表示測驗的信度越高,越接近0表示信度越低。通常,能力測驗和知識測驗的信度在0.90以上,有時達到0.95以上,性格、態度、愛好等人格測驗的信度在0.80以上。根據信度係數,可以對測驗的誤差做出數量化的估計。信度高的測驗,測驗的精確度較高;信度低的測驗,其精確度較低。
(三)效度
所謂效度,就是測驗能夠有效測出它所要測量的東西的程度,亦稱有效性。例如,一個智力測驗,所得結果確實能夠反映一個人的智力高低,那麽,它就是一個效度高的測驗。但如果另一個智力測驗的文字內容晦澀,隻有閱讀能力強的學生才容易得高分,那麽,這個智力測驗就可能變成對被測者語言能力的測量,對於智力的測量來說它就是一個效度低的測驗。在測驗編好後,必須檢驗測驗的效度,效度低的測驗不能投入使用。
效度是相對於一定的測量目的而言的,測驗的目的不同,測驗的效度也不同。當測驗被用於預測的目的時,測驗應具有預測效度。一個高效度的測驗應該具有較好的預測力,即測驗得分應與以後的工作表現具有較高的相關,得分高者,表現也較好,得分低者,表現較差。效度是衡量測驗有效性和實用性的指標,一個好的測驗,應能帶來實際的效用。由此測驗選拔的技術人員,應比隨機選拔的技術人員的一般工作水平要高;由此測驗選拔的領導幹部,應具有更好的工作表現。否則,該測驗就是無效的。與對信度係數的估計相似,可以通過計算測驗成績與效度指標行為之間的相關、進行平均數差異的顯著性檢驗等方法,來對效度係數進行評估。
(四)難度
適當的難度是高信度和高效度的條件之一。選拔領導人才測驗的目的是將不同水平的應試者加以區分,為選拔決策提供依據。如果測驗過難,所有應試者都未得分;或者測驗非常容易,所有應試者都得滿分,這項測驗就失去了區分應試者水平的意義。題目是構成測驗的元素,選擇好的題目是編製好的測驗的前提。對測驗難度的控製,需要通過對題目難度的控製來實現。通常,人們將應試者通過率作為試題難度的指標,通過者越多,試題就相對容易;通過者越少,試題就相對較難。
(五)區分度
區分度是指測驗具有鑒別被測者素質高低、優劣的能力,亦稱鑒別性。區分度是保證測驗效度的重要條件。如果一個測驗使能力高者和能力低者得到一樣或相近的分數,便說明測驗無區分度或區分度極低。區分度高的題目,對應試者的水平具有較高的鑒別力。通常,用題目得分與外在效度標準之間的相關係數,或者測驗總分的相關係數,作為題目區分度的指標。相關係數為1.0時,表示該題目可以完全反映出所要測試的某種屬性特征,能夠準確地預測應試者的有關行為;相關係數為0時,表示該題目與所要測試的屬性無關。提高區分度主要通過控製題目的難度水平來達到。如果題目太難,優生和差生都答不上,題目就無區分度;而題目太容易,差生和優生都能答對,題目也無區分度。隻有難度適當,而且包括各種不同難度的題目,才能將被測者的素質很好地加以區分。
(六)常模化
常模化是指每個測驗都要提供一組測驗分數,以之作為比較的基準,以確保測量結果的質量。常模化主要包括常模樣本、使用範圍、分數轉換法等。常模樣本的構成要具有廣泛代表性,以增加其使用範圍。常模的適用範圍取決於取樣的範圍,若從全國取樣,所得的常模是全國的;若在地區取樣,所得的常模則是地區的,不能隨意使用於其他地區。不同曆史時期,樣本的平均水平會產生變化,常模也將隨之變化,因此,常模應及時修訂。
不同的常模要求有不同的分數轉換法,即為了對測驗結果進行統計分析,需要將原始分數轉化為具有相同單位的間隔量表。標準分數就是最常用的等距量表。
(七)實用性
實用性是指一個測驗適合實際使用的程度。一個測驗所需的時間、人力、費用等,必須為使用者的客觀條件所許可,它才有可能被實施。因此,應選擇那些容易施行,計分方便,編排合理,備有複份,費用便宜,且時間適宜而又可能得到正確和可靠的測驗結果的測驗。
一個好的測驗的上述特征說明,編製測驗是相當複雜、極其困難的一項工作。標準化測驗必須由專門的機構組織專門人員嚴格按照標準化的程序進行編製。為了保證人才測評的科學性和有效性,必須選擇那些很好地具備了以上7個條件的測評工具,同時,在測評實踐中也要有意識地研製符合以上條件並具有針對性的測評工具。