在做好了充分的準備工作(數據的搜集和初步處理)之後,陳冬華等便開始著手進行量化分析。他們用的量化分析的辦法就是統計學和計量史學中最常用的“回歸分析”(regression analysis)。所謂“回歸”,就是從統計角度考察某一個變量可以多大程度上被其他一些變量所解釋。若被解釋的那個變量用y來表示,而關鍵的那個解釋變量用x來表示,那麽“回歸分析”就是建立一個簡單的計量統計學模型:
y=ax+bz+ε。
其中z是表示除了x之外可能會影響被解釋變量的其他可觀測因素。而ε則表示除了x之外可能會影響被解釋變量的其他不可觀測因素。這個回歸方程背後的假設是,被解釋變量y跟關鍵的解釋變量之間呈現出線性的關係。當關鍵解釋變量x變化之後,被解釋變量會隨著x的變化的a倍做出相應的變化。在這個簡單的統計學模型中,我們假設了y可以線性地由x,z,ε表示。或者說這四者之間滿足了上麵這個式子所描述的線性的關係。而在模型中,我們沒有假設的是x和z前麵的係數a和b的具體數據。a和b的具體數值需要用統計學或者計量史學的工具通過數據估算出來。
從理論上來說,這樣一個具體方程形式的設定就意味著我們人為地假設了一個數據生成的基本過程。但模型沒有對過程的具體情況(a和b的數值大小)做出假設。a和b的具體數值大小,需要通過數據和統計學中的工具計算生成。在統計學中,用數據來“複原”回歸方程中的係數,最常見的辦法叫作“最小二乘法”。在這種方法下,計算出來的係數a和b可以使得我們假設的數據生成的過程離現實世界的真相最接近,簡單來說也就是可以最大限度地讓我們的回歸模型接近現實數據,或者說讓回歸模型的解釋力度在可行範圍內達到最大。
回到陳冬華等的具體研究中,他們想解釋的“變量”是曆史認可的個人道德(這個變量就對應上麵回歸模型中的y),而核心的被解釋變量則是詩歌的造詣(這個變量就對應上麵回歸模型中的x)。一般而言,回歸方程中的被解釋變量y和核心的解釋變量x並不一定是離散的二元0-1變量,而可以是任意的實數。計量史學和統計學已經發展出一係列重要的工具來分析一般化的線性[13]回歸模型[14]。回歸模型中的係數a就表示了詩歌是否被《唐詩三百首》收錄對個體道德情操的作用。[15]
在運用統計方法處理數據之前,仍然有一點要說明的,就是關於回歸方程中的變量z。一般我們把非核心的解釋變量稱為“控製”變量。在這個具體的例子裏麵是指,一個人的道德情操可能受各種因素的影響,而詩歌的造詣隻是其中一個因素。官員的任期時間、年齡、個人經曆等因素都可能會影響到一個人的道德情操。因此我們在看詩歌造詣對道德影響的時候,一定要控製住其他的因素。在排除了其他因素的影響之後,如果發現詩歌造詣仍有影響,那就說明這個影響是真實存在的。這就是為什麽在回歸分析中研究者需要盡可能地把各種影響因素都控製住。在控製了其他因素之後,若關鍵的解釋變量還能顯著地起作用,統計學家通常說在“其他條件相同”(everything else equal)或者不變的前提條件下,關鍵變量可以顯著地影響被解釋變量。陳冬華等用的回歸模型並不排除其他因素對個人道德的影響。在回歸方程中,他們放入了很多“控製變量”,比如是否處於唐朝鼎盛時期、官員的官職大小、取仕年齡、出生地離唐代政治中心的距離等。所列的這些因素都是被控製的變量z。正如陳冬華等所述,除了詩歌造詣之外,上述這些因素都有可能對官員的道德情操產生影響。而當控製了這些控製變量z之後,回歸方程的結果能告訴我們,那些在控製變量的維度相同,而隻在詩歌造詣這個維度有差異的官員是否在道德情操上有差異。如果發現這些官員得到的道德評價有差異,那唯一能觀測到的解釋變量就是他們的詩歌造詣。因此,在回歸方程中通常需要將一些可觀測的其他變量都“控製住”,這樣“回歸”之後估算出來的關鍵解釋變量對應的係數,就離研究者最想探究的因果關係(causal relationship)更近一步。否則,我們就不能排除是其他某些因素差異導致了被解釋變量的差異。
在控製了所有可觀測、可度量的因素之後,如果利用統計學方法基於數據估算出來的係數a是正數,這就意味著詩歌造詣對道德情操有正向的影響。而如果估算出來的係數a是負數,這就意味著詩歌造詣對道德情操有負麵影響。因此,通過估算係數的正負,我們可以直接量化出詩歌造詣對道德情操高尚的概率所產生的影響。在統計學中,對係數估算的過程除了會告訴我們詩歌造詣對道德情操的影響有多大之外,還會告訴研究者這個計算出來的詩歌造詣對道德高尚概率的影響在多大程度上可以令人相信,或者說估算的誤差在什麽情況下比較小。在統計學或者計量經濟學中,這個對誤差的度量被稱為估算出來的係數a的顯著性。如果估算出來的係數a在一定程度上是“顯著”(significant)的,那意味著估算過程中的係統性誤差比較小,比較讓人信服。而如果係數不“顯著”,則意味著雖然詩歌造詣對道德情操有一個正的作用,但是這個作用可能是因為統計上的“誤差”導致的。從而,在統計意義上我們分辨不清楚這個作用到底是“正”的還是等於零。從這個角度來看,回歸係數的顯著性主要是用來度量估計出的非零係數和零係數(即關鍵的自變量不發揮作用)的情況能不能在統計意義上被“區分開”。如果不能“區分開”,那就意味著從統計意義上回歸方程中估算的結果不顯著,從而我們沒有辦法排除詩歌對道德情操其實沒有任何作用的論斷。
《詩歌、道德與治理——基於唐代科舉的量化曆史實證研究》中,作者展示了他們統計分析的結果。在作者控製的所有核心變量和非核心變量中(包括詩歌是否被《唐詩三百首》引用、所處時期是否為唐朝的盛世、官員的年齡、官職大小、出生地離政治中心的距離等),唯一一個顯著地影響了個人道德情操的就是文學造詣,也就是其詩歌是否被《唐詩三百首》收錄。對應的“回歸”係數是正的。這說明在文學詩歌上造詣越高的人,越有可能有著更高的道德情操。這樣的回歸結果和該文中一開始的理論假設是一致的。換言之,這意味著最初的理論假說得到了經驗證據的支持。
當然,基於某個特定樣本得到的經驗證據支持並不表明作者用數據“證明”了他們的理論。嚴格意義上來說,隻是作者找到了可以支持他們理論的經驗證據[16]。至於其他的數據或者方法產生的經驗證據是否能支持最初的理論,我們不得而知。這樣一個基於特定數據、特定的統計方法的經驗證據也許並不一定足夠令人信服。因此,在社會科學中,學者們通常需要做各種“穩健性檢驗”(robustness check)。“穩健性檢驗”是指研究者通過擴展或修正統計回歸模型、修改核心變量的度量方法,以及運用不同的數據對基準的統計“回歸”結果進行擴展。“穩健性檢驗”的終極目標是試圖在“證偽”理論的過程中提供更多的科學依據和經驗證據。有更多的經驗證據支持理論就意味著理論中的邏輯更合理、更令人信服。而如果在“穩健性檢驗”的過程中發現有一些經驗證據跟理論的預測不一致,那就說明我們沒有足夠充分的理由或證據來支持和相信最初的理論。
陳冬華等首先從詩歌造詣的度量維度上進行了一係列的“穩健性檢驗”。除了用基準模型中的0-1變量,在一個“穩健性檢驗”中,他們還通過被《唐詩三百首》收錄的詩歌的個數來衡量詩歌的造詣。在擴展的統計模型中,他們發現詩歌造詣(這個被重新度量的因素)依然對個人的道德情操有著正向的影響。
此外,除了用是否被《唐詩三百首》收錄作為以及收錄篇數作為度量詩詞造詣的不同辦法,陳冬華等還進一步考慮了用其他類似的詩歌選集的收錄來評判詩人的詩歌造詣。具體地,他們“進一步選擇了《詩品》作為佐證。《詩品》作為我國古代首部詩論專著,由南朝梁鍾嶸撰。《隋書·經籍誌》:‘《詩評》三卷,鍾嶸撰。或曰《詩品》’。所論範圍主要是五言詩,共品評兩漢至梁代的詩人122人,計上品11人,中品39人,下品72人。在《詩品序》裏,談到對詩的一般看法:‘故詩有三義焉,一曰興,二曰比,三曰賦。文已盡而意有餘,興也;因物喻誌,比也;直書其事,寓言寫物,賦也。宏斯三義,酌而用之,幹之以風力,潤之以丹采,使味之者無極,聞之者動心,是詩之至也。若專用比興,患在意深,意深則詞躓。若但用賦體,患在意浮,意浮則文散,嬉成流移,文無止泊,有蕪漫之累矣。’鍾嶸品評詩人,往往把詞采放在第一位。《詩品》囊括了該時期有記載的詩人,覆蓋麵廣泛。”[17]陳冬華等發現,即使選擇是否被《詩品》作為詩歌造詣的度量,在新的度量方法下,詩歌造詣和曆史對個人的道德情操的評價依然有著正相關的關係。