重回天人之際:反思新時期古代文論研究方式的轉換

四、數據的量化分析

字體:16+-

在做好了充分的準備工作(數據的搜集和初步處理)之後,陳冬華等便開始著手進行量化分析。他們用的量化分析的辦法就是統計學和計量史學中最常用的“回歸分析”(regression analysis)。所謂“回歸”,就是從統計角度考察某一個變量可以多大程度上被其他一些變量所解釋。若被解釋的那個變量用y來表示,而關鍵的那個解釋變量用x來表示,那麽“回歸分析”就是建立一個簡單的計量統計學模型:

y=ax+bz+ε。

其中z是表示除了x之外可能會影響被解釋變量的其他可觀測因素。而ε則表示除了x之外可能會影響被解釋變量的其他不可觀測因素。這個回歸方程背後的假設是,被解釋變量y跟關鍵的解釋變量之間呈現出線性的關係。當關鍵解釋變量x變化之後,被解釋變量會隨著x的變化的a倍做出相應的變化。在這個簡單的統計學模型中,我們假設了y可以線性地由x,z,ε表示。或者說這四者之間滿足了上麵這個式子所描述的線性的關係。而在模型中,我們沒有假設的是x和z前麵的係數a和b的具體數據。a和b的具體數值需要用統計學或者計量史學的工具通過數據估算出來。

從理論上來說,這樣一個具體方程形式的設定就意味著我們人為地假設了一個數據生成的基本過程。但模型沒有對過程的具體情況(a和b的數值大小)做出假設。a和b的具體數值大小,需要通過數據和統計學中的工具計算生成。在統計學中,用數據來“複原”回歸方程中的係數,最常見的辦法叫作“最小二乘法”。在這種方法下,計算出來的係數a和b可以使得我們假設的數據生成的過程離現實世界的真相最接近,簡單來說也就是可以最大限度地讓我們的回歸模型接近現實數據,或者說讓回歸模型的解釋力度在可行範圍內達到最大。