重回天人之際:反思新時期古代文論研究方式的轉換

六、“數字人文”中的相關性與因果關係

字體:16+-

值得說明的是,和其他很多社會科學中的定量研究類似,陳冬華等采用了統計學和計量經濟學中常用的“回歸”方程的方法來建立並解釋不同變量之間的關係。正如前文所說,回歸模型在大部分情況下預測的結果是相關性的關係而不是因果關係。計量經濟學和統計學中發展出一係列的定量方法對標準的回歸模型進行修正和擴展,以期得到更強的類似於因果關係的結論。在量化社會科學中,最常見的一種修正被稱為“工具變量”的方法。在普通的線性回歸模型中,當核心的那個自變量和其他的一些不可觀測的變量有相關性的時候,回歸結果中的係數就不是因果關係。這在量化社會科學的研究中通常被稱為“內生性”問題。

一旦存在“內生性”問題的可能性,研究者對回歸係數的解釋就需要非常謹慎。在大部分情況下,可能並不一定存在研究者在最初假設中提出的因果關係,或者有些時候甚至還可能存在反向因果的關係。一旦反向因果關係出現,那就意味著最初的假設被證偽了。具體到陳冬華等的研究中提到的問題,“內生性”的問題就是說,個體的詩歌造詣可能和其他的能潛在影響個人道德品質的隨機因素關聯在一起,而這些因素我們又沒法度量。這時詩歌造詣可能會通過影響其他因素來影響個人的道德品質。從而,這個影響是間接的,並非我們最初假設中提到的更直接的機製。量化社會科學中通常使用的“工具變量”方法[19],可以在一定程度上解決這個問題,幫助研究者更清楚地看到核心的那個解釋變量如何直接影響被解釋的那個因素。

這一看似神奇的“工具變量”,在實際的研究操作中並不一定很實用。很多時候很難科學地驗證一個“工具變量”是否可靠。同時,在很多研究中,找到一個性質比較好的“工具變量”也是可遇而不可求的。而且,即使存在一個好的工具變量,計量分析的結果也不能完全被解釋成因果關係。因此,和統計方法在社會科學中的應用類似,學者們在數字人文的研究中闡釋定量數據分析的結果時一定要謹慎。切不可武斷地將相關關係解釋成因果關係。

從定量方法上,為了更清楚地研究是否有因果關係,研究者也可以采用更為直接的“因果推斷”(causal inference)的統計學模型,對數據進行考量。“因果推斷”是統計學家發明的一套工具。它可以直接基於數據檢驗出兩個變量之間是否有因果關係以及影響的效果有多大。“因果推斷”方法的核心想法其實很簡單。回到陳冬華等的研究中。在一個完美的情況下,如果能找到兩個“幾乎差不多”的詩人,他們在所有的方麵幾乎都差不多,而其中一個人可能會比另一個人的詩歌寫作水平高一些。此時如果發現他們在史書中受到的道德情操方麵的評價有所差異,那我們就有充足的理由相信這個差異來源於他們的詩歌造詣。當然,這裏說的是一個比較完美的情況。在現實當中,研究者很難找到兩個幾乎完全一樣的個體。從可操作性的角度來說,一個可行的辦法就是最大限度地找到一些水平、經曆相似的詩人,可能由於一些偶然的因素,一些人的詩被收錄在《唐詩三百首》,而另一些人的詩沒有被收錄。如果能挑選出兩組這樣的人,我們直接比較這兩組人在道德情操上是否有區別就可以了。被收錄的那組人在統計學中通常叫作“對照組”,而沒有被收錄的那組人在統計學中被稱為“控製組”。這兩組之間在被解釋變量上的差異(比如他們的道德情操水平上的差異)就是我們要計算的“因果關係”。“因果推斷”的方法本質上就是用科學的方法構造出這兩組觀測值,然後進行統計上的比較。統計學中發展和衍生出的一係列的方法,可以幫助研究者挑選這兩個幾乎相似的組別,具體的方法包括:回歸斷點設計(regression discontinuity design)、匹配(matching)等[20]。這些方法的核心想法就在於挑選和“控製組”幾乎相同的“對照組”。由於篇幅受限,本章不具體展示如何運用這些定量方法提供更精細、更科學的經驗證據的細節。不過,我相信,這些方法如果被更多的文學研究的學者了解和接受,以後一定可以在文學研究的相關領域中發揮獨特的功效。