重回天人之際:反思新時期古代文論研究方式的轉換

六、“數字人文”中的相關性與因果關係

字體:16+-

值得說明的是,和其他很多社會科學中的定量研究類似,陳冬華等采用了統計學和計量經濟學中常用的“回歸”方程的方法來建立並解釋不同變量之間的關係。正如前文所說,回歸模型在大部分情況下預測的結果是相關性的關係而不是因果關係。計量經濟學和統計學中發展出一係列的定量方法對標準的回歸模型進行修正和擴展,以期得到更強的類似於因果關係的結論。在量化社會科學中,最常見的一種修正被稱為“工具變量”的方法。在普通的線性回歸模型中,當核心的那個自變量和其他的一些不可觀測的變量有相關性的時候,回歸結果中的係數就不是因果關係。這在量化社會科學的研究中通常被稱為“內生性”問題。

一旦存在“內生性”問題的可能性,研究者對回歸係數的解釋就需要非常謹慎。在大部分情況下,可能並不一定存在研究者在最初假設中提出的因果關係,或者有些時候甚至還可能存在反向因果的關係。一旦反向因果關係出現,那就意味著最初的假設被證偽了。具體到陳冬華等的研究中提到的問題,“內生性”的問題就是說,個體的詩歌造詣可能和其他的能潛在影響個人道德品質的隨機因素關聯在一起,而這些因素我們又沒法度量。這時詩歌造詣可能會通過影響其他因素來影響個人的道德品質。從而,這個影響是間接的,並非我們最初假設中提到的更直接的機製。量化社會科學中通常使用的“工具變量”方法[19],可以在一定程度上解決這個問題,幫助研究者更清楚地看到核心的那個解釋變量如何直接影響被解釋的那個因素。

這一看似神奇的“工具變量”,在實際的研究操作中並不一定很實用。很多時候很難科學地驗證一個“工具變量”是否可靠。同時,在很多研究中,找到一個性質比較好的“工具變量”也是可遇而不可求的。而且,即使存在一個好的工具變量,計量分析的結果也不能完全被解釋成因果關係。因此,和統計方法在社會科學中的應用類似,學者們在數字人文的研究中闡釋定量數據分析的結果時一定要謹慎。切不可武斷地將相關關係解釋成因果關係。