六、“数字人文”中的相关性与因果关系

字体:16 +-

值得说明的是，和其他很多社会科学中的定量研究类似，陈冬华等采用了统计学和计量经济学中常用的“回归”方程的方法来建立并解释不同变量之间的关系。正如前文所说，回归模型在大部分情况下预测的结果是相关性的关系而不是因果关系。计量经济学和统计学中发展出一系列的定量方法对标准的回归模型进行修正和扩展，以期得到更强的类似于因果关系的结论。在量化社会科学中，最常见的一种修正被称为“工具变量”的方法。在普通的线性回归模型中，当核心的那个自变量和其他的一些不可观测的变量有相关性的时候，回归结果中的系数就不是因果关系。这在量化社会科学的研究中通常被称为“内生性”问题。

一旦存在“内生性”问题的可能性，研究者对回归系数的解释就需要非常谨慎。在大部分情况下，可能并不一定存在研究者在最初假设中提出的因果关系，或者有些时候甚至还可能存在反向因果的关系。一旦反向因果关系出现，那就意味着最初的假设被证伪了。具体到陈冬华等的研究中提到的问题，“内生性”的问题就是说，个体的诗歌造诣可能和其他的能潜在影响个人道德品质的随机因素关联在一起，而这些因素我们又没法度量。这时诗歌造诣可能会通过影响其他因素来影响个人的道德品质。从而，这个影响是间接的，并非我们最初假设中提到的更直接的机制。量化社会科学中通常使用的“工具变量”方法[19]，可以在一定程度上解决这个问题，帮助研究者更清楚地看到核心的那个解释变量如何直接影响被解释的那个因素。

这一看似神奇的“工具变量”，在实际的研究操作中并不一定很实用。很多时候很难科学地验证一个“工具变量”是否可靠。同时，在很多研究中，找到一个性质比较好的“工具变量”也是可遇而不可求的。而且，即使存在一个好的工具变量，计量分析的结果也不能完全被解释成因果关系。因此，和统计方法在社会科学中的应用类似，学者们在数字人文的研究中阐释定量数据分析的结果时一定要谨慎。切不可武断地将相关关系解释成因果关系。

从定量方法上，为了更清楚地研究是否有因果关系，研究者也可以采用更为直接的“因果推断”（causal inference）的统计学模型，对数据进行考量。“因果推断”是统计学家发明的一套工具。它可以直接基于数据检验出两个变量之间是否有因果关系以及影响的效果有多大。“因果推断”方法的核心想法其实很简单。回到陈冬华等的研究中。在一个完美的情况下，如果能找到两个“几乎差不多”的诗人，他们在所有的方面几乎都差不多，而其中一个人可能会比另一个人的诗歌写作水平高一些。此时如果发现他们在史书中受到的道德情操方面的评价有所差异，那我们就有充足的理由相信这个差异来源于他们的诗歌造诣。当然，这里说的是一个比较完美的情况。在现实当中，研究者很难找到两个几乎完全一样的个体。从可操作性的角度来说，一个可行的办法就是最大限度地找到一些水平、经历相似的诗人，可能由于一些偶然的因素，一些人的诗被收录在《唐诗三百首》，而另一些人的诗没有被收录。如果能挑选出两组这样的人，我们直接比较这两组人在道德情操上是否有区别就可以了。被收录的那组人在统计学中通常叫作“对照组”，而没有被收录的那组人在统计学中被称为“控制组”。这两组之间在被解释变量上的差异（比如他们的道德情操水平上的差异）就是我们要计算的“因果关系”。“因果推断”的方法本质上就是用科学的方法构造出这两组观测值，然后进行统计上的比较。统计学中发展和衍生出的一系列的方法，可以帮助研究者挑选这两个几乎相似的组别，具体的方法包括：回归断点设计（regression discontinuity design）、匹配（matching）等[20]。这些方法的核心想法就在于挑选和“控制组”几乎相同的“对照组”。由于篇幅受限，本章不具体展示如何运用这些定量方法提供更精细、更科学的经验证据的细节。不过，我相信，这些方法如果被更多的文学研究的学者了解和接受，以后一定可以在文学研究的相关领域中发挥独特的功效。