在做好了充分的准备工作(数据的搜集和初步处理)之后,陈冬华等便开始着手进行量化分析。他们用的量化分析的办法就是统计学和计量史学中最常用的“回归分析”(regression analysis)。所谓“回归”,就是从统计角度考察某一个变量可以多大程度上被其他一些变量所解释。若被解释的那个变量用y来表示,而关键的那个解释变量用x来表示,那么“回归分析”就是建立一个简单的计量统计学模型:
y=ax+bz+ε。
其中z是表示除了x之外可能会影响被解释变量的其他可观测因素。而ε则表示除了x之外可能会影响被解释变量的其他不可观测因素。这个回归方程背后的假设是,被解释变量y跟关键的解释变量之间呈现出线性的关系。当关键解释变量x变化之后,被解释变量会随着x的变化的a倍做出相应的变化。在这个简单的统计学模型中,我们假设了y可以线性地由x,z,ε表示。或者说这四者之间满足了上面这个式子所描述的线性的关系。而在模型中,我们没有假设的是x和z前面的系数a和b的具体数据。a和b的具体数值需要用统计学或者计量史学的工具通过数据估算出来。
从理论上来说,这样一个具体方程形式的设定就意味着我们人为地假设了一个数据生成的基本过程。但模型没有对过程的具体情况(a和b的数值大小)做出假设。a和b的具体数值大小,需要通过数据和统计学中的工具计算生成。在统计学中,用数据来“复原”回归方程中的系数,最常见的办法叫作“最小二乘法”。在这种方法下,计算出来的系数a和b可以使得我们假设的数据生成的过程离现实世界的真相最接近,简单来说也就是可以最大限度地让我们的回归模型接近现实数据,或者说让回归模型的解释力度在可行范围内达到最大。
回到陈冬华等的具体研究中,他们想解释的“变量”是历史认可的个人道德(这个变量就对应上面回归模型中的y),而核心的被解释变量则是诗歌的造诣(这个变量就对应上面回归模型中的x)。一般而言,回归方程中的被解释变量y和核心的解释变量x并不一定是离散的二元0-1变量,而可以是任意的实数。计量史学和统计学已经发展出一系列重要的工具来分析一般化的线性[13]回归模型[14]。回归模型中的系数a就表示了诗歌是否被《唐诗三百首》收录对个体道德情操的作用。[15]
在运用统计方法处理数据之前,仍然有一点要说明的,就是关于回归方程中的变量z。一般我们把非核心的解释变量称为“控制”变量。在这个具体的例子里面是指,一个人的道德情操可能受各种因素的影响,而诗歌的造诣只是其中一个因素。官员的任期时间、年龄、个人经历等因素都可能会影响到一个人的道德情操。因此我们在看诗歌造诣对道德影响的时候,一定要控制住其他的因素。在排除了其他因素的影响之后,如果发现诗歌造诣仍有影响,那就说明这个影响是真实存在的。这就是为什么在回归分析中研究者需要尽可能地把各种影响因素都控制住。在控制了其他因素之后,若关键的解释变量还能显著地起作用,统计学家通常说在“其他条件相同”(everything else equal)或者不变的前提条件下,关键变量可以显著地影响被解释变量。陈冬华等用的回归模型并不排除其他因素对个人道德的影响。在回归方程中,他们放入了很多“控制变量”,比如是否处于唐朝鼎盛时期、官员的官职大小、取仕年龄、出生地离唐代政治中心的距离等。所列的这些因素都是被控制的变量z。正如陈冬华等所述,除了诗歌造诣之外,上述这些因素都有可能对官员的道德情操产生影响。而当控制了这些控制变量z之后,回归方程的结果能告诉我们,那些在控制变量的维度相同,而只在诗歌造诣这个维度有差异的官员是否在道德情操上有差异。如果发现这些官员得到的道德评价有差异,那唯一能观测到的解释变量就是他们的诗歌造诣。因此,在回归方程中通常需要将一些可观测的其他变量都“控制住”,这样“回归”之后估算出来的关键解释变量对应的系数,就离研究者最想探究的因果关系(causal relationship)更近一步。否则,我们就不能排除是其他某些因素差异导致了被解释变量的差异。
在控制了所有可观测、可度量的因素之后,如果利用统计学方法基于数据估算出来的系数a是正数,这就意味着诗歌造诣对道德情操有正向的影响。而如果估算出来的系数a是负数,这就意味着诗歌造诣对道德情操有负面影响。因此,通过估算系数的正负,我们可以直接量化出诗歌造诣对道德情操高尚的概率所产生的影响。在统计学中,对系数估算的过程除了会告诉我们诗歌造诣对道德情操的影响有多大之外,还会告诉研究者这个计算出来的诗歌造诣对道德高尚概率的影响在多大程度上可以令人相信,或者说估算的误差在什么情况下比较小。在统计学或者计量经济学中,这个对误差的度量被称为估算出来的系数a的显著性。如果估算出来的系数a在一定程度上是“显著”(significant)的,那意味着估算过程中的系统性误差比较小,比较让人信服。而如果系数不“显著”,则意味着虽然诗歌造诣对道德情操有一个正的作用,但是这个作用可能是因为统计上的“误差”导致的。从而,在统计意义上我们分辨不清楚这个作用到底是“正”的还是等于零。从这个角度来看,回归系数的显著性主要是用来度量估计出的非零系数和零系数(即关键的自变量不发挥作用)的情况能不能在统计意义上被“区分开”。如果不能“区分开”,那就意味着从统计意义上回归方程中估算的结果不显著,从而我们没有办法排除诗歌对道德情操其实没有任何作用的论断。
《诗歌、道德与治理——基于唐代科举的量化历史实证研究》中,作者展示了他们统计分析的结果。在作者控制的所有核心变量和非核心变量中(包括诗歌是否被《唐诗三百首》引用、所处时期是否为唐朝的盛世、官员的年龄、官职大小、出生地离政治中心的距离等),唯一一个显著地影响了个人道德情操的就是文学造诣,也就是其诗歌是否被《唐诗三百首》收录。对应的“回归”系数是正的。这说明在文学诗歌上造诣越高的人,越有可能有着更高的道德情操。这样的回归结果和该文中一开始的理论假设是一致的。换言之,这意味着最初的理论假说得到了经验证据的支持。
当然,基于某个特定样本得到的经验证据支持并不表明作者用数据“证明”了他们的理论。严格意义上来说,只是作者找到了可以支持他们理论的经验证据[16]。至于其他的数据或者方法产生的经验证据是否能支持最初的理论,我们不得而知。这样一个基于特定数据、特定的统计方法的经验证据也许并不一定足够令人信服。因此,在社会科学中,学者们通常需要做各种“稳健性检验”(robustness check)。“稳健性检验”是指研究者通过扩展或修正统计回归模型、修改核心变量的度量方法,以及运用不同的数据对基准的统计“回归”结果进行扩展。“稳健性检验”的终极目标是试图在“证伪”理论的过程中提供更多的科学依据和经验证据。有更多的经验证据支持理论就意味着理论中的逻辑更合理、更令人信服。而如果在“稳健性检验”的过程中发现有一些经验证据跟理论的预测不一致,那就说明我们没有足够充分的理由或证据来支持和相信最初的理论。
陈冬华等首先从诗歌造诣的度量维度上进行了一系列的“稳健性检验”。除了用基准模型中的0-1变量,在一个“稳健性检验”中,他们还通过被《唐诗三百首》收录的诗歌的个数来衡量诗歌的造诣。在扩展的统计模型中,他们发现诗歌造诣(这个被重新度量的因素)依然对个人的道德情操有着正向的影响。
此外,除了用是否被《唐诗三百首》收录作为以及收录篇数作为度量诗词造诣的不同办法,陈冬华等还进一步考虑了用其他类似的诗歌选集的收录来评判诗人的诗歌造诣。具体地,他们“进一步选择了《诗品》作为佐证。《诗品》作为我国古代首部诗论专著,由南朝梁钟嵘撰。《隋书·经籍志》:‘《诗评》三卷,钟嵘撰。或曰《诗品》’。所论范围主要是五言诗,共品评两汉至梁代的诗人122人,计上品11人,中品39人,下品72人。在《诗品序》里,谈到对诗的一般看法:‘故诗有三义焉,一曰兴,二曰比,三曰赋。文已尽而意有余,兴也;因物喻志,比也;直书其事,寓言写物,赋也。宏斯三义,酌而用之,干之以风力,润之以丹采,使味之者无极,闻之者动心,是诗之至也。若专用比兴,患在意深,意深则词踬。若但用赋体,患在意浮,意浮则文散,嬉成流移,文无止泊,有芜漫之累矣。’钟嵘品评诗人,往往把词采放在第一位。《诗品》囊括了该时期有记载的诗人,覆盖面广泛。”[17]陈冬华等发现,即使选择是否被《诗品》作为诗歌造诣的度量,在新的度量方法下,诗歌造诣和历史对个人的道德情操的评价依然有着正相关的关系。