重回天人之际:反思新时期古代文论研究方式的转换

三、数据的搜集和关键指标的度量

字体:16+-

在具体检验他们的假说之前,学者们还需要对假说中的关键“变量”进行合理的度量。陈冬华等的具体假说(hypothesis)是:诗歌造诣能否反映个人的道德情操。这个命题中有两个关键的指标,一个是个人的诗歌造诣,而另一个则是个人的道德情操水平。为了能够从史书中获得相关的数据,研究者们将目光放在了唐朝。作者们选择用唐朝史书的数据进行检验,主要是出于数据可得性和变量度量的考虑。“诗歌创作在唐代达到了鼎盛,在史料中保留了丰富的关于诗人行为、道德以及诗歌创作的记录”。“之所以择唐而弃宋,原因有三个。一是因为唐代更加注重诗作,诗人灿若辰星,而宋代显然更加重视词作,当然,词也是诗的一种形式,但是词的意境也是自苏轼之后才渐至开阔,并且词始终没有作为科举考试的内容。二是宋代经靖康之耻,分为南北两宋,使得研究的环境因素变得更加复杂。三是因为宋代在王安石主政时,在科举中取消了诗赋考试。”[11]

在数据搜集和度量的过程中,作者们首先解决了如何度量诗歌造诣的问题。个体在诗歌造诣方面的度量可能有很多种办法。陈冬华等首先选取了一个具体的比较客观的方法。作者们将入选《唐诗三百首》作为诗歌造诣的最高层次。这意味着,在他们的样本中如果一个人的诗歌入选了《唐诗三百首》,他的造诣就被定义为1,否则就定义为0。“《唐诗三百首》由蘅塘退士孙洙选编于清乾隆二十八年(1763年),是近250年来流传最广、影响很大的一部唐诗选本。诗选收录诗人77名、唐诗313首,诗选中所收录的诗被认为在文学上具有极高的艺术价值。”[12]

从这样的度量方法中可以看出,即使是“量化”的方法,也存在很多不可避免的主观因素。诗歌造诣是一个很难准确度量的因素,有些很出彩的诗歌并不一定会被《唐诗三百首》引用,而被《唐诗三百首》引用的也未必就一定比没有引用的要好。正如其他“数字人文”的研究中遇到的问题一样,在运用量化方法的时候,研究者没有办法百分百客观地剔除掉所有主观的因素。而研究者可以最大限度剔除掉的就是通常所谓的“系统性”误差。具体来说,在陈冬华等的研究中,他们用《唐诗三百首》的是否收录来度量诗人的诗歌造诣,是基于下面这么一个基本的原理:从统计意义上来说,被收录进《唐诗三百首》中的诗歌相比于其他的诗歌更受欢迎。在这里,我们强调的关键词是“统计意义上”。我们都知道,如果任意挑《唐诗三百首》中的一首诗,它未必就一定比没有入选的诗要写得更好。但是,我们不妨做一个思想实验。如果我们有一个机器,能够随机地多次从《唐诗三百首》和其他非《唐诗三百首》的诗中各挑选出一首诗进行对比,然后让学者们对这两首诗进行评判打分。即使一次打分有可能是非《唐诗三百首》诗歌的胜出,如果这样的“随机抽样”重复很多次之后,我们就有理由相信,《唐诗三百首》中挑出来的诗的分值会更高。或者说平均而言,《唐诗三百首》中挑出来的诗更容易受到好评。因此,“统计意义上”的比较就是指“平均而言”的比较。和现代科学以及现代社会科学中的原理一样,在进行文学相关的量化研究时,特别是在度量一些关键变量的时候,我们不可避免地会出现一些个体的误差。只要这些误差不是“系统性”的,从统计学的角度来看,最后的量化结果就是可信的,至少是统计意义上正确的。

除了构造诗歌造诣的度量之外,还需要构造个人道德品德的度量。对诗人道德品德的衡量。可能是这个研究中的另一个难点。道德品德这个概念本身就是一个由社会其他人主观评价的维度,很难有任何一个单一的客观指标来衡量。为了解决这个“变量”的度量问题,陈冬华等采用了一个间接的度量,也就是看史书中如何评价这些人的品行。作者们从四本重要的史书《新唐书》《唐登科记》《唐才子传》和《旧唐书》中获取他们的个人品德信息。这个工作的第一步就是要获取四本书的电子化文本。凡是书中出现了关于这个人较为正面的评价,如忠诚、仁义、功德、信礼、清廉、正直等,则认为这个人的品德高尚,道德品质的度量为1。书中出现的有关忠诚的词包括忠君、忠唐、忠烈、直谏、坚贞等;书中出现的有关仁义的词包括仁恕、弘易、薄赋、恩泽、赈灾、抚恤、请命等;书中出现的有关功德的词包括颂德、吏干、惠政、声望、举贤等;书中出现的有关信礼的词包括谦恭、端敏等;书中出现的有关清廉的词包括廉洁、节操、清严等;书中出现的有关正直的词包括敢言、嫉恶、严法等。凡是书中出现了关于这个人较为负面的评价,如奸佞、贪腐、谗陷、曲附、忿狷等,则认为这个人的品德低下,道德品质的度量为0。书中出现的有关奸佞的词包括不臣、谋逆、酷吏、污诬、巧佞、怙威、肆行、龌龊等;书中出现的有关贪腐的词包括贪势、嗜利、贿赂、鬻官、纳赃、奢侈等;书中出现的有关谗陷的词包括诞谲、假谲、谗媚、诡诈、阴狡、阿谀、邪媚、谄事、讽刺等;书中出现的有关曲附的词包括权幸、请托等;书中出现的有关忿狷的词包括仇隙、嗜杀、杀降、刚愎、桀黠、残忍、戾毒等。跟前文中所提的方法相同,这些词的选取也不是任何一个计算机程序能够自动计算出来的,而需要一定程度上依赖于人工的阅读和判断。如果没有一定的人文和历史知识的积累,是不可能确定下这些关键词,从而度量出历史对诗人道德品质的评价的。这再一次印证了本章关于大数据方法在文学研究中应用的一个观点:大数据的方法和经典的文学知识相辅相成,只有合理地综合运用才能使两种方法在研究中互补并发挥出应有的功效。

因为陈冬华等的核心假说的立足点是社会文化和社会治理,所以他们更关心的是国家通过诗歌造诣选拔出来的官员的道德。诗歌被《唐诗三百首》收录的人中大部分都是进士出生,且在朝廷任过官。因此,为了检验核心的假说,他们将样本中的并非官员的诗人剔除出样本。在一系列合理的样本剔除之后,他们最终的样本包含了《唐诗三百首》中的35位诗人,以及《新唐书》中133位进士和427位非进士官员。