在社会科学中,对文献文本进行研究已经有很长的历史。然而,由于技术上的各种难点,文本研究至今仍然没有成为社会科学的主流分析范式。随着计算机科学领域中“数据挖掘”方法的出现,文本分析的方法在技术上越来越成熟,其在人文领域的应用潜力也随之增加。在计算机科学研究中,“数据挖掘”被认为是一种知识发现的过程:从数据中抽取模式,然后通过解释和评价转换成最终用户可理解的知识。“数据挖掘”的方法通常是基于大量的、模糊的、随机的数据集,并从中识别有效的、新颖的、潜在有用的以及最终可被相关研究者理解的模式的过程。从本质上看,基于文本分析的大数据方法和传统的人文社会科学中定性的文本分析并没有什么差异。在基于史料的定性研究中,创新点通常在于能看到其他学者不能清楚看到的现象或者问题。基于文本分析的大数据方法通过定量的途径,从一个新的视角看到了一些新的东西,然而也会损失或者忽略掉一些在定性分析中能感受到的问题。因此,文本分析相比于传统的史料阅读分析并不见得有绝对的优势,两种方法各有所长。“机器自动识别有很多不准确的地方,但仍然在很多方面给学者提供了研究便利。自动文本分析不能取代学者的阅读和思考。没有一个最完美的自动识别方法。对自动文本分析结果的效度分析非常重要。”[21]在文本分析的过程中,无论研究者们采用计算机编码还是人工编码的方式,都可能会产生所谓的“效度”问题。也就是说,不同的人可能对同一段文字有着完全不同的理解。在编码和分类中的误差是不可避免的,无论研究者采用有监督的、半监督的,还是无监督的计算机编码,都依赖于参考样本。
在“数字人文”的研究中,文本分析是常用的探索文本和史料特征的定量方法。尤其在文学研究和应用当中,文本分析可以帮助文学研究者从大量的文学作品中找出重要的特征,比如说不同作者的写作风格、不同学派的学术渊源和联系,等等。在计算机科学和统计学领域发展出较为成熟的大数据方法之前,学者们对文本的分析主要采用“人工编码”的方式,也就是通过人工阅读,然后对相应的文本、文字或者段落做出主观的判断和度量。这样的方法在样本量比较小的时候反而比电脑的度量更准确到位。而当样本量不断变大的时候,人工对文本的处理就显得比较低效。此时,若将这个复杂的任务交由计算机去处理,“自动文本分析”的方法就能相对比较有效地进行文本分析。格里默认为“文本分析的核心工作是分类。分类有三种方法:字典法(dictionary methods),根据关键词的出现次数来确定文本;有监督学习法(supervised learning methods),先由人工构建编码练习库,然后让机器根据人工编码模式进行自动编码,最后将机器编码与人工编码相比较检验其效度;无监督学习法(unsupervised learning methods),不需要人工事先编码,而是基于模型假设和文本性质来分类并自动将文本分配到各类别。第三种方法比较便捷,但容易混淆重点,可以通过两项技术进行改进:一是通过混合成员模型(mixed membership models),将具体问题结构纳入分析以辅助分类;二是通过计算机辅助分类(computer assisted clustering)来探索众多潜在分类方法。”[22]
文本分析的“数据挖掘”技术可以广泛地应用在结构化的和非结构化的文本数据中。下面我们先以结构化的文本分析为例,具体阐述自动文本分析在文学研究中的潜在应用。所谓结构化的文本分析,主要是指已经能够被计算机识别的(也就是已经被电子化的文学作品),或者是可以直接被计算机识别的文学作品。刘京臣指出,“‘结构化文本的数据分析’包含这样三个概念。其一,‘结构化文本’主要是指诗、词等体式较为固定的文体,在利用技术手段处理时,因其体式上的便利,易于寻觅到声调、用韵、格律、小序等方面的结构特征,故而对这类文体较易实现技术干预。其二,‘结构化文本’还指排除掉文字识别、大字符集、分词、断句等因素干扰,完全满足用户需求的、已进行过标注与分类的数据。同时,还要尽可能多地加载满足分析所需要的第三方文献库——文献库主要由两大类组成,一类是诸如人名、职官、地名、系年、典故等具有词典性质的基础文献库;另外一类是已经数字化的历代研究者的研究专著,便于分析时与文本相参。”[23]除了结构化的文本数据之外,文本分析和“数据挖掘”的方法在非结构化的文本数据上的应用效果更为突出。用“数据挖掘”的办法对文本进行分析可以帮助研究者从大量的文献,尤其是非结构化的文本数据中发现重要的规律和趋势。
当然,“数据挖掘”的方法再好,也无法完全替代人文学者的思考。人文学的研究,尤其是和文论相关的研究都要求学者有深厚的知识积累与独立的判断力。基本的思考范式和理论是研究中最基础的元素。正如前文中提到的,基本的分析框架和理论可以很好地指导“数字人文”的研究,给“数字人文”的研究指明清晰的方向和路径,避免很多时候大海捞针。毫无直接目标的“数据挖掘”不仅会浪费掉研究者宝贵的时间,还不一定能达到预想的效果。从数据分析的后续工作来看,前文中也提到,如果没有文学的思考和文学理论的观点,数据分析的结果只是一些枯燥的数据,而不能给文学的研究任何新的启发。这些都说明了“数据挖掘”其实不能代替研究者自身的素养在文学研究中起到的关键性作用。不过,我们也应该意识到基于“数据挖掘”的文本分析方法在文学研究中能其到独特的作用。
结构化的文本分析可以帮助我们回答文学,尤其是中国古代文学研究中很多重要的问题。正如陈仅在《竹林答问》认为“作古诗声调,须坚守杜、韩、苏三家法律”。刘京臣就提到了“蒋寅先生以《韩愈七古的声调分析》(《第三届中国唐代文化学术研讨会论文集》,台湾政治大学中文系1997年)为例进行详尽研究,指出清人所论,虽看似出自主观论断,然用实证之法相验却大抵不谬。”[24]这是一种人工的分析范式。若想给这个论断提供更科学的定量证据,就可以用大数据文本分析的办法量化出后人的文风从关键词、声调、韵律等多大程度上分别跟“杜、韩、苏三家”相似。
结构化的文本“数据挖掘”还可以帮助研究者发现文本中容易被忽视的一些细节,总结出其中的文字规律。比如,刘京臣的研究中就介绍了下面这句诗,来说明结构化文本分析的应用潜力:“河阳飞鸟外,雪岭大荒西。(郎士元《送杨中丞和番》)卷经归鸟外,转雪过山椒。(无可《送僧归中条》)夕阳鸟外落,新月树端生。(梅尧臣《中秋新霁,壕水初满,自城东隅泛舟回》)新月已生飞鸟外,落霞更在夕阳西。(张耒《和周廉彦》)。”[25]刘京臣认为这四段诗词确实有相通或者类似的语言特征,“但却难像钱锺书先生一样见解深邃,钱先生称朗士元与无可句:‘都是想象地方的遥远,不是描写眼前的景物;梅、张的写法正像岑参《宿东溪王屋李隐者》‘天坛飞鸟过’,杜甫《船下夔州别王十二判官》‘柔橹轻鸥外’,姚鹄《送友人出塞》‘入河残日雕西尽’,以至文徵明《题子畏所画黄茆小景》‘遥天一线鸥飞剩’等,把一件小事物作为一件大事物的坐标,一反通常以大者为主而小者为宾的说法。’”[26]通过深层次、高技术的机器学习和文本分析,研究者们可以尝试定量地提炼出这些语段的语言特征和细微的差别。
文本分析除了自身的功能之外,在“数字人文”的研究中还通常和其他的工具一起使用。比如,我们关心文学、文论的发展对时代文化、社会风俗的跨时间跨区域的影响。要给出这个问题的答案,研究者不仅需要使用文本分析的工具,还需要同时使用地理信息系统(GIS)的工具。地理信息系统(GIS)不仅能提供给定时间段内不同因素的地理定位信息,还能提供更为翔实的跨时间的数据信息。这样跨时间、跨空间的社会信息和相应的对文论进行文本分析的数据相结合,就有可能帮助我们回答文学的发展对不同时间、不同区域的社会文化的影响。对一个时代文学和文论的发展对其社会影响的理解,依赖于我们对这个时代文学特征的区域分布特征和时间特征的理解,通过海量的“数据挖掘”与地理信息系统的结合使用,研究者的视角便可以跳出传统人文研究的范围,走向与社会科学的有机融合。
刘京臣就介绍了一个文本分析和地理信息系统相结合的方法在宋代文学与社会交互研究中的应用。“宋代与辽、西夏、黑汗、西州回鹘、黄头回纥、吐蕃诸部、大理以及蒙古、金、西辽等多个政权并存过,民族交往融合也带来了文学交流,甚至是文学风尚的转变——苏学北上便是典型案例。利用数据挖掘,可以将当时的所有区域纳入考察范围,对于研究多民族的文学、文化、交融,具有重要的作用与意义。既可以设定某个具体地域,也可以检索某片区域,给定地点之后,再与时间相参,系统便可将某区域某时段内的所有事件、参与人物、事件的前因后果等生成表格或图表,并在数字地图上相应呈现。例如我们可以以宋代晁氏家族为例,该家族派分三支,历两宋绵延而下。利用数据挖掘便可以实现对家族所有人物的生平、仕宦、贬谪、升迁、交游等情况进行详尽考察。同时,家族东、中、西三眷的迁徙,也可在数字地图上直观呈现。
“基于这个意义上的数据挖掘,一是拓宽了视野,许多隐含信息被挖掘、抽取出来;二是许多原来靠人力很难关联起来的信息之间有了关联,从而能建构起强大、丰富、可感的人物社交网络体系。我们面对的研究对象,已经不再是单独的个体,而是以之为中心的群体。不同的群体之间又有交集,从一定程度上讲,我们甚至能将文献中出现的每一位宋人定位在某个特定的关系网中。这只有依赖数据挖掘才可能实现。”[27]