“数字人文”(也称“数位人文”,或“数码人文”)的研究随着数据科学的出现和繁荣应运而生。“数字人文”是一个将现代统计学、数据科学、计算机等技术应用于人文学科研究的跨学科研究领域。在过去的10年当中,新的数据搜集、处理和展示的方法不断出现,对人文学科的发展起到了极大的推动作用。大数据的方法对社会科学领域,如政治学、社会学、经济学的影响要早于人文学科。而大数据(搜集、处理和展示)的方法对人文学科,尤其是中国文学和文艺学研究的影响,也是最近一两年才出现的。所谓大数据并不一定是指数据的规模大,若数据的搜集和分析的过程需要比较复杂的计算机算法,也可以称为大数据的方法。
一般而言,运用大数据进行的人文社会科学的研究有以下五大特征:“(1)超大规模数据。大数据力图分析全数据,通常指TB级别以上的数据量。(2)数据类型多样化。大数据蕴含了文本、图片、视频、音频、邮件、交易信息、社交网络信息等结构化、非结构化数据。(3)数据流动速度快。大数据善于管理和分析动态变化的数据流。(4)大数据蕴含了丰富的时空信息。(5)大数据是贫矿,价值密度低。”[1]
“数字人文”是伴随着大数据方法的出现而诞生的新兴交叉学科,主要是将要处理的人文相关信息进行数字化处理,转化成数据科学较易操作的电子文本信息,如格式化数据、图像、自由文本等,从而对这些电子化的数据进行计量分析(包括文本分析与检索、地图可视化等)。随着数据科学的不断进步,“数字人文”的边界也在不断拓宽,其方法也在不断变化和发展。借助计算机语言或者算法,当研究者知道自己所研究的项目具体需要从哪些文本搜集数据的时候,“数字人文”的工具箱可以较快地给我们提供高效的搜集数据的方法。当然,“数字人文”的研究不只是将文献电子化,并以简单的书库集的形式给部分学者公开使用。广义的“数字人文”包含了那些搜集、处理和展示人文研究相关的数据的方法和工具。比如,当给定一个初始的电子文本的时候,如果研究者能设定好要进行哪些数据处理,在大数据分析方法的基础上,“数字人文”可以帮助我们高效的进行数据处理,从科学的角度帮助我们对重要的人文领域的重要问题做出一些定量或者定性的分析。在文学研究中应用文本分析,通常会用到的一类技术被称为“自然语言处理”。“自然语言处理”是一种基于计算机编码处理语言语义的技术方法。随着计算机领域的蓬勃发展,数据挖掘的技术也日趋成熟,可以直接应用到文本分类、自动文摘等和文学研究相关的领域。“由于文本存在着复杂的语义,从事自然语言处理的研究人员往往需要收集海量的语料库,以支撑文本的分析。”[2]
狭义地来看,“大数据”在文学研究中的积极作用是最近几年才开始逐步显现出来的。但如果我们广义地定义“大数据”在文学研究中的功能,那么,当我们使用互联网(如知网-cnki、谷歌学术-scholar-google、Jstor数据库)等新兴电子工具帮助我们搜索文学类文献的时候,这就已经是“大数据”的方法在文学研究中起重要作用了。在文献检索中用到的方法就是计算机科学领域里“机器学习”中的“数据挖掘”(data mining)的方法。[3]文学研究的学者们在无形之中就潜移默化地运用了“大数据”的直接成果,来推进文学研究的前沿。互联网搜索工具对于文学研究的功能和作用,和现在更复杂的大数据方法的应用,事实上没有本质的区别。它们都是不同学科相互融合的结果。此外,这一章尤其想强调的是,所谓“大数据”的方法本身,并不只是在于“数据”本身的新颖程度,而更重要的是有创新的搜集数据、分析解读数据以及展示数据结果的方法。也就是说,“大数据”不只是关于数据,更重要的是在于发展和应用创新的方法和工具。
与其说建议人文学者使用“大数据”,还不如说建议从事人文学科研究的学者掌握和发展出一系列和人文学科自身发展相匹配的“大数据的方法”。这样的理解方式,对于“数字人文”的发展尤其重要。“数字人文”并不是说人文学科的研究被动地被其他领域“入侵”,而应该是人文学科自身的创新。掌握和运用“大数据”的方法并不是要摈弃传统的分析范式。恰恰相反,合理地将“大数据”的方法与经典的文学研究思路相结合,可以极大地促进研究效率,促进人文学科尤其是文学研究的发展。
在“数字人文”发展的大潮中,欧美的很多名校都陆续建立了数字人文的研究中心或者研究项目,如斯坦福大学,加州洛杉矶大学、纽约大学、伦敦国王学院、马里兰大学、伊利诺伊大学等。而中国大陆高校的第一个数字人文学科研究中心是2011年在武汉大学建立的。南京大学也建立了类似的机构,叫作“数字人文与超媒体GIS工作室”。这个机构除了开发和利用电子文本信息之外,还充分利用历史地理信息来进行人文学科的研究。在人文领域,很多学者的相关研究项目都得到了国家级的和重要研究机构的资助。下面就重点阐释一下“数字人文”作为一门交叉学科的由来和这个学科“本土化”的重要意义。
人文学科和数字技术的结合,不仅意味着学科的相互促进和交叉发展,对我国的人文学科而言也意味着数字人文的本土化。事实上,我国学者对于广义的“数字人文”做出的贡献要早于最近的一波大数据热潮。早在1976年,我国学者就开始利用文本分析处理的计算机方法统计著名作家老舍的著作《骆驼祥子》中相关的字频和词频。文本分析的方法起源于西方国家,而中文信息处理需要对现代和古代汉语的特点和人文意涵进行分析和系统的解读。因此如何将基于西方语言和语境的这套分析工具应用和发展到汉语文字(尤其包括古汉语)的文本分析中,就成了中国的人文学者们面临的机遇和挑战。事实上,为了用统计学的方法分析现代汉语,自1979年以来,我国就自行研发了多种机器可读的语料库。
随着数字技术和信息科技的高速发展,“数字人文”领域的研究越来越冲击着传统的学科边界。只有有机地整合人文学科(包括文学、文艺学)、计算机、统计学、地理信息学等学科的重要成果,才能为人文学科的研究提供全新的方法和思路。新方法的出现和融合在改变人文学科的研究范式的同时,改善了人文学科学者搜集和处理数据的能力,也拓宽了学科的边界,使得人文学科尤其是古代人文研究进入一个全面还原语境的发展时期。事实上,关于大数据在文学领域研究中起着什么样的作用,一直是学术界激烈争论的话题。一方面,如弗朗科·莫瑞狄(Franco Moretti)、马修·威尔肯斯(Matthew Wilkens)等学者主张的那样,大数据的方法可以帮助我们从海量的电子化的文本资料中归纳出一些在特定时期内文学发展的重要特征。[4]而另一方面,如塔拉·麦克弗森(Tara McPherson)和亚历山大·加洛韦(Alexander Galloway)等学者也对文学研究的过于“技术化”和复杂化给出批判。[5]他们认为大数据的方法可能会忽略文本中的很多重要的、“机器”难以察觉的细节,而这些细节可能正是理解文学作品意境的关键。
本章认为上述两种不同的思潮其实并不矛盾,而且很多时候是互补的、相互促进的。因为“数字人文”这个学科在中国的发展需要“本土化”,需要和中国文学已有的积淀相结合,故这个新兴交叉学科的出现并不意味着是对我国人文学科的冲击,而是一种促进。如果没有传统的人文学科的知识积累和分析范式作为基础,“数字人文”也不可能发挥重要作用。随着大数据方法在人文学科中的应用,人文学者们(包括文学领域的学者们)在一定程度上可以从传统的搜集和整理资料的纷繁复杂的过程中解脱出来,专注于更高层次的思考。一方面,这说明了大数据方法提高了研究者的搜集和处理数据的效率,另一方面,这也意味着新方法的出现并不是对文学研究中经典方法的负面冲击,而是起到了锦上添花的促进作用。
如果文本的数据量不大的时候,人工的直接参与可能会比计算机更有效。比如在运用大数据文本分析五四时代有哪些文学特征时,如果文本量不大,让人工阅读后进行归纳的办法可能反而更好。这是因为计算机再发达也很难达到人脑的运算复杂度。只有当需要处理的文本比较多的时候,大数据的分析方法才可能作为代替人工来进行文本分析的更有效的方法。很多情况下我们需要采用“机器学习”(machine learning)尤其是“监督学习”(supervised learning)的方法对一些文本进行分析。[6]而在这个时候如果没有初始的人工的“指导”,计算机无法自动学会用人类已有的思维方式和知识(包括如何识别语境)来进行文本的分析和解读。文学研究本身具有“人性”的艺术特质,这就意味着文学研究的过程具有某种特殊的复杂性以及一定程度的主观性。这些特性使得文学研究者们一直相信,理解和解读文学作品的重要甚至是唯一的渠道就是人类本身对它的反复研读和感知。只有反复研读才能感知其背后深层次的意境。如此精密的过程,可能很多智能机器或者算法、软件,脱离了人的“指导”是无法实现的。因此,我们使用大数据的方法包括机器学习的方法来进行文学研究、分析文学文本时,依然要依赖人类本身的知识和智慧,更要依赖经典的人文学科的已有方法和思考范式。因此,“数字人文”作为一门新兴交叉学科,是对传统学科的补充和促进,而不是冲击和颠覆。
正是基于上述的大背景,我国“数字人文”领域最近几年开始蓬勃发展。在“数字人文”研究中除了具体数据的分析和处理的方法之外,对人文学者的另一大挑战就是数据的获取和开放。比如,中国古代典籍的电子化材料的开放程度远远未达满足研究需求的水平。虽然有些古代文学的书籍作品已经电子化,很多电子材料都被放在了商业化运作的平台上,但由于数据没有免费开放,学者很难便捷地获取相关资源。很多高校和研究机构建立了相关的资源平台,比如上海市图书馆就开放了相关的数据平台,其他的相关学术机构都可以以关联数据的方式调用平台上的数据。该图书馆还通过各种渠道拓宽和发展了资源共享的渠道(包括开发出很多新的计算机和手机应用,公开了其馆藏的家谱文献信息,发挥了数据资源的最大价值。)此外,国内的大学或是以图书馆为主导机构所进行的研究上的创新改革,主要是以建立一系列的联合研究项目来实现的,或通过不同机构的合作来促进研究。比如北京大学中国古代史研究中心与哈佛大学费正清研究中心,以及台湾“中研院”史语所就合作开发了“中国历代人物传记资料库”(The China Biographical Detabase,CBDB)。这是一个合作超过10年以上的数据库建设项目。该资料库收录了我国历史上所有的重要传记资料,并将其电子化。这个数据库最初是20世纪70年代由哈佛大学教授郝若贝(Robert M.Hartwell)和他的夫人建立的。该数据库把电子化人物的生平记录作为重点,含有个人的字号、亲属关系、出生年份等重要信息;其数据是公开的,供研究使用。直到2016年,该数据库中共收录从7世纪到19世纪的超过37万人的传记资料。相关学科的研究者(文学、历史学、政治学、社会学、经济学等)可以直接在线查看相关资料,也可以批量下载后使用。这样的一个数据库不仅包含了历史上各种文学作品的具体信息,还可以帮助文学领域的学者查找出不同文学作品、作者之间的相互关联,比如谁在他的作品中提到了其他哪些作者。除此之外还有具体的时间、空间等具体信息。“中国历代人物传记资料库”实现了文本的编码化,通过对不同文本进行编码,该数据库在技术上避开汉字,特别是古汉语中的多样化表达,展现出比较完整的史料信息,形成了所谓的“关系型”数据库。如果没有强强合作,很难想象这么大工作量的数据建设的工作能够由某一家学术机构独立完成。从学者个体来说,在没有寻求合作伙伴的前提下,利用相关图书馆的资源可能是最便捷的一种方法。一些高校的图书馆会支持历史地理信息系统(GIS)的建设。很多高校的图书馆也有现成的服务器或者数据库。这就省去了很多数据搜集(也就是将纸板数据电子化的过程)的时间。
随着“数字人文”在国内的不断发展,国内和“数字人文”相关的学术交流活动也越来越多(如北大图书馆在2016年5月举办的“数字人文论坛”),但我国很多相关领域的学者还是感觉到学习并运用大数据和“数字人文”的方法进行文学尤其是古代文学文化相关研究有较大难度。这个难度大致体现在数据的获取(搜集)、处理与分析,以及数据的展示三个方面。以最后一个难度为例,如果数据搜集与分析已经完成,要以一些直观的方式将文学作品的作者之间的相互关系以图表的形式展现,或者将不同地区出现的文学作品的不同特征用GIS的方法形成一张新的电子地图,这些具体而重要的工作可能都是人文学者在涉及“数字人文”的时候遇到的技术上的困难。这些挑战从技术层面来看都是可以克服的。下文会具体提及运用大数据进行文学研究中的搜集数据、处理分析数据和展示数据的方法。