上文中介绍的文本分析的方法主要用于搜集和分析数据,而社会网络分析的工具主要是运用在对关系型数据的分析中。对研究者而言,除了搜集、分析数据之外,另外一件很重要的工作就是用通俗易懂的方法将研究成果展示给读者。除了需要给读者展示研究成果之外,如果使用了恰当的方法将数据进行可视化的处理,还便于研究者自己对原始数据有一个感性化的认识,从而更容易发现新的现象和规律。因此,数据的可视化是大数据的工具包中很重要的一个元素。广义来说,数据可视化的方法就是用一些便于人们接受的简单“信号”来展示和提炼数据中关键信息的办法。这里的“信号”可以是一些具体的数字,也可以是颜色、长短、面积大小等。
无论是人文学科还是社会科学,使用数据可视化的方法是新的发展趋势之一。尤其是在数字人文相关的研究中,数据可视化方法可以帮助优化数据结构的展示,使得相关的信息更加直观。恰当地使用数据可视化方法,可以使得数据和研究展示更加直观,更容易让受众接受,不仅帮助了读者,有时也能帮助研究者本身加深对现象的理解,提供更多元化的视角。“此外,大数据可视化分析与传统统计分析的区别在于它的动态性,其数据容量、内容及更先进的处理方法都使得动态可视化分析成为可能。目前不少软件可用于可视化分析,海杜普(Hadoop)即是一个比较成熟的可视化软件,能够对大量数据进行即时处理,淘宝、百度等大型商业网站就利用海杜普来完成每天数以亿计的访问量数据存储、查询统计以及用户行为分析等。美国环境系统研究所(Environmental Systems Research Institute,ESRI)在开源网站基哈伯(Git Hub)上共享了‘海杜普地理信息系统工具’(GIS Tools for Hadoop),用户可以利用其对上亿条空间数据记录进行过滤和聚合操作,在报告中嵌入大数据地图进行发布。”[30]
数据可视化的方法和其他大数据的方法密不可分。以“词频分析”为例,它是大数据文本挖掘中很重要的一种研究方法,同时它也是一种文本可视化的模式。在对我国古代文学作品的研究中,重要的一个元素是词汇。而对古代文学作品中词汇特征的理解和分析主要是通过词频进行的。词频分析就很大程度上取决于古代汉语中如何分词。“古代汉语的词汇有一个长期的从单音节词向双音词及多音节词演化的过程。古代汉语在词汇和语法等诸多方面与现代汉语不同,尽管现代中文信息处理技术已经在很多领域取得了快速发展,然而这些研究成果主要针对现代汉语,现代汉语已有的分词研究成果并不能完全照搬到古代汉语分词领域中。”[31]
除了词频分析之外,地理信息系统的分析工具也处在大数据空间分析与数据可视化方法的交叉地带。以文学发展以及文论特征对社会文化发展的影响为例。如果通过结合文本分析和统计回归分析的方法发现文学的特征对社会文化发展的影响随着区域的不同而有差异,那就可以通过可视化的方法,把这个结论在电子地图上展示出来。可以用不同的颜色来区分不同地区的不同的作用大小。除此之外,越来越多的新的地理信息的数据的不断出现,也为基于空间分析的文学研究提供了新的研究契机。
事实上,文本分析、数据可视化、社会网络分析、回归分析和因果分析等方法和工具在社会科学,尤其是政治学、社会学、计量史学中已经应用得越来越广泛,而在人文学科,尤其是文学研究中的应用才刚刚起步,还有很大的发展空间和应用潜力。对于大部分文学研究者来说,运用这些跨学科方法的瓶颈更多地停留在技术层面。本书并不是介绍大数据方法的专业书籍。由于篇幅有限,本章不能很详尽地介绍很多技术细节。本章围绕书中的核心议题,展开介绍了能够回答这个理论问题的新的视角:“数字人文”。“数字人文”是一个利用现代统计学、数据科学、计算机等技术进行人文学科研究的跨学科方向。通过一个对文学和社会互动关系研究的具体案例,本章展示了广义的大数据方法在人文学科尤其是文学研究中的应用前景和潜力。广义的大数据方法在文学研究中具体包括了数据搜集、处理和展示这三个方面。具体研究案例的介绍也给了我们关于“数字人文”研究一般性的启发。首先,在研究中需要将一般性的文学理论和本土化的具体问题相结合。其次,要注意到“数字人文”是跨学科的,需要多学科的合作。同时,“数字人文”的研究以文学理论为基础,辅以数据分析的方法加强研究的科学性和提供更严格的证据,不可本末倒置。此外,还值得注意的是,“数字人文”的研究更有利于直接回答“实证性”的问题,但同时也对“规范性”的问题有间接的启发。
希望通过这一章的介绍展示出回答本书核心问题以及其他相关文学问题的新的工具和视角。正如本章反复强调的,未来“数字人文”的研究,不仅仅需要人文领域的学者积极地参与,更需要跨学科的交流与合作。若是一个计算机科学家、统计学家或社会科学家对一个与文学或文论相关的问题感兴趣,他可能需要更多地向文学研究的学者学习相关的理论体系,或者通过寻求合作的办法进行研究。同时,文学研究的学者们也可以适当地主动接触和了解一些新的方法和工具,或是在掌握了新方法之后,通过跨学科的合作,创造性地进行“数字人文”相关的研究,推动文学和人文研究的发展。也正是在这个过程中,如前所述的文论的特殊性和本体性质才能得到最大程度的挖掘。
[1] 孟天广、郭凤林:《大数据政治学:新信息时代的政治现象及其探析路径》,载《国外理论动态》,2015(1)。
[2] 高阳:《中国数据挖掘研究进展》,载《南京大学学报(自然科学版)》,2011(4)。
[3] 具体细节可参见黄宜华:《大数据机器学习系统研究进展》,载《大数据》,2015(1);陈康、向勇、喻超:《大数据时代机器学习的新趋势》,载《电信科学》,2012(12);何清、李宁、罗文娟、史忠植:《大数据下的机器学习算法综述》,载《模式识别与人工智能》,2014(4)。
[4] 关于弗朗科·莫瑞狄(Franco Moretti)的具体学术主张,可参见吴雨平、方汉文:《“新文学进化论”与世界文学史观——评美国“重构派”莫莱蒂教授的学说》,载《文艺理论研究》,2013(5);陈晓辉:《大数据时代的文学研究方法——基于弗兰克·莫莱蒂文学定量分析法的考察》,载《文艺理论研究》,2016(2)。关于马修·威尔肯斯(Matthew Wilkens)的具体学术主张,可参见[美]霍伊特·朗,苏真撰:《文学模式识别:文本细读与机器学习之间的现代主义》,林懿译,载《山东社会科学》,2016(11)。
[5] 参见[美]霍伊特·朗、[英]苏真撰:《文学模式识别:文本细读与机器学习之间的现代主义》,林懿译,载《山东社会科学》,2016(11)。
[6] 具体细节可参见黄宜华:《大数据机器学习系统研究进展》,载《大数据》,2015(1);陈康、向勇、喻超:《大数据时代机器学习的新趋势》,载《电信科学》,2012(12);何清、李宁、罗文娟、史忠植:《大数据下的机器学习算法综述》,载《模式识别与人工智能》,2014(4)。
[7] 陈冬华、李真、杨贤、俞俊利:《诗歌、道德与治理——基于唐代科举的量化历史实证研究》,载《文学研究》,2017(1)。
[8] 陈冬华、李真、杨贤、俞俊利:《诗歌、道德与治理——基于唐代科举的量化历史实证研究》,载《文学研究》,2017(1)。
[9] Immanuel Kant,Critique of Practical Reason,Kritik der praktischen Vernunft,1788.
[10] 陈冬华、李真、李贤、俞俊利:《诗歌、道德与治理——基于唐代科举的量化历史实证研究》,载《文学研究》,2017(1)。
[11] 陈冬华、李真、李贤、俞俊利:《诗歌、道德与治理——基于唐代科举的量化历史实证研究》,载《文学研究》,2017(1)。
[12] 陈冬华、李真、杨贤、俞俊利:《诗歌、道德与治理——基于唐代科举的量化历史实证研究》,载《文学研究》,2017(1)。
[13] 所谓线性模型,就是说这里的我们假设y和x是线性的关系。事实上,这个假设并不是必需的。我们可以假设y和x、z之间满足任何一种函数关系,比如y=f(x,z)+ε。我们可以对函数f的形式做出任意的假设,或者不做任何假设。统计学中已经发展出一套成熟的工具帮助我们利用数据估算出f(x,z)的具体表达形式。具体技术细节可以参见李子奈、潘文卿:《计量经济学(第3版)》,北京,高等教育出版社,2010。Hayashi,Fumio.Econometrics.Princeton University Press,2011;以及Greene,William H.Econometric Analysis.Prentice Hall,2011。
[14] 在陈冬华等人的研究中,y表示的是是否被认为道德高尚,因此是一个非0即1的变量。同时x表示所写诗歌是否被《唐诗三百首》收录,也是非0即1的变量。一个诗歌造诣高的官员的道德情操y(x=1)=a+bz+ε,而一个诗歌造诣较低(没有被《唐诗三百首》收录)的官员的道德情操y(x=0)=bz+ε。两者之差,y(x=1)-y(x=0)=a就刻画了一个官员的诗歌是否被《唐诗三百首》收录这个事件对其道德情操的影响。而这也是在回归分析的模型框架下系数a的一种阐释。详见陈冬华、李真、杨贤、俞俊利:《诗歌、道德与治理——基于唐代科举的量化历史实证研究》,载《文学研究》,2017(1)。
[15] 这样的解释在y的取值面较广的时候实用,但是若y只能取0或者1的时候,前文中提到的对a的阐释a=y(x=1)-y(x=0),就显得不那么合理。因此在具体处理被解释变量为离散值的时候,统计学家通常运用上述方法的一个扩展版本:将被解释变量y的值换成是它取某一个特殊值的概率。在陈冬华等人的研究中,作者们使用的被解释变量就是个体道德是否高尚的概率。也就是说他们假设个体道德是否高尚受到了诗词造诣(x)和其他一些因素(z)的线性影响。即Pr(y=1)=ax+bz+ε。在这个框架下,通过简单的计算可知,当诗歌被《唐诗三百首》收录的时候,道德高尚的概率为Pr(y=1|x=1)=a+bz+ε,而当诗歌没有被《唐诗三百首》收录的时候道德高尚的概率为Pr(y=1|x=0)=bz+ε。两者之差则为Pr(y=1|x=1)-Pr(y=1|x=0)=a。所以在陈冬华等的研究中,诗歌造诣这个变量前面的系数a的准确含义是诗歌被收录《唐诗三百首》对于道德情操高尚的概率的影响。如果我们相信生成这个回归方程的数据满足一定的“正则性”条件,那这个影响就可以一定程度上被理解为一个因果关系。详见陈冬华、李真、杨贤、俞俊利:《诗歌、道德与治理——基于唐代科举的量化历史实证研究》,载《文学研究》,2017(1);具体技术细节可以参见李子奈、潘文卿:《计量经济学(第3版)》,北京,高等教育出版社,2010。
[16] 回到前文中所讲的逻辑,如果发现的经验证据和理论相违背,这能说明理论或者理论的隐含被证伪了。而如果经验证据和理论的预测是一致的,并不能说理论或者理论的结论被“证明”是正确的,而只能说有一个证据跟理论的预测是一致的。
[17] 陈冬华、李真、杨贤、俞俊利:《诗歌、道德与治理——基于唐代科举的量化历史实证研究》,载《文学研究》,2017(1)。
[18] 陈冬华、李真、李贤、俞俊利:《诗歌、道德与治理——基于唐代科举的量化历史实证研究》,载《文学研究》,2017(1)。
[19] 所谓“工具变量”方法,就是希望能找到一个和关键的那个解释变量相关,但是跟不可观测的随机扰动项不相关的那个变量。如果能找到这个变量,就可以将关键的那个解释变量和随机扰动项之间的相关性在一定程度上“吸收”掉,这就可以更清楚地看到核心的那个解释变量如何直接影响被解释变量。具体技术细节可参见李子奈、潘文卿:《计量经济学(第3版)》,北京,高等教育出版社,2010。
[20] 具体技术细节可参见李子奈、潘文卿:《计量经济学(第3版)》,北京,高等教育出版社,2010.
[21] 孟天广、郭凤林:《大数据政治学:新信息时代的政治现象及其探析路径》,载《国外理论动态》,2015(1)。
[22] 孟天广、郭凤林:《大数据政治学:新信息时代的政治现象及其探析路径》,载《国外理论动态》,2015(1)。
[23] 刘京臣:《大数据时代的古典文学研究——以数据分析、数据挖掘与图像检索为中心》,载《文学遗产》,2015(3)。
[24] 刘京臣:《大数据时代的古典文学研究——以数据分析、数据挖掘与图像检索为中心》,载《文学遗产》,2015(3)。
[25] 刘京臣:《大数据时代的古典文学研究——以数据分析、数据挖掘与图像检索为中心》,载《文学遗产》,2015(3)。
[26] 刘京臣:《大数据时代的古典文学研究——以数据分析、数据挖掘与图像检索为中心》,载《文学遗产》,2015(3)。
[27] 刘京臣:《大数据时代的古典文学研究——以数据分析、数据挖掘与图像检索为中心》,载《文学遗产》,2015(3)。
[28] 郑豪提到“吕祖谦常与朱熹有书信往来。朱熹经常批评吕祖谦,怀疑吕祖谦不好好阐发道学而搞科举教育。在道学家们看来,科举是与道学背道而驰的。但吕祖谦却回答说:‘科举之习于成己成物诚无益。’但是在婺州地区,它已经成了‘独学’,没有人会去讲论切磋。如果连科举都不讲,就没有办法把这些读书人汇聚起来。‘至于为学所当讲者,则不敢怠也’,吕祖谦自辩说,他在讲论科举的时候,对道学研究也没有懈怠。”参见郑豪:《包弼德:士人社会如何改变地方与国家的关系》,https://www.thepaper.cn/newsDetail_forward_1602465,2017-01-17。
[29] 郑豪:《包弼德:士人社会如何改变地方与国家的关系》,https://www.thepaper.cn/newsDetail_forward_1602465,2017-01-17。
[30] 孟天广、郭凤林:《大数据政治学:新信息时代的政治现象及其探析路径》,载《国外理论动态》,2015(1)。
[31] 欧阳剑:《面向数字人文研究的大规模古籍文本可视化分析与挖掘》,载《中国图书馆学报》,2016(2)。