重回天人之際:反思新時期古代文論研究方式的轉換

三、數據可視化方法的簡介

字體:16+-

上文中介紹的文本分析的方法主要用於搜集和分析數據,而社會網絡分析的工具主要是運用在對關係型數據的分析中。對研究者而言,除了搜集、分析數據之外,另外一件很重要的工作就是用通俗易懂的方法將研究成果展示給讀者。除了需要給讀者展示研究成果之外,如果使用了恰當的方法將數據進行可視化的處理,還便於研究者自己對原始數據有一個感性化的認識,從而更容易發現新的現象和規律。因此,數據的可視化是大數據的工具包中很重要的一個元素。廣義來說,數據可視化的方法就是用一些便於人們接受的簡單“信號”來展示和提煉數據中關鍵信息的辦法。這裏的“信號”可以是一些具體的數字,也可以是顏色、長短、麵積大小等。

無論是人文學科還是社會科學,使用數據可視化的方法是新的發展趨勢之一。尤其是在數字人文相關的研究中,數據可視化方法可以幫助優化數據結構的展示,使得相關的信息更加直觀。恰當地使用數據可視化方法,可以使得數據和研究展示更加直觀,更容易讓受眾接受,不僅幫助了讀者,有時也能幫助研究者本身加深對現象的理解,提供更多元化的視角。“此外,大數據可視化分析與傳統統計分析的區別在於它的動態性,其數據容量、內容及更先進的處理方法都使得動態可視化分析成為可能。目前不少軟件可用於可視化分析,海杜普(Hadoop)即是一個比較成熟的可視化軟件,能夠對大量數據進行即時處理,淘寶、百度等大型商業網站就利用海杜普來完成每天數以億計的訪問量數據存儲、查詢統計以及用戶行為分析等。美國環境係統研究所(Environmental Systems Research Institute,ESRI)在開源網站基哈伯(Git Hub)上共享了‘海杜普地理信息係統工具’(GIS Tools for Hadoop),用戶可以利用其對上億條空間數據記錄進行過濾和聚合操作,在報告中嵌入大數據地圖進行發布。”[30]

數據可視化的方法和其他大數據的方法密不可分。以“詞頻分析”為例,它是大數據文本挖掘中很重要的一種研究方法,同時它也是一種文本可視化的模式。在對我國古代文學作品的研究中,重要的一個元素是詞匯。而對古代文學作品中詞匯特征的理解和分析主要是通過詞頻進行的。詞頻分析就很大程度上取決於古代漢語中如何分詞。“古代漢語的詞匯有一個長期的從單音節詞向雙音詞及多音節詞演化的過程。古代漢語在詞匯和語法等諸多方麵與現代漢語不同,盡管現代中文信息處理技術已經在很多領域取得了快速發展,然而這些研究成果主要針對現代漢語,現代漢語已有的分詞研究成果並不能完全照搬到古代漢語分詞領域中。”[31]

除了詞頻分析之外,地理信息係統的分析工具也處在大數據空間分析與數據可視化方法的交叉地帶。以文學發展以及文論特征對社會文化發展的影響為例。如果通過結合文本分析和統計回歸分析的方法發現文學的特征對社會文化發展的影響隨著區域的不同而有差異,那就可以通過可視化的方法,把這個結論在電子地圖上展示出來。可以用不同的顏色來區分不同地區的不同的作用大小。除此之外,越來越多的新的地理信息的數據的不斷出現,也為基於空間分析的文學研究提供了新的研究契機。

事實上,文本分析、數據可視化、社會網絡分析、回歸分析和因果分析等方法和工具在社會科學,尤其是政治學、社會學、計量史學中已經應用得越來越廣泛,而在人文學科,尤其是文學研究中的應用才剛剛起步,還有很大的發展空間和應用潛力。對於大部分文學研究者來說,運用這些跨學科方法的瓶頸更多地停留在技術層麵。本書並不是介紹大數據方法的專業書籍。由於篇幅有限,本章不能很詳盡地介紹很多技術細節。本章圍繞書中的核心議題,展開介紹了能夠回答這個理論問題的新的視角:“數字人文”。“數字人文”是一個利用現代統計學、數據科學、計算機等技術進行人文學科研究的跨學科方向。通過一個對文學和社會互動關係研究的具體案例,本章展示了廣義的大數據方法在人文學科尤其是文學研究中的應用前景和潛力。廣義的大數據方法在文學研究中具體包括了數據搜集、處理和展示這三個方麵。具體研究案例的介紹也給了我們關於“數字人文”研究一般性的啟發。首先,在研究中需要將一般性的文學理論和本土化的具體問題相結合。其次,要注意到“數字人文”是跨學科的,需要多學科的合作。同時,“數字人文”的研究以文學理論為基礎,輔以數據分析的方法加強研究的科學性和提供更嚴格的證據,不可本末倒置。此外,還值得注意的是,“數字人文”的研究更有利於直接回答“實證性”的問題,但同時也對“規範性”的問題有間接的啟發。

希望通過這一章的介紹展示出回答本書核心問題以及其他相關文學問題的新的工具和視角。正如本章反複強調的,未來“數字人文”的研究,不僅僅需要人文領域的學者積極地參與,更需要跨學科的交流與合作。若是一個計算機科學家、統計學家或社會科學家對一個與文學或文論相關的問題感興趣,他可能需要更多地向文學研究的學者學習相關的理論體係,或者通過尋求合作的辦法進行研究。同時,文學研究的學者們也可以適當地主動接觸和了解一些新的方法和工具,或是在掌握了新方法之後,通過跨學科的合作,創造性地進行“數字人文”相關的研究,推動文學和人文研究的發展。也正是在這個過程中,如前所述的文論的特殊性和本體性質才能得到最大程度的挖掘。

[1] 孟天廣、郭鳳林:《大數據政治學:新信息時代的政治現象及其探析路徑》,載《國外理論動態》,2015(1)。

[2] 高陽:《中國數據挖掘研究進展》,載《南京大學學報(自然科學版)》,2011(4)。

[3] 具體細節可參見黃宜華:《大數據機器學習係統研究進展》,載《大數據》,2015(1);陳康、向勇、喻超:《大數據時代機器學習的新趨勢》,載《電信科學》,2012(12);何清、李寧、羅文娟、史忠植:《大數據下的機器學習算法綜述》,載《模式識別與人工智能》,2014(4)。

[4] 關於弗朗科·莫瑞狄(Franco Moretti)的具體學術主張,可參見吳雨平、方漢文:《“新文學進化論”與世界文學史觀——評美國“重構派”莫萊蒂教授的學說》,載《文藝理論研究》,2013(5);陳曉輝:《大數據時代的文學研究方法——基於弗蘭克·莫萊蒂文學定量分析法的考察》,載《文藝理論研究》,2016(2)。關於馬修·威爾肯斯(Matthew Wilkens)的具體學術主張,可參見[美]霍伊特·朗,蘇真撰:《文學模式識別:文本細讀與機器學習之間的現代主義》,林懿譯,載《山東社會科學》,2016(11)。

[5] 參見[美]霍伊特·朗、[英]蘇真撰:《文學模式識別:文本細讀與機器學習之間的現代主義》,林懿譯,載《山東社會科學》,2016(11)。

[6] 具體細節可參見黃宜華:《大數據機器學習係統研究進展》,載《大數據》,2015(1);陳康、向勇、喻超:《大數據時代機器學習的新趨勢》,載《電信科學》,2012(12);何清、李寧、羅文娟、史忠植:《大數據下的機器學習算法綜述》,載《模式識別與人工智能》,2014(4)。

[7] 陳冬華、李真、楊賢、俞俊利:《詩歌、道德與治理——基於唐代科舉的量化曆史實證研究》,載《文學研究》,2017(1)。

[8] 陳冬華、李真、楊賢、俞俊利:《詩歌、道德與治理——基於唐代科舉的量化曆史實證研究》,載《文學研究》,2017(1)。

[9] Immanuel Kant,Critique of Practical Reason,Kritik der praktischen Vernunft,1788.

[10] 陳冬華、李真、李賢、俞俊利:《詩歌、道德與治理——基於唐代科舉的量化曆史實證研究》,載《文學研究》,2017(1)。

[11] 陳冬華、李真、李賢、俞俊利:《詩歌、道德與治理——基於唐代科舉的量化曆史實證研究》,載《文學研究》,2017(1)。

[12] 陳冬華、李真、楊賢、俞俊利:《詩歌、道德與治理——基於唐代科舉的量化曆史實證研究》,載《文學研究》,2017(1)。

[13] 所謂線性模型,就是說這裏的我們假設y和x是線性的關係。事實上,這個假設並不是必需的。我們可以假設y和x、z之間滿足任何一種函數關係,比如y=f(x,z)+ε。我們可以對函數f的形式做出任意的假設,或者不做任何假設。統計學中已經發展出一套成熟的工具幫助我們利用數據估算出f(x,z)的具體表達形式。具體技術細節可以參見李子奈、潘文卿:《計量經濟學(第3版)》,北京,高等教育出版社,2010。Hayashi,Fumio.Econometrics.Princeton University Press,2011;以及Greene,William H.Econometric Analysis.Prentice Hall,2011。

[14] 在陳冬華等人的研究中,y表示的是是否被認為道德高尚,因此是一個非0即1的變量。同時x表示所寫詩歌是否被《唐詩三百首》收錄,也是非0即1的變量。一個詩歌造詣高的官員的道德情操y(x=1)=a+bz+ε,而一個詩歌造詣較低(沒有被《唐詩三百首》收錄)的官員的道德情操y(x=0)=bz+ε。兩者之差,y(x=1)-y(x=0)=a就刻畫了一個官員的詩歌是否被《唐詩三百首》收錄這個事件對其道德情操的影響。而這也是在回歸分析的模型框架下係數a的一種闡釋。詳見陳冬華、李真、楊賢、俞俊利:《詩歌、道德與治理——基於唐代科舉的量化曆史實證研究》,載《文學研究》,2017(1)。

[15] 這樣的解釋在y的取值麵較廣的時候實用,但是若y隻能取0或者1的時候,前文中提到的對a的闡釋a=y(x=1)-y(x=0),就顯得不那麽合理。因此在具體處理被解釋變量為離散值的時候,統計學家通常運用上述方法的一個擴展版本:將被解釋變量y的值換成是它取某一個特殊值的概率。在陳冬華等人的研究中,作者們使用的被解釋變量就是個體道德是否高尚的概率。也就是說他們假設個體道德是否高尚受到了詩詞造詣(x)和其他一些因素(z)的線性影響。即Pr(y=1)=ax+bz+ε。在這個框架下,通過簡單的計算可知,當詩歌被《唐詩三百首》收錄的時候,道德高尚的概率為Pr(y=1|x=1)=a+bz+ε,而當詩歌沒有被《唐詩三百首》收錄的時候道德高尚的概率為Pr(y=1|x=0)=bz+ε。兩者之差則為Pr(y=1|x=1)-Pr(y=1|x=0)=a。所以在陳冬華等的研究中,詩歌造詣這個變量前麵的係數a的準確含義是詩歌被收錄《唐詩三百首》對於道德情操高尚的概率的影響。如果我們相信生成這個回歸方程的數據滿足一定的“正則性”條件,那這個影響就可以一定程度上被理解為一個因果關係。詳見陳冬華、李真、楊賢、俞俊利:《詩歌、道德與治理——基於唐代科舉的量化曆史實證研究》,載《文學研究》,2017(1);具體技術細節可以參見李子奈、潘文卿:《計量經濟學(第3版)》,北京,高等教育出版社,2010。

[16] 回到前文中所講的邏輯,如果發現的經驗證據和理論相違背,這能說明理論或者理論的隱含被證偽了。而如果經驗證據和理論的預測是一致的,並不能說理論或者理論的結論被“證明”是正確的,而隻能說有一個證據跟理論的預測是一致的。

[17] 陳冬華、李真、楊賢、俞俊利:《詩歌、道德與治理——基於唐代科舉的量化曆史實證研究》,載《文學研究》,2017(1)。

[18] 陳冬華、李真、李賢、俞俊利:《詩歌、道德與治理——基於唐代科舉的量化曆史實證研究》,載《文學研究》,2017(1)。

[19] 所謂“工具變量”方法,就是希望能找到一個和關鍵的那個解釋變量相關,但是跟不可觀測的隨機擾動項不相關的那個變量。如果能找到這個變量,就可以將關鍵的那個解釋變量和隨機擾動項之間的相關性在一定程度上“吸收”掉,這就可以更清楚地看到核心的那個解釋變量如何直接影響被解釋變量。具體技術細節可參見李子奈、潘文卿:《計量經濟學(第3版)》,北京,高等教育出版社,2010。

[20] 具體技術細節可參見李子奈、潘文卿:《計量經濟學(第3版)》,北京,高等教育出版社,2010.

[21] 孟天廣、郭鳳林:《大數據政治學:新信息時代的政治現象及其探析路徑》,載《國外理論動態》,2015(1)。

[22] 孟天廣、郭鳳林:《大數據政治學:新信息時代的政治現象及其探析路徑》,載《國外理論動態》,2015(1)。

[23] 劉京臣:《大數據時代的古典文學研究——以數據分析、數據挖掘與圖像檢索為中心》,載《文學遺產》,2015(3)。

[24] 劉京臣:《大數據時代的古典文學研究——以數據分析、數據挖掘與圖像檢索為中心》,載《文學遺產》,2015(3)。

[25] 劉京臣:《大數據時代的古典文學研究——以數據分析、數據挖掘與圖像檢索為中心》,載《文學遺產》,2015(3)。

[26] 劉京臣:《大數據時代的古典文學研究——以數據分析、數據挖掘與圖像檢索為中心》,載《文學遺產》,2015(3)。

[27] 劉京臣:《大數據時代的古典文學研究——以數據分析、數據挖掘與圖像檢索為中心》,載《文學遺產》,2015(3)。

[28] 鄭豪提到“呂祖謙常與朱熹有書信往來。朱熹經常批評呂祖謙,懷疑呂祖謙不好好闡發道學而搞科舉教育。在道學家們看來,科舉是與道學背道而馳的。但呂祖謙卻回答說:‘科舉之習於成己成物誠無益。’但是在婺州地區,它已經成了‘獨學’,沒有人會去講論切磋。如果連科舉都不講,就沒有辦法把這些讀書人匯聚起來。‘至於為學所當講者,則不敢怠也’,呂祖謙自辯說,他在講論科舉的時候,對道學研究也沒有懈怠。”參見鄭豪:《包弼德:士人社會如何改變地方與國家的關係》,https://www.thepaper.cn/newsDetail_forward_1602465,2017-01-17。

[29] 鄭豪:《包弼德:士人社會如何改變地方與國家的關係》,https://www.thepaper.cn/newsDetail_forward_1602465,2017-01-17。

[30] 孟天廣、郭鳳林:《大數據政治學:新信息時代的政治現象及其探析路徑》,載《國外理論動態》,2015(1)。

[31] 歐陽劍:《麵向數字人文研究的大規模古籍文本可視化分析與挖掘》,載《中國圖書館學報》,2016(2)。