重回天人之際:反思新時期古代文論研究方式的轉換

第一節 “數字人文”簡介

字體:16+-

“數字人文”(也稱“數位人文”,或“數碼人文”)的研究隨著數據科學的出現和繁榮應運而生。“數字人文”是一個將現代統計學、數據科學、計算機等技術應用於人文學科研究的跨學科研究領域。在過去的10年當中,新的數據搜集、處理和展示的方法不斷出現,對人文學科的發展起到了極大的推動作用。大數據的方法對社會科學領域,如政治學、社會學、經濟學的影響要早於人文學科。而大數據(搜集、處理和展示)的方法對人文學科,尤其是中國文學和文藝學研究的影響,也是最近一兩年才出現的。所謂大數據並不一定是指數據的規模大,若數據的搜集和分析的過程需要比較複雜的計算機算法,也可以稱為大數據的方法。

一般而言,運用大數據進行的人文社會科學的研究有以下五大特征:“(1)超大規模數據。大數據力圖分析全數據,通常指TB級別以上的數據量。(2)數據類型多樣化。大數據蘊含了文本、圖片、視頻、音頻、郵件、交易信息、社交網絡信息等結構化、非結構化數據。(3)數據流動速度快。大數據善於管理和分析動態變化的數據流。(4)大數據蘊含了豐富的時空信息。(5)大數據是貧礦,價值密度低。”[1]

“數字人文”是伴隨著大數據方法的出現而誕生的新興交叉學科,主要是將要處理的人文相關信息進行數字化處理,轉化成數據科學較易操作的電子文本信息,如格式化數據、圖像、自由文本等,從而對這些電子化的數據進行計量分析(包括文本分析與檢索、地圖可視化等)。隨著數據科學的不斷進步,“數字人文”的邊界也在不斷拓寬,其方法也在不斷變化和發展。借助計算機語言或者算法,當研究者知道自己所研究的項目具體需要從哪些文本搜集數據的時候,“數字人文”的工具箱可以較快地給我們提供高效的搜集數據的方法。當然,“數字人文”的研究不隻是將文獻電子化,並以簡單的書庫集的形式給部分學者公開使用。廣義的“數字人文”包含了那些搜集、處理和展示人文研究相關的數據的方法和工具。比如,當給定一個初始的電子文本的時候,如果研究者能設定好要進行哪些數據處理,在大數據分析方法的基礎上,“數字人文”可以幫助我們高效的進行數據處理,從科學的角度幫助我們對重要的人文領域的重要問題做出一些定量或者定性的分析。在文學研究中應用文本分析,通常會用到的一類技術被稱為“自然語言處理”。“自然語言處理”是一種基於計算機編碼處理語言語義的技術方法。隨著計算機領域的蓬勃發展,數據挖掘的技術也日趨成熟,可以直接應用到文本分類、自動文摘等和文學研究相關的領域。“由於文本存在著複雜的語義,從事自然語言處理的研究人員往往需要收集海量的語料庫,以支撐文本的分析。”[2]

狹義地來看,“大數據”在文學研究中的積極作用是最近幾年才開始逐步顯現出來的。但如果我們廣義地定義“大數據”在文學研究中的功能,那麽,當我們使用互聯網(如知網-cnki、穀歌學術-scholar-google、Jstor數據庫)等新興電子工具幫助我們搜索文學類文獻的時候,這就已經是“大數據”的方法在文學研究中起重要作用了。在文獻檢索中用到的方法就是計算機科學領域裏“機器學習”中的“數據挖掘”(data mining)的方法。[3]文學研究的學者們在無形之中就潛移默化地運用了“大數據”的直接成果,來推進文學研究的前沿。互聯網搜索工具對於文學研究的功能和作用,和現在更複雜的大數據方法的應用,事實上沒有本質的區別。它們都是不同學科相互融合的結果。此外,這一章尤其想強調的是,所謂“大數據”的方法本身,並不隻是在於“數據”本身的新穎程度,而更重要的是有創新的搜集數據、分析解讀數據以及展示數據結果的方法。也就是說,“大數據”不隻是關於數據,更重要的是在於發展和應用創新的方法和工具。

與其說建議人文學者使用“大數據”,還不如說建議從事人文學科研究的學者掌握和發展出一係列和人文學科自身發展相匹配的“大數據的方法”。這樣的理解方式,對於“數字人文”的發展尤其重要。“數字人文”並不是說人文學科的研究被動地被其他領域“入侵”,而應該是人文學科自身的創新。掌握和運用“大數據”的方法並不是要擯棄傳統的分析範式。恰恰相反,合理地將“大數據”的方法與經典的文學研究思路相結合,可以極大地促進研究效率,促進人文學科尤其是文學研究的發展。

在“數字人文”發展的大潮中,歐美的很多名校都陸續建立了數字人文的研究中心或者研究項目,如斯坦福大學,加州洛杉磯大學、紐約大學、倫敦國王學院、馬裏蘭大學、伊利諾伊大學等。而中國大陸高校的第一個數字人文學科研究中心是2011年在武漢大學建立的。南京大學也建立了類似的機構,叫作“數字人文與超媒體GIS工作室”。這個機構除了開發和利用電子文本信息之外,還充分利用曆史地理信息來進行人文學科的研究。在人文領域,很多學者的相關研究項目都得到了國家級的和重要研究機構的資助。下麵就重點闡釋一下“數字人文”作為一門交叉學科的由來和這個學科“本土化”的重要意義。

人文學科和數字技術的結合,不僅意味著學科的相互促進和交叉發展,對我國的人文學科而言也意味著數字人文的本土化。事實上,我國學者對於廣義的“數字人文”做出的貢獻要早於最近的一波大數據熱潮。早在1976年,我國學者就開始利用文本分析處理的計算機方法統計著名作家老舍的著作《駱駝祥子》中相關的字頻和詞頻。文本分析的方法起源於西方國家,而中文信息處理需要對現代和古代漢語的特點和人文意涵進行分析和係統的解讀。因此如何將基於西方語言和語境的這套分析工具應用和發展到漢語文字(尤其包括古漢語)的文本分析中,就成了中國的人文學者們麵臨的機遇和挑戰。事實上,為了用統計學的方法分析現代漢語,自1979年以來,我國就自行研發了多種機器可讀的語料庫。

隨著數字技術和信息科技的高速發展,“數字人文”領域的研究越來越衝擊著傳統的學科邊界。隻有有機地整合人文學科(包括文學、文藝學)、計算機、統計學、地理信息學等學科的重要成果,才能為人文學科的研究提供全新的方法和思路。新方法的出現和融合在改變人文學科的研究範式的同時,改善了人文學科學者搜集和處理數據的能力,也拓寬了學科的邊界,使得人文學科尤其是古代人文研究進入一個全麵還原語境的發展時期。事實上,關於大數據在文學領域研究中起著什麽樣的作用,一直是學術界激烈爭論的話題。一方麵,如弗朗科·莫瑞狄(Franco Moretti)、馬修·威爾肯斯(Matthew Wilkens)等學者主張的那樣,大數據的方法可以幫助我們從海量的電子化的文本資料中歸納出一些在特定時期內文學發展的重要特征。[4]而另一方麵,如塔拉·麥克弗森(Tara McPherson)和亞曆山大·加洛韋(Alexander Galloway)等學者也對文學研究的過於“技術化”和複雜化給出批判。[5]他們認為大數據的方法可能會忽略文本中的很多重要的、“機器”難以察覺的細節,而這些細節可能正是理解文學作品意境的關鍵。

本章認為上述兩種不同的思潮其實並不矛盾,而且很多時候是互補的、相互促進的。因為“數字人文”這個學科在中國的發展需要“本土化”,需要和中國文學已有的積澱相結合,故這個新興交叉學科的出現並不意味著是對我國人文學科的衝擊,而是一種促進。如果沒有傳統的人文學科的知識積累和分析範式作為基礎,“數字人文”也不可能發揮重要作用。隨著大數據方法在人文學科中的應用,人文學者們(包括文學領域的學者們)在一定程度上可以從傳統的搜集和整理資料的紛繁複雜的過程中解脫出來,專注於更高層次的思考。一方麵,這說明了大數據方法提高了研究者的搜集和處理數據的效率,另一方麵,這也意味著新方法的出現並不是對文學研究中經典方法的負麵衝擊,而是起到了錦上添花的促進作用。

如果文本的數據量不大的時候,人工的直接參與可能會比計算機更有效。比如在運用大數據文本分析五四時代有哪些文學特征時,如果文本量不大,讓人工閱讀後進行歸納的辦法可能反而更好。這是因為計算機再發達也很難達到人腦的運算複雜度。隻有當需要處理的文本比較多的時候,大數據的分析方法才可能作為代替人工來進行文本分析的更有效的方法。很多情況下我們需要采用“機器學習”(machine learning)尤其是“監督學習”(supervised learning)的方法對一些文本進行分析。[6]而在這個時候如果沒有初始的人工的“指導”,計算機無法自動學會用人類已有的思維方式和知識(包括如何識別語境)來進行文本的分析和解讀。文學研究本身具有“人性”的藝術特質,這就意味著文學研究的過程具有某種特殊的複雜性以及一定程度的主觀性。這些特性使得文學研究者們一直相信,理解和解讀文學作品的重要甚至是唯一的渠道就是人類本身對它的反複研讀和感知。隻有反複研讀才能感知其背後深層次的意境。如此精密的過程,可能很多智能機器或者算法、軟件,脫離了人的“指導”是無法實現的。因此,我們使用大數據的方法包括機器學習的方法來進行文學研究、分析文學文本時,依然要依賴人類本身的知識和智慧,更要依賴經典的人文學科的已有方法和思考範式。因此,“數字人文”作為一門新興交叉學科,是對傳統學科的補充和促進,而不是衝擊和顛覆。

正是基於上述的大背景,我國“數字人文”領域最近幾年開始蓬勃發展。在“數字人文”研究中除了具體數據的分析和處理的方法之外,對人文學者的另一大挑戰就是數據的獲取和開放。比如,中國古代典籍的電子化材料的開放程度遠遠未達滿足研究需求的水平。雖然有些古代文學的書籍作品已經電子化,很多電子材料都被放在了商業化運作的平台上,但由於數據沒有免費開放,學者很難便捷地獲取相關資源。很多高校和研究機構建立了相關的資源平台,比如上海市圖書館就開放了相關的數據平台,其他的相關學術機構都可以以關聯數據的方式調用平台上的數據。該圖書館還通過各種渠道拓寬和發展了資源共享的渠道(包括開發出很多新的計算機和手機應用,公開了其館藏的家譜文獻信息,發揮了數據資源的最大價值。)此外,國內的大學或是以圖書館為主導機構所進行的研究上的創新改革,主要是以建立一係列的聯合研究項目來實現的,或通過不同機構的合作來促進研究。比如北京大學中國古代史研究中心與哈佛大學費正清研究中心,以及台灣“中研院”史語所就合作開發了“中國曆代人物傳記資料庫”(The China Biographical Detabase,CBDB)。這是一個合作超過10年以上的數據庫建設項目。該資料庫收錄了我國曆史上所有的重要傳記資料,並將其電子化。這個數據庫最初是20世紀70年代由哈佛大學教授郝若貝(Robert M.Hartwell)和他的夫人建立的。該數據庫把電子化人物的生平記錄作為重點,含有個人的字號、親屬關係、出生年份等重要信息;其數據是公開的,供研究使用。直到2016年,該數據庫中共收錄從7世紀到19世紀的超過37萬人的傳記資料。相關學科的研究者(文學、曆史學、政治學、社會學、經濟學等)可以直接在線查看相關資料,也可以批量下載後使用。這樣的一個數據庫不僅包含了曆史上各種文學作品的具體信息,還可以幫助文學領域的學者查找出不同文學作品、作者之間的相互關聯,比如誰在他的作品中提到了其他哪些作者。除此之外還有具體的時間、空間等具體信息。“中國曆代人物傳記資料庫”實現了文本的編碼化,通過對不同文本進行編碼,該數據庫在技術上避開漢字,特別是古漢語中的多樣化表達,展現出比較完整的史料信息,形成了所謂的“關係型”數據庫。如果沒有強強合作,很難想象這麽大工作量的數據建設的工作能夠由某一家學術機構獨立完成。從學者個體來說,在沒有尋求合作夥伴的前提下,利用相關圖書館的資源可能是最便捷的一種方法。一些高校的圖書館會支持曆史地理信息係統(GIS)的建設。很多高校的圖書館也有現成的服務器或者數據庫。這就省去了很多數據搜集(也就是將紙板數據電子化的過程)的時間。

隨著“數字人文”在國內的不斷發展,國內和“數字人文”相關的學術交流活動也越來越多(如北大圖書館在2016年5月舉辦的“數字人文論壇”),但我國很多相關領域的學者還是感覺到學習並運用大數據和“數字人文”的方法進行文學尤其是古代文學文化相關研究有較大難度。這個難度大致體現在數據的獲取(搜集)、處理與分析,以及數據的展示三個方麵。以最後一個難度為例,如果數據搜集與分析已經完成,要以一些直觀的方式將文學作品的作者之間的相互關係以圖表的形式展現,或者將不同地區出現的文學作品的不同特征用GIS的方法形成一張新的電子地圖,這些具體而重要的工作可能都是人文學者在涉及“數字人文”的時候遇到的技術上的困難。這些挑戰從技術層麵來看都是可以克服的。下文會具體提及運用大數據進行文學研究中的搜集數據、處理分析數據和展示數據的方法。