重回天人之際:反思新時期古代文論研究方式的轉換

第一節 “數字人文”簡介

字體:16+-

“數字人文”(也稱“數位人文”,或“數碼人文”)的研究隨著數據科學的出現和繁榮應運而生。“數字人文”是一個將現代統計學、數據科學、計算機等技術應用於人文學科研究的跨學科研究領域。在過去的10年當中,新的數據搜集、處理和展示的方法不斷出現,對人文學科的發展起到了極大的推動作用。大數據的方法對社會科學領域,如政治學、社會學、經濟學的影響要早於人文學科。而大數據(搜集、處理和展示)的方法對人文學科,尤其是中國文學和文藝學研究的影響,也是最近一兩年才出現的。所謂大數據並不一定是指數據的規模大,若數據的搜集和分析的過程需要比較複雜的計算機算法,也可以稱為大數據的方法。

一般而言,運用大數據進行的人文社會科學的研究有以下五大特征:“(1)超大規模數據。大數據力圖分析全數據,通常指TB級別以上的數據量。(2)數據類型多樣化。大數據蘊含了文本、圖片、視頻、音頻、郵件、交易信息、社交網絡信息等結構化、非結構化數據。(3)數據流動速度快。大數據善於管理和分析動態變化的數據流。(4)大數據蘊含了豐富的時空信息。(5)大數據是貧礦,價值密度低。”[1]

“數字人文”是伴隨著大數據方法的出現而誕生的新興交叉學科,主要是將要處理的人文相關信息進行數字化處理,轉化成數據科學較易操作的電子文本信息,如格式化數據、圖像、自由文本等,從而對這些電子化的數據進行計量分析(包括文本分析與檢索、地圖可視化等)。隨著數據科學的不斷進步,“數字人文”的邊界也在不斷拓寬,其方法也在不斷變化和發展。借助計算機語言或者算法,當研究者知道自己所研究的項目具體需要從哪些文本搜集數據的時候,“數字人文”的工具箱可以較快地給我們提供高效的搜集數據的方法。當然,“數字人文”的研究不隻是將文獻電子化,並以簡單的書庫集的形式給部分學者公開使用。廣義的“數字人文”包含了那些搜集、處理和展示人文研究相關的數據的方法和工具。比如,當給定一個初始的電子文本的時候,如果研究者能設定好要進行哪些數據處理,在大數據分析方法的基礎上,“數字人文”可以幫助我們高效的進行數據處理,從科學的角度幫助我們對重要的人文領域的重要問題做出一些定量或者定性的分析。在文學研究中應用文本分析,通常會用到的一類技術被稱為“自然語言處理”。“自然語言處理”是一種基於計算機編碼處理語言語義的技術方法。隨著計算機領域的蓬勃發展,數據挖掘的技術也日趨成熟,可以直接應用到文本分類、自動文摘等和文學研究相關的領域。“由於文本存在著複雜的語義,從事自然語言處理的研究人員往往需要收集海量的語料庫,以支撐文本的分析。”[2]