重回天人之際:反思新時期古代文論研究方式的轉換

一、文本分析的量化方法簡介

字體:16+-

在社會科學中,對文獻文本進行研究已經有很長的曆史。然而,由於技術上的各種難點,文本研究至今仍然沒有成為社會科學的主流分析範式。隨著計算機科學領域中“數據挖掘”方法的出現,文本分析的方法在技術上越來越成熟,其在人文領域的應用潛力也隨之增加。在計算機科學研究中,“數據挖掘”被認為是一種知識發現的過程:從數據中抽取模式,然後通過解釋和評價轉換成最終用戶可理解的知識。“數據挖掘”的方法通常是基於大量的、模糊的、隨機的數據集,並從中識別有效的、新穎的、潛在有用的以及最終可被相關研究者理解的模式的過程。從本質上看,基於文本分析的大數據方法和傳統的人文社會科學中定性的文本分析並沒有什麽差異。在基於史料的定性研究中,創新點通常在於能看到其他學者不能清楚看到的現象或者問題。基於文本分析的大數據方法通過定量的途徑,從一個新的視角看到了一些新的東西,然而也會損失或者忽略掉一些在定性分析中能感受到的問題。因此,文本分析相比於傳統的史料閱讀分析並不見得有絕對的優勢,兩種方法各有所長。“機器自動識別有很多不準確的地方,但仍然在很多方麵給學者提供了研究便利。自動文本分析不能取代學者的閱讀和思考。沒有一個最完美的自動識別方法。對自動文本分析結果的效度分析非常重要。”[21]在文本分析的過程中,無論研究者們采用計算機編碼還是人工編碼的方式,都可能會產生所謂的“效度”問題。也就是說,不同的人可能對同一段文字有著完全不同的理解。在編碼和分類中的誤差是不可避免的,無論研究者采用有監督的、半監督的,還是無監督的計算機編碼,都依賴於參考樣本。

在“數字人文”的研究中,文本分析是常用的探索文本和史料特征的定量方法。尤其在文學研究和應用當中,文本分析可以幫助文學研究者從大量的文學作品中找出重要的特征,比如說不同作者的寫作風格、不同學派的學術淵源和聯係,等等。在計算機科學和統計學領域發展出較為成熟的大數據方法之前,學者們對文本的分析主要采用“人工編碼”的方式,也就是通過人工閱讀,然後對相應的文本、文字或者段落做出主觀的判斷和度量。這樣的方法在樣本量比較小的時候反而比電腦的度量更準確到位。而當樣本量不斷變大的時候,人工對文本的處理就顯得比較低效。此時,若將這個複雜的任務交由計算機去處理,“自動文本分析”的方法就能相對比較有效地進行文本分析。格裏默認為“文本分析的核心工作是分類。分類有三種方法:字典法(dictionary methods),根據關鍵詞的出現次數來確定文本;有監督學習法(supervised learning methods),先由人工構建編碼練習庫,然後讓機器根據人工編碼模式進行自動編碼,最後將機器編碼與人工編碼相比較檢驗其效度;無監督學習法(unsupervised learning methods),不需要人工事先編碼,而是基於模型假設和文本性質來分類並自動將文本分配到各類別。第三種方法比較便捷,但容易混淆重點,可以通過兩項技術進行改進:一是通過混合成員模型(mixed membership models),將具體問題結構納入分析以輔助分類;二是通過計算機輔助分類(computer assisted clustering)來探索眾多潛在分類方法。”[22]