您所在的位置: 首頁  >  學術研究  >  學術報道  >  正文

王小紅教授談“中國古代哲學語料庫建模”

點擊次數:  更新時間:2023-11-10

本網訊(通訊員 彭文楷) 11月8日晚,應beat365体育官网陳波教授邀請,西安交通大學人文社會科學學院哲學系教授、博士生導師王小紅做了題為“中國古代哲學語料庫建模”的講演。本次講座由葉茹副教授主持,中國社會科學院哲學研究所研究員段偉文教授評議。300餘名聽衆參與本次線上講座。

王小紅教授主講,葉茹副教授主持

結合她主持的實驗室的已有工作成果,王小紅将此次的講座内容以問題的形式分為了三個部分,即:什麼是中國古代哲學語料庫建模?為什麼要對中國古代哲學語料庫建模?以及怎樣對中國古代哲學語料庫建模?通過本次講座對這三個問題的解答,王小紅概要介紹了如何将數學模型和人工智能的計算應用于人文學科,特别是中國哲學的研究,以便于研究者從一個更加客觀中立且全面的視角來進行相關學術研究。

在第一部分中,王小紅首先介紹了中國古代哲學語料庫。王小紅的實驗室所采用的語料庫名為“全新漢典”(即對“漢典”的拓展),這一語料庫在2015-2019年間逐步完善,目前已經收錄了各類經史子集以及其他補充文本共9257部,囊括了目前能夠收集到的中國古代哲學相關的絕大部分典籍。王小紅對其中部分内容進行了展示,并說明了這些語料需要精細校對并初始化轉化為可以由代碼所識别的電子版,以便後續的建模,而這一過程是十分繁重耗時的。構建一個高質量的語料庫占據了總工作量的80%。

然後,王小紅介紹了對中國古代哲學語料庫建模的建模工作。實驗室對這一語料庫的建模采取了隐含狄利克雷分布主題模型(Latent Dirichlet Allocation topic model,簡稱LDA模型)對文本内容進行分析,該模型是通過機器模型算法,按照輸入的主題數量參數(K值),用算法計算字詞的聚類,即計算字詞的共現頻率,将語料庫中所有的字詞劃分出各種全概率分布的概率排序,而每一種排序構成一個有意義但又有待诠釋的主題。并且這一模型是生成式的,而非傳統的靜态統計,因此算法輸出的結果會根據輸入的參數不同而發生改變。這一算法大約需要2000次疊代,耗時三天,可以得出一個相對收斂的結果,使字詞的聚類變得明顯,從而得到一個主題。

通過LDA這一算法模型,研究者可以對語料庫中所有典籍共4.3億字,挖掘其中的主題結構。我們不僅可以得出關于整本書的主題,還可以得出以篇章、段落乃至于語句的具體主題。這些主題可以幫助我們區分出語料的來源和主旨,例如可以借助這個模型判斷一段語料究竟是理學的還是道教或佛教的。

在第二部分中,王小紅讨論了對中國古代哲學語料庫進行建模的目的。王小紅認為,主題算法模型是輔助人類研究者開展人文研究工作的新工具和新視角,她引述科林·艾倫(Colin Allen)和森舸瀾(Edward Slingerland)的觀點,認為以研究者親自對語料進行閱讀和總結的“人文研究方法1.0”已經擁有了數千年的曆史且從未發生改變,但引入模型可能會創造出“人文研究方法2.0”。将LDA模型應用于人文研究上的主要特點在于“遠距離閱讀”和“超書架功能”,“遠距離閱讀”确保了結論的客觀中立,而“超書架功能”則使研究對象的數量達到更高的海量級,這兩者都是傳統研究方式自身所不具備的,人類研究者在這方面較之于LDA模型具有較強的局限性。并且,由于越來越多的文本已經被電子化,這也方便了我們運用計算機的算法模型來對這些語料進行研究。王小紅還大緻介紹了中外相關機構對于漢語語料電子化工作的現狀。

在第三部分中,王小紅介紹了如何對中國古代哲學語料庫進行建模。王小紅首先以一些案例來說明LDA模型應用于人文研究的現狀。例如在清史研究中,LDA模型可以被用于分析奏折内容,進而生成一個對時局的理解模型來分析清代18-19世紀的社會變亂情況。這種分析可以避免人類研究者對于“何為變亂”這一問題的先入為主的先驗定義,同時也避免了範疇模糊的詞語的幹擾,從而得到更客觀中立的結論。在科學史研究中,LDA模型可以被用于分析達爾文的著作,從而解釋達爾文在研究中的思想轉變,以及“達爾文延遲”問題,進而可以構造出關于“發現的哲學”。在漢學研究中,LDA模型可以被用于分析孔孟荀的著作,在“對神靈的态度”“教化”“性善論”等一系列主題上,可以分析出三人的思想的親疏關系,并且森舸瀾借助這一分析得出了一個反傳統的結論,即荀子在思想上比孟子更接近孔子。

王小紅指出,雖然目前将LDA模型應用于哲學研究的情況仍然較少,但并不代表它不能研究哲學。例如在一些研究中,研究者會以哲學期刊為語料庫進行建模,分析數十年間哲學期刊中主題的變遷或同時期哲學研究主題的差異,這種研究既有曆時性,又有共時性,但這隻是對哲學的間接研究。而更為直接的研究則以實驗室成員對張載思想的研究為例。在對張載的著作單獨建模分析,以及基于整個新漢典語料庫的整體分析之後,我們可以發現張載在思想上的原創性,以及張載在整個中國哲學發展脈絡上所處的轉折性地位。例如,張載在儒家道統中開啟了之前一直被道家所把持的探讨宇宙論的傳統,将天道與人道在解釋上予以貫通,以及較之于其他哲學家,張載更注重概念的論證。

LDA模型同樣可以應用于哲學概念的分梳。王小紅引用楊國榮的觀點:“中國哲學中的概念并非沒有确定内涵,而是這些概念的豐富涵義往往沒有在形式層面得到梳理和辨析”。在對“氣”這一概念進行模型分析後,我們可以得出在儒家、道家、中醫等一系列主題之下的“氣”的不同涵義。

接下來,王小紅談到了對主題進行标注與诠釋學的問題。由于LDA模型隻是根據字詞的聚類得出概率排序,因此隻能确定某些字詞是從屬于一個特定主題的,但并不能直接得出這個主題是什麼,所以需要對這些主題額外進行标注,以得到對主題的有效诠釋。

實驗室對此進行了漢典主題标注的人機對照實驗。通過對比學習中國哲學的人類研究生與ChatGPT和文心一言等AI語言模型對于中國哲學語料庫中的模型标注,我們可以發現AI語言模型的解釋較之人類更大而化之,不夠精準、缺乏引申、泛泛而談,因此現階段的LDA模型在标注和诠釋階段仍然無法做到完全脫離人類,實現全面的自動化。由此會引申出關于計算哲學的倫理學和诠釋學的進一步思考。

在講座的最後,王小紅自問自答式地回應了兩個可能的問題,即LDA模型是否能夠穩定地産出文本意義結構?以及LDA模型的實證研究如何将漢典模型融入中國哲學的問題域?首先,王小紅認為LDA模型是能夠産生穩定意義結構的。雖然該模型是生成式的,但是通過實驗可以發現其足夠穩定,輸入參數的變化對這種穩定性的影響不大,而一個高質量的語料庫則是更重要的,語料庫越大、越完備,那麼對概念的分梳工作就會做得越好。其次,王小紅通過對漢典模型的推廣以及與其他哲學工作者的交流發現,該模型可以在古代邏輯學、語言學、情報學等多個領域得到非常具體的應用,因此這一模型廣泛契合了目前的研究問題域。

段偉文教授評議



在評議環節,段偉文評價王小紅的工作十分紮實,将AI與人文科學研究相結合的方式十分有益。他認為,AI對世界的認知建立在語料庫上, AI的認知由語料庫、算法、建模三個部分所構成。主題建模相當于計算認知,而AI并不知道其中的意義,仍然需要研究者去對意義做出诠釋,在這個意義上,語義具有雙重性,即人類可理解的語義和數字化可計算但有待诠釋的語義。因此将講座的最終落腳點放在诠釋學問題上是切中要害的。在這種人機融合的過程中,我們仍然需要面對的是維特根斯坦的遵守語言規則的問題。目前ChatGPT等語言模型的出現可能對漢典模型是一個機遇,今後的中國哲學研究者需要更加嚴肅地對待這一工具。漢典模型目前既有紮實的實驗研究,又有對研究工具的探讨和反思,并且已經影響到了國際漢學界的研究,他希望這一模型也能在國内多做宣傳,做到真正影響到對國内的中國哲學的研究。

王小紅總結道,段偉文對自己的工作十分了解,并且學術視野廣泛,他的評議富有啟發性,對漢典模型背後的機理亦掌握得很透徹,這個評議加深了她對對自身研究的理解和把握。對此,王小紅表達了感謝。

講座互動現場

(編輯:鄧莉萍 審稿:嚴璨)

Baidu
sogou