E時代的文史研究③︱學術檢索與文史考據

蘇芃 李旻

2020-07-04 10:18 來源:澎湃新聞

字號
因疫情影響,近半年來高校等研究單位的師生大都避疫在家,無法正常利用圖書館資源。自2020年4月起,由北京大學、南開大學等高校青年學者發起的“文獻挖掘整理研究會”決定在線舉辦第三次文獻沙龍,以助力文史學者更好運用線上資源以推進研究。本次沙龍邀請北京大學(中文系、歷史系、信管系)、清華大學、復旦大學、南開大學、臺灣“清華大學”、中華書局等單位的學者,圍繞“瘟疫時期的網絡資源”“學術檢索的過去現在和未來”“古典文獻資源的整合與導航”“中華書局的數字資源與使用”“史實數據的關系表達”六個議題展開研討。
第二場對談“學術檢索的過去、現在和未來”由史睿(北京大學中古史研究中心副研究員)主持,與談嘉賓黃一農(臺灣“中研院”院士、臺灣清華大學歷史所教授)、蘇芃(南京師范大學文學院教授)、李旻(復旦大學計算機科學技術學院講師)、劉姝然(北京大學信息管理系碩士研究生)參與研討,本文系此次對談的摘錄稿上篇。

蘇芃:我主要要講三方面的內容。
第一個方面,我想講一下這篇文章,《他校時代的降臨——e時代漢語古籍??睂W探研》,這是很早以前寫的,大概是在我讀博士的時候,圍繞《史記》做???,使用了一些數據庫,有些體會,寫進了博士論文里,后來又有拓展,在2011年發表出來。之后,公眾號“經典古籍庫”(2016.10.1)也有轉發,還有朋友陸續在跟我討論這個話題。為什么若干年后還有人去關注這樣一篇文章,可能是因為我們的技術手段與方法一直沒有太大的變革。
這篇文章里的幾個基本要點:
一是說對于傳統的手段——對校、本校、他校,還有理校,在現有各種古籍數據庫的背景下,帶來最大變革的可能是他校。為什么呢?因為這一塊可以參照的文獻變得特別多。比如說在他書中征引的,還有書籍與書籍之間,互見的這些段落,還有關聯的內容,都特別的多。關于這一點,我認為能夠落實和突破的內容,往往是可以得到確證之處,比如說人名,比如說地名,比如說書名,比如說和事件有關的材料,這都是具有確定指向的點。
比如說時間上的一些節點,如果在古籍出現了錯訛分歧,我們可以在古籍庫中去求取相關資料,來獲得旁證,進行考訂判斷。比如說人名,《史記·魏世家》中的韓康子,司馬貞的《索隱》里注他名“虔”,有些版本里“虔”是作“虎”的。后來我們去查這個人,他應該是名“虎”,不止《魏世家》這一處,《六國年表》《韓世家》司馬貞也都有注,講他名“虎”,他書資料中《國語》《世本》也都有記載他名“虎”,所以通過這一組關聯的材料,可以求證出《魏世家》這兒的“虔”,它就是傳承中的錯訛,司馬貞不會犯這個錯。
再比如說像書名,一個叫做《(雜字)解詁》的書,結果在版本傳承中慢慢變化,最后書名《解詁》被錯成了人名“師古”,通過檢索數據庫,我們可以找到《隋書·經籍志》就有著錄,《史記索隱》除此一處,別處還有徵引。就這些例子來看,我們現在能做的事有很多,在傳統的文獻研究方法之上,可以再通過數據庫去旁搜博采,在人物、事件、地理、官制等比較確定的方面獲得新證。
中華書局原點校本《史記·屈原賈生列傳》“周成、師古”
南宋黃善夫本《史記·屈原賈生列傳》“周成《解詁》”

這是我多年前的一篇文章,這兩年上課的時候,我時常在想,在什么樣的地方,可以有新的拓展。比如說《史記·高祖本紀》張守節《正義》引到《河圖》“帝劉季口角戴勝”的???,“口角戴勝”原本很難讀得懂,通過他校資料的檢索,我們找到《后漢書·班彪傳》李賢注引《河圖》作“日角戴勝”,“日”與“口”字只差一筆,卻讓人豁然開朗,通過這種關聯,特別是一些舊注當中的關聯,可以把一些歷史疑案搞清楚,我想這是對于??钡难由?。
關于傳統的??敝?,在挖掘他校資料的這些環節之中,有海量材料可供檢索搜尋,這個時候,我們要到哪個地方去找這些東西,才能更加高效。這些材料,檢索結果中涉及的數量會很多,你怎么樣去排查篩選?這跟我們傳統的目錄學有關系,你首先要明白在什么書會跟這個書有關聯,跟這段話有關聯,跟這個詞語有關聯,這樣能夠有效縮減工作量,就是說怎么樣去找尋與待考問題相關聯的文獻,這是個目錄學的問題。
再有一個,我們面對檢索結果的時候,常常還要考慮到這里面可能會有一些錯訛。本來這個數據庫在制作的時候,它里面可能就有一些文本上的錯誤,它可能會有什么樣的錯誤,你可能因為什么錯誤而被誤導,這也是需要思考的。
比如說前段時間有一位原來聽過我課的朋友熊少聰,現在中國社科院大學讀碩士,他聯系我說,在某書中檢索到一條很有價值的材料,可能和張守節有關,張守節的《史記正義》很有名,是《史記》三家注之一,但是他的生平,一直很難完全搞清楚,連他是哪兒人都不知道。這位朋友發現在文獻中有個人也研究過《史記》,記載很詳實,與歷史上的張守節仕宦經歷也很像,而且可以知道是蘇州人。后來我們去查了一下該書的不同版本,發現這段文字是有異文的,因為出現了訛誤,所以被湮沒了。這說明使用古籍數據庫檢索時還要注意版本學的問題。
在此基礎上,我們反思借助數據庫從事文獻研究,某種意義上數據庫只是提供了大量的新材料,至于考證方法可能沒有多大的變化,而是我們挖掘新材料的方法上有了一個巨變。也就是說,我們可以把很多前人在閱讀這些古籍時,不容易去讀到,或者被遮蔽的一些資料,很高效地找出來。原先的目錄學、版本學、??睂W知識,還是缺一不可的,所以我對現在的數據檢索的看法,主要就在新材料挖掘這個方面,特別是對于我所從事的專業,這是一個變革。這是我要講的第一個方面。
第二個方面的話題。我的研究和教學主要和先秦秦漢文獻有關,和各種早期經典有關。這個領域我覺得有個問題亟需解決:我們至今都沒有一個可供大家征引的免費的文本庫。比如說我們論文中去引一段《論語》,往往還要去查對應紙質文獻的頁碼,還要去查是誰注的《論語》里多少多少頁,有我所引用的這段話。許多著名經典都有這樣一個問題,一旦涉及引文,常常要費特別大的勁,比如在寫完一篇論文之后,往往要專門花大力氣去查核、去校對。近年有了中華書局古聯公司開發的“經典古籍庫”,局面稍有轉變,但完全免費又可信賴的經典古籍電子文本,至今還沒有出現。關于這一點,我一直都在倡議,我們應該專門做一個中國古代經典的文本數據庫,起碼要把先秦秦漢時期的一些基本的典籍,我們的文化原典,做一個可供大家來征引的數據庫,放在網上,隨時隨地在各種終端設備上都可以免費使用,即便不帶注釋也可以,這樣不管是閱讀也好,寫文章也好,還是在別的地方要引用也好,都會很便捷。這個庫如果做得好,可信度高,受眾廣,對于儒家經典而言,甚至可以說就是當代的“石經”。當然這個最好是官方來做,才會具有權威性,易于推廣。
最后要講的,是關于民國學人的研究。我這幾天才修改完成一篇前年寫的文章,是關于一個民國時期的人物。這個人物是民國初年出生,到改革開放之后才去世,在文史領域有不少和他有關的書,比如編纂《史記書錄》《括地志輯?!?,點校整理《元和郡縣圖志》《史記志疑》等,也是中華書局點校本《史記》的主要點校者之一,這人叫賀次君。
但是關于他的生平,我從多年前就特別好奇,文獻中沒有任何記載,很難搞清楚。之前中華書局重印了《史記書錄》,前言部分有些生平簡介,那是我代筆來寫的。你若去網上搜索,“百度百科”這些也有他的詞條,可都是說他生平不詳,是顧頡剛弟子。后來我又通過各種數據庫去搜索,發現了一些跟他相關的信息。大概知道他在民國時期從過政,做過國民政府的官員,建國之后,因為有歷史問題,他的生平是一片空白。后來我輾轉聯系上了賀先生唯一的女兒,賀先生生前很多事閉口不談,他們父女又相差了48歲,因此關于賀先生1949年以前的許多經歷,他女兒也并不知情。今天我們很有幸,借助網絡獲得線索,去各方面搜求資料,可以基本搞清楚他一生的主要經歷。
由于我搜出賀次君曾在民國時期從政的信息,于是想到去臺灣“國史館”查檢,很巧,正好有他的檔案,這個檔案是比較早的,是1946年之前的。檔案里還有一份他親筆填寫的材料,他的某年做了什么事,什么職別,填得特別細致,且有他的簽名,還有他的印鑒。通過這份檔案可以知道1946年之前的他主要有哪些經歷。另外,我們檢索這個人物,發現還有一些知名學者與他有關聯,一個是錢穆,一個是顧頡剛,都是他的老師。我去查《顧頡剛日記》,果然其中多處提到了賀次君,多到有兩百多處,我把《顧頡剛日記》參照人名索引翻了一遍,把賀次君有關的部分細致讀了下來??梢哉f,這個發現過程是數字化檢索與傳統“索引”的有機結合,這大概也是我們的時代特點。
最近幾天,我在改這篇文章時候,又注意到一些之前沒留意的細節。在1949年之后,賀次君第一次出現在顧頡剛的日記里是在1954年的8月25日,顧頡剛22日才從上?;氐奖本?,23日才到中國科學院歷史研究所履職,兩天之后,他在日記中說賀次君來長談。又過了七天之后,顧先生去中華書局,去談什么呢?就是標點《史記》三家注。在一個月之后,顧頡剛日記又記到,校讀賀次君所校點《史記·律書》。這樣來看,我覺得顧頡剛先生在1954年8月份回京的時候,很有可能就已經有了點?!妒酚洝啡易⒌挠媱?,甚至也許是政治任務,所以他回來之后,僅過了兩三天就約老學生賀次君來家中長談,一個月賀次君就交了《律書》的樣稿。這些細節,比如顧頡剛奉調回京的事,我們通過查檢其他文獻進行聯系比較,再結合與賀次君的交往看,有些歷史可能得到還原。
1954年顧頡剛日記(臺灣聯經出版事業股份有限公司,2007年)

我想民國時期這類人物,有特別多的研究可做,現在條件非常好。通過檢索,我們能得到的材料會有很多,以賀次君為例,我搜索民國時期的報刊和其他選編的檔案資料,還有一些發現,《1949年北平市軍管會接管北平文化機構史料選》記載賀先生曾是國民黨CC系的成員,雖然這一說法也無從查證了,但聯系他在新中國以后,沒有固定的工作,主要以協助顧頡剛先生整理古籍為業的經歷,都可以串聯起來了。另外,還有他在民國時期,在1945年抗戰勝利后,具體職務是什么?他手填的檔案里并沒有,然而我們在1945年11月20日《民言報》中,看到當時的北平圖書雜志審查處成立,時任軍事委員會新聞檢查處處長的賀次君兼任處長,當日有這樣一條新聞。關于這樣一個人,我們好像是可以通過各個方面的資料把他盡量還原出來,包括他的論文著述,我也專門做了梳理,整理出一個編年的著作目錄,在文中列了出來。近來讀到趙珩先生《二條十年》中的一些關于賀先生的回憶,又作了補充。所以民國這部分,借助如今的學術檢索條件,也有很多可以做的事兒,我舉這樣一個例子來說明。
李旻:大多數人文學科的學者,他們以前在古代要把學問做好,一定要記性好。換句話說,必須把書全都裝在腦子里。走入近代以來,我們在文史研究中開始用各種各樣的技術方法來提高。
檢索的最初嘗試,是以“引得”的形式出現的,就是一個按單字來查詢全文的紙質索引。比如說《論語引得》,把《論語》中出現的每一個字在第幾頁,甚至是第幾行,列一個大的表格。如果這個字在《論語》中出現過幾千次,那么他就把幾千個位置都全部列出來。這樣的話,你可以通過每一個字,去查找它在書中具體哪個地方出現,再進一步,甚至把一些詞進行正排或倒排進行檢索。
哈佛燕京學社編《太平御覽引得》
對于這個工作,當時還專門成立了“引得編輯處”,編輯各種文獻“引得”性質的檢索資料。上世紀80年代計算機介入以后,單字索引在計算機里無非就是一個很簡單的查找和搜索的工作,所以“引得”很快就沒用了,或者說“引得”快速地被計算機的全文索引工具給替代了。
我今天想專門就索引的一些細節問題,談談自己的看法。
黃一農教授提過,作為專業的研究學者,希望能在一個數據庫里或者一個可檢索的范圍內,準確地查找到他要想要查找的一些東西,但實際上這并不是很容易。如果檢索的是一個實詞,那么可能能夠比較快速的找到相應的位置,但也有可能因為某些原因找不到。這就涉及我今天想講的一個問題——“異體字”對檢索的影響。
異體字在古文中肯定是可以互換的,但計算機檢索的實際上是“碼”,而不是“字”。兩個異體字,明顯是兩個碼,那么我們的目的實際上要檢字,而不是要檢碼。
舉個例子,前兩天我在微博上跟別人討論問題,談到了一方墓志,里面有一個姓,是“厙”。這個字在宗譜中,或在一些墓碑中以“庫”字出現。有人把這個字念kù,這個字當然不是念kù,那么,這兩個字是一個字嗎?任何一個“廣(廠)an”字頭的字來說,這只是念“庵an”。它在中古的時候既可以寫成現在念“廠chang”的簡體字,也可以寫成現在念“廣guang”的簡字。實際上每一個帶這個部首的字,如果你隨意地寫成帶點的或者不帶點的,從而把一個字生生地變成了兩個字。而出巧不巧地,“厙”這個字跟“庫”字字形上剛好一模一樣,導致了有些人覺得,是不是中古的姓,因為這個字實在是太生僻了,大家都不認識,就把它改成庫存的“庫ku”。
有這個可能嗎?我覺得不可能,沒有哪個人會僅為了讀起來方便把自己的姓改成一個讀音不同的字,這是完全不可能的事。只是因為這個字它是生僻字,有可能別人讀不來,從而一個人甚至一個家族把他的整個姓改成另外一個讀音完全不同的字。所以我們說兩個字的讀音是一樣的,只不過它有一個同形的字。那么這就有問題了,我們在檢索的時候,只檢“厙”找不到“庫”。
計算機的字體概念,現在是以音為依據的,而實際上漢字是一個形、音、義的結合體。從使用者的角度來說,我們更傾向于檢音和義的結合,而不是特別在乎它的形上的細微差別。那么如何讓這樣一種學術上的檢索的需求,和底層在漢字編碼這樣一個領域中的實際的現有的技術標準去結合,我覺得這是一個底層數據庫廠商,在提供全文檢索的時候,應該要考慮的一種問題,否則這個問題會永遠存在下去。
其實這個問題要解決也不容易,但是也不是說完全不可能解決。我在自己的一些數據庫里面,在全文檢索的時候,提供了一種可能的思路。我的想法是這樣,我們可以把專門用于瀏覽的文本和用于檢索的文本分開。在建設全文數據庫的時候,要忠實于原著。這個書上印的是什么樣的,我就以什么樣的方式把它做出來。墓碑上是怎么刻的,我就以什么樣的方式記錄下來。要忠實原著,但這個目的是用于瀏覽。但作為學術來說,我的目的是檢索,是我要找到意思一致的,或者說和這個意思相近的文本。
換句話說,我會在數據庫的后臺提供另一個全文的檢索版本,而全文索引是建立在檢索版本上,而不是瀏覽版本上。檢索版本和瀏覽版本之間的差別,可以用計算機領域所謂的“差別數據”來表示。這樣的話,在給用戶用于瀏覽的時候,我把檢索的內容從數據庫里取出來,再計算一下,產生出一個瀏覽版本,供別人看。而在全文檢索、搜字、搜詞的時候,利用檢索版本,那么用這種方式以后,我們就可以把所有明確知道含義的異體字,在相應的檢索版本中,全都用一個標準形來保存。
比如,我們沒有必要提供一個專門的簡體化的全文索引版本?簡體化相對于繁體字,它的這樣一個字形的對應關系往往是一對多的關系,那么這樣的話檢索版本可以統一地用一個標準的版本來制作,那么正體版本的瀏覽和此時不同字形的瀏覽,我以這樣一個方式來提供,通過區分以后來顯示。這樣的話能夠保證檢到相同的字體,但是這里面就有一個問題,需要進一步的定義,比如說這個的定義,能不能建立一個庫?把所有的異體字關系建立起來,從而提供一個標準的替換的能力。
我們不能指望一個技術解決全部的問題。我的設想是,未來我們在對各種各樣需要數字化的文獻,在數字化的同時,不僅要保留它的形,還要保留它的音。我就覺得數字化的文本應該有音的區別,把那些多音字的音也要記錄在數字化的文本里面去。我覺得這樣的話才是一個比較完整的數字化的結果。
除了這個小問題以外,我還想說一個事情,就是說文史學者在研究或者說檢索文史的信息的時候,他往往是帶著目的去找,而不是沒有目的地用瀏覽的方式去看。那么帶著目的找就有一個問題,我們能不能把這樣一種目的直接轉化成尋找的途徑?根據這個目的快速的、準確地定位到相關的信息和知識呢?如果有這樣一種手段的話,我相信每個人都會非常方便的檢索到自己想檢索的內容。比如說希望能夠提高文史檢索的效能化,必須要對文史的數據進行重組,把它安排成一種便于檢索的一種組織方式。
我現在在做一個工作,把愛新覺羅家族的信息全部整理完。其中,比如《愛新覺羅宗譜》里主要是男性的信息,女性信息還沒有,包括每個人的這些妻子的關系,包括他的岳父的一些關系。比如說我看到穆爾哈齊的后代,某些和徹爾格家族有聯姻關系,我們把全部變成一個非常大的表格,直接關聯,盡可能把它們形成一個數據庫。這樣的話,我覺得可能能夠改變一些研究的手段和方法,至少給很多研究者提供某一個人更詳盡、更準確的背景。對其中任何一個人,他的履歷,在不同的機構的不同職位,什么時候開始,什么時候結束,有些不是很準確,但根據相應的依據,通過考證,每個人的社會關系、履歷形成一張表格,最終構成整個數據庫的一個基礎。
我是計算機專業出身,不是搞文史的,當然書讀的比一般的理工科的人可能稍微多一點,把理工科的邏輯性思維,對數據的規整性的愛好,帶到文史學科的研究中,這種情況下,我們有可能引入一些有意思的東西。
(本場文字稿由涂亮、何青紅、廖家燕、孫紹丹、潘君杰、鄭闖輝、張國棟整理,經蘇芃、李旻審定)
(本文來自澎湃新聞,更多原創資訊請下載“澎湃新聞”APP)
責任編輯:于淑娟
校對:張艷
澎湃新聞報料:4009-20-4009   澎湃新聞,未經授權不得轉載
關鍵詞 >> 學術檢索,圖書館,文史考據,數字人文

相關推薦

評論()

熱新聞

澎湃新聞APP下載

客戶端下載

熱話題

關于澎湃 在澎湃工作 聯系我們 廣告及合作 版權聲明 隱私政策 友情鏈接 澎湃新聞舉報受理和處置辦法 嚴正聲明
人妻.中文字幕无码_人妻av中文系列_人妻 熟女 制服 丝袜 在线