“數(shù)智時代的世界中國學:機遇與挑戰(zhàn)”分論壇 數(shù)智時代,文獻原典如何“活起來”

分論壇“數(shù)智時代的世界中國學:機遇與挑戰(zhàn)”會議現(xiàn)場。 文匯報記者 王竟成攝
數(shù)字人文發(fā)展不能局限于‘文字的數(shù)字化’,而要構建本土化的高質量文化語料庫底座,讓多模態(tài)資源‘活起來’,還要形成跨學科的人才與生態(tài)體系,讓AI工程師懂人文,也讓文史學者懂AI
數(shù)字化和智能化,正在重塑學術。14日下午,第二屆世界中國學大會舉行“數(shù)智時代的世界中國學:機遇與挑戰(zhàn)”分論壇,專家學者們就新技術對中國學研究的影響發(fā)表了真知灼見。
中國人民大學校長林尚立表示,回望人類的發(fā)展歷程,思想傳播載體的每一次革新都會帶來思想的飛躍、學術的突飛猛進?!叭缃裎覀冞M入數(shù)智時代,技術帶來的沖擊更是空前深刻。學者們站在新的平臺上,用數(shù)字技術重新解讀文獻文本,重新發(fā)現(xiàn)靠傳統(tǒng)手段無法破譯的經(jīng)典密碼,并由此汲取5000年中華文明中孕育的東方智慧,以新的知識、新的理論推動世界發(fā)展、文明進步?!?/p>
數(shù)字人文知識體系,應有“主權意識”
數(shù)智時代的中國學研究,是“數(shù)字人文”這門廣闊交叉學科的一個分支。中國人民大學數(shù)字人文研究院院長、教授馮惠玲介紹,雖然數(shù)字人文在國內發(fā)展僅10年左右,但勢頭非??捎^,已然成為數(shù)據(jù)時代中國學研究不可或缺的組成部分。
數(shù)字人文領域的高速發(fā)展,得益于三大國家級戰(zhàn)略的牽引:數(shù)字中國戰(zhàn)略、國家文化數(shù)字化戰(zhàn)略和新文科戰(zhàn)略。目前,數(shù)字人文已經(jīng)實現(xiàn)以學術共同體為支撐,科研、教育、實踐三位一體的協(xié)同發(fā)展。來自這三個“方面軍”的多學科人員,在數(shù)字人文領域交匯聚合。截至2023年,全國已經(jīng)有66個數(shù)字人文研究機構與28個性質類似的“泛數(shù)字人文”研究機構,2025年總數(shù)“破百”已成定局。
上海社會科學院信息研究所所長劉煒則從自主知識體系的角度展望中國數(shù)字人文前景。建設中國數(shù)字人文自主知識體系,要以中國文化資源為基礎,用數(shù)字化與智能化手段重建知識結構,并闡釋體系和語義邏輯。換句話說,建設自主知識體系,不僅僅是將古籍、文物、非遺數(shù)字化,更是再造知識主權,是讓中華民族的歷史、思想與美學在數(shù)字世界中,以中國自己的方式被理解與傳播。
在文化主體性日益重要的大背景下,“主權AI”的概念被反復提及。劉煒指出,主權AI強調的不僅是技術主權,更是文化主權。人工智能必須理解本國的語言邏輯、文化常識與社會價值,與本國特有的意識形態(tài)相對齊,使技術的發(fā)展服務于文明的自我敘事。數(shù)字人文已經(jīng)成為連接傳統(tǒng)文化和人工智能的橋梁,但這座橋梁建立在什么樣的技術基礎上,將決定我們是否能夠以自己的方式講述自己的故事。
他進一步分析稱,主權AI和數(shù)字人文之間,好比基礎設施與上層建筑的關系。沒有獨立自主的算法與語義底層,自主知識體系就可能淪為空談。反過來講,如果不具備獨特文化內涵的數(shù)字人文知識體系,那么主權AI也不可能存在。為此,他呼吁,數(shù)字人文發(fā)展不能局限于“文字的數(shù)字化”,而要構建本土化的高質量文化語料庫底座,讓多模態(tài)資源“活起來”,研發(fā)面向文化場景的專用模型,打造國家級的數(shù)字人文智能平臺,還要形成跨學科的人才與生態(tài)體系,讓AI工程師懂人文,也讓文史學者懂AI。
古籍數(shù)字化整理,技術和模式皆需創(chuàng)新
數(shù)字人文,如何才能不局限于“文字數(shù)字化”?論壇上,中華書局全資子公司古聯(lián)(北京)數(shù)字傳媒科技有限公司總經(jīng)理洪濤與中國人民大學文學院教授徐建委,分別從業(yè)界和學界的角度,分享了數(shù)字人文的前沿進展,也透露了當前面臨的一些難題。
據(jù)洪濤介紹,我國現(xiàn)存古籍共20萬種、50萬版本。版刻古籍的數(shù)字化進展方面,目前市場上大型古籍數(shù)據(jù)庫產品涵蓋6到8萬種古籍,總計80到100億字。然而,盡管數(shù)字技術的發(fā)展令古籍數(shù)據(jù)量激增,但高質量數(shù)據(jù)仍然嚴重不足,加上學術研究對于古籍數(shù)據(jù)的需求持續(xù)旺盛,供需差的存在對出版單位和相關技術公司提出了緊迫要求。
與劉煒觀點相仿,洪濤指出,“文字數(shù)字化”只是最基礎的數(shù)字人文應用。他將古籍語料庫的質量層次進行了金字塔式劃分,古籍原典數(shù)字化處于底層,而頂層則是對領域知識的結構化。為了實現(xiàn)進階目標,在對古籍原文進行OCR識別、校對??钡幕A上,還要對其加注標點、結構化,對專名、主題加以標注,最后翻譯注釋,形成較為完整的知識體系。他列出了從校勘到翻譯的古籍整理全流程技術需求,并提到,人工智能的發(fā)展已經(jīng)讓越來越多基礎性的整理工作得到高效替代。大型古籍的整理工作,也從過去的個人獨挑大梁,轉型為“一個作者、一個平臺、一眾參與者、一套智能技術、一條流水線、一組規(guī)范標準”的新模式。
徐建委介紹了經(jīng)學數(shù)字化實踐中遇到的難題。經(jīng)學宛如中國文化的“軟件”,其知識體系與中國政治文化深度結合,并在公元前2世紀以后逐漸內化為中國讀書人的認知、思考和表達方式。徐建委表示,研究中國文化和思想不能不以儒學為中心,研究儒學又不能不以經(jīng)學為對象,研究經(jīng)學則必須要以經(jīng)學文獻為基礎。
但是要對經(jīng)學原典進行數(shù)字化整理,面臨至少三方面的困難。首先,原典內容其實是口語文化向書寫文化過渡的產物,這就可能導致,同一個文本經(jīng)由不同聽者記錄時,會采用不同的字符來“記音”,最終出現(xiàn)文本不統(tǒng)一的情況。其次,經(jīng)典成書周期漫長,從孔子與其學生對談到《論語》整理成書,大約經(jīng)歷了450年,這個過程中會出現(xiàn)很多變化。最后,原典的成書宛如許多人蓋同一棟房,不同時期、不同階段的語言文字信息被保存在了同一個文本中,凸顯出數(shù)據(jù)同質化的問題。從這個意義上講,對于數(shù)字經(jīng)學從業(yè)者來說,要克服這些難題,就必須讀懂文獻。而要讀懂文獻,還不能僅僅掌握其知識結構,更要深入細致地了解其同質化特點及版本流變情況。


