發(fā)布古籍整理數(shù)字資源45億字 規(guī)模最大線上整理本古籍資源庫成立十周年
日前,中華書局古聯(lián)公司成立十周年暨古籍智能化建設(shè)與應(yīng)用高端論壇在京舉行,來自全國高等院校、圖書館、出版機(jī)構(gòu)的百余位專家學(xué)者出席。會(huì)上介紹了古籍?dāng)?shù)字化的多項(xiàng)成果,目前古聯(lián)公司發(fā)布的數(shù)據(jù)庫產(chǎn)品資源規(guī)模已達(dá)45億字,構(gòu)成國內(nèi)規(guī)模最大的線上整理本古籍資源庫。
據(jù)介紹,十年來,古聯(lián)古籍?dāng)?shù)字化產(chǎn)品矩陣以專業(yè)整理本古籍為核心,同時(shí)陸續(xù)推出了“中華石刻數(shù)據(jù)庫”“歷代進(jìn)士登科數(shù)據(jù)庫”“木版年畫數(shù)據(jù)庫”“殷墟甲骨文數(shù)據(jù)庫”“小學(xué)文獻(xiàn)數(shù)據(jù)庫”等專題數(shù)據(jù)庫,共涵蓋專業(yè)古籍整理出版資源27.5億字,學(xué)術(shù)資源2.8億字,普及資源3億字,石刻文獻(xiàn)7萬余篇,文史工具資源150余萬條,歷代登科人物10萬余條,甲骨文卜辭14萬余條,木版年畫18000余幅,書法作品10000余種,其他專題性典籍資源3億字,資源類型與規(guī)模均居行業(yè)首位,為用戶提供了高質(zhì)量的內(nèi)容和豐富的選擇空間。此外,古聯(lián)公司還發(fā)布有近代報(bào)刊文獻(xiàn)資源7.4億字,口述史視頻1300分鐘,檔案60000余幅,為近現(xiàn)代研究提供了有效支持。古聯(lián)公司古籍大數(shù)據(jù)中心對(duì)上述數(shù)據(jù)資源均進(jìn)行了精細(xì)化加工與結(jié)構(gòu)化標(biāo)引,并基于機(jī)器深度學(xué)習(xí)技術(shù)推出古籍智能整理平臺(tái),實(shí)現(xiàn)了文字錄入、斷句標(biāo)點(diǎn)、繁簡轉(zhuǎn)換、專名識(shí)別、文白翻譯全流程自動(dòng)化,將古籍出版從“人工點(diǎn)?!鄙?jí)至“人機(jī)協(xié)同”新階段。
中華書局總經(jīng)理助理、古聯(lián)公司總經(jīng)理洪濤說,以前的“古聯(lián)”代表著匯聚古籍資源的“古籍聯(lián)合”,未來的“古聯(lián)”要實(shí)現(xiàn)“聚古聯(lián)今”,讓古籍內(nèi)容融合現(xiàn)代生活。


